としあきdiffusion Wiki*

お知らせ/更新情報
初めに
ベンチマーク条件
ベンチマーク結果【集計結果】
- SD v1.xモデル使用時
- SDXLモデル使用時
  - 1111/ローカル版
  - ComfyUI/ローカル版
アーカイブ
情報提供の場所

お知らせ/更新情報

コメント欄で、1111でXLモデルを使った等の表現が個人的にわかりにくいと思い、必要情報を更新しました。
必ず必要とする情報に、(使用したWebUI情報)(モデル情報)を追加。
それに伴い、固定しなくて良い情報から(モデル情報)を削除。
文字の削減のため、一部略語に変更。
↑もし見にくかったらごめんなさい。'23/10/14
↑元の文章と意味が変わっていたので修正しました。略語についてはリンクも活用。表記揺れを修正(「GPU」は使わずグラボ*1で統一)'23/10/14

初めに

旧コメ欄に更新されてないというのと情報が迷走…?していたので書き直します。
ここは、中古のグラボや新品のグラボがほしいときの性能参考表として使っていただけると幸いです。~~まぁ中古のグラボは危ないけども…~~
ここでは、WebUIとSDXL(情報不足)でのグラボ状況を書いていきます。
ベンチマーク条件は以下の通りですので、各自宜しくお願いいたします。
情報は、一番下にある[情報提供の場所]に書いてください。
古くても新しくても生成できるグラボなら、なんでも大歓迎です！
ぜひ提供をよろしくお願いいたします！

ベンチマーク条件

生成条件

生成条件は下記で固定。

text2imageのみ
sampling method：Euler a
WidthとHeight
- SD v1.xモデル使用時：768*768
- SDXLモデル使用時：1024*1024
Sampling step：20
CFG Scale：7
Seed：1
hires fixは使用しない
Refinerは使用しない　※SDXL条件の場合

報告内容

生成時間とそれに関連する情報が必要。

必要な情報	グラボ名
	グラボのVRAM搭載量
	xformersの使用有無
	使用した生成アプリ (1111かComfyUIか)
	モデルVer. (SD v1.xかSDXL)
	生成時間 (モデル読込直後の生成1回目は生成が遅い事例有り。 2回目を測定してください。)
	生成時間に直結するオプションの使用有無。例：--medvram等
報告不要な情報	WebUIのバージョン
	プロンプト内容
	VAE使用有無
	Clip skip

略語の一覧

極力下記の略語を使ってね☆

ABPL＝アフターバーナー Power Limit*2
Py=PyTorch
xf=xformers*3
XL=SDXLモデル

ベンチマーク結果【集計結果】

SD v1.xモデル使用時

1111/ローカル版

グラボ名	グラボ VRAM量	xformers	生成時間	備考
RTX4070ti	12GB	有	3.0秒	ABPL70%
GTX970	4GB	無	54.1秒	--medvram使用
RTX3060	12GB?	有	12.0秒
RTX2070S	8GB	有	7.8秒
RTX4090	24GB	無	2.0秒
RTX4070ti	12GB	無	5.7秒
GTX1060	6GB	有	42.0秒	--medvram使用&ABPL80%
RTX4080	16GB	有	2.7秒
RTX4070	12GB	有	3.6秒	ABPL80%で3.8秒
GTX1660Ti	6GB	有	39.9秒	--medvram&--no-half使用
RTX3050	8GB	有	9.8秒	ABPL91%(Py2.0.1+cu118)
RTX4070ti	12GB	無	2.9秒	(Py2.0.0+cu118) --opt-sdp-attention使用
RTX4070	12GB	有	3.6秒
RX6700XT	12GB	無	52.8秒
RTX4080	16GB	無	7.1秒
RX7900XTX	24GB	無	14.6秒	--opt-sub-quad-attention --upcast-sampling使用
RTX3080ti Laptop	16GB	無	8.6秒
RTX4090	24GB	有	1.8秒	xf無で1秒弱増える
RTX2080	8GB	有	6.9秒
RTX4060ti	16GB	有	4.9秒
RX6800XT	16GB	無	19.5秒	--medvram --opt-sdp-no-mem-attention --opt-sub-quad-attention --upcast-sampling --no-half --no-half-vae --precision full
GTX1080ti	11GB	有	18.3秒	ABPL70% xf無しは21.3秒
RX7800XT	16GB	無	5.8秒	--opt-sub-quad-attention使用
RTX4070ti	12GB	有	2.9秒	FlashAttention 2導入 ABPL70%
RTX3080 Laptop	16GB	無	9.1秒
GTX1070TI	8GB	有	24.0秒
RTX3060 Laptop	6GB	無	10.4秒
RTX3090 eGPU	24GB	無	5.1秒
RTX3060	12GB	無	11.5秒

ComfyUI/ローカル版

グラボ名	グラボ VRAM量	xformers	生成時間	備考
GTX1080Ti	11GB	無	17.2秒	ABPL70％ xl有も同様

1111/クラウドサーバー版

グラボ名	グラボ VRAM量	xformers	生成時間	備考
Tesla T4	15GB	有	16.93秒	Sagemaker Studio使用
A100	40GB	無	2.9秒	Google Colab使用 (ハイメモリ使用)
V100	16GB	無	5.0秒	Google Colab使用 (ハイメモリ使用)
Tesla T4	15GB	無	16.7秒	Google Colab使用 (ハイメモリ使用)

SDXLモデル使用時

1111/ローカル版

グラボ名	グラボ VRAM量	xformers	生成時間	備考
RTX4090	24GB	無	2.8秒	768*768での生成
RTX4080	16GB	有	5.4秒	xf無で9.2秒
RTX4080	16GB	有	3.5秒	768*768での生成
RTX4080	16GB	無	4.5秒	768*768での生成
RTX4070	12GB	有	6.3秒	768*768での生成
RTX2080	8GB	有	16.9秒	--medvram-sdxl使用
RTX4060ti	16GB	有	13.8秒	--medvram使用
RX6800	16GB	無	21.2秒	1024*1024生成 --use-zluda使用

ComfyUI/ローカル版

グラボ名	グラボ VRAM量	xformers	生成時間	備考
GTX1080ti	11GB	無	52.1秒	ABPL70％ xf有で52.2秒

以下参考：生成条件が違う報告

グラボ名	グラボ VRAM量	xformers	生成時間	備考
RTX4090	24GB	有	2.42秒	768*768での生成

アーカイブ

古い情報のアーカイブ

コメント [#r03324cc]
~~情報募集中です。~~
グラボの型番,RAM容量でどれだけの大きさの画像が作成できるかをコメントしてください
xformerの有無なども書き込んでいただけると助かります。

RTX3060 lhrモデル VRAM12GBでtxt2img hires.fixあり xformerあり 2048*2048の画像が生成可能。img2imgでも同様に生成可能。（だけど1枚の生成に20stepで3分位かかる）Time taken: 3m 42.71sTorch active/reserved: 10778/11386 MiB, Sys VRAM: 12288/12288 MiB (100.0%) -- 2022-11-14 (月) 03:19:15
1280*1280で同様に20stepでhires.fixありの場合こんな感じ Time taken: 43.97sTorch active/reserved: 5472/8996 MiB, Sys VRAM: 10079/12288 MiB (82.02%) -- 2022-11-14 (月) 03:21:10
RTX A4000で動作確認。VRAM 16GB。invokeaiでSD1.5を5秒で実行できる。マイニング引退勢がメルカリやヤフオクで10万円ぐらいで出品してるけど、AIを動かすまではマイニングに使ってたから、露天掘りしてなければたぶん大丈夫（） -- 2023-01-05 (木) 01:17:39
3070なんだが、ドリームアーティスト学習時微妙にメモリが足りなくて512に設定できない。ので、もう1つ低いサイズで設定するしかない。学習画像は512を使っているため、サイズのずれが生じているのか、学習成果はイマイチ。TIの方なら512で設定できるんだがなぁ・・・。 -- 2023-01-05 (木) 20:02:22
素人だからよく分からないんだけどグラボだけいいの買えばいいの？画像の作成速度とかにCPUとかは関係ない？ -- 2023-01-07 (土) 20:52:29
GTX1650 4GBのxformer無しで768*768。set COMMANDLINE_ARGS=--lowvram --always-batch-cond-uncond --opt-split-attentionにすると1280*1280。恐ろしく遅い。 -- 2023-01-10 (火) 23:53:37
RTX4090 xformer有 A4 260dpiサイズの2150x3040で生成できました。A4 300dpiも出来たという人がいるので、環境によって左右されるかもしれません。 -- 2023-02-06 (月) 22:07:39
GTX1050 4G xformerありで1000×1000　Time taken: 3m 19.06sTorch active/reserved: 1906/3318 MiB, Sys VRAM: 4096/4096 MiB (100.0%)　到底ガチャを回せるスピードではない -- 2023-02-23 (木) 05:29:48
RTX2060super 8G img2img xformerあり 1400以上は不可。1408*792=40sec,1344*832=30sec,1280*720=28sec,1024*576=14sec,896*504=10sec。1300は1分くらい。大きすぎると構図や作画崩壊が増えるのでバランスが重要。個人的には1024*576あたりが綺麗且つ量産出来て良し。 -- 2023-03-17 (金) 15:52:02
RTX3070 VRAM8GB xformerあり1024*1024は可能 100step -- 2023-03-21 (火) 11:55:41
RTX3090 xformer有 1024*1024 可能 40step　30sec -- 2023-03-27 (月) 22:14:06
RTX3090 xformer有 1792*1792 可能 40step　6m30sec -- 2023-03-27 (月) 22:34:57
1024が限界だと思ってたけど1792まで生産できました。構図がったがた -- 2023-03-27 (月) 22:38:01
RTX3090 xformer無 2560x1440出力可　36step 3分/枚くらいただ構図はぐちゃぐちゃ -- 2023-03-28 (火) 14:06:32
みんなグラボ=Windowsの話だけだけど、一応macbookの情報探しに来た人に言うとM1チップ・M1GPUのMacbook Proは640x768で大体10s/it　結論はMacbookはお勧めしない（Coremlを使えば……？） -- 2023-03-29 (水) 15:24:25
RTX3090 xformer・hires.fix無/torch:2.0+cu118　2048*2048が20stepsで59.70s。40stepsで2m1.04s。作画は壊滅。 -- 2023-04-01 (土) 19:07:20
4080 16G 1024x576→2k化→4k化まで可能　vaeでなんやかんややってる時にメモリ溢れっぽいエラーは出ているが画像は出る的成功　2k→3k→4kでは4kのデコード時にメモリたりません的失敗でコケる -- 2023-04-10 (月) 14:00:19
RTX2080Ti 11GB torch2.0+CU118 txt2img xformer無 hires.fix無 1600*1200 20stepで1m37s 1640*1232はメモリオーバーフロー -- 2023-04-21 (金) 03:00:23
GTX1070 CPU4820k メモリー32ｇｂ　Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 10.5, Seed: 3262223639, Face restoration: CodeFormer, Size: 1080x1080, Model: chilloutmix_NiPrunedFp32Fix　xformer 有　生成時間　3～4分 -- 2023-04-22 (土) 01:16:31
RTX4070 VRAM12GB txt2img hires.fix有、xformer有、2048x2048生成可、20step,1m33s。 -- 2023-05-16 (火) 20:56:06
RTX4070Ti VRAM 12GB txt2img hires.fix有、xformers有、1536x1536, 20step, 22.96s -- 2023-05-24 (水) 23:47:03
RTX4070Ti VRAM 12GB,txt2img,xformers有,2048x2048, 20step, 57s -- 2023-06-13 (火) 22:55:27
RTX4070Ti VRAM 12GB txt2img hires.fix有 xformers有 2048x2048 20step x4なんて初めてやったよ -- 2023-07-04 (火) 20:14:58
vega11[gfx904], ShareMemory40GB(Total), GPUMem16GB, MainMem64GB, directml版, --autolaunch --opt-sdp-attention --opt-sdp-no-mem-attention, 512x768, 1step:3－9sec前後, 1枚:4min前後で生成, ただし＃1.4.0以降は生成困難です。内蔵GPUでも遊べたら楽しいです。バグなのか最適化なのかわからないけど、またいつか使えるようになって欲しい。 -- 2023-07-18 (火) 13:28:46
RTX4060Ti VRAM 8GB,txt2img,xformers有,2048x2048, 20step, 9m18s,構図は崩壊 -- 2023-08-09 (水) 20:21:31
ざっくり言って、当方 Windows11 + Intel 13世代 i7F (メモリ16MB) + RTX 3050、というスペックなのですが、PC本体の処理速度は良しとしてグラボがチープな部類に入ると思われます。参考までに、512×512px出力で（条件にもよりますが）概ね10秒弱程度です。必要スペックについては色々意見が割れるようですが、この程度でよい、と思われる向きには、このスペックでも十分に実用性がある、と申し述べておきたおと思います。ちなみに私の Stable Diffusion との向き合い方は、フルサイズの完成稿など初めから要求しておらず、あくまで自筆の参考程度になればいい、と思って使っています。使ってみると…　モデルの指が6本7本になるとか…　腕とか足とかが3本4本になるとか…　思った以上に形状破綻がヒドかった…　私が思うにこれは画像解像度を上げる以前の問題で…　グラボのスペック上げるよりこっちのほうの改善が優先課題じゃね？と思う次第なのです。高性能グラボは必ずしも必須じゃない（但しそれなりのものは必要）、と、選択肢の一助となれば幸いです。（ま、やっぱり、自分の腕を上げなきゃねw）…ちなみに、こちらのサイト、文章入力はテキストなのですか？ HTMLなのですか？改行コードがスッ飛んでしまいます。 -- 2023-08-13 (日) 00:38:57
訂正：メモリ16MB→GB -- 2023-08-13 (日) 00:46:36
しばらくページが変更されていないのと、web UIの推奨スペック変更（SDXL対応含む）を考慮して、このページをメニューバーから外します。 -- 2023-08-29 (火) 18:02:46

このページの作成理由 [#qd6ca444]

あとは解像度も重要かも
特に多人数だと768x512とかだとちょっと低すぎるのでスジ含めて細部が綺麗に出ない
さっきのはtxt2img時点ではhires.fixいれて1344x832で出してる

>さっきのはtxt2img時点ではhires.fixいれて1344x832で出してる
そこらへんのサイズはマシン性能、というかグラボのVRAMがどれだけ積んでるかで決まるからやりたくても無理なとしは多いはず
　1344x832行けるとVRAM 12GBくらいありそうだな
　うちのマシンでは無理の範囲

>1344x832行けるとVRAM 12GBくらいありそうだな
解像度でVRAM容量がバレてしまうのか…
12GB版の3080を無理して買って良かったと心底思ってるよ

>解像度でVRAM容量がバレてしまうのか…
>12GB版の3080を無理して買って良かったと心底思ってるよ
VRAMエラーで出ないからAIやってる人間だとけっこうわかってくると思う
うちはノート3060で6GMのメモリ512×1088が限度
横だとできるだけ横に長いのがいいの出るものは縦の長さ減らしてる
VRAM4GBタイプ買わなくてほんと良かったと思ってる

使ってるAIソフトでバラバラだろうがテンプレで「そのVRAM容量だとおおよそこれぐらいのサイズまで作れるよ」 とか載せたら生成用PC買う時の指標になるんではとか思う

グラボ別最大解像度 [#cebfff24]
ローカル版StableDiffusionにおけるとし達の検証結果です。
検証報告はこちらへお願いします。
「そのVRAM容量だとおおよそこれぐらいのサイズまで作れるよ」くらいの参考程度にしてください。

※動作を保証するものではありません。

グラボ仕様名称	VRAM容量	生成条件 xformer有無	生成可能解像度@t2i,i2i,hires.fix有無	確認日またはWebUI更新日
RTX3080Ti Laptop	16GB	xf.無	2048*2048	-
RTX3060 LHR版	12GB	xf.有	2048*2048 @t2i,hf.有同様に生成可 @t2i	’22/11/14
RTX A4000	16GB	?	※動作確認のみ	’23/1/5
GTX1650	4GB	xf.無	768*768	’23/1/10
RTX4090	?	xf.有	2150*3040	’23/2/6
GTX1050	4GB	xf.有	1000*1000	’23/2/23
RTX2060super	8GB	?	1408*792@i2i	'23/3/17
RTX3070	8GB	xf.有	1024*1024	'23/3/21
RTX3090	?	xf.有	1024*1024	'23/3/27
RTX3090	?	xf.有	1792*1792	'23/3/27
RTX3090	?	xf.無	2560*1440	'23/3/28
RTX3090	?	xf.無	2048*2048	'23/4/1
RTX4080	16GB	?	1024*576	'23/4/10
RTX2080Ti	11GB	xf.無	16001200@t2i,hf.無 16401232は不可	'23/4/21
GTX1070	?	xf.有	1080*1080	'23/4/22
RTX4070	12GB	xf.有	2048*2048	'23/5/16

情報提供の場所

RTX4070ti 12GB,xformer有,起動後初回：Time taken: 3.8 sec.,2回目：Time taken: 3.0 sec. -- 2023-08-31 (木) 20:31:04
GTX970 4GB xf.無 Tiled入れ --medvram追加　Version: v1.5.1 steps20 512*512 37.0 sec./800*800 1 min. 59.0 sec.うちのはこんなかんじです -- 2023-08-31 (木) 20:58:20
↑固定する情報があった（汗　54.1 sec.でした 970 -- 2023-08-31 (木) 21:03:53
3060　12.0秒　1111はv1.5.2 python: 3.10.7 torch: 2.0.1+cu118 xformers: 0.0.20 　アフターバーナーの設定はすべて標準 -- 2023-09-01 (金) 00:54:17
RTX2070S 8GB,v1.6.0 xformer有, --medvram Time taken: 7.8 sec. -- 2023-09-01 (金) 02:35:15
RTX4090 24GB,V1.6.0 xformer無,1.2 sec. -- 2023-09-01 (金) 11:07:06
↑訂正　RTX4090 24GB,V1.6.0 xformer無,2.0 sec. -- 2023-09-01 (金) 11:19:14
RTX4070ti 12GB xformerなし 5.7 sec. -- 2023-09-01 (金) 23:06:38
RTX4090 24GB xformer無 2.8 sec. (SDXLモデル使用/1111で生成) -- 2023-09-02 (土) 00:08:35
RTX4090 24GB xformer有 2.42 sec.(SDXLモデル使用/ComfyUIで生成) -- 2023-09-02 (土) 00:08:44
GTX 1060 6GB xformers有 --medvram,42sec,2.10s/it,AfterBurner Power Limit 80% -- 2023-09-02 (土) 09:53:59
RTX4080 16GB xformers有初回3.2sec 2回目2.7sec …モデル読み込み直後は遅くなる模様。2回目を測定するようにした方がいいと思われる。 -- 2023-09-02 (土) 12:06:36
↑情報提供ありがとうございます！こちらでも少し遅くなったのを確認したのでwikiを更新しました！7 -- 編集者? 2023-09-02 (土) 23:29:37
RTX4070 12GB xformer有 3.6 sec. -- 2023-09-03 (日) 19:45:08
↑ちなみに、PowerLimit70%で3.8 sec.でした -- 2023-09-03 (日) 19:58:17
GTX1660Ti 6GB xformer有 --medvram --no-half Time taken:39.9 sec. -- 2023-09-05 (火) 13:20:25
RTX3050 8GB デスクトップ xformersあり Pytorch2.0.1+cu118 9.8秒パワーリミット91% -- 2023-09-05 (火) 19:35:20
RTX4070Ti 12GB torch2.0.0+cu118 xformers無 --opt-sdp-attention使用 2.9 sec. -- 2023-09-05 (火) 23:07:31
表をな。表をソート(並べ替え)対応にしといたぞい。
なあに、tablesortプラグインを使っただけなので種も仕掛けもあるんじゃ。 -- 2023-09-06 (水) 00:09:46
SD1.5系列, v1.6.0, RTX4070 12GB, xformers有, 3.6秒, ToMe0 -- 2023-09-06 (水) 00:15:10
SDXL系列, v1.6.0, RTX4070 12GB, xformers有, 6.3秒, ToMe0 -- 2023-09-06 (水) 00:15:30
1111、RX6700XT 12GB xformer無 52.8秒でした -- 2023-09-06 (水) 18:36:52
>表をな。表をソート(並べ替え)対応にしといたぞい
めちゃくちゃ助かります…!!手を加えてくださりありがとうございます！ -- 編集者? 2023-09-06 (水) 22:08:48
RTX4080 16GB SDXL xf有3.5sec. xf無4.5sec. ついでにSD1.5 xf無7.1 sec. v1.6.0 -- 2023-09-06 (水) 23:01:52
1111 V1.5.1 RX7900XTX 24GB v1.5.1 xformer無 --opt-sub-quad-attention --upcast-sampling　14.6 sec. -- 2023-09-09 (土) 23:38:59
SDXLも768x768で計測でしょうか？SDXLの推奨サイズは1024x1024なのでそれに合わせたほうがいいかと思います -- 2023-09-11 (月) 01:31:35
↑このコメントを見てちょこっと調べたら1024*1024のほうがいいと書かれてあったので変えます。情報提供ありがとうございます！ -- 編集者? 2023-09-11 (月) 21:53:45
表の行統合フラグ「～」によって、ソート時に表がバグっていたのを解決しました。 -- 2023-09-11 (月) 22:59:24
RTX 3080 Ti Laptop 16GB , Xformersなし , SD v1.6.0 　で 8.6 sec. でした。 -- 2023-10-02 (月) 10:55:58
Colab情報です。選べる3種のGPUでタイムを取りました。全てxformers無しです。A100(40GB)→2.9sec。V100(16GB)→5.0sec。(既出ですが一応)T4(15GB)→16.7sec。A100はシステムRAMをハイメモリにしないと使えないので、3種類ともハイメモリで統一しました。ただ、既出のT4のタイムと比較すると、ランタイムをハイメモリにするか否かは生成速度にあまり関係ないようです(システムRAMの違いはcontrolnet適用時に影響しました。ノーマルのRAMでcontrolnetを2重適用するとほぼ確実に落ちます)。V100は300W、T4は70Wなので、VRAMこそほぼ同じですがパワーには歴然とした差がありそれがタイムに表れたようです。あと提案ですが、一般PCグラボとクラウドGPUは明らかに別物で比較対象にならないので別表にするのはどうでしょうか。長文になり申し訳ない -- 2023-10-07 (土) 22:47:27
↑Colab情報提供ありがとうございます！下にあった「一般PCグラボと~どうでしょうか。」については、よくよく考えてみれば確かに違うなということで別表にさせていただきました。アドバイスありがとうです！ -- 編集者? 2023-10-08 (日) 19:47:21
RTX4090 24GB X有 1.8sec(2回目以降)　その他：ASUS TUF Gaming GeForce RTX 4090を使用、電力343w　適当なエロ画像用モデルでプロンプト無しで画像生成 X無しで1秒くらい増える -- 2023-10-12 (木) 12:58:12
RTX4060Ti 16GB 5.79Sec　X有り　電力設定１００％ -- 2023-10-13 (金) 22:29:47
RTX4060Ti 16GB 33.8 sec hassakuXLsfwNsfw_alphav05 (SDXL)　X有り　--medvram 電力設定１００％ -- 2023-10-14 (土) 12:03:16
RTX4060Ti 16GB 5 min. 48.8 sec hassakuXLsfwNsfw_alphav05 (SDXL)　X有り　電力設定１００％ -- 2023-10-14 (土) 12:04:10
RTX2080の値を表に追加しました。
- SDXL条件は8GBVRAMではOut of memoryになるため、--medvram-sdxlオプションを併用。
- ASUS製TURBO-RTX2080-8G。
- 電力設定は100%（ASUS製調整アプリGPU TWEAKⅢで管理）。
- 一般に外排気モデルは温度上がりやすいですが、SDXL画像を１枚生成するだけなら65℃@室温27℃で収まります。 -- 2023-10-15 (日) 20:09:40
RTX4080 hassakuXL 1024pix X有 5.8sec X無 9.2sec。↑の4060Ti 16GBが聞いた情報より遅いから気になって同じモデル使ってみた…が特にほかのモデルと差はない模様。 -- 2023-10-15 (日) 22:52:35
これより上の4060Tiの報告は削除してください。halfオプションが有効になっていて正確ではなかったようです。 -- 2023-10-16 (月) 01:42:52
RTX4060Ti 16GB Time taken: 4.9 sec.　X有り　電力設定１００％ chilloutmix_NiPrunedFp32Fix.safetensors -- 2023-10-16 (月) 01:47:51
RTX4060Ti 16GB Time taken: 13.8 sec. hassakuXLsfwNsfw_alphav05 (SDXL)　X有り　--medvram 電力設定１００％ -- 2023-10-16 (月) 01:52:41
上記二つは537.58ドライバーで計測 -- 2023-10-16 (月) 01:53:20
GTX1080Ti 11GB(537.58) ABPL70, ComfyUI(2023.10.8版 Py2.1 cu121 xf無), SD 6.9秒, SDXL 54.8秒, デフォルトWorkflow -- 2023-10-16 (月) 22:03:25
グラボ名=RX6800XT、グラボのVRAM搭載量=16GB、xformersの使用有無=無し、使用した生成アプリ=1111、モデルVer.=SD v1.6、生成時間=19.5 sec.、生成時間に直結するオプションの使用有無=--medvram --opt-sdp-no-mem-attention --opt-sub-quad-attention --upcast-sampling --no-half --no-half-vae --precision full -- 2023-10-17 (火) 03:38:47
>これより上の4060Tiの報告は削除してください。5.79Secと33.8 secと5 min. 48.8 secのやつですかね?この3つでしたら再度報告ください。一応非表示にはしてあります。 -- 編集者? 2023-10-17 (火) 20:26:31
指定分はその３つです。また、『RTX4060Ti 16GB Time taken: 13.8 sec. hassakuXLsfwNsfw_alphav05 (SDXL)　X有り　--medvram 電力設定１００％』は1111での動作報告です。よろしくおねがいします。 -- 2023-10-18 (水) 01:40:12
>指定分はその３つです。表から削除いたしました。そして、>RTX4060Ti 16GB~の訂正をいたしました。改めまして報告ありがとうございます。 -- 編集者? 2023-10-18 (水) 10:34:11
先日報告した1080ti環境(ABPL70)の者ですが、ComfuUIの新規環境からxformers有り無しで3回計測して平均で比較してみました。SD15(無:6.33秒、有:6.39秒）、SDXL(無:52.09秒、有:52.23秒）となりました。公式ブログでも記載されていますが現在のComfyUIは特にxformersを追加しなくてよさそうです。 -- 2023-10-18 (水) 15:21:40
ベンチマーク条件がSD v1.xモデル使用時：768*768なのに上記1080tiでSD15を512x512の測定で報告してしまいました。申し訳ないです。 -- 2023-10-18 (水) 15:46:04
1080ti(545.84, ABPL70)、　ComfuUI(xFormers無) SD15で17.2秒 SDXLで52.1秒 xf有も同様、　Web UI(xFormers有/無)SD15で18.3/21.3秒 SDXLで53/53秒となりました。間違いやコメント乱発等申し訳ないです。表の該当箇所は修正します。 -- 2023-10-18 (水) 16:33:16
申し訳ないんだけどNvidiaの測定は一度全リセットした方がいいと思う。Nvidiaドライバ545.84が入って1111の速度が向上している。（SDXL含めて） -- 2023-10-18 (水) 17:50:51
その説明には少し語弊があってね。545.84で速度が向上するのは、1111でTensorRTを利用する場合の話なのだ。
一応手元で531.79→545.84に更新してみたが、これだけでは速度は変わらなかった。
しかし今後RTX(=2000番台以降)のユーザーにとってTensorRT拡張機能と545.84以降のドライバが定石になりそうな予感はする。だから「Nvidia系の測定を全リセする方がいいのではないか」という要旨はわからんでもない……。
まずは、TensorRTを利用した場合にその明記と、ドライババージョンの記載が必要になると思う。 -- 2023-10-18 (水) 19:42:26
RX7800XT 16GB xformers無 1111 SDv1.5 9.0sec -- 2023-10-21 (土) 10:34:20
FlashAttention2を導入したので計測しました、A1111,SDv1.5,PL70%で2.9sec、過去私が報告した内容（コメ欄一番上）はABPL70%での値でしたのでそれについて書き足しと今回の計測も見様見真似で表に入れておきました、上のコメのRX7800XTの方のデータも反映させておきました -- 2023-10-22 (日) 09:14:17
RTX4060Ti 16GB Time taken: 3.5 sec.　Xなし　PL１００％ chilloutmix_NiPrunedFp32Fix.safetensors　TensorRT　1111 -- 2023-10-25 (水) 21:10:07
RTX3080Ti 12GB Xformers有 1111 SD1.5 3.4秒 Nvidiaドライバ536.23 -- 2023-10-26 (木) 22:50:59
RTX 3080 Laptop 16GB , Xformersなし , SD v1.6.0 　で 9.1 sec. でした。 -- 2023-10-27 (金) 11:55:27
RX7800XTで設定変えたのでテーブル更新しました。以前のものはhires.fix無効になってませんでした。 -- 2023-10-27 (金) 20:05:43
RTX3080Ti 12GB Time taken: 10.6 sec. 1111 hassakuXLsfwNsfw_alphav05 (SDXL)　X有り　--medvram 電力設定１００％ -- 2023-10-29 (日) 22:02:55
RTX3080Ti 12GB Time taken: 7.7 sec. 1111 hassakuXLsfwNsfw_alphav05 (SDXL)　X有り電力設定１００％ -- 2023-10-29 (日) 22:09:57
GTX-1070TI 8GB xformers有 1111 SD1.6.0 24.0秒　でした -- 2023-11-20 (月) 11:50:22
RTX 3060 Laptop 6GB , Xformersなし , SD v1.6.1　で 10.4 sec. でした。 -- 2023-12-12 (火) 03:03:41
SDXLについてのcolab情報です。条件は1111使用・1024x1024・xf無・Refiner無・20steps・7scale・Euler a使用・オプション無で統一してます。A100(40GB)→5.7sec。V100(16GB)→7.9sec。T4(15GB)→26.4sec。 -- 2023-12-17 (日) 17:48:10
medvram/no-half-vaeありなし比較。FlashAttension2導入済。RTX3070Ti 8GB(ABPL70%), xformers有, 1111, SD1.5モデル
no-half-vae無: 6.6s(medvram無)/9.0s(medvram有)
no-half-vae有: 8.6s(medvram無)/11.6s(medvram有)
no-half-vae有の方は必要なさそうなら表に載せなくて大丈夫です -- 2023-12-21 (木) 23:24:06
RTX 4080 Super,VRAM16GB,xf 無し,1111,SD 1.5,Driver Ver 551.31, 4.1sec. -- 2024-02-19 (月) 21:08:52
RTX 3090 eGPU 24GB , Xformersなし , SD v1.6.0 　で 5.1 sec. でした。 -- 2024-02-26 (月) 12:29:01
RTX 3060 12GB , Xformersなし , SD v1.8.0 　で 11.5 sec. でした。 -- 2024-04-12 (金) 21:06:17
RX6800(非XT), 16GB, xformers無, 1111(ZLUDA対応fork版をwin10にて直起動), SDXL 1024*1024生成, 21.2sec, --use-zluda のみ。
modelは、少し前の書き込みで見つけた hassakuXLSfwNsfw_alphaV05.safetensors を入手して計測。
ついでに、radeonでよくみられる引数ではどうなるかも試したところ、
引数 --use-zluda --medvram では、生成途中の速度it/sは変わらないが、generateボタン押した直後にもたつき、2,3秒余計にかかった。
引数 --use-zluda --upcast-sampling では、全くの同タイム21.2secだが、出力絵には見分けが付かない程度の変化あり。
引数 --use-zluda --opt-sub-quad-attention では、開始時のもたつきは無いが、生成途中の速度が1割遅くなったのと、出力絵にはわずかながら肉眼でわかる程度の変化あり。
-- 2024-04-13 (土) 22:30:27
ここのベンチマーク報告ってforge版はお呼びでないんでしょうか？ -- 2024-04-16 (火) 04:31:57
RTX 2060 12GB PL70% WSL2 SDXL1024x1024 A1111-v1.8.0--xformers 17.3s (A1111--xformers--medvram 22.1s / forge --xformers 20.9s) forgeは自動でmedvram判定している？ -- 2024-04-27 (土) 19:07:02
RTX 4070 Ti Super, 16GB, Xf 無, A1111, SDv1.5(Counterfeit-V3.0), 4.2sec, オプション無し
RTX 4070 Ti Super, 16GB, Xf 有, A1111, SDv1.5(Counterfeit-V3.0), 2.6sec, オプション --xformers
RTX 4070 Ti Super, 16GB, Xf 無, A1111, SDXL(CounterfeitXL-v2.5), 7.6sec, オプション無し
RTX 4070 Ti Super, 16GB, Xf 有, A1111, SDXL(CounterfeitXL-v2.5), 6.0sec, オプション --xformers
リストに無いしせっかく買ったので置いておきます。 -- 2024-05-08 (水) 23:37:45

グラボについて

お知らせ/更新情報

初めに

ベンチマーク条件

生成条件

報告内容

略語の一覧

ベンチマーク結果【集計結果】

SD v1.xモデル使用時

1111/ローカル版

ComfyUI/ローカル版

1111/クラウドサーバー版

SDXLモデル使用時

1111/ローカル版

ComfyUI/ローカル版

アーカイブ

情報提供の場所

はじめての方へ

ツール紹介

体験版、Web版

ローカルPC版

モデル

AUTOMATIC1111導入

ローカル版

ワンタッチ版

Colab版

Paperspace版

1111使い方

初期設定

使い方（基本）

使い方（上級）

1111学習

学習の準備

学習データの種類

学習のコツ

学習データの使用

学習データの入手

アイデア・メモ

Wiki編集者向け

外部リンク

カウンター

最新の10件