SDXL系列モデルの特徴
- (2023/7/27) Stability AI Japan: SDXL 1.0 をリリースしました
- (2023/7/27) ASCII.jp:最新の画像生成AI「Stable Diffusion XL(SDXL)1.0」ついに公開 簡単に試す方法あります
下記ページにSD1.5系列とXL系列の比較表があるよ。
誘導→モデルについて#事前学習モデルのバージョンはどれがいいの?
1ファイル6GBを超える大きなファイルである。
モデルによっては特定の推奨プロンプトや推奨プロンプト順、推奨出力サイズなどが指定されている物もあり、利用する際は付属文を軽くでも一読しておくと良い。英文でもChromeで翻訳できるし。
2024年3月現在、スレで多く見かけるのは「Animagine XL系列」と「Pony Diffusion系列」を双璧としつつ、SDXL Anime Bulldozer_v10など。
Animagine XL系列はプロンプトの記述方法がSD1.5に近く、SD1.5のノウハウがある程度流用可能であるため、扱いやすい一方で、Pony Diffusion系列はランダム生成と密な描写で出力パターンに飽きが来ないが、記述方法が特殊であるためノウハウ習得が難しいという違いがある。
SDXL系列モデルの導入
ローカル環境でXL系列モデルを扱うと言っても、モデルフォルダに入れるだけ。
XLモデル用のサブフォルダを作るのも良い。
必要スペック
画像生成なら8GB以上、学習もしたいなら12GB以上が望ましい。XL系列はモデルのファイルサイズが大きく、読み込む時点でかなりのVRAMを使用するからだ。
特に8GB以下のグラボを利用するなら、後述するソフトウェアについてforge UIを強く推奨する。
A1111では後述のオプション次第で一応VRAM4GBでも画像生成はできるとあるが、生成速度的にはやはり厳しい。
また、複数のモデルを使うとかなりの容量を圧迫するためSSD容量にも余裕が欲しい。
ソフトウェア
- 現在ではforge UIが軽くてわかりやすいのでオススメ(ここ最近更新が止まっている模様…?)
VRAM使用量が低くVRAM8GBでも生成できるし12GB以上あれば大きな画像も出しやすい
forge
- A1111でも可。新しいバージョンなら大体動く。
こちらも一読を推奨。Optimum SDXL Usage · AUTOMATIC1111/stable-diffusion-webui Wiki · GitHub- VRAM使用量はLoRA使用の有無や拡張機能の利用などによっても変動する。
が一例を挙げると、VRAM 12GBで1024x1024くらいまでなら--xformersのみで出力可能だ。
--medvram-sdxlも追加することで1920x1920程度の出力も可能となるが、速度は24%前後低下する。
出力する画像サイズに合わせて検討してほしい。複数のwebui-user.batを作成して使い分ける手もある。 - VRAM節約オプションについては「SDXLの省VRAM対策オプションについて」も参照
- VRAM使用量はLoRA使用の有無や拡張機能の利用などによっても変動する。
- 速度や省VRAM性に優れるComfyUIを利用するのも良いだろう。当wikiの他、人工知能板のComfyUIスレにも価値ある情報が多いので一読をおすすめする。
VAE
基本的にはモデルに内蔵されてるものを利用(=Noneを指定)すればOK。
他にSDXL 1.0標準の物や、Civitai等で配布されているXL系列用VAEも存在するので、それらを利用しても良い。
なおSD 1.5系列のVAEを使用すると明らかに異常な色で出力される、された。大人しくXL系列用VAEを使おう。
LoRA・TI
SD1.5系列とは互換性がないのでXL用LoRAを用意する必要がある。1.5系統LoRAをXLで利用できるようにするX-Adapterなる技術も聞こえてきてはいるが……。
XLのLoRAでは学習に利用したモデルで使えるのに別のモデルで効果が出ないといった例も見られる。(例えばanimagineXLを使って作成したLoRAがPonyDiffusionXLで使えない等)
DLした物を利用して期待した効果が出ない場合は要確認、自作LoRAを配布する際は学習モデルを明記しておくと良い。
refiner
SDXL 1.0の公開当初は、baseとrefinerという2モデル構成になっていた。
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features#sd-xl
2つのモデルファイルを用意し、画像生成の途中でrefinerモデルに切り替えて仕上げを任せる、という仕組みだ。
このため1111やComfyUIなどの各種ソフトウェアにもrefiner機能が追加された。
しかしrefinerモデルの利用も、refiner機能の利用も、必須ではない。
baseモデル単体で画像を最後まで仕上げることも可能だ。
また大元であるSDXL 1.0こそ2モデル構成でリリースされたが、それ以外のXL 1.0系列モデルの大半は、baseモデルのみの単体で完結するように調整されている。いまでは新規モデルリリース時にrefinerをセットで公開することはなくなった。
refinerモデルやrefiner機能を利用する場合、面倒、画像生成の所要時間が長くなるなどのデメリットがある。その割には出力結果の画像品質がさほど良くなるわけではなく、2024年1月現在、主流になっているとはおよそ言い難い。
- Stable Diffusion web UIの場合
- Refinerのアコーディオンパネルで、使用するRefinerモデルと、適用するステップ数の割合を指定する。
例えばステップ数20において「Switch at」を0.8に設定すると、17~20ステップ目に対してRefinerモデルが適用される。
https://github.com/AUTOMATIC1111/stable-diffusion-webui/pull/12371- 画像生成の途中でモデルを切り替えるので、モデルをストレージ(SSD等)から読み込む処理(SSDで2~3秒程度)が頻繁に発生してしまう。
これはデフォルトでは一度に1つのモデルのみを保持する設定になっているからだ。 - そこで、Settings → Stable Diffusion → Stable Diffusion
のMaximum number of checkpoints~ を2に変更すると、2つのモデルを保持可能になり、時間短縮に役立つ。 - そのすぐ下にあるOnly keep one model on device も関係している。
デフォルトではON。前モデルをメインメモリに退避させ、新モデルをVRAMに読み込む処理になる。
ストレージから読み込むよりは、メインメモリから読み込む方がまだ早いからだ。
OFFにすると両モデル共にVRAMに保持されるので、最も高速になるが、VRAM量は犠牲になる。
- 画像生成の途中でモデルを切り替えるので、モデルをストレージ(SSD等)から読み込む処理(SSDで2~3秒程度)が頻繁に発生してしまう。
- Ver.1.5.1以前の場合、拡張機能を追加して利用する必要がある。
https://github.com/wcde/sd-webui-refiner
- Refinerのアコーディオンパネルで、使用するRefinerモデルと、適用するステップ数の割合を指定する。
- ComfyUIを使う
具体的な使用手順は、各アプリの紹介ページを参照のこと。
モデル紹介
- 配布者名/モデル名(公開日)、配布者別、シリーズ別に掲載。
元祖
stabilityai /sd_xl_base_1.0 (base)
stabilityai /sd_xl_refiner_1.0 (refiner)
1.0のVAEに問題が見つかったため、素の1.0モデルと0.9のVAEを焼き込んだモデルの2通りが公開されている。使うならVAE込モデル推奨。
baseは実写LoRA用の学習モデルとして利用されることもあるが2024年現在では優秀な後発モデルが公開されていることもあるため、積極的に本モデルを選択する意義は薄い。
SDXLに対応するまでのNovelAIと同様、先駆者でありつつ化石のような扱いとなっている。
定番モデル
Pony Diffusion V6 XL(制作者:stablediffusionapi)
海外で俗にポニーセクシャルやファーリーと呼ばれる極めて重度のケモ属性向けのモデル。
学習データには、仔馬・獣人化・人間化といったカラフルファンアートがエロ・非エロ含め大量に含まれている。
score_9,source_など一部異なるプロンプトが必要だが他は同じようにプロンプトが効く。
また、収録対象イラストが馬なので人型でも手足が蹄になることが多く、癖が強いどころでもないレベル。
そのため、SD1.5系列でのノウハウがそのまま流用できない上、普通に利用すると、ポニー成分が出るのだが
プロンプトを用いてポニー成分を避けるとエロポーズ込みで多彩な人型描写ができることが判明。
ポーズ系LoRA不足を補うことができることもあって一大人気に。
後述のAnimagineXL(系列)と比べると、「大きい可能性を持つが、使いこなすまでのハードルが高い」というのが特徴的。
画像生成に関するネット上の情報はSD1.5系列のものが多いため、どのように記法すればいいかのノウハウ習得も難しい。
例えば、SD1.5系列やAnimagineXL系列では、プロンプトにmasterpieceという品質系プロンプトを挿入することが推奨されているが、本モデルでは学習元の都合上、適宜「score_9, score_8_up, score_7_up, score_6_up, score_5_up, score_4_up,」等とすることが推奨されている。
SDXLモデル普及の立役者であることは間違いないのだが、更にクオリティが上がった派生モデルも登場していることから相対的に扱いやすいとは言いがたいモデルとなっており、今から使うのであれば派生モデルが推奨。
派生モデルも含めたpony diffusion系列の詳細解説はこちらの個別記事を参照。
SD1.5系列におけるAnythingV3くらいの位置づけと思っておくといいだろう。
Animagine XL V3
Animegine XL V3.1(制作者:CagliostroLab)
使いやすい2次元用モデルであり、キャラ系LoRAの不足をモデル側で吸収した力業(取り込みまくった結果としてオリジナルにも対応可能)。civitaiのgalleryにある通り叡智な絵もお手の物。通称:兄魔人(兄魔神)。
SDXL系列が急速に普及する切っ掛けとなった。
SD1.5系列をベースとしつつ進化しており、プロンプトについてはdanbooruタグがそのまま利用可能であり、ある意味、SD1.5系列を順当に進化させたといった位置づけで利用可能。
上記のPony Diffusion系列と比較するなら、ある程度のクオリティのイラストは簡単に生成できるが、トリッキーなイラストの生成はあまり望めないため、初心者向けと位置づけられる。
詳細については個別記事があるため、こちらや最近の主な出来事#2024/1/11 (モデル)Animagine XL 3.0も参照のこと。
V3.0で人気が出たモデルだが、2024/3/18にはV3.1も登場している。性能面のみならず、記法など扱い方も多少違いがあるため、上記個別記事を参照。
二次絵系
CounterfeitXL (base) (制作者:rqdwdw)
294 無念 Name としあき 23/07/29(土)18:52:51 ID:KE6n1BhM No.1121804728
CounterfeitのSDXLがCivitaiにあったからお試し
裸はまだ駄目っぽいけど期待したい
34 無念 Name としあき 23/07/29(土)19:17:40 ID:4K2zO10M No.1121812779 そうだねx2
たておつ
CounterfeitXLいいね
髪と目が特に改善されてる
250 無念 Name としあき 23/07/30(日)07:11:54 ID:8kMLL5Ug No.1121977846
たておつおためしCounterfeitXL
画像がノイズまみれになるなあと悩んでたがVAEをAutomaticやNoneに変えたら解決した
MomoiroPony(制作者:oritatami_neko)
「ポニーが流行っているので使ってみたいが、絵の塗りがちょっと濃くて……」という人向け。
プロンプトの記法はPony Diffusion V6 XLと同様。
なお、目に特徴がありサンプルと同じような瞳になりがち。
本モデルでもプロンプト次第でポニー風味が出てしまうので、加えるなら上記推奨+ポジティブにsource_anime, ネガティブにsource_pony, source_furry, source_cartoon,として「原作度」を抑えていくといい。
(source_animeをプロンプトに入れたらポニーアニメの本編キャプ参照が強化されて苦労するだけなんじゃないかと思うのだが、Pony Diffusion V6 XL流行当初からなぜかよく指定されている(案外、EQGの分が効いてるのかもしれない))。なおモデル名は作品本編の桃色のポニーとは関係ない。
YutaMix PXL(制作者:Iselestia)
SD1.5でAbyssOrangeMix系を用いており、Pony系XLでも同系列の画風を所望するとしあき向け。
追記:→リンク先と作者が消えており・・・(SD1.5版の「YutaMix [fp16-no-ema] [SafeTensors] [Checkpoint]」は残っているが、XL版は無し。情報提供求む)
anima_pencil-XL(制作者:blue_pen5805)
簡単に出てくるキャラのプロンプト一覧(Animagine XL V3と共通)https://huggingface.co/spaces/Linaqruf/animagine-xl/blob/main/wildcard/character.txt
AutismMix SDXL
Momoiro等とはLoRAの効き方が変わるため、主にPony用海外製LoRAの効きが悪い時に試す価値あり。
万象熔炉|Anything XL(制作者:Yuno779)
定番モデルとしても記載されているAnimagine XL V3やPony Diffusion V6 XLを含めた6つのモデルをマージし、それぞれの特徴を引き継いでいる。
Civitaiのモデルページで説明文として「AIアートは、人間ではなくAIのように見えるべき(意訳)」と書かれていることからも分かるとおり、SD1.5系列のAnythingやNovelAIを感じさせる画風が特徴的。
プロンプトの記法もSD1.5系列を踏襲しており、danbooruタグが利用可能。下述のように、最初にスタイルやアーティストを指定することが推奨されている。
記法:style/artist/... , 1boy/1girl/1other/..., character名, 特殊タグ, その他のタグ
実写系
Cherry Picker XL (製作者:tkvier)
fudukimix (製作者:kotajiro001)
Juggernaut XL(製作者:KandooAI)
欧米系の画像は強いがアジア系は弱い印象(出なくはない)。すぐに脱がせる傾向にあり、large breastsだけでπ丸出しのパツキンネーチャンが出てきた。
Hyperモデルはわずか6ステップで通常版と遜色ない画像を出せる。低スぺグラボ民の心強い味方。DPM++ SDEが推奨されているが、うまくいかなければSGMUniformを使おう。