SDXL系列モデルの特徴
- (2023/7/27) Stability AI Japan: SDXL 1.0 をリリースしました
- (2023/7/27) ASCII.jp:最新の画像生成AI「Stable Diffusion XL(SDXL)1.0」ついに公開 簡単に試す方法あります
SDXLはSD1.5系列の後継といっていいバージョンであり、ざっくりというとより性能は上がっているが、モデルの容量と必要となるグラボのメモリも増えている。
そのため、SD1.5系列でギリギリ画像生成ができたという程度のスペックの場合、そのままでは利用が難しいこともある(後述のとおり、forge UIを利用するなど、道は残されていないわけではないが)。
1ファイルあたりおよそ7GBの大きなファイルとなるため、ストレージ容量についてもしっかりと確保しておきたい。
また、利用するモデルによって、推奨プロンプトや記述順、推奨出力サイズなどが指定されているものもあるので、利用する際は付属の説明を軽くで構わないので読んでおこう(英文でもChrome等で翻訳可能なので英語アレルギーであっても問題なし)。
そもそも、SD1.5とSDXLどちらがいいかで悩んでるなら以下のページに比較表があるので参考にどうぞ。
誘導→モデルについて#事前学習モデルのバージョンはどれがいいの?
どれを選ぶべきかについては好みもあるが、2025年7月現在第一の選択肢としてオススメは「Illustrious-XL」かその派生である「NoobAI-XL」。「Animagine XL」か「Pony Diffusion」も候補に入る。
Illustrious-XLとAnimagine XLはどちらもプロンプトの記述方法がSD1.5に近く、ノウハウの流用が可能かつ、情報収集がしやすく初心者にも扱いやすい。後発の「Illustrious-XL」の方が学習範囲が広くバリエーションに富む。
Pony Diffusionは記法が独特であり、使いこなすまでは大変だが、使いこなせれば生成の幅が広く豊富なパターンを楽しむ事ができる。特にケモ系はPony一強。
なお、いずれも派生モデルも登場しているため、特に「Illustrious-XL」、「Pony Diffusion」の2種類は派生モデルを使うのが一般的。慣れたらこのページに書かれているものだけでなくCivitaiなどで検索して自分好みのモデルを探すか、いっそ自身で学習してより使いやすくするといいだろう。
SDXL系列モデルの導入
ローカル環境でXL系列モデルを扱うと言っても、モデルフォルダに入れるだけ。
XLモデル用のサブフォルダを作るのも良い。
必要スペック
画像生成なら8GB以上、学習もしたいなら12GB以上が望ましい。XL系列はモデルのファイルサイズが大きく、読み込む時点でかなりのVRAMを使用するからだ。
特に8GB以下のグラボを利用するなら、後述するソフトウェアについてforge UIを強く推奨する。
A1111では後述のオプション次第で一応VRAM4GBでも画像生成はできるとあるが、生成速度的にはやはり厳しい。
また、複数のモデルを使うとかなりの容量を圧迫する。SD1.5に比べて解像度が上がり出力画像のファイルサイズも大きくなる。SSD容量は余裕をもって用意したい。
ソフトウェア
forge UIが軽量であるが、開発方針が大幅に転換したので今から導入する場合は少し注意が必要。個別のページを参考にして、reForge・Forge - Classicなどの派生ツールも検討しつつ導入しよう。
VRAM使用量が低くVRAM8GBでも生成できるし12GB以上あれば大きな画像も出しやすい
- A1111でも可。新しいバージョンなら大体動く。
こちらも一読を推奨。Optimum SDXL Usage · AUTOMATIC1111/stable-diffusion-webui Wiki · GitHub- VRAM使用量はLoRA使用の有無や拡張機能の利用などによっても変動する。
が一例を挙げると、VRAM 12GBで1024x1024くらいまでなら--xformersのみで出力可能だ。
--medvram-sdxlも追加することで1920x1920程度の出力も可能となるが、速度は24%前後低下する。
出力する画像サイズに合わせて検討してほしい。複数のwebui-user.batを作成して使い分ける手もある。 - VRAM節約オプションについては「SDXLの省VRAM対策オプションについて」も参照
- VRAM使用量はLoRA使用の有無や拡張機能の利用などによっても変動する。
- 速度や省VRAM性に優れるComfyUIを利用するのも良いだろう。当wikiの他、人工知能板のComfyUIスレにも価値ある情報が多いので一読をおすすめする。
VAE
基本的にはモデルに内蔵されてるものを利用(=AutomaticまたはNoneを指定)すればOK。
他にSDXL 1.0標準の物や、Civitai等で配布されているXL系列用VAEも存在するので、それらを利用しても良い。
なおSD 1.5系列のVAEを使用すると明らかに異常な色で出力される、された。大人しくXL系列用VAEを使おう。
LoRA・TI
SD1.5系列とは互換性がないのでXL用LoRAを用意する必要がある。1.5系統LoRAをXLで利用できるようにするX-Adapterなる技術も聞こえてきてはいるが……。
XLのLoRAでは学習に利用したモデルで使えるのに別のモデルで効果が出ないといった例も見られる。(例えばanimagineXLを使って作成したLoRAがPonyDiffusionXLで使えない等)
DLした物を利用して期待した効果が出ない場合は要確認、自作LoRAを配布する際は学習モデルを明記しておくと良い。
refiner
SDXL 1.0の公開当初は、baseとrefinerという2モデル構成になっていた。
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features#sd-xl
2つのモデルファイルを用意し、画像生成の途中でrefinerモデルに切り替えて仕上げを任せる、という仕組みだ。
このため1111やComfyUIなどの各種ソフトウェアにもrefiner機能が追加された。
しかしrefinerモデルの利用も、refiner機能の利用も、必須ではない。
baseモデル単体で画像を最後まで仕上げることも可能だ。
また大元であるSDXL 1.0こそ2モデル構成でリリースされたが、それ以外のXL 1.0系列モデルの大半は、baseモデルのみの単体で完結するように調整されている。いまでは新規モデルリリース時にrefinerをセットで公開することはなくなった。
refinerモデルやrefiner機能を利用する場合、面倒、画像生成の所要時間が長くなるなどのデメリットがある。その割には出力結果の画像品質がさほど良くなるわけではなく、2024年1月現在、主流になっているとはおよそ言い難い。
- Stable Diffusion web UIの場合
- Refinerのアコーディオンパネルで、使用するRefinerモデルと、適用するステップ数の割合を指定する。
例えばステップ数20において「Switch at」を0.8に設定すると、17~20ステップ目に対してRefinerモデルが適用される。
https://github.com/AUTOMATIC1111/stable-diffusion-webui/pull/12371- 画像生成の途中でモデルを切り替えるので、モデルをストレージ(SSD等)から読み込む処理(SSDで2~3秒程度)が頻繁に発生してしまう。
これはデフォルトでは一度に1つのモデルのみを保持する設定になっているからだ。 - そこで、Settings → Stable Diffusion → Stable Diffusion
のMaximum number of checkpoints~ を2に変更すると、2つのモデルを保持可能になり、時間短縮に役立つ。 - そのすぐ下にあるOnly keep one model on device も関係している。
デフォルトではON。前モデルをメインメモリに退避させ、新モデルをVRAMに読み込む処理になる。
ストレージから読み込むよりは、メインメモリから読み込む方がまだ早いからだ。
OFFにすると両モデル共にVRAMに保持されるので、最も高速になるが、VRAM量は犠牲になる。
- 画像生成の途中でモデルを切り替えるので、モデルをストレージ(SSD等)から読み込む処理(SSDで2~3秒程度)が頻繁に発生してしまう。
- Ver.1.5.1以前の場合、拡張機能を追加して利用する必要がある。
https://github.com/wcde/sd-webui-refiner
- Refinerのアコーディオンパネルで、使用するRefinerモデルと、適用するステップ数の割合を指定する。
- ComfyUIを使う
具体的な使用手順は、各アプリの紹介ページを参照のこと。
モデル紹介
- 配布者名/モデル名(公開日)、配布者別、シリーズ別に掲載。
元祖
stabilityai /sd_xl_base_1.0 (base)
stabilityai /sd_xl_refiner_1.0 (refiner)
1.0のVAEに問題が見つかったため、素の1.0モデルと0.9のVAEを焼き込んだモデルの2通りが公開されている。使うならVAE込モデル推奨。
baseは実写LoRA用の学習モデルとして利用されることもあるが2024年現在では優秀な後発モデルが公開されていることもあるため、積極的に本モデルを選択する意義は薄い。
SDXLに対応するまでのNovelAIと同様、先駆者でありつつ化石のような扱いとなっている。
定番モデル
いずれもSDXLモデルの普及に大きく貢献したモデルであるが、2025年2月現在より使いやすくなった派生モデルが登場しており、教育用という用途でなければ派生モデルの利用が推奨される。
Pony Diffusion V6 XL(制作者:stablediffusionapi)
二次絵系。SDXLモデルが普及するきっかけとなったモデルその1。
海外で俗にポニーセクシャルやファーリーと呼ばれる極めて重度のケモ属性向けのモデル。
学習データには、仔馬・獣人化・人間化といったカラフルファンアートがエロ・非エロ含め大量に含まれている。
score_9,source_など一部異なるプロンプトが必要だが他は同じようにプロンプトが効く。
また、収録対象イラストが馬なので人型でも手足が蹄になることが多く、癖が強いどころではないレベル。
そのため、SD1.5系列でのノウハウがそのまま流用できない上、普通に利用すると、ポニー成分が出るのだが
プロンプトを用いてポニー成分を避けるとエロポーズ込みで多彩な人型描写ができることが判明。
ポーズ系LoRA不足を補うことができることもあって一大人気に。
後述のAnimagineXL(系列)と比べると、「大きい可能性を持つが、使いこなすまでのハードルが高い」というのが特徴的。
画像生成に関するネット上の情報はSD1.5系列のものが多いため、どのように記法すればいいかのノウハウ習得も難しい。
例えば、SD1.5系列やAnimagineXL系列では、プロンプトにmasterpieceという品質系プロンプトを挿入することが推奨されているが、本モデルでは学習元の都合上、適宜「score_9, score_8_up, score_7_up, score_6_up, score_5_up, score_4_up,」等とすることが推奨されている。
SDXLモデル普及の立役者であることは間違いないのだが、更にクオリティが上がった派生モデルも登場していることから相対的に扱いにくいモデルとなっており、今から人間を生成するのであれば派生モデルを強く推奨する。
派生モデルも含めたpony diffusion系列の詳細解説はこちらの個別記事を参照。
SD1.5系列におけるAnythingV3くらいの位置づけと思っておくといいだろう。
なお、通常の人間の外見ではないもの(毛皮鱗獣人・ポニー・動物っぽいもの)を生成する場合はLoRA対応含め現状一択である。
Animagine XL V3
Animegine XL V3.1
Animegine XL V4.0 Opt(制作者:CagliostroLab)
二次絵系。SDXLモデルが普及するきっかけとなったモデルその2。
使いやすい2次元用モデルであり、キャラ系LoRAの不足をモデル側で吸収した力業(取り込みまくった結果としてオリジナルにも対応可能)。civitaiのgalleryにある通り叡智な絵もお手の物。通称:兄魔人(兄魔神)。
SDXL系列が急速に普及する切っ掛けとなった。
SD1.5系列をベースとしつつ進化しており、プロンプトについてはdanbooruタグがそのまま利用可能であり、ある意味、SD1.5系列を順当に進化させたといった位置づけで利用可能。
上記のPony Diffusion系列と比較するなら、ある程度のクオリティのイラストは簡単に生成できるが、トリッキーなイラストの生成はあまり望めないため、初心者向けと位置づけられる。
詳細については個別記事があるため、こちらや最近の主な出来事#2024/1/11 (モデル)Animagine XL 3.0も参照のこと。
V3.0で人気が出たモデルだが、2024/3/18にはV3.1も登場している。性能面のみならず、記法など扱い方も多少違いがあるため、上記個別記事を参照。
2025年に入ってからV4.0系が公開された。SDXLをベースに新たに学習したモデルで、V3を追加学習したわけではないらしい。
Illustrious-XL(制作者:OnomaAI)
二次絵系で、先行してよく使われていたAnimagine系、Pony系モデルと比べて学習に使われた教師画像数が多い事もあり、LoRA無しで描画できる事象・キャラクターも多い。
また、タグ形体がSD1.5系列と同様のdanbooru準拠であることや、pony系モデルにも劣らないnsfw適正、コミカルな表情や漫符、デフォルメキャラの描画も比較的容易であり、新たなSDXLモデルとして人気を博している。
Animagine・Pony二強時代にv0.1が公開されるとクオリティの高さと使いやすさが大ウケ。v0.1に追加学習を施されたNoobAI-XLと共に環境を席巻した。
2025年2月11日にはV1.0、V1.1も登場したが、公開時に有料化をめぐるゴタゴタがありケチがついてしまった。現在は無料で公開されている。
詳しい概要や利用方法、派生モデルなどは上記リンク先の詳細ページにて記述する。
なお、AnimagineやPonyと同様、2025年2月現在は派生モデルの利用が推奨されている。
4th tail (制作者:Minthybasis)
ebara pony 3や
その派生のCopycat - v3.0などにてマージされ、
そのプロンプト記載方法にて影響を与えているため「第三の二次絵系の定番」という扱いで記載してみる。
元はpony系なのだが、作者Minthybasis氏の「Bros, we have nai3 at home.」という宣言通り、NAI v3を意識した特殊モデル。
特にプロンプトの記載方法にて注意があり、(pony系で定番の「score_9, score_8_up, 」の使用は逆に避ける旨の指示があり、)
masterpiece, best qualityの二つがpositiveの方のクオリティタグとして使うことが推奨されている。
一方、low quality, worst qualityをnegativeの方に記載。 クオリティタグはこの4つだけ。
他、styleやCharacter(この点はAnimagine風か)、加えてケモナーが泣いて喜ぶケモ耳や尻尾についての細かい専用タグetcと、色々な試みがある。
(これを元にしたebara pony 3やCopycat-v3.0等のマージ系の方が、絵柄が安定している気もする。各位にて検証されたし)
二次絵系
CounterfeitXL (base) (制作者:rqdwdw)
294 無念 Name としあき 23/07/29(土)18:52:51 ID:KE6n1BhM No.1121804728
CounterfeitのSDXLがCivitaiにあったからお試し
裸はまだ駄目っぽいけど期待したい
34 無念 Name としあき 23/07/29(土)19:17:40 ID:4K2zO10M No.1121812779 そうだねx2
たておつ
CounterfeitXLいいね
髪と目が特に改善されてる
250 無念 Name としあき 23/07/30(日)07:11:54 ID:8kMLL5Ug No.1121977846
たておつおためしCounterfeitXL
画像がノイズまみれになるなあと悩んでたがVAEをAutomaticやNoneに変えたら解決した
MomoiroPony(制作者:oritatami_neko)
「ポニーが流行っているので使ってみたいが、絵の塗りがちょっと濃くて……」という人向け。
プロンプトの記法はPony Diffusion V6 XLと同様。
なお、目に特徴がありサンプルと同じような瞳になりがち。
本モデルでもプロンプト次第でポニー風味が出てしまうので、加えるなら上記推奨+ポジティブにsource_anime, ネガティブにsource_pony, source_furry, source_cartoon,として「原作度」を抑えていくといい。
(source_animeをプロンプトに入れたらポニーアニメの本編キャプ参照が強化されて苦労するだけなんじゃないかと思うのだが、Pony Diffusion V6 XL流行当初からなぜかよく指定されている(案外、EQGの分が効いてるのかもしれない))。なおモデル名は作品本編の桃色のポニーとは関係ない。
2024年8月にv1.5が登場。人によってはv1.4の方がMomoiroPonyらしさ(ゆるふわ系?)を感じるかもしれないので、両verのお試し推奨。
YutaMix PXL(制作者:Iselestia)
SD1.5でAbyssOrangeMix系を用いており、Pony系XLでも同系列の画風を所望するとしあき向け。
追記:→civitaiのリンク先と作者が消えており・・・(SD1.5版の「YutaMix [fp16-no-ema] [SafeTensors] [Checkpoint]」は残っているが、XL版は無し。)
追記2:wikiコメント欄からの情報を拝借、モデル公開先をhuggingfaceの左記ページに移していた模様。モデル名はYutaMix-PXL.safetensors、内容は同じ。また、最新版としてiselestia-diff-Mk1~Mk5もあるが、SD1.5版等と目の描写が大きく異なっている。(少女漫画風?。一般的にはYutaMix-PXL.safetensorsの方がコントロールしやすいか)
anima_pencil-XL(制作者:blue_pen5805)
簡単に出てくるキャラのプロンプト一覧(Animagine XL V3と共通)https://huggingface.co/spaces/Linaqruf/animagine-xl/blob/main/wildcard/character.txt
AutismMix SDXL
Momoiro等とはLoRAの効き方が変わるため、主にPony用海外製LoRAの効きが悪い時に試す価値あり。
万象熔炉|Anything XL(制作者:Yuno779)
定番モデルとしても記載されているAnimagine XL V3やPony Diffusion V6 XLを含めた6つのモデルをマージし、それぞれの特徴を引き継いでいる。
Civitaiのモデルページで説明文として「AIアートは、人間ではなくAIのように見えるべき(意訳)」と書かれていることからも分かるとおり、SD1.5系列のAnythingやNovelAIを感じさせる画風が特徴的。
プロンプトの記法もSD1.5系列を踏襲しており、danbooruタグが利用可能。下述のように、最初にスタイルやアーティストを指定することが推奨されている。
記法:style/artist/... , 1boy/1girl/1other/..., character名, 特殊タグ, その他のタグ
boleromix(Pony) (制作者:bolero537)
(同じモデル名でSD1.5版やSDXL版のモデルもあるので、お好みで選択可。SD1.5版の方が3次元風味あり)
2次ベース+やや3次風、特に氏の作成LoRAを使う時はこのモデルを元にすると良い感じ。Verが上がってより表現が安定している。
HameFkawaiiMix (制作者:watayuki288)
Typeが複数種類あり。プロンプト短めの方が描写が安定しやすいか。目力のあるモデルのXL用をお探しのとしあき向け。
WAI-ANI-NSFW-PONYXL(制作者:WAI0731 )
バージョンが上がって出力が安定しており、LoRAの効きも安定。苦労知らずで運用できる安牌モデル。
実写系
Cherry Picker XL (製作者:tkvier)
fudukimix (製作者:kotajiro001)
Juggernaut XL(製作者:KandooAI)
欧米系の画像は強いがアジア系は弱い印象(出なくはない)。すぐに脱がせる傾向にあり、large breastsだけでπ丸出しのパツキンネーチャンが出てきた。
Hyperモデルはわずか6ステップで通常版と遜色ない画像を出せる。低スぺグラボ民の心強い味方。DPM++ SDEが推奨されているが、うまくいかなければSGMUniformを使おう。
Realistic Stock Photo(製作者:PromptSharingSamaritan)
real pony(製作者:dendenmusimusi05490)
写実系であっても元はponyなので、pony専用LoRAが適用可(ただ、合う/合わないはあるので、そこは試行錯誤)
短めのプロンプトの方が安定しやすい気がする。色々なNo.の種類あるけれど、どの種類もアジア系の美人さんが出やすい。

