モデル紹介/SDXLモデル

Last-modified: 2024-04-28 (日) 23:39:04

SDXL系列モデルの特徴

下記ページにSD1.5系列とXL系列の比較表があるよ。
 誘導→モデルについて#事前学習モデルのバージョンはどれがいいの?

1ファイル6GBを超える大きなファイルである。
モデルによっては特定の推奨プロンプトや推奨プロンプト順、推奨出力サイズなどが指定されている物もあり、利用する際は付属文を軽くでも一読しておくと良い。英文でもChromeで翻訳できるし。

2024年3月現在、スレで多く見かけるのは「Animagine XL系列」と「Pony Diffusion系列」を双璧としつつ、SDXL Anime Bulldozer_v10など。
Animagine XL系列はプロンプトの記述方法がSD1.5に近く、SD1.5のノウハウがある程度流用可能であるため、扱いやすい一方で、Pony Diffusion系列はランダム生成と密な描写で出力パターンに飽きが来ないが、記述方法が特殊であるためノウハウ習得が難しいという違いがある。

SDXL系列モデルの導入

ローカル環境でXL系列モデルを扱うと言っても、モデルフォルダに入れるだけ。
XLモデル用のサブフォルダを作るのも良い。

必要スペック

画像生成なら8GB以上、学習もしたいなら12GB以上が望ましい。XL系列はモデルのファイルサイズが大きく、読み込む時点でかなりのVRAMを使用するからだ。
特に8GB以下のグラボを利用するなら、後述するソフトウェアについてforge UIを強く推奨する。
A1111では後述のオプション次第で一応VRAM4GBでも画像生成はできるとあるが、生成速度的にはやはり厳しい。

また、複数のモデルを使うとかなりの容量を圧迫するためSSD容量にも余裕が欲しい。

ソフトウェア

  • 現在ではforge UIが軽くてわかりやすいのでオススメ(ここ最近更新が止まっている模様…?)
    VRAM使用量が低くVRAM8GBでも生成できるし12GB以上あれば大きな画像も出しやすい
    forge
  • A1111でも可。新しいバージョンなら大体動く。
    こちらも一読を推奨。Optimum SDXL Usage · AUTOMATIC1111/stable-diffusion-webui Wiki · GitHub
    • VRAM使用量はLoRA使用の有無や拡張機能の利用などによっても変動する。
      が一例を挙げると、VRAM 12GBで1024x1024くらいまでなら--xformersのみで出力可能だ。
      --medvram-sdxlも追加することで1920x1920程度の出力も可能となるが、速度は24%前後低下する。
      出力する画像サイズに合わせて検討してほしい。複数のwebui-user.batを作成して使い分ける手もある。
    • VRAM節約オプションについては「SDXLの省VRAM対策オプションについて」も参照
  • 速度や省VRAM性に優れるComfyUIを利用するのも良いだろう。当wikiの他、人工知能板のComfyUIスレにも価値ある情報が多いので一読をおすすめする。

VAE

基本的にはモデルに内蔵されてるものを利用(=Noneを指定)すればOK。
他にSDXL 1.0標準の物や、Civitai等で配布されているXL系列用VAEも存在するので、それらを利用しても良い。
なおSD 1.5系列のVAEを使用すると明らかに異常な色で出力される、された。大人しくXL系列用VAEを使おう。

06657-2024_0217_1635.jpg06658-2024_0217_1636.jpg
VAE指定=NoneSD1.5用VAEを適用
(例: vae-ft-mse-840000-ema-pruned)

LoRA・TI

SD1.5系列とは互換性がないのでXL用LoRAを用意する必要がある。1.5系統LoRAをXLで利用できるようにするX-Adapterなる技術も聞こえてきてはいるが……。
XLのLoRAでは学習に利用したモデルで使えるのに別のモデルで効果が出ないといった例も見られる。(例えばanimagineXLを使って作成したLoRAがPonyDiffusionXLで使えない等)
DLした物を利用して期待した効果が出ない場合は要確認、自作LoRAを配布する際は学習モデルを明記しておくと良い。

refiner

SDXL 1.0の公開当初は、baseとrefinerという2モデル構成になっていた。
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features#sd-xl
2つのモデルファイルを用意し、画像生成の途中でrefinerモデルに切り替えて仕上げを任せる、という仕組みだ。
このため1111やComfyUIなどの各種ソフトウェアにもrefiner機能が追加された。

しかしrefinerモデルの利用も、refiner機能の利用も、必須ではない。
baseモデル単体で画像を最後まで仕上げることも可能だ。

また大元であるSDXL 1.0こそ2モデル構成でリリースされたが、それ以外のXL 1.0系列モデルの大半は、baseモデルのみの単体で完結するように調整されている。いまでは新規モデルリリース時にrefinerをセットで公開することはなくなった。

refinerモデルやrefiner機能を利用する場合、面倒、画像生成の所要時間が長くなるなどのデメリットがある。その割には出力結果の画像品質がさほど良くなるわけではなく、2024年1月現在、主流になっているとはおよそ言い難い。

refinerの使い方
  • Stable Diffusion web UIの場合
    • Refinerのアコーディオンパネルで、使用するRefinerモデルと、適用するステップ数の割合を指定する。
      例えばステップ数20において「Switch at」を0.8に設定すると、17~20ステップ目に対してRefinerモデルが適用される。
      https://github.com/AUTOMATIC1111/stable-diffusion-webui/pull/12371
      • 画像生成の途中でモデルを切り替えるので、モデルをストレージ(SSD等)から読み込む処理(SSDで2~3秒程度)が頻繁に発生してしまう。
        これはデフォルトでは一度に1つのモデルのみを保持する設定になっているからだ。
      • そこで、SettingsStable Diffusion → Stable Diffusion
        のMaximum number of checkpoints~ を2に変更すると、2つのモデルを保持可能になり、時間短縮に役立つ。
      • そのすぐ下にあるOnly keep one model on device も関係している。
        デフォルトではON。前モデルをメインメモリに退避させ、新モデルをVRAMに読み込む処理になる。
        ストレージから読み込むよりは、メインメモリから読み込む方がまだ早いからだ。
        OFFにすると両モデル共にVRAMに保持されるので、最も高速になるが、VRAM量は犠牲になる。
    • Ver.1.5.1以前の場合、拡張機能を追加して利用する必要がある。
      https://github.com/wcde/sd-webui-refiner
  • ComfyUIを使う

具体的な使用手順は、各アプリの紹介ページを参照のこと。

モデル紹介

  • 配布者名/モデル名(公開日)、配布者別、シリーズ別に掲載。

元祖

stabilityai /sd_xl_base_1.0 (base)
stabilityai /sd_xl_refiner_1.0 (refiner)

リリース日:2023/7/26
最初期のSDXLモデルであり多くのモデルはこれをベースとして改良されている。実写寄りだが、二次絵系としてもそこそこ使える。
1.0のVAEに問題が見つかったため、素の1.0モデルと0.9のVAEを焼き込んだモデルの2通りが公開されている。使うならVAE込モデル推奨。

baseは実写LoRA用の学習モデルとして利用されることもあるが2024年現在では優秀な後発モデルが公開されていることもあるため、積極的に本モデルを選択する意義は薄い。
SDXLに対応するまでのNovelAIと同様、先駆者でありつつ化石のような扱いとなっている。

定番モデル

Pony Diffusion V6 XL(制作者:stablediffusionapi)

リリース日:2024/1/7
二次絵系。SDXLモデルが普及するきっかけとなったモデルその1。
海外で俗にポニーセクシャルやファーリーと呼ばれる極めて重度のケモ属性向けのモデル。
学習データには、仔馬・獣人化・人間化といったカラフルファンアートがエロ・非エロ含め大量に含まれている。

score_9,source_など一部異なるプロンプトが必要だが他は同じようにプロンプトが効く。

また、収録対象イラストが馬なので人型でも手足が蹄になることが多く、癖が強いどころでもないレベル。
そのため、SD1.5系列でのノウハウがそのまま流用できない上、普通に利用すると、ポニー成分が出るのだが
プロンプトを用いてポニー成分を避けるとエロポーズ込みで多彩な人型描写ができることが判明。
ポーズ系LoRA不足を補うことができることもあって一大人気に。

後述のAnimagineXL(系列)と比べると、「大きい可能性を持つが、使いこなすまでのハードルが高い」というのが特徴的。
画像生成に関するネット上の情報はSD1.5系列のものが多いため、どのように記法すればいいかのノウハウ習得も難しい。

例えば、SD1.5系列やAnimagineXL系列では、プロンプトにmasterpieceという品質系プロンプトを挿入することが推奨されているが、本モデルでは学習元の都合上、適宜「score_9, score_8_up, score_7_up, score_6_up, score_5_up, score_4_up,」等とすることが推奨されている。

SDXLモデル普及の立役者であることは間違いないのだが、更にクオリティが上がった派生モデルも登場していることから相対的に扱いやすいとは言いがたいモデルとなっており、今から使うのであれば派生モデルが推奨。
派生モデルも含めたpony diffusion系列の詳細解説はこちらの個別記事を参照。
SD1.5系列におけるAnythingV3くらいの位置づけと思っておくといいだろう。

Animagine XL V3
Animegine XL V3.1(制作者:CagliostroLab)

リリース日:2024/1/11(V3.0), 2024/3/18(V3.1)
二次絵系。SDXLモデルが普及するきっかけとなったモデルその2。
使いやすい2次元用モデルであり、キャラ系LoRAの不足をモデル側で吸収した力業(取り込みまくった結果としてオリジナルにも対応可能)。civitaiのgalleryにある通り叡智な絵もお手の物。通称:兄魔人(兄魔神)。
SDXL系列が急速に普及する切っ掛けとなった。

SD1.5系列をベースとしつつ進化しており、プロンプトについてはdanbooruタグがそのまま利用可能であり、ある意味、SD1.5系列を順当に進化させたといった位置づけで利用可能。
上記のPony Diffusion系列と比較するなら、ある程度のクオリティのイラストは簡単に生成できるが、トリッキーなイラストの生成はあまり望めないため、初心者向けと位置づけられる。

詳細については個別記事があるため、こちら最近の主な出来事#2024/1/11 (モデル)Animagine XL 3.0も参照のこと。

V3.0で人気が出たモデルだが、2024/3/18にはV3.1も登場している。性能面のみならず、記法など扱い方も多少違いがあるため、上記個別記事を参照。


二次絵系

CounterfeitXL (base) (制作者:rqdwdw)

リリース日:2023/7/29, 2023/8/6更新
SD1.5系列で定番モデルの一つとして人気を博していた「Counterfeit」のSDXL系列版。
もっと見る

294 無念 Name としあき 23/07/29(土)18:52:51 ID:KE6n1BhM No.1121804728
CounterfeitのSDXLがCivitaiにあったからお試し
裸はまだ駄目っぽいけど期待したい

34 無念 Name としあき 23/07/29(土)19:17:40 ID:4K2zO10M No.1121812779 そうだねx2
たておつ
CounterfeitXLいいね
髪と目が特に改善されてる

250 無念 Name としあき 23/07/30(日)07:11:54 ID:8kMLL5Ug No.1121977846
たておつおためしCounterfeitXL
画像がノイズまみれになるなあと悩んでたがVAEをAutomaticやNoneに変えたら解決した

MomoiroPony(制作者:oritatami_neko)

リリース日 : 2024/2/22
上記Pony Diffusion V6 XLを元に、FuwaFuwaMixの作者でもあるoritatami_neko氏によるLoRAマージ版。
「ポニーが流行っているので使ってみたいが、絵の塗りがちょっと濃くて……」という人向け。
プロンプトの記法はPony Diffusion V6 XLと同様。
なお、目に特徴がありサンプルと同じような瞳になりがち。

本モデルでもプロンプト次第でポニー風味が出てしまうので、加えるなら上記推奨+ポジティブにsource_anime, ネガティブにsource_pony, source_furry, source_cartoon,として「原作度」を抑えていくといい。
(source_animeをプロンプトに入れたらポニーアニメの本編キャプ参照が強化されて苦労するだけなんじゃないかと思うのだが、Pony Diffusion V6 XL流行当初からなぜかよく指定されている(案外、EQGの分が効いてるのかもしれない))。なおモデル名は作品本編の桃色のポニーとは関係ない。

YutaMix PXL(制作者:Iselestia)

リリース日 : 2024/3/12
こちらも上記Pony Diffusion V6 XLに、YutaMix XLが融合されたモデル。SD1.5用のYutaMixの作者でもあるIselestia氏によるXL用のモデル。
SD1.5でAbyssOrangeMix系を用いており、Pony系XLでも同系列の画風を所望するとしあき向け。

追記:→リンク先と作者が消えており・・・(SD1.5版の「YutaMix [fp16-no-ema] [SafeTensors] [Checkpoint]」は残っているが、XL版は無し。情報提供求む)

anima_pencil-XL(制作者:blue_pen5805)

リリース日:2024/1/12(Ver.1.0) ,2024/3/2更新(Ver.2.0)
blue_pencil作者による、上記Animagine XL V3組み込み版。ややアニメ絵寄りの画風になり、線が安定しやすい。
簡単に出てくるキャラのプロンプト一覧(Animagine XL V3と共通)https://huggingface.co/spaces/Linaqruf/animagine-xl/blob/main/wildcard/character.txt

AutismMix SDXL

リリース日:2024/2/2
海外でよく使われているPony系アニメモデル。通常の使用にはconfettiが、一部LoRAの使用や学習にはponyが推奨されている。
Momoiro等とはLoRAの効き方が変わるため、主にPony用海外製LoRAの効きが悪い時に試す価値あり。

万象熔炉|Anything XL(制作者:Yuno779)

リリース日:2024/3/10
SD1.5系列で一世を風靡したAnything(V3,V5)の作者によるXL版モデル。
定番モデルとしても記載されているAnimagine XL V3やPony Diffusion V6 XLを含めた6つのモデルをマージし、それぞれの特徴を引き継いでいる。
Civitaiのモデルページで説明文として「AIアートは、人間ではなくAIのように見えるべき(意訳)」と書かれていることからも分かるとおり、SD1.5系列のAnythingやNovelAIを感じさせる画風が特徴的。
プロンプトの記法もSD1.5系列を踏襲しており、danbooruタグが利用可能。下述のように、最初にスタイルやアーティストを指定することが推奨されている。
記法:style/artist/... , 1boy/1girl/1other/..., character名, 特殊タグ, その他のタグ

実写系

Cherry Picker XL (製作者:tkvier)

リリース日: Ver.3.0 2024/3/4, Ver.2.7 2023/10/2,
実写系のおすすめが書かれていないため、個人的なおすすめ記載(XLのブロンド美人さん実写系ではこれが今のところ一番安定していると思う):「DeepBlue XL」のマージ作者でもあるtkvier氏曰く「リアル系モデルを厳選してマージしたモデル」「SDXLベースモデルのため解像度は896x896以上がおすすめ」との事。

fudukimix (製作者:kotajiro001)

リリース日:Ver.2.0 2023/12/18,
個人的なおすすめ-その2(XLの日本含むアジア系美人さん実写系でのおすすめ):SD1.5でも実写系モデルを作成している作者さんによるXL用モデル(このfuduki以外にもXLモデル有)

Juggernaut XL(製作者:KandooAI)

リリース日:Juggernaut X RunDiffusion 2024/4/20, Hyper(Lightning版) 2024/4/27,
SDXL実写モデルとしてはおそらく世界で最も使われていると思われるモデル。かなりの頻度でバージョンアップがなされる。LCMやLightningに即座に対応するなど、新技術の取り込みも異常に早い。
欧米系の画像は強いがアジア系は弱い印象(出なくはない)。すぐに脱がせる傾向にあり、large breastsだけでπ丸出しのパツキンネーチャンが出てきた。
Hyperモデルはわずか6ステップで通常版と遜色ない画像を出せる。低スぺグラボ民の心強い味方。DPM++ SDEが推奨されているが、うまくいかなければSGMUniformを使おう。

Realistic Stock Photo(製作者:PromptSharingSamaritan)

リリース日:V2.0 2024/1/11,
1人の人物をポートレート的に描写するのが得意なモデル。安定して綺麗な人物画を出力してくれる。欧米系がメインだがアジア系も出る。CFGは低めが推奨されている。

real pony(製作者:dendenmusimusi05490)

リリース日:realPony_cute_Jp_Fixed_No.03 2024/4/14,
上記ponyでの写実版。このリアル版でも、やはりプロンプトにscore_9, score_8_up, score_7_up,は必須。
写実系であっても元はponyなので、pony専用LoRAが適用可(ただ、合う/合わないはあるので、そこは試行錯誤)
短めのプロンプトの方が安定しやすい気がする。色々なNo.の種類あるけれど、どの種類もアジア系の美人さんが出やすい。