Illustrious-XL

Last-modified: 2025-12-26 (金) 10:55:04

1.0/1.1については最近の主な出来事こちら、2.0についてはこちら、3.0以降については公式ページを参照。
2025年6月2日現在、本ページの情報は基本的にV0.1及びその派生モデルを元に記述。


概要

韓国の企業OnomaAISDXLモデルのkohaku-xl-beta5をベースにファインチューニングしたSDXL系列モデル。
日本では英語名をそのままカタカナ表記し「イラストリアス」と呼ばれることが多かったが、現在ではIL、リアスと略されることが常。
2025年6月2日現在の最新バージョンは3.5であり、SDXLモデルとしてはこれ以降の将来的なバージョンは予定されていないが、Lumina ImageベースのIllustriousについてはリリース計画がある。
いつの間にか、3.6が登場した。

絵柄・キャラ・構図などを幅広く学習しており、高いポテンシャルを感じさせるモデルで、Danbooruのリソースが学習に利用されていることから、SD1.5やAnimagine系列の記法がほぼそのまま利用でき、エロプロンプトへの反応も良好でAnimagine系列では認識できなかったワードでも認識可能となっているものも少なくない。
学習範囲が広すぎる副作用として、絵柄が安定しづらかったり、背景の描写はあまり得意ではなかったりという特徴が見受けられる。

歴史

2024年9月25日にV0.1モデルのマグネットリンクが何者かによって流出したことにより、2024年9月30日にV0.1が正式にリリースされた。
この時点で、V1.0、V1.1、V2.0についても学習を進めており将来的にリリースすることを発表していた。

その後、しばらくは音沙汰がなかったが、上記の通り、ポテンシャルの高さを活かし、多くの派生モデルが作成された(派生モデルについては後掲)。

そして、2025年2月11日にV1.0、V1.1が、2025年3月15日にはV2.0がリリースされた。
当初から、V1.0以降のリリースについては発表されていたが、どのような形態でリリースするかは全く触れられておらず、V0.1がモデルの流出に伴って配布された経緯から、V1.0以降も同様に配布されるかどうかは分からず、APIとしてのみの公開に留まる可能性も危惧されていた。
蓋を開けてみると、懸念のとおり、APIのみ、しかも有料サービス限定の公開であった。

その後、V1.0、V1.1、V2.0についてはモデル配布もされている他、画像生成サービスで生成も可能だが、V3.0以降は公式ページからのみ生成可能でモデル配布についても未定。

V0.1の時点では一世を風靡したといっていいモデルだが、それから時間が経ったことや、V1.0、V1.1リリース直後の対応が評判を落とすことになってしまった。
そもそも、SDXLモデルであるという点は変わらないことから、その後のバージョンについても公式が謳うほどの性能的アドバンテージを見出すことはできておらずV0.1リリース直後ほどの話題性はないというのが現状のようである。

騒動について

少なくとも、イラストリアスのモデルを普通に使うだけであれば気にする必要が無い内容なので折り畳み。

V1.0、V1.1関連

V1.0のリリース直後はモデルはAPI、しかも有料サービス限定で公開された。
この点について、illustriousモデルがそもそもSDXLをベースとしているわけではなく、kohakuを元にしているのに対し、有料限定としたことで多くの否定意見が噴出した。

これに反応してか、リリース翌日にはV1.0についてはアーリーアクセスとして10ドルでモデルを配布開始したが、結局のところ、モデルに対してお金を取るというスタンスに対して否定意見は止まなかった。
翌日には開発者がイラストリアスに関するコメントを発表し、要約するならば

  • 一気に新しいモデルを出すわけにはいかず、順番にリリースしていかなければならない
  • モデルを開発する上で多額の費用が必要となった為、その費用を(アーリーアクセスとして)回収しなければならない
  • 最終的にはオープンソースとする

といったことが述べられており、アーリーアクセスの正当性などを主張しているものの、そもそもオープンソースのkohakuを利用しているのにお金を取るということについては全く触れられていないのが現状であった。

なお、こういった対応のためか、リリース直後はCivitaiの同モデルの生成画像で中指を立てたものが乱立するというなかなか稀有な現象が見られた。
コメントについては数日後にCivitaiが対応して不適切コメントとして大幅に削除されたためか、一端は落ち着きを見せることとなった。

最終的に、3月13日にはV1.0がアーリーアクセス期間を終え、自由にダウンロードできるようになったため、一端この辺りの問題は落ち着くことになった。

V3.5 vpred関連

開発者側は既にV2.0、V3.0、V3.5 vpred(以下V3.5)についての開発についても言及しており、それぞれのモデルについて公式ページで開発費用のサポートを受け付けている。
それぞれの目標金額は300,000スターダスト(編注:1,000スターダスト=10ドルなので事実上3,000ドル)となっており、同ページでは「特定のスターダストレベルを超えるとモデルのウェイトが即座に公開されることを約束する」と書かれていた。
もっとも、その後に「モデルによって、特に高度なモデルでは、必要なスターダストしきい値が異なります。3.5vpredおよび将来のモデルでは、持続可能性を確保するために目標が引き上げられます」と書かれているが、具体的な目標値については一切示されていなかった。

結果的に、V3.5モデルについては目標となる300,000スターダストを達成したものの、約束とされていたモデル公開がなされないことを批判する声が殺到している段階にある。
これに呼応してか、3/19に開発側がillustrious開発の舞台裏とした記事が公開されているが、結局目標としているスターダストがいくつであるのか、いつ公開するのかは一切示されておらず開発に費用が掛かっている旨の内容が述べられているに留まっている。

特徴

教師画像の枚数やタグ数といった学習規模がAnimagineやPony等の既存モデルと比べて格段に大きいため、出力できる要素*1が圧倒的に多い事が最大の特徴。
ただし、学習される画像の傾向そのものが変わっているわけではないので、既存のSDXLモデル同様、背景については弱い*2
また、SDXLベースであることにも変更はない(仕様としてのモデルのファイルサイズが同じ、生成システム自体に手を入れているわけではない)ため、後発だからといってオールラウンドに優れているということはなく、目的や結果で使い分ける必要がある。
プロンプトにおいて上位互換という訳でもなく、AnimagineやPonyでは使えていたプロンプトが効かない場合もある。
公式で自然言語に対応しているとされるVer2が公開されたが、上記のようにモデル側だけでの対応の細工しかできない都合上、各種AIチャットサービスから自然言語で指示する画像生成の使い勝手には遠く及ばないレベルにとどまっている。

キャラをタグだけで出せると何が嬉しいの?

LoRA無しでキャラクターを出力できる利点は、1枚の絵に2キャラ以上を描画するのが楽な事である。*3
illustrious系モデルはタグのみで出せるキャラが従来モデルより格段に多いので、それらのキャラクターでの百合画像や3P画像を作るのが非常に簡易になっている。キャラ出力に必要なタグが少ないことでトークンも節約できるため、他のタグの効きも良くなる。

モデル

公式モデルの配布サイトは以下

注意 ベースモデルなためか、画風が安定しなかったりノイズが多い画像が出る事も多い。
画像出力が目的であれば、次項で紹介する派生モデルを使うのが一般的である。*4

Illustrious派生モデル

オリジナルのIllustriousモデルを調整して画風などを安定させたモデル。

WAI-illustrious-SDXL(制作者:WAI0731)

派生モデルの中で最も主流と言われているモデルでWAI-ANI-PONYXLの制作者でもあるWAI0731氏作。
NSFWへの風当たりの影響からか、名称が「WAI-NSFW-illustrious-SDXL」から変更された(NSFWが削除された)が内容は特に変わっていない。

更新回数が多いモデルであり、一時期よりは落ち着いてきているものの、2025/12/19現在も更新は続いている。
2025/12/19現在、2025/12/18のv16.0が最新版となっている。
v14.0の際にベースモデルをIllustrious XL 1.0に変更したと記述されているため、逆説的にv13.0以下までのベースモデルはIllustrious XL 0.1と考えられる。
v14.0の際に既に2.0もリリースされていたが、思ったような品質が出なかったため採用しなかった旨作者がコメントしている(Illustrious XL 1.1については言及なし)。
また、v14.0からおよそ4ヶ月ぶりに更新されたv15.0もベースモデルはIllustrious XL 1.0とコメントされている。
v16.0についてはベースモデルのバージョンに関して特段の言及はされていないが、ベースモデルを変更したという言及はない。

バージョンが多いモデルであるが、最新バージョンが必ずしも良質とは限らず、各人の好みに左右される傾向にある。
バージョンによって特定のプロンプトの効きに差があるケースもあるため、複数のバージョンを併用してみるのも悪くない。
なお、制作者がv1.0~v4.0は古いのでダウンロードしないでくださいと記載しているため、吟味する場合はv5.0以降だけで十分であろう。

ちなみに、CivitAI上では2025/12/19現在、v11.0、v12.0、v14.0、v15.0、v16.0の5つのバージョンを利用した生成が可能(ダウンロードはすべてのバージョンが可能)。
以前はv13.0も利用可能であったが、現在は利用不可。
この辺りのバージョンを中心に比較してみると……

  • v9.0
    • v14.0がリリースされるまでの間は最近のバージョンの中で評価が比較的高く、後のバージョンはv9.0と比較されるケースが多い。
  • v10.0~v12.0
    • いずれもv9.0を微調整したといっていい雰囲気で、バージョン毎に絵柄の方向性が異なる。絵柄が好みであればv9.0よりも高評価と見做されることもあるが、そうでなければv9.0の方が推されることが多い。
    • v9.0と比較すると、v10.0はやや幼い雰囲気、逆にv11.0は大人っぽい雰囲気になりがち。v12.0はその中間という意味ではv9.0に最も近い。
  • v13.0
    • 公式絵に寄りやすい雰囲気。
    • 良くも悪くもv9.0~v12.0とは異なった結果が出力されやすいので賛否が強い。
  • v14.0~v16.0
    • v14.0からベースモデルがIllustrious XL 1.0に変更された(v16.0は制作者が特段のバージョンと明言してはいないが、ベースモデル変更の話はないため1.0と思われる)。
    • ベースモデル変更の恩恵でか、表現力が増しており総じて高評価だが、一部プロンプトの結果が劣化したとの声もなくはない(ただし、これはこのバージョンに限った話でもない)。
    • v15.0、v16.0も概ね傾向は変わらず。個人の感覚によってどのバージョンが高評価であるか、という認識は変わる傾向。
    • 一応、新しいモデルの方が追加学習の恩恵で人気のあるソーシャルゲームやアニメのキャラクターが追加で出る傾向はある。

バージョンによるが、制作者曰く「大半のPony用LoRAとも互換性がある」とのこと。

RouWei(制作者:Minthybasis)

NoobAI派生モデル以外では数少ないVpred対応モデル。NSFWも可。
NoobAI派生ではないのでそちらのライセンスによる影響もなく、出力画像については商用利用にあたるような利用方法でも特に問題なく使える。
Vpredなので発色も鮮やか、データセットのクリーニングを徹底しておりウォーターマーク(透かし)の漏れなどもなくプロンプト遵守性も高いという触れ込み。

Illustrious v0.1をベースに1300万枚もの大規模データセットを用いファインチューニングを行ったもの。
個人の道楽で作っているらしい。制作者は4th tailと同じMinthybasis氏。

ただし、絵師タグや画風タグはメインのプロンプトと分けてBREAK文や「条件付け(連結)」ノード(ComfyUI)で繋ぐ必要があるなど、細かい注意点が多く中級者向け。一応適当に打ったプロンプトでもそれなりのものは生成される。
またVpred版はデフォルトだと推奨CFG3~5となっており、それで物足りない場合はCFG調整機能を持つ拡張機能などを使わないとうまくいかない。


派生モデルとして、上記のWAIとの合いの子であるWAI-Branch-Rouwei(制作者:WAI0731)や
Noob系との合いの子のJANKU(制作者:janxd)などがある。
派生モデルのほうがじゃじゃ馬感が少ないらしい。

Hassaku XL (Illustrious)(制作者:Ikena)

NSFW対応。SD1.5で人気のあるHassakuのIllustrious版。
IL系の姉妹モデルとしてはAmanatsu、Sudachiもあり、それぞれ絵柄の方向性が異なる。SDXLベースだと他にpony系のHassakuもある。

推奨解像度832x1216(13:19)となっているように、ライトノベルの挿絵や表紙みたいなブラシ塗りっぽいイラストを明るい色合いで生成する。
Amanatsuはもっと落ち着いた色合いで、Sudachiはのっぺりめのアニメ塗りになるようだ。
Hassakuも一応プロンプトに「(anime style:1.4), shiny」とか入れればある程度はアニメ塗りっぽくしてくれる。
文字やロゴ、漫画のようなフキダシ(speech bubbles)が混ざらないようトレーニングされており、ネガティブプロンプト「signature」でさらに抑制できる。

NSFWも生成できるが、18禁ライトノベルの挿絵のような何とも言いがたい「エモい」絵が生成される。実用性については好みが分かれると思う。
基本的にはPOV的な構図しか出せず、男はうまく生成されてもヘボゲのようなモブ顔になりがち。

その他

他にも2024年10月時点でとしあきがスレでよく使っていたものとして、

などがある。

NoobAI-XL

https://civitai.com/models/833294
Illustrious-XL-v0.1をベースに追加学習したモデルであり、他のマージモデルとは性格が異なる。
追加されているのはillustriousに含まれなかったdanbooru2023年以降追加分データとe621のデータセットで、v1.0が2024-11-03に公開された。
2024年前半期に絵が増えたキャラクターの追加の他、e621タグ追加、構図系タグの効果向上などで強化されている。
11/18には公式ガイド記事がcivitaiで公開された。
注意 illustriousオリジナル同様にベースモデルの性格が強く、画像出力が目的の場合noob派生モデルを使うのが一般的である。*5
また後述の通り生成結果に関しては不明瞭なillustriousと違い、生成物まで含めて商用禁止が明言されている点にも要注意。
ただしこの点については、後述するfair-ai-public-license-1.0-sdの"Output"条項と矛盾してしまっている。noobはIllustriousの派生であり当然このライセンスにも準拠しているため、生成物の商用利用禁止を定めた項目は無効であるとする主張がある。どころかIllustriousライセンスを採用するNoobAI派生モデルが多い

noob派生モデル

  • NTR MIX | illustrious-XL | Noob-XL
    破綻が少なくnsfwな画像を出力することができる。タグの効きも良好で、特殊プレイも難なく破綻なしで出力可能。いわゆるnsfwが目的ならば現状最有力。
    学習時の都合なのか、推奨されている設定やタグの並べ方にやや癖があるため要確認(必ずしも忠実に従う必要はないが)
  • Obsession (Illustrious-XL) (v2以降)
    noobから更に画像数万枚を追加学習してある。Novel AIに近い感覚で使用可能。
  • copycat-noob
    いわゆるマスピ系の絵柄
  • LibrasIllustriousXL(v4α以降)
    アニメ塗り絵柄が得意
  • Illustrious XL personal merge
    Obsessionなど複数モデルを混ぜたいいとこどりで、手足や人体の破綻に強い。v3.0_noob-1.0basedが安定版(2024/11/25現在)
    モデル独自の絵柄を作ろうとしているタイプではなく、出力に多様性があるのも強み。
  • Illustrious XL personal merge lowsteps lowcfg
    低ステップ低CFGでの高速出力用。6steps CFG1の場合、他モデルで24steps 6CFGでの出力と比べると出力時間はおよそ1/4になる。
  • RedCraft | 红潮 CADS Commercial & Advertising Design System
    実写系。数ある実写マージモデルで特にアジア系美女に強い。noobai本来のプロンプト追従性は若干弱まっている。
  • PornMaster-Pro 色情大师- Illustrious & noob
    実写系。プロンプトに忠実でnoobaiで出るキャラならキャラ名だけでコスプレ実写出力が可能。アブノーマルプロンプトにも対応。
    実写向け・二次絵向けなど様々なパターンのトリガーワードが用意されているのでcivitaiを参照のこと。
    キャラによっては実写出力しようとしても3DCGどころか雑なARみたいな絵面になりやすいため、
    ベースモデル(noob)の他にめずらしく実写出力用のrefinerモデル(Realism-IL)も配布されている。 → SDXLモデル
    refinerのRealism-ILは実写しか学習していないようで、Realism-IL単体だとドンキのコスプレみたいなのしか出ない。
    cosplay photo出力におけるrefinerへの適切な切り替えタイミングはキャラ(とプロンプト)による。版権二次絵でも元が写実的だったりあるいは恐らくレイヤーがいっぱいいるような覇権ジャンルならnoob単体でも結構いい線までいける。ベタ塗りのアニメ絵しか学習されてないようなキャラだともうほとんどi2iである。

noobAI V-predモデルについて

現在NoobAI-XLにはEpsilon(イプシロン)モデルとV-pred(V-Predict, V予想)モデルの2つがある。
V-predモデルは色のコントラストのはっきりした画像を作ることができる。(例えばEpsilonモデルでプロンプトにnight(夜)と入れても全体的に明るい画像が出てしまったり)

  • V-predモデルを使うにはV-predを扱える環境が必要。対応出来ていないユーザーは案外多い。
  • V-predが真価を発揮するにはZSNRも必要。これはマージによって損なわれる情報なのでマージする時は注意が必要。
    • 本当にZSNRで初期ノイズが無視されるならEulerサンプラー(ancestralでないほう)でシード値は無効なはずだが、実際には効く。

使用方法

詳しくはcivitAIのNoobAI-XL配布ページの右側にAbout this versionという項目があるので
最新情報をそこで確認しよう。

  • 1111
    mainブランチでは対応していない。devブランチでなら対応済みなので、そちらに切り替える必要がある。
    ローカル版更新#「master」↔ 他のブランチへの切り替え
  • Forge
    基本的には特に何も設定変更する必要ない。
  • reForge
    基本的には特に何も設定変更する必要ない。
    V-predモデルはモデル内のメタデータに「これはV-predモデルだよ」という情報を含んでおり、それをツール側がフラグとして検出して、自動的に設定を切り替えてくれる。
    ……はずであるが、このフラグはモデルマージなどの際に失われることがある。
    そういう時は、ユーザーが手動でV-pred用の設定を有効にする必要がある。下記参照。
    • txt2img画面の左下に、「Advanced Model Sampling for reForge (Backported)」というタブがある。
      「Enable Advanced Model Sampling」をON。
      「Discrete Sampling Type」が「v_prediction」になっていることを確認。
      「Zero SNR」がONになっていることを確認。
  • ComfyUI
    ComfyUIもデフォルトでV-predをサポートしており、自動的に設定を切り替えてくれる。
    基本的には特に何も設定変更する必要ない。
    古いバージョンのComfyUIを使用している場合やモデル内のメタデータにフラグがない場合は下記参照。
    • Model Samlpling Discreteノードをmodelと繋ぎ、"v-predition"を選択すればV-predモデルを使用できる。
      epsを選べば通常のモデルと同じように生成できる。
      zsnrはどちらでも動くが、前述の性質上true推奨。

理論

バイアスのかかり方がepredとは異なるオルタナティブモデルという存在である。
epredモデルの「完全上位互換」ではない。
「モデル単体では」epredより収束が速く鮮やかな画像が生成されやすい。それはZSNRだからではない。

 

StableDiffusionは元々、写真やイラストのような意味のある画像が意味のないノイズになるまでノイズを付加していく過程を学習させることで、完全なノイズからプロンプトをもとにノイズになる前の元々の絵はどんなものだったか推論させる(デノイズ)仕組みである。
しかし拡散モデルのその方式では、ノイズが極端に多いステップと逆に信号が極端に多いステップとで予測難易度が違いすぎるため、結果としてモデルに次のようなバイアスがかかる。

  • ノイズεを予測させるepredでは、高ノイズ領域は事実上予測不可能なのでガウスノイズの平均0に合わせて白紙化する方向にバイアスがかかる。
  • 教師画像x0を予測させた場合は、高ノイズ領域では平均化された画像の印象を答えるが、低ノイズ領域では何もしない方向にバイアスがかかりディテールが甘くなる。

元祖拡散モデルであるDDPMではepredのほうが圧倒的に品質が高く、その後の拡散モデルもその方式を踏襲していた。
(Jonathan Ho「Denoising Diffusion Probabilistic Models」arxiv)

 

しかしながらepredでも高ノイズ領域での予測確度の低さは変わらないため、蒸留等によって低ステップ化すると露骨にその弱点が出ることになる。
そこで「あくまで拡散モデルの枠組みと整合する」オルタナティブな予測方式として、予測対象のスケールを均して学習を安定化させる方式としてv予測が提案された。
(Tim Salimans、Jonathan Ho「Progressive Distillation for Fast Sampling of Diffusion Models」arxiv)

ベロシティは次のように定義される。
v=√(αt)ε-√(1-αt)x0*6
ここでαtはステップtにおいて元の画像がノイズに埋もれずに残っている比率を表すスケーリング係数である。これはステップ数とノイズスケジュールによって決められている。
εはノイズ、x0はノイズ除去後の画像として予測される姿である。学習時はx0=教師画像なので、当然ε予測よりも教師画像の構図に引っ張られやすくなる。

vには教師画像x0とノイズε両方の成分が含まれているため、高ノイズ領域ではx0成分が効いて白紙化を避けつつ画像方向に寄り、低ノイズ領域ではε予測の成分が効いて細部の描写力を保つことができる。

 

ただし拡散モデルの根本的な問題はノイズの拡散過程を学ばせていることで、予測確度の低い段階で構図が決まってしまい予測精度が上がる後半では微調整しかできない点にある。
v予測は収束の安定性を改善するが、この構造的な制約は変わらない。
一方Flow Matchingではt2iで与えられる初期ノイズを起点画像として扱うため、初期ステップの予測に使える情報が多くプロンプト追従性や構図の柔軟性が改善されている。

V-predモデルの欠点

v-pred論文はStable Diffusionが発表される前の論文で、条件付けもそこまで複雑ではなく、当時の拡散モデルは非常に低速だったため128ピクセル四方などの低解像で評価されており、構図形成の問題は顕在化しにくかった。

 

(1) e-predよりv-predのほうがむしろ、早期ステップで「指示していないものを勝手に描く」傾向が強い
実際はZSNRオンでもオフでもvpredモデルの挙動は大して変わらない。
シード値を変えてEuler等の決定論的ODEサンプラーで1ステップ生成すれば分かる。

ノイズが確率的に散布されている以上、学習時のXtには局所的に教師画像と同じものが含まれており、モデルはノイズと完全に違う値を返すとかえって減点される。
(損失二乗誤差による評価はドンピシャで当てなくても、それっぽい値を返せればある程度の点数を取れる)
そして初期ステップがx0予測に近いv-predは、ノイズの中から大域構造を拾ってしまう。
大域構造(低周波)はノイズに消されにくいので、x0予測側に寄ると自然とそちらを探索するようになるため。
t2iの初期値であるガウシアンノイズには、低周波も高周波も均等に含まれている。

そもそも、自然画像分布は高次元空間全体に広がっているわけではなく、低次元のマニフォールドに強く集中していると考えられている。
拡散モデルは、このマニフォールドに沿った確率密度の勾配を学習するため、入力がノイズであっても自然にマニフォールド方向へ向かう。
この「マニフォールド集中」という前提は、近年の拡散モデル研究で広く支持されている*7
x0予測では、完全に無意味なノイズを与えられても自然画像マニフォールドの方向に寄せるだけでかなりの点数を取れてしまう。

またガウシアンノイズは平均0の正規分布で、SDの潜在空間では中間色部分が多い。
「偶然」教師画像と一致する部分も自然と中間色が多くなる。
vpredもepredよりマシなだけで、中間色への偏りは完全にはゼロにはならない

 

VE-SDE方式の拡散モデルでは真のZSNRに限りなく近い状態を達成できていたが、
サンプラーによる補間が全然効かない*8(=1000ステップ程度必要)ため実用化されなかった。

Flow Matchingモデルは、拡散モデル程には初期ステップの構図に縛られず、途中からでもある程度構図や色彩を修正できる。
その為、FMでは早期ステップでの予測ミスが拡散モデルほど致命的にはならない。

 

(2) 鮮やかだが構図に関するプロンプトが効きづらい
線の太さや塗りの質感といった画風への影響が強い部分は高周波成分でも調整できるため、ε予測と同程度のプロンプト追従性だが、
構図に関しては早期ステップで固定化されてしまい調整が効きづらい。

 

自然画像は規則的な統計構造を持つため、非常にコンパクトな自然画像マニフォールドに集中する。
一方、ノイズは高次元で自由度が高く、予測が極めて難しい。
このため、v-predも中盤までは当てやすいx0成分を優先し、実質的にx0予測的に振る舞う。
学習時にはノイズを正確に当てるより、入力xtをわずかに自然画像の集中している領域へ寄せるほうが損失が下がりやすい。
x0予測では構図を積極的に描き変える動機が弱く、初期の構図ミスが固定化されやすい。

ε予測では、ノイズを当てないと損失が下がらないため、モデルは学習時に観測していた高周波ノイズ成分を探し出そうとする。
推論時にノイズが均されていても、学習時と同じ量のノイズがある前提で粗探しを行い、削るべき部分を探す。
この方式では誤差が主に高周波側に蓄積し、低周波(構図・大域色)にはほとんど影響しない。
そのため、途中で仕掛かり画像が多少崩れても、次のステップで低周波構造を保ったまま細部を上書きして修正できる。
結果として、ε予測では誤差が構図側に溜まりにくく、構図を柔軟に描き変えられる。

 

v-predは、初期ステップではx0成分が優位になるため、x0 予測特有の「構図を固定しやすいバイアス」をそのまま引き継ぐ。
後期ステップではε成分が優位になり、細部の修正は速く収束するが、
構図形成フェーズ(中盤)ではx0バイアスが強く残るため、プロンプトによる構図変更が効きにくい。
その結果、v-predはx0予測よりは鮮明で安定するものの、構図や意味の誘導は弱く、プロンプトが効きづらいモデルになりやすい。

 

(3) サンプラーによる品質調整がしづらい
モデル単体ではepredより収束は速いが、サンプラーとの相性差が激しく誤差補正を調整しづらい
拡散モデルやFlow Matchingでは、実用上モデルは時間軸方向での一貫性を自力で保つことに限界があり、
サンプラーが過去ステップでの予測スコアを参照して誤差を補正するという二人三脚方式になっている。
しかしvpredモデルの予測スコアはサンプラーが追いづらくその調整がしづらい。

SD2.0の頃はDPM++などの高速で安定性の高いサンプラーが次々発表されたサンプラー戦国時代であり、この欠点は致命的であった。
SD2.0でvpredが採用されたにもかかわらずSDXL公式モデルがepredに戻ったのも、この欠点が大きな原因の一つと考えられる。

理由

拡散モデルの生成工程にはサンプラーがモデルを近似しやすいステップと近似しにくいステップとがある。
epredモデルの場合、構図形成が行われる中ノイズ域が最も近似しにくい(なのでKarrasスケジューラはそこに多くのステップを割いている)。
ところがvpredの定義の式はxとeの重みが時間とともに逆転し中盤で方向性が急激に揺れるため、サンプラーにとって追跡が難しい時期がさらに長い。
サンプラーの近似精度を上げすぎる(曲率補正をかける)と、今度はモデルの予測誤差まで拾ってしまう。

 

Flow Matchingではこの改善として、モデルの学習段階でできるだけ早くサンプラーの追いやすい速度場を返すよう強い圧力をかけている。

利用方法

デモ版

webブラウザからデモ出力を試すこともできる。 →https://huggingface.co/spaces/AngelBottomless/Illustrious-XL-v0.1-demo
出力した画像に付いていたメタデータは以下の通り

{"prompt": "1girl, smile,general, , masterpiece, best quality, very aesthetic, absurdres", "negative_prompt": "nsfw, lowres, (bad), text, error, fewer, extra, missing, worst quality, jpeg artifacts, low quality, watermark, unfinished, displeasing, oldest, early, chromatic aberration, signature, extra digits, artistic error, username, scan, [abstract], , explicit, questionable, nude, naked, pussy, penis, uncensored", "resolution": "896 x 1152", "guidance_scale": 7, "num_inference_steps": 28, "seed": 254607005, "sampler": "Euler a", "sdxl_style": "(None)", "add_quality_tags": true, "quality_tags": "Standard v3.1", "use_upscaler": null, "Model": {"Model": "Illustrious XL v0.1", "Model hash": "e3c47aedb0"}}

ぶっちゃけほぼAnimagineからの使い回しだが公式による設定は参考の一つとなるはず。

画像出力設定

公式モデルv0.1の推奨設定はサイトのUsage項によると

推奨出力サイズは他のSDXLと同様1024x1024が基本で、896x1152、832x1216、768x1344など。
公式技術文書の予告ではv1.0以降は学習サイズが1536x1536になるとあり、それに伴う変更があるかもしれない

プロンプト

モデル学習時には画像のキャプションは以下の順で記述されたとある。

人物概要(1boy、3girls、no humanなど)、キャラ名・作品名、レーティング、雑多な一般要素、アーティスト、クオリティ、年代

このモデルに関わらずプロンプトの記述順序は必ずしも学習時の順序に従う必要はないが、上手くいかないと感じたら順序を考えてみるのもいいかもしれない。

使えるタグはdanbooruで確認できる。
ただし、画像登録枚数が少ないタグの学習程度は低く、タグがあるから使えるわけではない点に注意。*9
また、illustrious v0.1は2023年、noob v1は2024年前半頃までのデータを利用しているため、それ以降に画像が登録された分についても学習されてない。
Illustrious XL v0.1 Visual Dictionary(Civitai)といった有志による一覧も参考になる。
tips項目で後述するが、アンダーバーとスペースの扱いに注意。

レーティング

一応sfw/nsfwでも学習されているようではあるが、より詳しく『general』『sensitive』『questionable』『explicit』の4種類に分類されている。
どすけべな絵が欲しい場合はexplicitを入れておけば大抵問題無い。
分類基準はdanbooru wikiのhowto:rate項目を参照。
なお、Animagine XL3.1と同様『rating:』は不要。

クオリティタグ

従来モデルと同様に学習時の教師画像は品質によってランク分けされており、評価の高いものから順に
masterpiece, best quality, good quality, average quality, bad quality, worst qualityとなるため、
上から1~3つ程度をポジティブに、下から2つをネガティブに入れるのがおすすめ。

デモ版での出力画像のメタデータには、これらとは別にvery aesthetic, absurdresも用いられている。

ネガティブプロンプト

推奨例は以下の通り。(前述の公式デモ版で出力した画像の物からnsfwタグを除去)

lowres, (bad), text, error, fewer, extra, missing, worst quality, jpeg artifacts, low quality, watermark, unfinished, displeasing, oldest, early, chromatic aberration, signature, extra digits, artistic error, username, scan, abstract,

派生モデルの中にはまた別の例が付いている物も見かける。
ponyマージモデルでは元モデルの圧縮と追加画像の取捨選択によってネガティブプロンプトと品質系プロンプトは最低限でよい(そもそも"悪い"ものが入っていない)というアナウンスがあることもあるが、Illustrious系列ではまだその域に達していない。ある意味古式ではあるが、指定しないとかなり崩れるのでどちらも全文をそのまま記述しよう。取り除いて限界を探る冒険はあまりお勧めしない。

tips

  • アンダーバーとスペースは区別される
    複数のとしあきから「うまくいかなかったプロンプトのアンダーバー・アンダースコア(_)をスペースに置き換えると成功した」という証言がある。
    特に学習程度が低めの版権キャラクター出力の際に問題が目立つ模様。
    danbooruで調べた結果のコピペやタグ自動補完プラグイン(a1111-sd-webui-tagcomplete)の初期設定だと_が標準だが、illustriousモデルを使う際はスペースを使うほうが良いのかもしれない。
    タグ補完プラグインは設定でアンダーバーをスペースに置き換える設定がある。
    1729514620640.jpg
  • 版権キャラクター描画のコツ
    学習された際のタグに忠実なプロンプト表記で出力される確率が上がる。
    以下を試しても出ないキャラは諦めてLoRAを使いましょう。
    • danbooruで正確なタグを確認する (フルネームが必要だったり、shaとsyaを間違えてNGな事もある。艦これキャラなどはアズレン等と混ざるのでshimakaze \(kancolle\)等と学習元のdanbooruタグ通りにする )
    • 前項の通り正確なタグを記述するが、illustriousではアンダーバーはスペースに置き換えられて学習されている。アンダーバーをスペースに置き換える とても重要
    • 作品名タグもいれる その際の表記は『キャラ名, 作品名』
    • danbooru上の()表記は\でエスケープする。()でプロンプトの強調と置き換えられて括弧と認識されないため。例えば、saber \(fate\), fate \(series\) のように記述する。
    • 服装・髪型やキャラに関連するタグを追加する
      • 学習されたタグは関連タグを呼び寄せて、例えばsailor collarと入力すればbowtieやnecktieを勝手に呼び出しやすい。同じように、学習された関連タグを入力してキャラタグを呼び寄せて補強すれば良い出力が得られやすい。
        関連タグはdanbooruでわかる。下記のURLでキャラタグを入れてorder: frequencyを基準にすると出しやすい。 例えばsouryuu_asuka_langley solo plugsuitと入れればアスカ単体のプラグスーツ時だけの関連タグがわかる。
        danbooru related tag
    • 学習の弱いキャラはキャラタグ自体を強調してやれば出せることもあるので、出ない時は駄目元で試してみるのも手
      • 更に駄目元で、noob派生モデルは一時代を築き上げたponyLoraがやんわり効く。素出しでふんわり出る、学習自体はされているが弱いキャラタグなら、遺産のponyLoraで補強してやれば綺麗に出せることがある。
  • 版権キャラ衣装コスプレ
    • 登録数がある程度あればキャラタグ \(cosplay\)で出せる。登録数が少ない場合は関連するタグや強調を入れて補強する。
      Tag Listing *(cosplay)一覧
  • 男性キャラ単独描画
    1boyと入れたにもかかわらず女キャラになってしまう場合は『male focus』タグを追加する。
  • ponyでできていたことがうまくできないときの考え方
    我々が「ローカルの画像生成AIでなんか最近うまくいくようになった」と考えていたことの多くは、SDXL部分での進歩ではなく、pony固有の(ponyを前提とした)進歩であることが多い。
    系統樹的にはIllustriousとponyは根っこがSDXLであるというだけの別物なので、「ponyとそのマージモデルでうまくいくようになったこと」はIllustrious側には良くも悪くも無影響である。
    Illustrious系列は生まれたばかり(でもないが)なので、急かさず見守っていきたい。また、ある意味、充実への参加の余地があるということでもある。おひとつどうだろうか。
  • 間違えやすい記法
    強調でない()にはバックスラッシュ\(が必要だが、スラッシュ/をtypoする。webui上では見た目も相まってtypoすると気づきにくい。
    artist:toriyama akira, year:2023 これはNovelAIの記法の一派であり、artist:はartist nameとbanned artistというタグを強調する効果がある。banned artistを取り入れたいならお好みで。yearもまた意味がない。2023だけでOK
    danbooruタグに引っかからない英語で記述してしまう。illustriousはv1.1、v2.0と自然言語に近づきつつあるが、依然としてdanbooruタグによる記法が非常に有効。black randoseru,ではなくrandoseru, black backpack,が正しいdanbooruの記法で、狙った出力がより得られやすい。red elbow gloves,ではなくelbow gloves, red gloves,の方が良い出力を得られやすい。bigやsmallもdanbooruタグになければ基本的に通らず、danbooruタグによる記法をdanbooruタグで補助する記法が有効。例えば、book on legs,と記述すれば本を足に乗せやすく、book on legs,はdanbooruタグにはないが、〇〇 on 〇〇というdanbooruタグの数が多く、強く学習されていることもあり部位指定ができる。

LoRA

基本的にIllustrious系列モデルで学習された専用LoRAが必要であり、Animagine系列やPony系列のLoRAは使えないと思っておいた方が良い*10
もっとも、適用強度を1.3~2くらいまで高めたり、Pony系用LoRAで学習時に使われていれば『score_9, souce_anime』タグを記述するなどである程度使えるものもあるので、「使えたらラッキー」程度で試してみるのは悪くない。
当たり前だが、SD1.5用のLoRAは全く使えない。

日本時間2024/10/24、CivitaiにIllustrious専用の絞り込みが追加された。
ファイルの種類の横が「IL」IL_LoRA.pngになっていればIllustrious用のLoRAである。
noob系モデルはillustrious派生の一つなので、illustrious用LoRAはほぼ問題なく使える。

LoRA学習について

illustriousでのLoRA作成では学習に得意不得意があり、覚えやすい物と覚えにくい物がハッキリと分かれる。
最近の作品、有名な人気作品、昔の有名作品、それに近い特徴を持っている物は覚えやすい。
ただ、このモデルはプロンプトが強力であるため、学習したLoRAをモデル側が押し返してくるケースもある点に注意が必要。

ガイドによるとillustriousv0.1のキャプションデータはdanbooruタグが採用されている。
Animagine用LoRA作成時に利用した学習用データは問題なく流用可能、pony用に作ったキャプションからは独自の品質タグを抜いたりe621タグをdanbooru準拠に置き換えるのが望ましい。(side view → from side 等)

学習モデルは公式のillustriousモデルを使うのが無難であるが、LoRAトレーニング専用に調整されたモデルも存在する

ライセンス

Animagineと同様のfair-ai-public-license-1.0-sdというライセンスを採用している。
基本的にはAnimagineと同様であるが、モデル公開や生成画像を何かに利用しようと考えている場合は、説明ページを熟読しておくのが望ましい。

簡潔に言うと

  • マージモデル、追加学習モデル等の派生モデルの公開時は学習設定等の開示を行う*11
  • 倫理に反する用途に使わない*12
  • クローズドソース派生モデルを用いた推論サービスの提供禁止*13(生成画像の収益化の可否は不明*14)
    の三点である。

関連リンク

  • Civitai: Booru 1girl wildcard for IllustriousXL
    女性キャラのうちDanbooruの登録タグ数で上位約4000キャラ分のリスト。
    「v0.1モデルで出力を確認できたキャラのリスト」というわけではないが、参考に。

*1 キャラクター、オブジェクト、シチューエーション等
*2 背景を丁寧精密に描いているキャラ絵がそもそもネット上に少ないので再現もしにくいという、シンプルでどうしようもない理由である
*3 複数キャラを学習したLoRAを使ったり、regional prompterのようなLoRA適用位置を指定できる拡張機能を使う場合との比較
*4 Ponyもそうだったでしょ
*5 Ponyも(略
*6 Shanchuan Lin他「Common Diffusion Noise Schedules and Sample Steps are FlawedarXiv
*7 Diffusion Models and the Manifold Hypothesis: Log-Domain Smoothing is Geometry Adaptive」arxiv
*8 Tero Karras他「Elucidating the Design Space of Diffusion-Based Generative Models」arxiv
*9 「何枚程度登録があれば使えるか」は一概には言えない。登録枚数が多くても学習に不向きな画像ばかりなタグはやはり出ない
*10 SD1.5系列ではLoRAが流用可能なものが多かったが、これはSD1.5系列モデルがほぼNovelAI流出モデルを源流としていたために他ならず、モデルが違えば流用できないのがむしろ普通
*11 ライセンス条項"Notices"による
*12 ライセンス条項"Prohibited Uses"による
*13 ライセンス条項"Notices"による
*14 モデルページの説明を素直に読むと禁止されていると解釈できるが、ライセンスの"Output"条項でモデル作者は生成画像のいかなる権利を放棄しているため収益化を禁止することはできないという主張も存在する。また同様のライセンスを採用しているAnimagineやponyでは生成画像の収益化を許可している。