Illustrious-XL

Last-modified: 2025-11-28 (金) 00:16:06

1.0/1.1については最近の主な出来事こちら、2.0についてはこちら、3.0以降については公式ページを参照。
2025年6月2日現在、本ページの情報は基本的にV0.1及びその派生モデルを元に記述。


概要

韓国の企業OnomaAISDXLモデルのkohaku-xl-beta5をベースにファインチューニングしたSDXL系列モデル。
日本では英語名をそのままカタカナ表記し「イラストリアス」と呼ばれることが多かったが、現在ではIL、リアスと略されることが常。
2025年6月2日現在の最新バージョンは3.5であり、SDXLモデルとしてはこれ以降の将来的なバージョンは予定されていないが、Lumina ImageベースのIllustriousについてはリリース計画がある。
いつの間にか、3.6が登場した。

絵柄・キャラ・構図などを幅広く学習しており、高いポテンシャルを感じさせるモデルで、Danbooruのリソースが学習に利用されていることから、SD1.5やAnimagine系列の記法がほぼそのまま利用でき、エロプロンプトへの反応も良好でAnimagine系列では認識できなかったワードでも認識可能となっているものも少なくない。
学習範囲が広すぎる副作用として、絵柄が安定しづらかったり、背景の描写はあまり得意ではなかったりという特徴が見受けられる。

歴史

2024年9月25日にV0.1モデルのマグネットリンクが何者かによって流出したことにより、2024年9月30日にV0.1が正式にリリースされた。
この時点で、V1.0、V1.1、V2.0についても学習を進めており将来的にリリースすることを発表していた。

その後、しばらくは音沙汰がなかったが、上記の通り、ポテンシャルの高さを活かし、多くの派生モデルが作成された(派生モデルについては後掲)。

そして、2025年2月11日にV1.0、V1.1が、2025年3月15日にはV2.0がリリースされた。
当初から、V1.0以降のリリースについては発表されていたが、どのような形態でリリースするかは全く触れられておらず、V0.1がモデルの流出に伴って配布された経緯から、V1.0以降も同様に配布されるかどうかは分からず、APIとしてのみの公開に留まる可能性も危惧されていた。
蓋を開けてみると、懸念のとおり、APIのみ、しかも有料サービス限定の公開であった。

その後、V1.0、V1.1、V2.0についてはモデル配布もされている他、画像生成サービスで生成も可能だが、V3.0以降は公式ページからのみ生成可能でモデル配布についても未定。

V0.1の時点では一世を風靡したといっていいモデルだが、それから時間が経ったことや、V1.0、V1.1リリース直後の対応が評判を落とすことになってしまった。
そもそも、SDXLモデルであるという点は変わらないことから、その後のバージョンについても公式が謳うほどの性能的アドバンテージを見出すことはできておらずV0.1リリース直後ほどの話題性はないというのが現状のようである。

騒動について

少なくとも、イラストリアスのモデルを普通に使うだけであれば気にする必要が無い内容なので折り畳み。

V1.0、V1.1関連

V1.0のリリース直後はモデルはAPI、しかも有料サービス限定で公開された。
この点について、illustriousモデルがそもそもSDXLをベースとしているわけではなく、kohakuを元にしているのに対し、有料限定としたことで多くの否定意見が噴出した。

これに反応してか、リリース翌日にはV1.0についてはアーリーアクセスとして10ドルでモデルを配布開始したが、結局のところ、モデルに対してお金を取るというスタンスに対して否定意見は止まなかった。
翌日には開発者がイラストリアスに関するコメントを発表し、要約するならば

  • 一気に新しいモデルを出すわけにはいかず、順番にリリースしていかなければならない
  • モデルを開発する上で多額の費用が必要となった為、その費用を(アーリーアクセスとして)回収しなければならない
  • 最終的にはオープンソースとする

といったことが述べられており、アーリーアクセスの正当性などを主張しているものの、そもそもオープンソースのkohakuを利用しているのにお金を取るということについては全く触れられていないのが現状であった。

なお、こういった対応のためか、リリース直後はCivitaiの同モデルの生成画像で中指を立てたものが乱立するというなかなか稀有な現象が見られた。
コメントについては数日後にCivitaiが対応して不適切コメントとして大幅に削除されたためか、一端は落ち着きを見せることとなった。

最終的に、3月13日にはV1.0がアーリーアクセス期間を終え、自由にダウンロードできるようになったため、一端この辺りの問題は落ち着くことになった。

V3.5 vpred関連

開発者側は既にV2.0、V3.0、V3.5 vpred(以下V3.5)についての開発についても言及しており、それぞれのモデルについて公式ページで開発費用のサポートを受け付けている。
それぞれの目標金額は300,000スターダスト(編注:1,000スターダスト=10ドルなので事実上3,000ドル)となっており、同ページでは「特定のスターダストレベルを超えるとモデルのウェイトが即座に公開されることを約束する」と書かれていた。
もっとも、その後に「モデルによって、特に高度なモデルでは、必要なスターダストしきい値が異なります。3.5vpredおよび将来のモデルでは、持続可能性を確保するために目標が引き上げられます」と書かれているが、具体的な目標値については一切示されていなかった。

結果的に、V3.5モデルについては目標となる300,000スターダストを達成したものの、約束とされていたモデル公開がなされないことを批判する声が殺到している段階にある。
これに呼応してか、3/19に開発側がillustrious開発の舞台裏とした記事が公開されているが、結局目標としているスターダストがいくつであるのか、いつ公開するのかは一切示されておらず開発に費用が掛かっている旨の内容が述べられているに留まっている。

特徴

教師画像の枚数やタグ数といった学習規模がAnimagineやPony等の既存モデルと比べて格段に大きいため、出力できる要素*1が圧倒的に多い事が最大の特徴。
ただし、学習される画像の傾向そのものが変わっているわけではないので、既存のSDXLモデル同様、背景については弱い*2
また、SDXLベースであることにも変更はない(仕様としてのモデルのファイルサイズが同じ、生成システム自体に手を入れているわけではない)ため、後発だからといってオールラウンドに優れているということはなく、目的や結果で使い分ける必要がある。
プロンプトにおいて上位互換という訳でもなく、AnimagineやPonyでは使えていたプロンプトが効かない場合もある。
公式で自然言語に対応しているとされるVer2が公開されたが、上記のようにモデル側だけでの対応の細工しかできない都合上、各種AIチャットサービスから自然言語で指示する画像生成の使い勝手には遠く及ばないレベルにとどまっている。

キャラをタグだけで出せると何が嬉しいの?

LoRA無しでキャラクターを出力できる利点は、1枚の絵に2キャラ以上を描画するのが楽な事である。*3
illustrious系モデルはタグのみで出せるキャラが従来モデルより格段に多いので、それらのキャラクターでの百合画像や3P画像を作るのが非常に簡易になっている。キャラ出力に必要なタグが少ないことでトークンも節約できるため、他のタグの効きも良くなる。

モデル

公式モデルの配布サイトは以下

注意 ベースモデルなためか、画風が安定しなかったりノイズが多い画像が出る事も多い。
画像出力が目的であれば、次項で紹介する派生モデルを使うのが一般的である。*4

Illustrious派生モデル

オリジナルのIllustriousモデルを調整して画風などを安定させたモデル。

WAI-illustrious-SDXL(制作者:WAI0731)

派生モデルの中で最も主流と言われているモデルでWAI-ANI-PONYXLの制作者でもあるWAI0731氏作。
NSFWへの風当たりの影響からか、名称が「WAI-NSFW-illustrious-SDXL」から変更された(NSFWが削除された)が内容は特に変わっていない。

更新回数が多いモデルであり、一時期よりは落ち着いてきているものの、2025/9/1現在も更新は続いている。
2025/10/15現在、2025/9/1のv15.0が最新版となっている。
v14.0の際にベースモデルをIllustrious XL 1.0に変更したと記述されているため、逆説的にv13.0以下までのベースモデルはIllustrious XL 0.1と考えられる。
v14.0の際に既に2.0もリリースされていたが、思ったような品質が出なかったため採用しなかった旨作者がコメントしている(Illustrious XL 1.1については言及なし)。
また、v14.0からおよそ4ヶ月ぶりに更新されたv15.0もベースモデルはIllustrious XL 1.0とコメントされている。

バージョンが多いモデルであるが、最新バージョンが必ずしも良質とは限らず、各人の好みに左右される傾向にある。
バージョンによって特定のプロンプトの効きに差があるケースもあるため、複数のバージョンを併用してみるのも悪くない。
なお、制作者がv1.0~v4.0は古いのでダウンロードしないでくださいと記載しているため、吟味する場合はv5.0以降だけで十分であろう。

ちなみに、CivitAI上では2025/10/15現在、v11.0、v12.0、v14.0、v15.0の4つのバージョンが利用可能。
以前はv13.0も利用可能であったが、現在は利用不可。
この辺りのバージョンを中心に比較してみると……

  • v9.0
    • v14.0がリリースされるまでの間は最近のバージョンの中で評価が比較的高く、後のバージョンはv9.0と比較されるケースが多い。
  • v10.0~v12.0
    • いずれもv9.0を微調整したといっていい雰囲気で、バージョン毎に絵柄の方向性が異なる。絵柄が好みであればv9.0よりも高評価と見做されることもあるが、そうでなければv9.0の方が推されることが多い。
    • v9.0と比較すると、v10.0はやや幼い雰囲気、逆にv11.0は大人っぽい雰囲気になりがち。v12.0はその中間という意味ではv9.0に最も近い。
  • v13.0
    • 公式絵に寄りやすい雰囲気。
    • 良くも悪くもv9.0~v12.0とは異なった結果が出力されやすいので賛否が強い。
  • v14.0
    • このモデルからベースモデルがIllustrious XL 1.0に変更された。
    • ベースモデルの変更の恩恵からか表現力が増しており、総じて評価が高くv9.0を超えたという声も多い。
    • ただし、このモデルに限った話ではないが一部プロンプトの結果が劣化しているとの声もなくはない。
  • v15.0
    • 概ね、v14.0を進化させたものと見られている。
    • 2025年5月までの主に人気のあるソーシャルゲームやアニメのキャラクターが追加学習されている。
    • v15.0固有の話ではないが、手指描写がやや不自然という意見が多い。
    • v14.0よりも進化したと評する声もあれば、劣化したと評する声もあり、これまでのバージョン以上に個人の感覚が強く評価に影響したといえる。

バージョンによるが、制作者曰く「大半のPony用LoRAとも互換性がある」とのこと。

Hassaku XL (Illustrious)(制作者:Ikena)

NSFW対応。SD1.5で人気のあるHassakuのIllustrious版。
IL系の姉妹モデルとしてはAmanatsu、Sudachiもあり、それぞれ絵柄の方向性が異なる。SDXLベースだと他にpony系のHassakuもある。

推奨解像度832x1216(13:19)となっているように、ライトノベルの挿絵や表紙みたいなブラシ塗りっぽいイラストを明るい色合いで生成する。
Amanatsuはもっと落ち着いた色合いで、Sudachiはのっぺりめのアニメ塗りになるようだ。
Hassakuも一応プロンプトに「(anime style:1.4), shiny」とか入れればある程度はアニメ塗りっぽくしてくれる。
文字やロゴ、漫画のようなフキダシ(speech bubbles)が混ざらないようトレーニングされており、ネガティブプロンプト「signature」でさらに抑制できる。

NSFWも生成できるが、18禁ライトノベルの挿絵のような何とも言いがたい「エモい」絵が生成される。実用性については好みが分かれると思う。
基本的にはPOV的な構図しか出せず、男はうまく生成されてもヘボゲのようなモブ顔になりがち。

その他

他にも2024年10月時点でとしあきがスレでよく使っていたものとして、

などがある。

NoobAI-XL

https://civitai.com/models/833294
Illustrious-XL-v0.1をベースに追加学習したモデルであり、他のマージモデルとは性格が異なる。
追加されているのはillustriousに含まれなかったdanbooru2023年以降追加分データとe621のデータセットで、v1.0が2024-11-03に公開された。
2024年前半期に絵が増えたキャラクターの追加の他、e621タグ追加、構図系タグの効果向上などで強化されている。
11/18には公式ガイド記事がcivitaiで公開された。
注意 illustriousオリジナル同様にベースモデルの性格が強く、画像出力が目的の場合noob派生モデルを使うのが一般的である。*5
また後述の通り生成結果に関しては不明瞭なillustriousと違い、生成物まで含めて商用禁止が明言されている点にも要注意。
ただしこの点については、後述するfair-ai-public-license-1.0-sdの"Output"条項と矛盾してしまっている。noobはIllustriousの派生であり当然このライセンスにも準拠しているため、生成物の商用利用禁止を定めた項目は無効であるとする主張がある。どころかIllustriousライセンスを採用するNoobAI派生モデルが多い

noob派生モデル

  • NTR MIX | illustrious-XL | Noob-XL
    破綻が少なくnsfwな画像を出力することができる。タグの効きも良好で、特殊プレイも難なく破綻なしで出力可能。いわゆるnsfwが目的ならば現状最有力。
    学習時の都合なのか、推奨されている設定やタグの並べ方にやや癖があるため要確認(必ずしも忠実に従う必要はないが)
  • Obsession (Illustrious-XL) (v2以降)
    noobから更に画像数万枚を追加学習してある。Novel AIに近い感覚で使用可能。
  • copycat-noob
    いわゆるマスピ系の絵柄
  • LibrasIllustriousXL(v4α以降)
    アニメ塗り絵柄が得意
  • Illustrious XL personal merge
    Obsessionなど複数モデルを混ぜたいいとこどりで、手足や人体の破綻に強い。v3.0_noob-1.0basedが安定版(2024/11/25現在)
    モデル独自の絵柄を作ろうとしているタイプではなく、出力に多様性があるのも強み。
  • Illustrious XL personal merge lowsteps lowcfg
    低ステップ低CFGでの高速出力用。6steps CFG1の場合、他モデルで24steps 6CFGでの出力と比べると出力時間はおよそ1/4になる。
  • RedCraft | 红潮 CADS Commercial & Advertising Design System
    実写系。数ある実写マージモデルで特にアジア系美女に強い。noobai本来のプロンプト追従性は若干弱まっている。
  • PornMaster-Pro 色情大师- Illustrious & noob
    実写系。プロンプトに忠実でnoobaiで出るキャラならキャラ名だけでコスプレ実写出力が可能。アブノーマルプロンプトにも対応。
    実写向け・二次絵向けなど様々なパターンのトリガーワードが用意されているのでcivitaiを参照のこと。
    キャラによっては実写出力しようとしても3DCGどころか雑なARみたいな絵面になりやすいため、
    ベースモデル(noob)の他にめずらしく実写出力用のrefinerモデル(Realism-IL)も配布されている。 → SDXLモデル
    refinerのRealism-ILは実写しか学習していないようで、Realism-IL単体だとドンキのコスプレみたいなのしか出ない。
    cosplay photo出力におけるrefinerへの適切な切り替えタイミングはキャラ(とプロンプト)による。版権二次絵でも元が写実的だったりあるいは恐らくレイヤーがいっぱいいるような覇権ジャンルならnoob単体でも結構いい線までいける。ベタ塗りのアニメ絵しか学習されてないようなキャラだともうほとんどi2iである。

noobAI V-predモデルについて

現在NoobAI-XLにはEpsilon(イプシロン)モデルとV-pred(V-Predict, V予想)モデルの2つがある。
V-predモデルは色のコントラストのはっきりした画像を作ることができる。(例えばEpsilonモデルでプロンプトにnight(夜)と入れても全体的に明るい画像が出てしまったり)

  • V-predモデルを使うにはV-predを扱える環境が必要。対応出来ていないユーザーは案外多い。
  • V-predが真価を発揮するにはZSNRも必要。これはマージによって損なわれる情報なのでマージする時は注意が必要。

使用方法

詳しくはcivitAIのNoobAI-XL配布ページの右側にAbout this versionという項目があるので
最新情報をそこで確認しよう。

  • 1111
    mainブランチでは対応していない。devブランチでなら対応済みなので、そちらに切り替える必要がある。
    ローカル版更新#「master」↔ 他のブランチへの切り替え
  • Forge
    基本的には特に何も設定変更する必要ない。
    が、場合によってはSettingsの「Noise schedule for sampling」を
    手動で「Zero Terminal SNR」に切り替える必要があるかもしれない。
  • reForge
    基本的には特に何も設定変更する必要ない。
    V-predモデルはモデル内のメタデータに「これはV-predモデルだよ」という情報を含んでおり、それをツール側がフラグとして検出して、自動的に設定を切り替えてくれる。
    ……はずであるが、このフラグはモデルマージなどの際に失われることがある。
    そういう時は、ユーザーが手動でV-pred用の設定を有効にする必要がある。下記参照。
    • txt2img画面の左下に、「Advanced Model Sampling for reForge (Backported)」というタブがある。
      「Enable Advanced Model Sampling」をON。
      「Discrete Sampling Type」が「v_prediction」になっていることを確認。
      「Zero SNR」がONになっていることを確認。
  • ComfyUI
    ComfyUIもデフォルトでV-predをサポートしており、自動的に設定を切り替えてくれる。
    基本的には特に何も設定変更する必要ない。
    古いバージョンのComfyUIを使用している場合やモデル内のメタデータにフラグがない場合は下記参照。
    • Model Samlpling Discreteノードをmodelと繋ぎ、"v-predition"を選択すればV-predモデルを使用できる。
      epsを選べば通常のモデルと同じように生成できる。
      zsnrはどちらでも動くが、前述の性質上true推奨。

理論

StableDiffusionは元々、写真やイラストのような意味のある画像が意味のないノイズになるまでノイズを付加していく過程を学習させることで、完全なノイズからプロンプトをもとにノイズになる前の元々の絵はどんなものだったか推論させる(デノイズ)仕組みである。
リリース当初は各ステップでの累積ノイズεを予測するように学習させていたため、これをε(イプシロン)予測、e-predという。
しかし、このε予測には欠点がある。


ε予測を前提とした場合、学習過程のノイズ化では元の画像を完全に無意味なノイズにすることが実用上できない。
というのは、「入力が完全にノイズである」ということを学習させた場合、ε予測では100%ピュアノイズの「予測」を求められるために極めて学習が不安定になる。
ε予測モデルの学習では結局完全にノイズ化するまでは学習させていないのだが、ランダムノイズ画像であってもなんらかの意味が残った画像だと認識するように原理的に誤学習してしまっている。たとえば白背景を出すようプロンプトを組んだはずなのに、指示してない何かをAIに勝手に描き足された憶えはないだろうか?
またSDの乱数生成器であるガウシアンノイズの出力は灰色を中央値として正規分布させるため、そこに意味を見出すとどうしても明度の平均値が一定になるような画像になってしまう*6

もう一つは4ステップ化など蒸留の問題だ。学習の最後の段階でほぼノイズの画像については、入力画像に意味のあるシグナルが少ないためにわずかなシグナルの読み違いが大きな誤差につながる。
ε予測モデルは学習時に学習器が加えたノイズそのものを答えるよう教育されているため、画像をでたらめに描き替えることになる。
20ステップ生成などのステップ数であれば初期ステップの誤差は徐々に埋まっていくが、低ステップ化した場合この誤差は無視できないものになる*7


そこで累積ノイズεの代わりに、ノイズとノイズを取り除いた画像、それに各ステップのS/N比等から計算される「ベロシティ」を予測するv予測モデルが採用されるようになった。
ベロシティは次の式で計算される。
v=√(αt)ε-√(1-αt)x0*8
ここでαtはステップtにおいて元の画像がノイズに埋もれずに残っている比率を表すスケーリング係数である。これはステップ数とノイズスケジュールによって決められている。
x0はノイズ除去後の画像として予測される姿である。学習時はx0=教師画像なので、当然ε予測よりも教師画像の構図に引っ張られやすくなる。
この定義により、S/N比の悪い画像生成処理の序盤においてはε予測と異なり、ノイズ予測はほとんど評価されずあるべき画像の姿についての予測が大きく寄与することになる。

また生成時、最初に与えられたノイズに勝手にシグナルを見出して指示していないものを描き足してしまう欠陥を克服するための仕組みとして、完全に無意味なノイズを達成する上述のZero Terminal SNRも採用された。

v-predによりZSNRが達成できるようになり、ランダムノイズに意味を見出してしまうことによる中間色への偏りやプロンプト追従性の問題が改善され、ステップ数を削減しても作画が安定するようになった。
彩度が高すぎるという意見もあるが、v予測モデルにしてみれば例えばredと言われたら忠実にR255の赤を出しているだけなのだろう。

参考リンク:http://dskjal.com/deeplearning/nai-v3.html

また、v-predモデルは計算方法の性質上、サンプラーはEulerかEuler aしか使えないらしい。

利用方法

デモ版

webブラウザからデモ出力を試すこともできる。 →https://huggingface.co/spaces/AngelBottomless/Illustrious-XL-v0.1-demo
出力した画像に付いていたメタデータは以下の通り

{"prompt": "1girl, smile,general, , masterpiece, best quality, very aesthetic, absurdres", "negative_prompt": "nsfw, lowres, (bad), text, error, fewer, extra, missing, worst quality, jpeg artifacts, low quality, watermark, unfinished, displeasing, oldest, early, chromatic aberration, signature, extra digits, artistic error, username, scan, [abstract], , explicit, questionable, nude, naked, pussy, penis, uncensored", "resolution": "896 x 1152", "guidance_scale": 7, "num_inference_steps": 28, "seed": 254607005, "sampler": "Euler a", "sdxl_style": "(None)", "add_quality_tags": true, "quality_tags": "Standard v3.1", "use_upscaler": null, "Model": {"Model": "Illustrious XL v0.1", "Model hash": "e3c47aedb0"}}

ぶっちゃけほぼAnimagineからの使い回しだが公式による設定は参考の一つとなるはず。

画像出力設定

公式モデルv0.1の推奨設定はサイトのUsage項によると

推奨出力サイズは他のSDXLと同様1024x1024が基本で、896x1152、832x1216、768x1344など。
公式技術文書の予告ではv1.0以降は学習サイズが1536x1536になるとあり、それに伴う変更があるかもしれない

プロンプト

モデル学習時には画像のキャプションは以下の順で記述されたとある。

人物概要(1boy、3girls、no humanなど)、キャラ名・作品名、レーティング、雑多な一般要素、アーティスト、クオリティ、年代

このモデルに関わらずプロンプトの記述順序は必ずしも学習時の順序に従う必要はないが、上手くいかないと感じたら順序を考えてみるのもいいかもしれない。

使えるタグはdanbooruで確認できる。
ただし、画像登録枚数が少ないタグの学習程度は低く、タグがあるから使えるわけではない点に注意。*9
また、illustrious v0.1は2023年、noob v1は2024年前半頃までのデータを利用しているため、それ以降に画像が登録された分についても学習されてない。
Illustrious XL v0.1 Visual Dictionary(Civitai)といった有志による一覧も参考になる。
tips項目で後述するが、アンダーバーとスペースの扱いに注意。

レーティング

一応sfw/nsfwでも学習されているようではあるが、より詳しく『general』『sensitive』『questionable』『explicit』の4種類に分類されている。
どすけべな絵が欲しい場合はexplicitを入れておけば大抵問題無い。
分類基準はdanbooru wikiのhowto:rate項目を参照。
なお、Animagine XL3.1と同様『rating:』は不要。

クオリティタグ

従来モデルと同様に学習時の教師画像は品質によってランク分けされており、評価の高いものから順に
masterpiece, best quality, good quality, average quality, bad quality, worst qualityとなるため、
上から1~3つ程度をポジティブに、下から2つをネガティブに入れるのがおすすめ。

デモ版での出力画像のメタデータには、これらとは別にvery aesthetic, absurdresも用いられている。

ネガティブプロンプト

推奨例は以下の通り。(前述の公式デモ版で出力した画像の物からnsfwタグを除去)

lowres, (bad), text, error, fewer, extra, missing, worst quality, jpeg artifacts, low quality, watermark, unfinished, displeasing, oldest, early, chromatic aberration, signature, extra digits, artistic error, username, scan, abstract,

派生モデルの中にはまた別の例が付いている物も見かける。
ponyマージモデルでは元モデルの圧縮と追加画像の取捨選択によってネガティブプロンプトと品質系プロンプトは最低限でよい(そもそも"悪い"ものが入っていない)というアナウンスがあることもあるが、Illustrious系列ではまだその域に達していない。ある意味古式ではあるが、指定しないとかなり崩れるのでどちらも全文をそのまま記述しよう。取り除いて限界を探る冒険はあまりお勧めしない。

tips

  • アンダーバーとスペースは区別される
    複数のとしあきから「うまくいかなかったプロンプトのアンダーバー・アンダースコア(_)をスペースに置き換えると成功した」という証言がある。
    特に学習程度が低めの版権キャラクター出力の際に問題が目立つ模様。
    danbooruで調べた結果のコピペやタグ自動補完プラグイン(a1111-sd-webui-tagcomplete)の初期設定だと_が標準だが、illustriousモデルを使う際はスペースを使うほうが良いのかもしれない。
    タグ補完プラグインは設定でアンダーバーをスペースに置き換える設定がある。
    1729514620640.jpg
  • 版権キャラクター描画のコツ
    学習された際のタグに忠実なプロンプト表記で出力される確率が上がる。
    以下を試しても出ないキャラは諦めてLoRAを使いましょう。
    • danbooruで正確なタグを確認する (フルネームが必要だったり、shaとsyaを間違えてNGな事もある。艦これキャラなどはアズレン等と混ざるのでshimakaze \(kancolle\)等と学習元のdanbooruタグ通りにする )
    • 前項の通り正確なタグを記述するが、illustriousではアンダーバーはスペースに置き換えられて学習されている。アンダーバーをスペースに置き換える とても重要
    • 作品名タグもいれる その際の表記は『キャラ名, 作品名』
    • danbooru上の()表記は\でエスケープする。()でプロンプトの強調と置き換えられて括弧と認識されないため。例えば、saber \(fate\), fate \(series\) のように記述する。
    • 服装・髪型やキャラに関連するタグを追加する
      • 学習されたタグは関連タグを呼び寄せて、例えばsailor collarと入力すればbowtieやnecktieを勝手に呼び出しやすい。同じように、学習された関連タグを入力してキャラタグを呼び寄せて補強すれば良い出力が得られやすい。
        関連タグはdanbooruでわかる。下記のURLでキャラタグを入れてorder: frequencyを基準にすると出しやすい。 例えばsouryuu_asuka_langley solo plugsuitと入れればアスカ単体のプラグスーツ時だけの関連タグがわかる。
        danbooru related tag
    • 学習の弱いキャラはキャラタグ自体を強調してやれば出せることもあるので、出ない時は駄目元で試してみるのも手
      • 更に駄目元で、noob派生モデルは一時代を築き上げたponyLoraがやんわり効く。素出しでふんわり出る、学習自体はされているが弱いキャラタグなら、遺産のponyLoraで補強してやれば綺麗に出せることがある。
  • 版権キャラ衣装コスプレ
    • 登録数がある程度あればキャラタグ \(cosplay\)で出せる。登録数が少ない場合は関連するタグや強調を入れて補強する。
      Tag Listing *(cosplay)一覧
  • 男性キャラ単独描画
    1boyと入れたにもかかわらず女キャラになってしまう場合は『male focus』タグを追加する。
  • ponyでできていたことがうまくできないときの考え方
    我々が「ローカルの画像生成AIでなんか最近うまくいくようになった」と考えていたことの多くは、SDXL部分での進歩ではなく、pony固有の(ponyを前提とした)進歩であることが多い。
    系統樹的にはIllustriousとponyは根っこがSDXLであるというだけの別物なので、「ponyとそのマージモデルでうまくいくようになったこと」はIllustrious側には良くも悪くも無影響である。
    Illustrious系列は生まれたばかり(でもないが)なので、急かさず見守っていきたい。また、ある意味、充実への参加の余地があるということでもある。おひとつどうだろうか。
  • 間違えやすい記法
    強調でない()にはバックスラッシュ\(が必要だが、スラッシュ/をtypoする。webui上では見た目も相まってtypoすると気づきにくい。
    artist:toriyama akira, year:2023 これはNovelAIの記法の一派であり、artist:はartist nameとbanned artistというタグを強調する効果がある。banned artistを取り入れたいならお好みで。yearもまた意味がない。2023だけでOK
    danbooruタグに引っかからない英語で記述してしまう。illustriousはv1.1、v2.0と自然言語に近づきつつあるが、依然としてdanbooruタグによる記法が非常に有効。black randoseru,ではなくrandoseru, black backpack,が正しいdanbooruの記法で、狙った出力がより得られやすい。red elbow gloves,ではなくelbow gloves, red gloves,の方が良い出力を得られやすい。bigやsmallもdanbooruタグになければ基本的に通らず、danbooruタグによる記法をdanbooruタグで補助する記法が有効。例えば、book on legs,と記述すれば本を足に乗せやすく、book on legs,はdanbooruタグにはないが、〇〇 on 〇〇というdanbooruタグの数が多く、強く学習されていることもあり部位指定ができる。

LoRA

基本的にIllustrious系列モデルで学習された専用LoRAが必要であり、Animagine系列やPony系列のLoRAは使えないと思っておいた方が良い*10
もっとも、適用強度を1.3~2くらいまで高めたり、Pony系用LoRAで学習時に使われていれば『score_9, souce_anime』タグを記述するなどである程度使えるものもあるので、「使えたらラッキー」程度で試してみるのは悪くない。
当たり前だが、SD1.5用のLoRAは全く使えない。

日本時間2024/10/24、CivitaiにIllustrious専用の絞り込みが追加された。
ファイルの種類の横が「IL」IL_LoRA.pngになっていればIllustrious用のLoRAである。
noob系モデルはillustrious派生の一つなので、illustrious用LoRAはほぼ問題なく使える。

LoRA学習について

illustriousでのLoRA作成では学習に得意不得意があり、覚えやすい物と覚えにくい物がハッキリと分かれる。
最近の作品、有名な人気作品、昔の有名作品、それに近い特徴を持っている物は覚えやすい。
ただ、このモデルはプロンプトが強力であるため、学習したLoRAをモデル側が押し返してくるケースもある点に注意が必要。

ガイドによるとillustriousv0.1のキャプションデータはdanbooruタグが採用されている。
Animagine用LoRA作成時に利用した学習用データは問題なく流用可能、pony用に作ったキャプションからは独自の品質タグを抜いたりe621タグをdanbooru準拠に置き換えるのが望ましい。(side view → from side 等)

学習モデルは公式のillustriousモデルを使うのが無難であるが、LoRAトレーニング専用に調整されたモデルも存在する

ライセンス

Animagineと同様のfair-ai-public-license-1.0-sdというライセンスを採用している。
基本的にはAnimagineと同様であるが、モデル公開や生成画像を何かに利用しようと考えている場合は、説明ページを熟読しておくのが望ましい。

簡潔に言うと

  • マージモデル、追加学習モデル等の派生モデルの公開時は学習設定等の開示を行う*11
  • 倫理に反する用途に使わない*12
  • クローズドソース派生モデルを用いた推論サービスの提供禁止*13(生成画像の収益化の可否は不明*14)
    の三点である。

関連リンク

  • Civitai: Booru 1girl wildcard for IllustriousXL
    女性キャラのうちDanbooruの登録タグ数で上位約4000キャラ分のリスト。
    「v0.1モデルで出力を確認できたキャラのリスト」というわけではないが、参考に。

*1 キャラクター、オブジェクト、シチューエーション等
*2 背景を丁寧精密に描いているキャラ絵がそもそもネット上に少ないので再現もしにくいという、シンプルでどうしようもない理由である
*3 複数キャラを学習したLoRAを使ったり、regional prompterのようなLoRA適用位置を指定できる拡張機能を使う場合との比較
*4 Ponyもそうだったでしょ
*5 Ponyも(略
*6 Shanchuan Lin他「Common Diffusion Noise Schedules and Sample Steps are FlawedarXiv
*7 Tim Salimans他「Progressive Distillation for Fast Sampling of Diffusion ModelsarXiv
*8 Shanchuan Lin他「Common Diffusion Noise Schedules and Sample Steps are FlawedarXiv
*9 「何枚程度登録があれば使えるか」は一概には言えない。登録枚数が多くても学習に不向きな画像ばかりなタグはやはり出ない
*10 SD1.5系列ではLoRAが流用可能なものが多かったが、これはSD1.5系列モデルがほぼNovelAI流出モデルを源流としていたために他ならず、モデルが違えば流用できないのがむしろ普通
*11 ライセンス条項"Notices"による
*12 ライセンス条項"Prohibited Uses"による
*13 ライセンス条項"Notices"による
*14 モデルページの説明を素直に読むと禁止されていると解釈できるが、ライセンスの"Output"条項でモデル作者は生成画像のいかなる権利を放棄しているため収益化を禁止することはできないという主張も存在する。また同様のライセンスを採用しているAnimagineやponyでは生成画像の収益化を許可している。