Animagine XL

Last-modified: 2024-11-08 (金) 22:57:48

SDXLシリーズの中でも人気を博しているモデルの一つ。



Animagine XL

アニメイラストの出力に長けているSDXLモデルの一つ。
Pony系列(「Pony Diffusion V6 XL」など)と共に人気があるモデル。
最近はIllustrious-XLに食われ気味だが、背景と小物の上手さは今でも目を見張るものがある。
若干学習に偏りがあるためLoRA無しでキャラを出すにはやや分が悪いが、キャラLoRAは作りやすい方。
そのままでもオリジナルイラストを出すモデルとしては十分耐えられる出来となっている。
2024年1月10日にV3.0がリリースされると、高精度なイラストやSDXLモデルが苦手とされているNSFWイラストも生成できること、似た時期にSDXLを比較的低グラボでも利用できるForgeが登場したこともあってSDXLモデルの普及を促した。
通称兄魔人。

その後、3月18日にV3.1がリリースされており、基本的な生成品質や、後述するプロンプトのみで出力できるキャラは増えているものの、3.0用のLoRAの効きは良くないことも相まって、どちらのバージョンも使われている傾向にある。

リンク

特徴

詳しくは公式ブログにある通りだが、このモデルはAnimagine XL 2.0をベースに、RunpodというクラウドサービスでA100(VRAM 80GB)という業務用のグラボをレンタルして500時間以上かけて学習したものである。

NovelAI Diffusion V3と同様のトレーニング方式を採用しているらしくDanbooruのタグとの互換性が高い。
SD1.5に慣れ親しんだ者にとっては移行しやすいのが利点。いわゆる普通のイラストを生成するのであれば、それほど難しいことを考えることなくある程度高いクオリティで作ることができるため画像生成初心者にも扱いやすい。
一方で、Pony系列が複数キャラが登場するえっちな画像を得意とするのに対し、(それまでのXL系列モデルと比べればマシとはいえ)えっちな画像はやはり苦手というのが特徴的であり、総じて、「初心者向けのAnimagine XL、玄人向けのPony」と評されることも。

また、どんな形の手であっても必ず5本指で出すとまではいかないが、開き手やVサインなどの明確なハンドサインについては安定性が向上している。

昨今の多くのSDXLモデルと同様、本モデルも1モデルで完結しているため、SDXLモデルでありがちな、refinerは使用する必要がない。

推奨設定

詳細については上記リンクの項目を参照。
簡単にまとめておくと以下の通りとなる。

環境

作者の推奨環境はComfyUIである。
もっとも、A1111Forgeなどで利用して不都合が生じるという話は聞かれないので、自身が使いやすい環境を使えばいいと思われる。

プロンプトの記述方法

  • 基本的には(1girl or 1boy), (キャラ名), (作品名), (それ以外のプロンプト)の順に記載し、V3.0の場合、その後にクオリティタグを記述する(ブログ参照)。V3.1は特段の指定はないのでクオリティタグの位置は任意でいい模様。
  • クオリティタグとはmasterpiecebest qualityなどである。ただし、masterpieceやbest qualityのついた学習画像の大半はNSFW*1であることが多いことからそういった内容のイラストが出る傾向にある。
    • 避けたい場合は、V3.0ならプロンプトのクオリティタグに「rating :general」を、ネガティブプロンプトに「nsfw, rating :sensitive」を追記することが推奨されている。V3.1ならクオリティタグに「general」、ネガティブに「nsfw, sensitive」を追記推奨。
  • 高品質な画像を生成したい場合には以下のクオリティタグを記載することが推奨されている。

    (V3.0) masterpiece, best quality

    (V3.1) masterpiece, best quality, very aesthetic, absurdres

追加された「very aesthetic」については後述の特別なタグを参照。absurdresについてはなじみがない人もいるかもしれないが、danbooruのタグの一種で異常なほどの高解像度という意味合いの品質タグの一つである(一応更に上位に「incredibly absurdres」が存在するが、こちらはサイズ比が極端なものが多いため利用する必要はないと思われる)。

  • ネガティブプロンプトとしては以下のとおり記述することが推奨されている。

    (V3.0) nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, artist name

    (V3.1) nsfw, lowres, (bad), text, error, fewer, extra, missing, worst quality, jpeg artifacts, low quality, watermark, unfinished, displeasing, oldest, early, chromatic aberration, signature, extra digits, artistic error, username, scan, [abstract]

  • 最近は強弱について(prompt:0.91)などで指定することが多いため、あまり、なじみがないかもしれないが[]とは、プロンプトの影響を弱める効果がある。[]はプロンプトを1.1倍弱める(=0.91倍にする)効果である。
  • もちろん、NSFWイラストを生成したい場合は、冒頭のnsfwについては削除すればいい。

その他の設定

  • サンプラー……Euler a
  • ステップ数……30以下
  • CFGスケール……5~7

ステップ数30以下であるが、あまりにも小さすぎるとノイズまみれになってしまうので、15~30推奨。

画像サイズ

  • 1024×1024をベースとして以下のサイズがサポートされている。
    • SD1.5のように512×512などの小さいサイズを出そうとすると露骨に品質が落ちるので注意。
  • TVアニメが素材に入っているせいか横長の方がアニメっぽくなる。(気がする)
    サイズアスペクト比
    1024*10241:1
    1152*896
    896*1152
    9:7
    7:9
    1216*832
    832*1216
    19:13
    13:19
    1344*768
    768*1344
    7:4
    4:7
    1536*640
    640*1536
    12:5
    5:12

特別なタグ

  • danbooruのタグとは別に以下のタグが定義されており、生成される画像の制御に利用できる。

品質タグ

V3.0は品質スコアで管理しているが、V3.1は相対評価で管理している。
また、V3.1は一部タグの名称が変わっている。

V3.0

タグ品質
masterpiece150超
best quality100~150
high quality75~100
medium quality25~75
normal quality0~25
low quality-5~0
worst quality-5未満

V3.1

タグ評価基準
masterpiece95%~
best quality85%~95%
great quality75%~85%
good quality50%~75%
normal quality25%~50%
low quality10%~25%
worst quality~10%

評価タグ

V3.0では「rating: ~」といった形式で記載するが、V3.1では「rating:」の記載が不要になった。
また、V3.1ではquestionableがなくなり、nsfwが評価タグとして機能する模様。

V3.0

タグ評価
rating: general一般的なイラスト
rating: sensitiveセンシティブなイラスト
rating: questionable, nsfw疑わしいイラスト
rating: explicit, nsfw明示的なイラスト

V3.1

タグ評価
general一般的なイラスト
sensitiveセンシティブなイラスト
nsfw疑わしいイラスト
explicit, nsfw明示的なイラスト

年代タグ

絵柄の年代を指定する。いわゆる少し古いイラストを指定することも可能である。
何も指定しなかった場合は、newestのイラストが生成される模様。

V3.0とV3.1では一部年代の選定基準及びタグ名に違いがある。

  • それより古い年代のイラストについてはdanbooruタグの「1950s (style)」~「2000s (style)」までが10年刻みで存在するので利用するのも手(これらのタグはその他のタグの位置に記述すること)。

V3.0

タグ年代
newest2022~2023年
late2019~2021年
mid2015~2018年
early2011~2014年
oldest2005~2010年

V3.1

タグ年代
newest2021~2024年
recent2018~2020年
mid2015~2017年
early2011~2014年
oldest2005~2010年

美的タグ(V3.1のみ)

アニメ画像の美的価値を評価する「Aesthetic Shadow V2」を用いて評価を行い、その評価に応じてタグ分けされている。

タグ評価
very aesthetic0.71以上
aesthetic0.45~0.71
displeasing0.27~0.45
very displeasing0.27以下

キャラクター名やシリーズ名で出せるキャラ

公式のワイルドカードの記載を見る限り、一部のアニメキャラについては名前とシリーズ名の入力だけで出力可能となっている。

  • 特にV3.0では比較的最近のソシャゲキャラやVTuber、有名なアニメの一部キャラが対象となっているが、作品の偏りは非常に大きい。『Fate/Grand Order』や『アズールレーン』、『アークナイツ』などのキャラは対象が多いが、人気アニメであっても主要人物数人くらいしか出ないケースも多い。
    • V3.0は約2880キャラに対応しているが、学習素材の大半は比較的新しいソシャゲのキャラとVTuberで、それ以外はほとんどリストに含まれていない。アニメについてもごく一部の作品のみで、しかも1キャラくらいに留まっている。
      • 2割弱を占める『Fate』を筆頭に、『ホロライブ』『アズレン』『アクナイ』『ブルアカ』『にじさんじ』『ドルフロ』『原神』『グラブル』『崩壊』『ウマ娘』の11シリーズだけで全体の86%以上を占めており、衣装違いが別個に学習されているケースも多い*2。一方で同じソシャゲでも、古い部類の『艦隊これくしょん -艦これ-』はわずか6キャラしか学習されていない。
    • V3.1は約4900キャラに対応。上記に挙げたシリーズのキャラは基本的に増やされず(『Fate』は20キャラ、『崩壊』は10キャラほど増えているが)、最近のアニメ+有名なアニメやゲーム(古い作品含む)のキャラが大量に追加されたが、偏りの大きさは相変わらず。
      • 『FE』が唯一の200キャラ超えで、『FF』『ガンダム』『ジョジョ』からもそれぞれ100キャラ以上加わっている。この4シリーズはシリーズ作品が大量にあり、かつ作品ごとに登場キャラが異なるのも一因と思われる。
      • 現在、Illustrious-XLが登場したため版権の出力においてだいぶ見劣りしてしまっている。次回作での強化に期待したい。
  • 以下、V3.1において100キャラ以上が対応しているものを抜粋(同一シリーズ等は1つにまとめる)。
シリーズ等プロンプト対応キャラ数
Fatefate586
fate/grand order
ホロライブプロダクションhololive312
holostars
アズールレーンazur lane296
アークナイツarknights273
ファイアーエムブレムfire emblem242
ブルーアーカイブ -Blue Archive-blue archive189
にじさんじnijisanji167
ドールズフロントラインgirls' frontline160
ファイナルファンタジーfinal fantasy155
原神genshin impact144
機動戦士ガンダムgundam141
崩壊honkai137
honkai: star rail
グランブルーファンタジーgranblue fantasy136
ウマ娘 プリティーダービーumamusume123
ジョジョの奇妙な冒険jojo no kimyou na bouken105

全体的にゲームキャラの方が高いクオリティで出る傾向がある。アニ魔神というよりゲー魔神

  • 精度については、ぶっちゃけピンキリ。再現率が高いキャラクターもいれば、よくみればキャラの一部の特徴だけは捉えられている気もする、程度のものもある。
    • また、V3.1で東方Projectのキャラが追加されているが、どのキャラにも霊夢要素が含まれているため、キャラの再現率という面で言えば今ひとつ。
    • V3.0では精度が高かったが、V3.1では精度が落ちてしまったキャラもいる。
  • 一覧にあるキャラクターを作成する場合も精度が低い場合は個々の特徴をプロンプトに追加したり、ネガティブプロンプトで無関係なプロンプトを消していくという使い方は十分できる。

その他の補足

  • プロンプトの記法については作者の推奨といえるが、それほど厳格に捉える必要は無い。
    • 例えば、1girl / 1boyなどは先頭に記述することが求められているが、書き入れなかったとしても大きな問題にはならない。場合によっては入れない方がいいイラストになることもあるので様々な試行錯誤は悪くない。
  • オリジナルキャラを作るのであれば「original」を入れると版権っぽさが下がる……という意見もあるが、V3.0では影響を感じられない、V3.1では影響はあるがクオリティが下がった気もするという意見もあるため、こちらも試行錯誤してみるといいだろう。
  • V3.1では特定のタグが版権キャラのトリガーとなってしまうこともある模様。originalを使うか、キャラ名をネガティブに入れるなどして多少影響を抑えることはできるが、どうしても気になるならV3.0を使うのも一手。
  • V3.1は結構古いアニメが素材に使われているのか、プロンプトanime screencapを入れると品質がガタ落ちしてしまう。
  • LoRAの作りやすさはV3.0、V3.1共に良好であり、派生モデルも作りやすく、実際相応に出ている。
  • AnimagineV3.1はケモノ少女が出やすい、V3.0に比べてScoreタグの効きが良い、同プロンプトでV3.0では発生しない破綻が起きる等の理由からpony_diffusionが混ざっている可能性が考えられる。
    • もっとも、通常使う上ではPony_Diffusionの知識は必要ない。

FAQ

なんか変な色合いのイラストが生成されたんだけど

VAEはオフ(None)で構わない。
SD1.5系列のVAEとは互換性がないため、利用すると色合いがおかしくなる。Autoにしている場合はNoneにすること。

なんかノイズまみれのイラストが出たんだけど

SDXLの不具合というか仕様。emphasis(強調)(例:1.2)を使ったとき、特定のワードで異常な倍率を叩き出してしまうのが原因。
どのモデルでも出るが、出やすさはモデルによって左右される。Animagine3.0での発生頻度は少なめ。3.1は若干多い。

原因はテンソルの計算過程にあるとhakomikan氏が解説している。
稀にノイズだらけの画像が出るというだけで収まる話ではなく
条件を満たすと、(1girl:3.0)のような過剰なバイアスを与えてしまうので、ノイズが発生しなくても絵に悪影響を及ぼす。
(ノイズはそれが破綻を起こさないセーフラインを超えた結果に過ぎない)

WebUIの設定>Stable Diffusion>Emphasis Modeを「No norm」に変更すると改善する。

結局V3.0とV3.1、どっちを使えばいいの?

結論からいえば、お好み次第。どちらを使ってもいいだろう。

V3.1はV3.0の後発モデルというわけであるが、完全上位互換といえるものでもない。
V3.0の方が好みという人もいれば、V3.1の方が好みという人もいるだろう。

また、Ponyでも同じ事がいえるが、これらのモデルを元にした派生モデルも多く登場しているため、Animagineよりもこちらのモデルの方が好き、と思っていたらマージモデルを使っていたということもあり得る。
そのため、AnimagineV3.0、V3.1に限らず、気に入ったモデルを使えばいいといえる。

ただ、V3.1は特にアニメに強いのは事実であるため、容量が厳しいというわけでないなら取り敢えずキープしておくといいだろう。

なお、LoRAは同じAnimagine系列であってもバージョンが違うと基本的に上手く動かないため、気に入ったLoRAがV3.0、V3.1でそれぞれ存在するならどちらも使っていくというのが最善といえる。


*1 簡単に言うとエッチなイラスト
*2 Danbooruの時点でその傾向にあるため、非常に多くなるのもうなずけるところではあるが。