Animagine XL

Last-modified: 2025-11-09 (日) 23:46:23

SDXLシリーズの中でも人気を博しているモデルの一つ。



Animagine XL

アニメイラストの出力に長けているSDXLモデルの一つ。
Pony系列(「pony_diffusion_v6」など)と共に人気があるモデル。
最近はIllustrious-XLに食われ気味だが、背景と小物の上手さは今でも目を見張るものがある。
若干学習に偏りがあるためLoRA無しでキャラを出すにはやや分が悪いが、キャラLoRAは作りやすい方。
そのままでもオリジナルイラストを出すモデルとしては十分耐えられる出来となっている。
2024年1月10日にV3.0がリリースされると、高精度なイラストやSDXLモデルが苦手とされているNSFWイラストも生成できること、似た時期にSDXLを比較的低グラボでも利用できるForgeが登場したこともあってSDXLモデルの普及を促した。
通称兄魔人

その後、3月18日にV3.1がリリースされており、基本的な生成品質や、後述するプロンプトのみで出力できるキャラは増えているものの、3.0用のLoRAの効きは良くないことも相まって、どちらのバージョンも使われている傾向にある。

また、2025年1月28日にはV4.0がリリースされた。
また、2025年第2四半期にはV4.1をリリースする予定とされていたが、2025/11/8時点で続報はない。

リンク

特徴

V3.0/V3.1

詳しくは公式ブログにある通りだが、このモデルはAnimagine XL 2.0をベースに、RunpodというクラウドサービスでA100(VRAM 80GB)という業務用のグラボをレンタルして500時間以上かけて学習したものである。

NovelAI Diffusion V3と同様のトレーニング方式を採用しているらしくDanbooruのタグとの互換性が高い。
SD1.5に慣れ親しんだ者にとっては移行しやすいのが利点。いわゆる普通のイラストを生成するのであれば、それほど難しいことを考えることなくある程度高いクオリティで作ることができるため画像生成初心者にも扱いやすい。
一方で、Pony系列が複数キャラが登場するえっちな画像を得意とするのに対し、(それまでのXL系列モデルと比べればマシとはいえ)えっちな画像はやはり苦手というのが特徴的であり、総じて、「初心者向けのAnimagine XL、玄人向けのPony」と評されることも。

また、どんな形の手であっても必ず5本指で出すとまではいかないが、開き手やVサインなどの明確なハンドサインについては安定性が向上している。

昨今の多くのSDXLモデルと同様、本モデルも1モデルで完結しているため、SDXLモデルでありがちな、refinerは使用する必要がない。

V4.0

詳しくはこちらにあるとおりだが、V3.0/V3.1がV2.0をベースに学習したのに対し、V4.0は改めてSDXLをベースとして学習したもので、2025年1月7日までのデータを学習対象としているとのこと。

その後、V4.0を微調整したoptバージョンとzeroバージョンがリリースされている。
optバージョンはV4.0に対し更に追加のデータセットを用いて最適化を行ったバージョンで、2025年2月25日現在、V4.0系を画像生成で用いるならこれを用いることになるだろう。
zeroバージョンは無印とoptバージョンのベースとなったバージョンで、LoRA学習のベースモデルとして用いるのに最適。

推奨設定

詳細については上記リンクの項目を参照。
簡単にまとめておくと以下の通りとなる。

環境

作者の推奨環境はComfyUIである。
もっとも、A1111Forgeなどで利用して不都合が生じるという話は聞かれないので、自身が使いやすい環境を使えばいいと思われる。

プロンプトの記述方法

  • V3.0/V3.1は基本的には(1girl or 1boy), (キャラ名), (作品名), (それ以外のプロンプト)の順に記載し、V3.0の場合、その後にクオリティタグを記述する(ブログ参照)。V3.1は特段の指定はないのでクオリティタグの位置は任意でいい模様。
  • V4.0は(1girl or 1boy or 1other), (キャラ名), (作品名), (評価タグ), (一般的なプロンプト), (クオリティタグ)の順に記載する。
  • クオリティタグとはmasterpiecebest qualityなどである。ただし、masterpieceやbest qualityのついた学習画像の大半はNSFW*1であることが多いことからそういった内容のイラストが出る傾向にある。
    • 避けたい場合は、V3.0ならプロンプトのクオリティタグに「rating :general」を、ネガティブプロンプトに「nsfw, rating :sensitive」を追記することが推奨されている。V3.1ならクオリティタグに「general」、ネガティブに「nsfw, sensitive」を追記推奨。
  • 高品質な画像を生成したい場合には以下のクオリティタグを記載することが推奨されている。

    (V3.0) masterpiece, best quality

    (V3.1) masterpiece, best quality, very aesthetic, absurdres

    (V4.0) masterpiece, high score, great score, absurdres

V3.1の「very aesthetic」については後述の特別なタグを参照。absurdresについてはなじみがない人もいるかもしれないが、danbooruのタグの一種で異常なほどの高解像度という意味合いの品質タグの一つである(一応更に上位に「incredibly absurdres」が存在するが、こちらはサイズ比が極端なものが多いため利用する必要はないと思われる)。

  • ネガティブプロンプトとしては以下のとおり記述することが推奨されている。

    (V3.0) nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, artist name

    (V3.1) nsfw, lowres, (bad), text, error, fewer, extra, missing, worst quality, jpeg artifacts, low quality, watermark, unfinished, displeasing, oldest, early, chromatic aberration, signature, extra digits, artistic error, username, scan, [abstract]

    (V4.0) lowres, bad anatomy, bad hands, text, error, missing finger, extra digits, fewer digits, cropped, worst quality, low quality, low score, bad score, average score, signature, watermark, username, blurry

    • 最近は強弱について(prompt:0.91)などで指定することが多いため、あまり、なじみがないかもしれないが[]とは、プロンプトの影響を弱める効果がある。[]はプロンプトを1.1倍弱める(=0.91倍にする)効果である。
  • もちろん、NSFWイラストを生成したい場合は、冒頭のnsfwについては削除すればいい。

その他の設定

V3.0/V3.1V4.0
サンプラーEuler a
ステップ数30以下25~28
(25を推奨)
CFGスケール5~74~7
(5を推奨)

V3.0/V3.1の設定ステップ数は30以下であるが、あまりにも小さすぎるとノイズまみれになってしまうので、15~30推奨。

画像サイズ

  • 1024×1024をベースとして以下のサイズがサポートされている。
    • SD1.5のように512×512などの小さいサイズを出そうとすると露骨に品質が落ちるので注意。
  • TVアニメが素材に入っているせいか横長の方がアニメっぽくなる。(気がする)
    サイズアスペクト比
    1024*10241:1
    1152*896
    896*1152
    9:7
    7:9
    1216*832
    832*1216
    19:13
    13:19
    1344*768
    768*1344
    7:4
    4:7
    1536*640
    640*1536
    12:5
    5:12

特別なタグ

  • danbooruのタグとは別に以下のタグが定義されており、生成される画像の制御に利用できる。

品質タグ

V3.0は品質スコアで管理しているが、V3.1は相対評価で管理している。
また、V3.1は一部タグの名称が変わっている。

V4.0でも品質タグは続投しているが、別途スコアタグも存在する。なお、具体的な品質タグ、スコアタグの基準については未掲載。
品質タグとスコアタグの違いについて公式の説明として、

  • 品質タグ……画像全体の品質と詳細レベルに直接影響を与える
  • スコアタグ……画像品質を細かく制御する。出力品質の舵取りに影響を与える

とのことだが、基本的には品質タグのmasterpieceとスコアタグのhigh scoreを組み合わせればいいだろう(そもそも推奨クオリティタグにこの辺が含まれているので)。

V3.0

タグ品質
masterpiece150超
best quality100~150
high quality75~100
medium quality25~75
normal quality0~25
low quality-5~0
worst quality-5未満

V3.1

タグ評価基準
masterpiece95%~
best quality85%~95%
great quality75%~85%
good quality50%~75%
normal quality25%~50%
low quality10%~25%
worst quality~10%

V4.0

品質タグスコアタグ
masterpiece
best quality
low quality
worst quality
high score
great score
good score
average score
bad score
low score

評価タグ

V3.0では「rating: ~」といった形式で記載するが、V3.1では「rating:」の記載が不要になった。
また、V3.1ではquestionableがなくなり、nsfwが評価タグとして機能する模様。
V4.0ではgeneralがsafeに変わった他は、V3.1と同様。

V3.0

タグ評価
rating: general一般的なイラスト
rating: sensitiveセンシティブなイラスト
rating: questionable, nsfw疑わしいイラスト
rating: explicit, nsfw明示的なイラスト

V3.1

タグ評価
general一般的なイラスト
sensitiveセンシティブなイラスト
nsfw疑わしいイラスト
explicit明示的なイラスト

V4.0

タグ評価
safe一般的なイラスト
sensitiveセンシティブなイラスト
nsfw疑わしいイラスト
explicit明示的なイラスト

年代タグ

絵柄の年代を指定する。いわゆる少し古いイラストを指定することも可能である。
何も指定しなかった場合は、newestのイラストが生成される模様。

V3.0とV3.1では一部年代の選定基準及びタグ名に違いがある。

  • それより古い年代のイラストについてはdanbooruタグの「1950s (style)」~「2000s (style)」までが10年刻みで存在するので利用するのも手(これらのタグはその他のタグの位置に記述すること)。

V4.0では、year {n}と入れることで何年のイラストで指定できる模様(例:year 2007で2007年のイラスト)。2005~2025まで?

V3.0

タグ年代
newest2022~2023年
late2019~2021年
mid2015~2018年
early2011~2014年
oldest2005~2010年

V3.1

タグ年代
newest2021~2024年
recent2018~2020年
mid2015~2017年
early2011~2014年
oldest2005~2010年

美的タグ(V3.1のみ)

アニメ画像の美的価値を評価する「Aesthetic Shadow V2」を用いて評価を行い、その評価に応じてタグ分けされている。

タグ評価
very aesthetic0.71以上
aesthetic0.45~0.71
displeasing0.27~0.45
very displeasing0.27以下

キャラクター名やシリーズ名で出せるキャラ

公式のワイルドカードの記載を見る限り、一部のアニメキャラについては名前とシリーズ名の入力だけで出力可能となっている。

  • 特にV3.0では比較的最近のソシャゲキャラやVTuber、有名なアニメの一部キャラが対象となっているが、作品の偏りは非常に大きい。『Fate/Grand Order』や『アズールレーン』、『アークナイツ』などのキャラは対象が多いが、人気アニメであっても主要人物数人くらいしか出ないケースも多い。
    • V3.0は約2880キャラに対応しているが、学習素材の大半は比較的新しいソシャゲのキャラとVTuberで、それ以外はほとんどリストに含まれていない。アニメについてもごく一部の作品のみで、しかも1キャラくらいに留まっている。
      • 2割弱を占める『Fate』を筆頭に、『ホロライブ』『アズレン』『アクナイ』『ブルアカ』『にじさんじ』『ドルフロ』『原神』『グラブル』『崩壊』『ウマ娘』の11シリーズだけで全体の86%以上を占めている。Danbooruの時点でその傾向にあるとはいえ、衣装違いが別個に学習されているケースも多い。
      • 一方で同じソシャゲでDanbooru登録数2位の『艦隊これくしょん -艦これ-』はわずか6キャラしか学習されていない。それどころかDanbooruでの登録数が圧倒的に多い『東方Project』ですら霊夢しか学習されていない
    • V3.1は約4900キャラに対応。上記に挙げたシリーズのキャラは基本的に増やされず(『Fate』は20キャラ、『崩壊』は10キャラほど増えているが)、最近のアニメ+有名なアニメやゲーム(古い作品含む)のキャラが大量に追加されたが、偏りの大きさは相変わらず。
      • 『FE』が唯一の200キャラ超えで、『FF』『ガンダム』『ジョジョ』からもそれぞれ100キャラ以上加わっている。この4シリーズはシリーズ作品が大量にあり、かつ作品ごとに登場キャラが異なるのも一因と思われる。
      • 後にIllustrious-XLが登場したため版権の出力においてだいぶ見劣りしてしまっている。
  • 以下、V3.1において100キャラ以上が対応しているものを抜粋(同一シリーズ等は1つにまとめる)。
シリーズ等プロンプト対応キャラ数
Fatefate586
fate/grand order
ホロライブプロダクションhololive312
holostars
アズールレーンazur lane296
アークナイツarknights273
ファイアーエムブレムfire emblem242
ブルーアーカイブ -Blue Archive-blue archive189
にじさんじnijisanji167
ドールズフロントラインgirls' frontline160
ファイナルファンタジーfinal fantasy155
原神genshin impact144
機動戦士ガンダムgundam141
崩壊honkai137
honkai: star rail
グランブルーファンタジーgranblue fantasy136
ウマ娘 プリティーダービーumamusume123
ジョジョの奇妙な冒険jojo no kimyou na bouken105

全体的にゲームキャラの方が高いクオリティで出る傾向がある。アニ魔神というよりゲー魔神

  • 精度については、ぶっちゃけピンキリ。再現率が高いキャラクターもいれば、よくみればキャラの一部の特徴だけは捉えられている気もする、程度のものもある。
    • また、V3.1で霊夢以外の『東方Project』のキャラが追加されているが、V3.0の影響かどのキャラにも霊夢要素が含まれているため、キャラの再現率という面で言えば今ひとつ。
    • V3.0では精度が高かったが、V3.1では精度が落ちてしまったキャラもいる。
  • 一覧にあるキャラクターを作成する場合も精度が低い場合は個々の特徴をプロンプトに追加したり、ネガティブプロンプトで無関係なプロンプトを消していくという使い方は十分できる。
  • V4.0では1から作り直されたこともありこの欠点は解消されたが、それでも衣装はIllustrious-XLほどは安定しない。

その他の補足

  • プロンプトの記法については作者の推奨といえるが、それほど厳格に捉える必要は無い。
    • 例えば、1girl / 1boyなどは先頭に記述することが求められているが、書き入れなかったとしても大きな問題にはならない。場合によっては入れない方がいいイラストになることもあるので様々な試行錯誤は悪くない。
  • オリジナルキャラを作るのであれば「original」を入れると版権っぽさが下がる……という意見もあるが、V3.0では影響を感じられない、V3.1では影響はあるがクオリティが下がった気もするという意見もあるため、こちらも試行錯誤してみるといいだろう。
  • V3.1では特定のタグが版権キャラのトリガーとなってしまうこともある模様。originalを使うか、キャラ名をネガティブに入れるなどして多少影響を抑えることはできるが、どうしても気になるならV3.0を使うのも一手。
  • V3.1は結構古いアニメが素材に使われているのか、プロンプトanime screencapを入れると品質がガタ落ちしてしまう。
  • V4.0については、記載順序による違いなどを作者が解説しているので一読しておくといいだろう。
  • LoRAの作りやすさはV3.0、V3.1共に良好であり、派生モデルも作りやすく、実際相応に出ている。
  • AnimagineV3.1はケモノ少女が出やすい、V3.0に比べてScoreタグの効きが良い、同プロンプトでV3.0では発生しない破綻が起きる等の理由からpony_diffusionが混ざっている可能性が考えられる。
    • もっとも、通常使う上ではPony_Diffusionの知識は必要ない。

FAQ

なんか変な色合いのイラストが生成されたんだけど

VAEはオフ(None)で構わない。
SD1.5系列のVAEとは互換性がないため、利用すると色合いがおかしくなる。Autoにしている場合はNoneにすること。

なんかノイズまみれのイラストが出たんだけど

SDXLの不具合というか仕様。emphasis(強調)(例:1.2)を使ったとき、特定のワードで異常な倍率を叩き出してしまうのが原因。
どのモデルでも出るが、出やすさはモデルによって左右される。Animagine3.0での発生頻度は少なめ。3.1は若干多い。

原因はテンソルの計算過程にあるとhakomikan氏が解説している。
稀にノイズだらけの画像が出るというだけで収まる話ではなく
条件を満たすと、(1girl:3.0)のような過剰なバイアスを与えてしまうので、ノイズが発生しなくても絵に悪影響を及ぼす。
ノイズはそれが破綻を起こさないセーフラインを超えた結果に過ぎない)

WebUIの設定>Stable Diffusion>Emphasis Modeを「No norm」に変更すると改善する。

結局どのバージョンを使えばいいの?

結論を言えばお好み次第である。
V3.0/V3.1についてはV3.1が後発であるが、完全上位互換というわけでもない。
V4.0については、一から教育されているので、こちらも互換性があるというわけではない。

Animagineに限らず、様々なモデルが出ているので色々使った上で気に入ったモデルを見つけてみればいいだろう。
ぶっちゃけ、モデル保存容量に余裕があればある程度キープして使い分けるのも悪くない。


*1 簡単に言うとエッチなイラスト