Animagine XL

SDXLシリーズの中でも人気を博しているモデルの一つ。

アニメイラストの出力に長けているSDXLモデルの一つ。
Pony系列（「pony_diffusion_v6」など）と共に人気があるモデル。
最近はIllustrious-XLに食われ気味だが、背景と小物の上手さは今でも目を見張るものがある。
若干学習に偏りがあるためLoRA無しでキャラを出すにはやや分が悪いが、キャラLoRAは作りやすい方。
そのままでもオリジナルイラストを出すモデルとしては十分耐えられる出来となっている。
2024年1月10日にV3.0がリリースされると、高精度なイラストやSDXLモデルが苦手とされているNSFWイラストも生成できること、似た時期にSDXLを比較的低グラボでも利用できるForgeが登場したこともあってSDXLモデルの普及を促した。
通称兄魔人。

その後、3月18日にV3.1がリリースされており、基本的な生成品質や、後述するプロンプトのみで出力できるキャラは増えているものの、3.0用のLoRAの効きは良くないことも相まって、どちらのバージョンも使われている傾向にある。

また、2025年1月28日にはV4.0がリリースされた。
また、2025年第2四半期にはV4.1をリリースする予定とされていたが、2025/11/8時点で続報はない。
…が、2026年1月に名前の似ているAnimaがリリースされた。

リンク

公式ブログ
- V3.0
- V3.1
- V4.0
CivitAIのページ
- V3.0
- V3.1
- V4.0
Hugging Faceのページ
- V3.0
  - V3.0 base
- V3.1
- V4.0

特徴

V3.0/V3.1

詳しくは公式ブログにある通りだが、このモデルはAnimagine XL 2.0をベースに、RunpodというクラウドサービスでA100(VRAM 80GB)という業務用のグラボをレンタルして500時間以上かけて学習したものである。

NovelAI Diffusion V3と同様のトレーニング方式を採用しているらしくDanbooruのタグとの互換性が高い。
SD1.5に慣れ親しんだ者にとっては移行しやすいのが利点。いわゆる普通のイラストを生成するのであれば、それほど難しいことを考えることなくある程度高いクオリティで作ることができるため画像生成初心者にも扱いやすい。
一方で、Pony系列が複数キャラが登場するえっちな画像を得意とするのに対し、（それまでのXL系列モデルと比べればマシとはいえ）えっちな画像はやはり苦手というのが特徴的であり、総じて、「初心者向けのAnimagine XL、玄人向けのPony」と評されることも。

また、どんな形の手であっても必ず5本指で出すとまではいかないが、開き手やVサインなどの明確なハンドサインについては安定性が向上している。

昨今の多くのSDXLモデルと同様、本モデルも1モデルで完結しているため、SDXLモデルでありがちな、refinerは使用する必要がない。

V4.0

詳しくはこちらにあるとおりだが、V3.0/V3.1がV2.0をベースに学習したのに対し、V4.0は改めてSDXLをベースとして学習したもので、2025年1月7日までのデータを学習対象としているとのこと。

その後、V4.0を微調整したoptバージョンとzeroバージョンがリリースされている。
optバージョンはV4.0に対し更に追加のデータセットを用いて最適化を行ったバージョンで、2025年2月25日現在、V4.0系を画像生成で用いるならこれを用いることになるだろう。
zeroバージョンは無印とoptバージョンのベースとなったバージョンで、LoRA学習のベースモデルとして用いるのに最適。

推奨設定

詳細については上記リンクの項目を参照。
簡単にまとめておくと以下の通りとなる。

環境

作者の推奨環境はComfyUIである。
もっとも、A1111やForgeなどで利用して不都合が生じるという話は聞かれないので、自身が使いやすい環境を使えばいいと思われる。

プロンプトの記述方法

V3.0/V3.1は基本的には(1girl or 1boy), (キャラ名), (作品名), (それ以外のプロンプト)の順に記載し、V3.0の場合、その後にクオリティタグを記述する（ブログ参照）。V3.1は特段の指定はないのでクオリティタグの位置は任意でいい模様。
V4.0は(1girl or 1boy or 1other), (キャラ名), (作品名), (評価タグ), (一般的なプロンプト), (クオリティタグ)の順に記載する。
クオリティタグとはmasterpieceやbest qualityなどである。ただし、masterpieceやbest qualityのついた学習画像の大半はNSFW*1であることが多いことからそういった内容のイラストが出る傾向にある。
- 避けたい場合は、V3.0ならプロンプトのクオリティタグに「rating :general」を、ネガティブプロンプトに「nsfw, rating :sensitive」を追記することが推奨されている。V3.1ならクオリティタグに「general」、ネガティブに「nsfw, sensitive」を追記推奨。
高品質な画像を生成したい場合には以下のクオリティタグを記載することが推奨されている。
(V3.0) masterpiece, best quality

(V3.1) masterpiece, best quality, very aesthetic, absurdres

(V4.0) masterpiece, high score, great score, absurdres

V3.1の「very aesthetic」については後述の特別なタグを参照。absurdresについてはなじみがない人もいるかもしれないが、danbooruのタグの一種で異常なほどの高解像度という意味合いの品質タグの一つである（一応更に上位に「incredibly absurdres」が存在するが、こちらはサイズ比が極端なものが多いため利用する必要はないと思われる）。

ネガティブプロンプトとしては以下のとおり記述することが推奨されている。
(V3.0) nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, artist name

(V3.1) nsfw, lowres, (bad), text, error, fewer, extra, missing, worst quality, jpeg artifacts, low quality, watermark, unfinished, displeasing, oldest, early, chromatic aberration, signature, extra digits, artistic error, username, scan, [abstract]

(V4.0) lowres, bad anatomy, bad hands, text, error, missing finger, extra digits, fewer digits, cropped, worst quality, low quality, low score, bad score, average score, signature, watermark, username, blurry
- 最近は強弱について(prompt:0.91)などで指定することが多いため、あまり、なじみがないかもしれないが[]とは、プロンプトの影響を弱める効果がある。[]はプロンプトを1.1倍弱める（=0.91倍にする）効果である。

もちろん、NSFWイラストを生成したい場合は、冒頭のnsfwについては削除すればいい。

その他の設定

	V3.0/V3.1	V4.0
サンプラー	Euler a
ステップ数	30以下	25～28 (25を推奨)
CFGスケール	5～7	4～7 (5を推奨)

V3.0/V3.1の設定ステップ数は30以下であるが、あまりにも小さすぎるとノイズまみれになってしまうので、15～30推奨。

画像サイズ

1024×1024をベースとして以下のサイズがサポートされている。
- SD1.5のように512×512などの小さいサイズを出そうとすると露骨に品質が落ちるので注意。
TVアニメが素材に入っているせいか横長の方がアニメっぽくなる。（気がする）
サイズアスペクト比
1024*1024 1:1
1152*896
896*1152 9:7
7:9
1216*832
832*1216 19:13
13:19
1344*768
768*1344 7:4
4:7
1536*640
640*1536 12:5
5:12

サイズ	アスペクト比
1024*1024	1:1
1152896 8961152	9:7 7:9
1216832 8321216	19:13 13:19
1344768 7681344	7:4 4:7
1536640 6401536	12:5 5:12

特別なタグ

danbooruのタグとは別に以下のタグが定義されており、生成される画像の制御に利用できる。

品質タグ

V3.0は品質スコアで管理しているが、V3.1は相対評価で管理している。
また、V3.1は一部タグの名称が変わっている。

V4.0でも品質タグは続投しているが、別途スコアタグも存在する。なお、具体的な品質タグ、スコアタグの基準については未掲載。
品質タグとスコアタグの違いについて公式の説明として、

品質タグ……画像全体の品質と詳細レベルに直接影響を与える
スコアタグ……画像品質を細かく制御する。出力品質の舵取りに影響を与える

とのことだが、基本的には品質タグのmasterpieceとスコアタグのhigh scoreを組み合わせればいいだろう（そもそも推奨クオリティタグにこの辺が含まれているので）。

V3.0

タグ	品質
masterpiece	150超
best quality	100～150
high quality	75～100
medium quality	25～75
normal quality	0～25
low quality	-5～0
worst quality	-5未満

V3.1

タグ	評価基準
masterpiece	95%～
best quality	85%～95%
great quality	75%～85%
good quality	50%～75%
normal quality	25%～50%
low quality	10%～25%
worst quality	～10%

V4.0

	品質タグ	スコアタグ
	masterpiece best quality low quality worst quality	high score great score good score average score bad score low score

評価タグ

V3.0では「rating: ~」といった形式で記載するが、V3.1では「rating:」の記載が不要になった。
また、V3.1ではquestionableがなくなり、nsfwが評価タグとして機能する模様。
V4.0ではgeneralがsafeに変わった他は、V3.1と同様。

V3.0

タグ	評価
rating: general	一般的なイラスト
rating: sensitive	センシティブなイラスト
rating: questionable, nsfw	疑わしいイラスト
rating: explicit, nsfw	明示的なイラスト

V3.1

タグ	評価
general	一般的なイラスト
sensitive	センシティブなイラスト
nsfw	疑わしいイラスト
explicit	明示的なイラスト

V4.0

タグ	評価
safe	一般的なイラスト
sensitive	センシティブなイラスト
nsfw	疑わしいイラスト
explicit	明示的なイラスト

年代タグ

絵柄の年代を指定する。いわゆる少し古いイラストを指定することも可能である。
何も指定しなかった場合は、newestのイラストが生成される模様。

V3.0とV3.1では一部年代の選定基準及びタグ名に違いがある。

それより古い年代のイラストについてはdanbooruタグの「1950s (style)」～「2000s (style)」までが10年刻みで存在するので利用するのも手（これらのタグはその他のタグの位置に記述すること）。

V4.0では、year {n}と入れることで何年のイラストで指定できる模様（例：year 2007で2007年のイラスト）。2005～2025まで？

V3.0

タグ	年代
newest	2022～2023年
late	2019～2021年
mid	2015～2018年
early	2011～2014年
oldest	2005～2010年

V3.1

タグ	年代
newest	2021～2024年
recent	2018～2020年
mid	2015～2017年
early	2011～2014年
oldest	2005～2010年

美的タグ（V3.1のみ)

アニメ画像の美的価値を評価する「Aesthetic Shadow V2」を用いて評価を行い、その評価に応じてタグ分けされている。

タグ	評価
very aesthetic	0.71以上
aesthetic	0.45～0.71
displeasing	0.27～0.45
very displeasing	0.27以下

キャラクター名やシリーズ名で出せるキャラ

公式のワイルドカードの記載を見る限り、一部のアニメキャラについては名前とシリーズ名の入力だけで出力可能となっている。

V3.0時点での一覧はこちら（アーカイブ）。

V3.1時点での一覧はこちら（V3.1で追加されたものはこちら）。

特にV3.0では比較的最近のソシャゲキャラやVTuber、有名なアニメの一部キャラが対象となっているが、作品の偏りは非常に大きい。『Fate/Grand Order』や『アズールレーン』、『アークナイツ』などのキャラは対象が多いが、人気アニメであっても主要人物数人くらいしか出ないケースも多い。
- V3.0は約2880キャラに対応しているが、学習素材の大半は比較的新しいソシャゲのキャラとVTuberで、それ以外はほとんどリストに含まれていない。アニメについてもごく一部の作品のみで、しかも1キャラくらいに留まっている。
  - 2割弱を占める『Fate』を筆頭に、『ホロライブ』『アズレン』『アクナイ』『ブルアカ』『にじさんじ』『ドルフロ』『原神』『グラブル』『崩壊』『ウマ娘』の11シリーズだけで全体の86%以上を占めている。Danbooruの時点でその傾向にあるとはいえ、衣装違いが別個に学習されているケースも多い。
  - 一方で同じソシャゲでDanbooru登録数2位の『艦隊これくしょん -艦これ-』はわずか6キャラしか学習されていない。それどころかDanbooruでの登録数が圧倒的に多い『東方Project』ですら霊夢しか学習されていない。
- V3.1は約4900キャラに対応。上記に挙げたシリーズのキャラは基本的に増やされず（『Fate』は20キャラ、『崩壊』は10キャラほど増えているが）、最近のアニメ＋有名なアニメやゲーム（古い作品含む）のキャラが大量に追加されたが、偏りの大きさは相変わらず。
  - 『FE』が唯一の200キャラ超えで、『FF』『ガンダム』『ジョジョ』からもそれぞれ100キャラ以上加わっている。この4シリーズはシリーズ作品が大量にあり、かつ作品ごとに登場キャラが異なるのも一因と思われる。
  - 後にIllustrious-XLが登場したため版権の出力においてだいぶ見劣りしてしまっている。

以下、V3.1において100キャラ以上が対応しているものを抜粋（同一シリーズ等は1つにまとめる）。

シリーズ等	プロンプト	対応キャラ数
Fate	fate	586
Fate	fate/grand order	586
ホロライブプロダクション	hololive	312
ホロライブプロダクション	holostars	312
アズールレーン	azur lane	296
アークナイツ	arknights	273
ファイアーエムブレム	fire emblem	242
ブルーアーカイブ -Blue Archive-	blue archive	189
にじさんじ	nijisanji	167
ドールズフロントライン	girls' frontline	160
ファイナルファンタジー	final fantasy	155
原神	genshin impact	144
機動戦士ガンダム	gundam	141
崩壊	honkai	137
崩壊	honkai: star rail	137
グランブルーファンタジー	granblue fantasy	136
ウマ娘プリティーダービー	umamusume	123
ジョジョの奇妙な冒険	jojo no kimyou na bouken	105

全体的にゲームキャラの方が高いクオリティで出る傾向がある。~~アニ魔神というよりゲー魔神~~

精度については、ぶっちゃけピンキリ。再現率が高いキャラクターもいれば、よくみればキャラの一部の特徴だけは捉えられている気もする、程度のものもある。
- また、V3.1で霊夢以外の『東方Project』のキャラが追加されているが、V3.0の影響かどのキャラにも霊夢要素が含まれているため、キャラの再現率という面で言えば今ひとつ。
- V3.0では精度が高かったが、V3.1では精度が落ちてしまったキャラもいる。
一覧にあるキャラクターを作成する場合も精度が低い場合は個々の特徴をプロンプトに追加したり、ネガティブプロンプトで無関係なプロンプトを消していくという使い方は十分できる。

V4.0では1から作り直されたこともありこの欠点は解消されたが、それでも衣装はIllustrious-XLほどは安定しない。

その他の補足

プロンプトの記法については作者の推奨といえるが、それほど厳格に捉える必要は無い。
- 例えば、1girl / 1boyなどは先頭に記述することが求められているが、書き入れなかったとしても大きな問題にはならない。場合によっては入れない方がいいイラストになることもあるので様々な試行錯誤は悪くない。
オリジナルキャラを作るのであれば「original」を入れると版権っぽさが下がる……という意見もあるが、V3.0では影響を感じられない、V3.1では影響はあるがクオリティが下がった気もするという意見もあるため、こちらも試行錯誤してみるといいだろう。
V3.1では特定のタグが版権キャラのトリガーとなってしまうこともある模様。originalを使うか、キャラ名をネガティブに入れるなどして多少影響を抑えることはできるが、どうしても気になるならV3.0を使うのも一手。
V3.1は結構古いアニメが素材に使われているのか、プロンプトにanime screencapを入れると品質がガタ落ちしてしまう。
V4.0については、記載順序による違いなどを作者が解説しているので一読しておくといいだろう。

LoRAの作りやすさはV3.0、V3.1共に良好であり、派生モデルも作りやすく、実際相応に出ている。

AnimagineV3.1はケモノ少女が出やすい、V3.0に比べてScoreタグの効きが良い、同プロンプトでV3.0では発生しない破綻が起きる等の理由からpony_diffusionが混ざっている可能性が考えられる。
- もっとも、通常使う上ではPony_Diffusionの知識は必要ない。

FAQ

なんか変な色合いのイラストが生成されたんだけど

VAEはオフ(None)で構わない。
SD1.5系列のVAEとは互換性がないため、利用すると色合いがおかしくなる。Autoにしている場合はNoneにすること。

なんかノイズまみれのイラストが出たんだけど

SDXLの不具合というか仕様。emphasis（強調）(例:1.2)を使ったとき、特定のワードで異常な倍率を叩き出してしまうのが原因。
どのモデルでも出るが、出やすさはモデルによって左右される。Animagine3.0での発生頻度は少なめ。3.1は若干多い。

原因はテンソルの計算過程にあるとhakomikan氏が解説している。
稀にノイズだらけの画像が出るというだけで収まる話ではなく
条件を満たすと、(1girl:3.0)のような過剰なバイアスを与えてしまうので、ノイズが発生しなくても絵に悪影響を及ぼす。
（ノイズはそれが破綻を起こさないセーフラインを超えた結果に過ぎない）

WebUIの設定>Stable Diffusion>Emphasis Modeを「No norm」に変更すると改善する。

結局どのバージョンを使えばいいの？

結論を言えばお好み次第である。
V3.0/V3.1についてはV3.1が後発であるが、完全上位互換というわけでもない。
V4.0については、一から教育されているので、こちらも互換性があるというわけではない。

Animagineに限らず、様々なモデルが出ているので色々使った上で気に入ったモデルを見つけてみればいいだろう。
ぶっちゃけ、モデル保存容量に余裕があればある程度キープして使い分けるのも悪くない。

Animagine XL

Animagine XL

リンク

特徴

V3.0/V3.1

V4.0

推奨設定

環境

プロンプトの記述方法

その他の設定

画像サイズ

特別なタグ

品質タグ

評価タグ

年代タグ

美的タグ（V3.1のみ)

キャラクター名やシリーズ名で出せるキャラ

その他の補足

FAQ

なんか変な色合いのイラストが生成されたんだけど

なんかノイズまみれのイラストが出たんだけど

結局どのバージョンを使えばいいの？

はじめての方へ

不具合・エラー情報

スレの主な出来事

生成ツール

無料デモ・Webサービス

ローカル

モデル

画像生成モデル

動画生成モデル

その他

AUTOMATIC1111 SD Web UI

導入

ローカル版

Colab版

Paperspace版

使い方

初期設定

使い方（基本）

使い方（上級）

アップスケール＆高画質化

学習全般

学習データの種類

LoRA学習

事前準備

学習方法

学習のコツ

応用

学習させたLoRAの使い方

アイデア・メモ

Wiki編集者向け

外部リンク

カウンター