概要
https://huggingface.co/circlestone-labs/Anima
Circle Stone LabsとComfy Orgが開発する画像生成モデル。
イラストや芸術的な描写に特化しているとのことで、写実的な表現には向いていないとのこと。
パラメータ数は2BでSDXLよりもコンパクトであり、同一環境であればSDXLよりも生成時間は長くなるが、SDXLと同程度のVRAMでも問題なく動作する。
2026年3月20日現在Preview2が出ており、現在発展途上中ではあるものの、既にSDXLの次世代として期待されているモデルである。
特徴
SDXLと比較すると、
- 水平線などの破綻が少ない
- 自然言語による指示、制御が可能
というのが大きな強みといえる。
先行するLumina-Imageほどのプロンプト追従性はないが複数キャラクターの描き分けはある程度高い成功率を誇っている。
それでいて、SDXLと同程度のVRAMさえあれば問題なく動作する軽さが魅力であり、高品質ながらグラボのスペック次第では手を出しにくいLumina-Image等と比べ、これまでSDXLを問題なく利用できたスペックならそのままこちらに移行していけるのも強みである。
自然言語による指示、制御についてはある程度一般的な内容は理解できるがニッチな内容については難しい側面もある模様。
なお、公式見解は最低でも2文程度を目安とし、極端に短いものは予期せぬ結果を招く可能性があるとのこと(ただ、最終バージョンでは改善される予定)。
気になる点としては……
といった点が挙げられる。
他にも、現時点では
- プレビュー版では512×512で学習していることから、1024×1024(100万画素程度)のサイズを大きく超えるとノイズ混じりになる
- ベースモデルの宿命からか、生成される画像の絵柄が結構ブレる
- ノウハウが少なく、派生モデルやLoRAがほとんどない
- DMD2、turbo、Flashなどの少ステップcfg=1 LoRAを使うぐらい?
といった点も挙げられるが、この辺りは最終バージョンがリリースされる頃には改善されると思われる。
Preview2版では、2025年9月までの内容で学習しているとのこと。
利用方法
対応UI
Comfy UIとForge Neoのみ。
Forge Neoを除くA1111系列は非対応。
Comfy UIの場合、テンプレートにAnimaが存在するため、これを利用すれば、以下の必要なファイルのダウンロードも行ってくれる。
手動でファイルをダウンロードする場合は以下のとおり配置する。
- anima-preview.safetensorsをComfyUI/models/diffusion_modelsフォルダ
- qwen_3_06b_base.safetensorsをComfyUI/models/text_encodersフォルダ
- qwen_image_vae.safetensorsをComfyUI/models/vaeフォルダ
推奨生成パラメータ
- サイズ:約1メガピクセル(1024×1024、896×1152など)
- 多少大きくしても問題ないが、あまりにも大きくしすぎるとノイズが混じるので注意
- 縦の大型化は特に劣化が見えやすい
- ステップ数:30~50
- 実際には20ステップ程度でも問題ない
- CFG:4~5
- サンプラーは特に指定はないが、公式がおすすめとしているのは「er_sde」「euler_a」「dpmpp_2m_sde_gpu」
- diffuser特化のgradient estimation系は少ないステップ数である程度の完成度を出せるが、以降の伸びは低いかも
プロンプト
Danbooruタグと自然言語の両方が使える。併用も可能。
自然言語を用いる場合は、あまりにも短すぎると上手く動作しない。
公式の説明によれば、最低2文程度が望ましいとのこと。
Qwen3の小型モデルは1k token制限があり、text2tokenの効率も汲んで300語以内が妥当らしい。
もっとも、エンコーダがそれほど強力ではないため、あまりにも複雑な内容は理解できないと思って良い。
プロンプトの入力順序は以下が推奨。従わなくともある程度問題はないのは他のモデルと同様。
[品質/メタ/年代/レーティング], [1girl, 1boy, 1otherなど], キャラクター, シリーズ, アーティスト, その他のタグ
品質~レーティングは順不同。
品質
人間による評価
masterpiece, best quality, good quality, normal quality, low quality, worst quality
Pony V7の美的モデルスコア
score_9, score_8,……, score_1
ベースモデルの宿命からか、masterpieceなどを多用すると、いわゆるマスピ絵に近づきがち。
メタ
highres, absurdres, anime screenshot, jpeg artifacts, official artなど。
年代
年数を指定
year 2025, year 2024, ……
時代指定
newest, recent, mid, early, old
レーティング
safe, sensitive, nsfw, explicit
左から順にdanbooruの「general」「sensitive」「nsfw」「explicit」に対応。general→safeに注意。
アーティスト
アーティストタグを入力する際にはそのタグの先頭に「@」を付ける必要がある。
付けない場合効果が弱まるとのこと。
ライセンス
独自のライセンスを持つが、要約すると
- モデルそのものの商用利用は不可
- 生成物については商用利用可能
- 違法な目的や非倫理的な目的を有しない限りモデルの利用は自由
こちらも参照
派生モデル
- Anima Cat Tower(制作者:nuko_masshigura氏)
- Anima Yume(制作者:duongve13112002氏)
トラブルシューティング
画風が安定しない
ベースモデルであるがゆえに仕方ない一面もあるが、一応対応策としてはいくつかある。
- アーティストタグを利用する
- 一部のアーティストタグをネガティブに入れる(下記、スタイルエクスプローラの中で数が多く、絵柄が合わないものをいくつかネガティブに入れるだけでもかなり改善する)
- 画風のLoRAを作る
単調な出力になる
プロンプトで要求した内容は可能な限り描写しようと試みる一方、プロンプトに記載がないものは描写しない傾向が強いため、danbooruタグや自然言語で補完することを推奨。
指が溶けたり、数がおかしかったりする
学習画像の解像度が低いためか、現時点では仕様といっていい。
派生モデルならマシになっている。
スタイルエクスプローラ
https://thetacursed.github.io/Anima-Style-Explorer/
20,000人のアーティストのスタイルが収録されている。
特定のアーティストの絵柄を利用する場合や、あまりにも絵柄が不安定な際のネガティブ検討に利用すると良いだろう。