概要
https://huggingface.co/circlestone-labs/Anima
Circle Stone LabsとComfy Orgが開発する画像生成モデル。
イラストや芸術的な描写に特化しており、写実的な表現には向いていないとのこと。
パラメータ数は2Bと、SDXLの2.6Bと比べてもコンパクトであり、SDXLを動かせるVRAMであれば問題なく動作する。
2026年4月8日現在の最新版はPreview3Baseでプレビュー版となっており、発展途上中であるものの、既にSDXLの次世代モデルとして期待されている。
特徴
SDXLと比較すると、
- 水平線などの破綻が少ない
- 自然言語による指示、制御が可能
というのが強みであるが、先行するLumina-Imageなどと比べると、SDXLが動作する程度のVRAMであれば問題なく動作する軽さが他の後続モデルと比較した時の大きなメリット。
プロンプト追従性についてもLumina-Imageほどではないが、複数キャラクターの描き分けについてもある程度の成功率は誇っている。
自然言語による指示、制御については、ある程度一般的な内容は理解してくれるが、ニッチな内容については難しい場合もある。
公式見解としては、最低でも2文程度を目安としており、極端に短い場合は予期せぬ結果を招く可能性があるとのことである(ただ、この点は最終バージョンで改善される予定)。
気になる点としては……
といったところが挙げられる。
他にも、現時点で気になる点として、
- プレビュー版では512×512で学習していることから、1024×1024(100万画素程度)のサイズを大きく超えるとノイズ混じりになる
- ベースモデルの宿命からか、生成される画像の絵柄が結構ブレる
- ノウハウが少なく、派生モデルやLoRAがほとんどない
- DMD2、turbo、Flashなどの少ステップcfg=1 LoRAを使うぐらい?
- lora作成は可能。ただ「正式バージョンでも動作する保証はないから、preview版でlora作っても使い捨てになっちゃうよ(意訳)」とアナウンスされている。
といった点も挙げられるが、この辺りは最終バージョンがリリースされる頃には改善されると思われる。
Preview2版、Preview3Base版では、2025年9月までの内容で学習しているとのこと。
利用方法
対応UI
Comfy UIとForge Neoのみ。
Forge Neoを除くA1111系列は非対応。
Comfy UIの場合、テンプレートにAnimaが存在するため、これを利用すれば、以下の必要なファイルのダウンロードも行ってくれる。
手動でファイルをダウンロードする場合は以下のとおり配置する。
- anima-preview.safetensorsをComfyUI/models/diffusion_modelsフォルダ
- 実際のファイルはバージョンによって名称が変わるので、利用したいバージョンのものを配置すればよい
- qwen_3_06b_base.safetensorsをComfyUI/models/text_encodersフォルダ
- qwen_image_vae.safetensorsをComfyUI/models/vaeフォルダ
派生モデルを使う場合は、ComfyUI/models/diffusion_modelsフォルダに派生モデルを配置する。
推奨生成パラメータ
- サイズ:約1メガピクセル(1024×1024、896×1152など)
- 多少大きくしても問題ないが、あまりにも大きくしすぎるとノイズが混じるので注意
- 縦の大型化は特に劣化が見えやすい
- ステップ数:30~50
- 実際には20ステップ程度でも問題ない
- CFG:4~5
- サンプラーは特に指定はないが、公式がおすすめとしているのは「er_sde」「euler_a」「dpmpp_2m_sde_gpu」
- diffuser特化のgradient estimation系は少ないステップ数である程度の完成度を出せるが、以降の伸びは低いかも
- スケジューラはsimple安定、preview3からは公式はbeta57を推している(低ノイズでの生成部が秀でていると)。色々試してもいいが、flow matching系なのでkarrasとexponentialはほとんどのサンプラーとの組み合わせで絵が破綻する
プロンプト
Danbooruタグと自然言語の両方が使える。併用も可能で、タグ, 自然言語, タグなど順番も不問。
自然言語を用いる場合は、あまりにも短すぎると上手く動作しない。
なお、当然と言えば当然だが日本語は使用不可なので、英語が得意ではないなら翻訳やChatGPTなどを活用するのも手。
公式の説明によれば、最低2文程度が望ましいとのこと。
Qwen3の小型モデルは1k token制限があり、text2tokenの効率も汲んで300語以内が妥当らしい。
もっとも、エンコーダがそれほど強力ではないため、あまりにも複雑な内容は理解できないと思って良い。
なお、アンダースコア(_←これ)を半角スペース代わりに利用すると、激烈にプロンプトの効きが悪くなるので、アンダースコアは利用しないこと(例外はPonyスコアタグなど、通例でアンダースコアを利用するもののみ)。
プロンプトの入力順序は以下が推奨。従わなくともある程度問題はないのは他のモデルと同様。
[品質/メタ/年代/レーティング], [1girl, 1boy, 1otherなど], キャラクター, シリーズ, アーティスト, その他のタグや自然言語
品質~レーティングは順不同。
品質
人間による評価
masterpiece, best quality, good quality, normal quality, low quality, worst quality
Pony V7の美的モデルスコア
score_9, score_8,……, score_1
ベースモデルの宿命からか、masterpieceなどを多用すると、いわゆるマスピ絵に近づきがち。
(masterpiece, best quality:0.4 )のようにクオリティタグの効果を弱めるとマスピ絵感が緩和されるが、今度はガチャ要素が増える。
メタ
highres, absurdres, anime screenshot, jpeg artifacts, official artなど。
年代
年数を指定
year 2025, year 2024, ……
時代指定
newest, recent, mid, early, old
レーティング
safe, sensitive, nsfw, explicit
左から順にdanbooruの「general」「sensitive」「nsfw」「explicit」に対応。general→safeに注意。
アーティスト
アーティストタグを入力する際にはそのタグの先頭に「@」を付ける必要がある。
付けない場合効果が弱まるとのこと。
ネガティブプロンプト例
公式推奨
worst quality, low quality, score_1, score_2, score_3, 6 fingers, 6 toes, ai-generated, bad eyes, bad pupils, bad iris, bad hands, bad fingers,
ロゴ関係をかなり描きたがるので以下も強く推奨
watermark, patreon logo,
ライセンス
独自のライセンスを持つが、要約すると
- モデルそのものの商用利用は不可
- 生成物については商用利用可能
- 違法な目的や非倫理的な目的を有しない限りモデルの利用は自由
こちらも参照
派生モデル
2026年4月10日現在およそ以下の派生モデルがある。
- Anima Cat Tower(制作者:nuko_masshigura氏)
- Anima Yume(制作者:duongve13112002氏)
- AnimaIka(制作者:giko氏)
比較的画風が安定しているのが1で、ブレが多いのが2(中間は3)といった印象だが、画風が安定している=効きにくいプロンプトもある一面があるので一長一短。
現時点では好みや生成するイラストなどによって使い分けが良いかも知れない。
いずれのモデルも比較的更新が早いので定期的にチェックするのもいいだろう。
| 最新バージョン | 更新日 | 準拠 | |
| Anima Cat Tower | v0.5 | 2026/4/8 | Preview3Base |
| Anima Yume | v0.4 | 2026/4/12 | Preview3Base |
| AnimaIka | v3.0 | 2026/4/10 | Preview3Base |
トラブルシューティング
画風が安定しない
ベースモデルであるがゆえに仕方ない一面もあるが、一応対応策としてはいくつかある。
- アーティストタグを利用する
- 一部のアーティストタグをネガティブに入れる(下記、スタイルエクスプローラの中で数が多く、絵柄が合わないものをいくつかネガティブに入れるだけでもかなり改善する)
- 画風のLoRAを作る
- わかりやすいアニメ絵にしたいなら、anime screenshot, anime screencap, などのタグを使う。
派生モデルによっては画風が安定しているものもある。
単調な出力になる
プロンプトで要求した内容は可能な限り描写しようと試みる一方、プロンプトに記載がないものは描写しない傾向が強いため、danbooruタグや自然言語で補完することを推奨。
指が溶けたり、数がおかしかったりする
学習画像の解像度が低いためか、現時点では仕様といっていい。
派生モデルならマシになっている。
スタイルエクスプローラ
外部リンク
20,000人のアーティストのスタイルが収録されている。
特定のアーティストの絵柄を利用する場合や、あまりにも絵柄が不安定な際のネガティブ検討に利用すると良いだろう。