Anima

Last-modified: 2026-05-04 (月) 10:26:58

概要

https://huggingface.co/circlestone-labs/Anima

Circle Stone LabsとComfy Orgが開発する画像生成モデル。
アニメ寄りのイラスト、スタイルを得意とし、リアル寄りの表現には向いていないと公式が断言している二次向けのモデルである。

詳細は後述するが、SDXLの次世代モデルとして期待されており、まだまだプレビュー版(最新バージョン:Preview3Base)であるものの、既に高いポテンシャルの片鱗を見せている。
2026/4/8現在、プレビュー版(最新バージョン:Preview3Base)であるものの、既にSDXLの次世代モデルとして期待されている
パラメータ数は2Bであり、SDXLの2.6Bと比べてコンパクトであることから、SDXLと同程度の性能のPCがあれば問題なく動作する。

2026/4/8現在はまだプレビュー版(最新版:Preview3Base)であるものの、既にSDXLの次世代モデルとして期待されている。

Preview2、Preview3では2025年9月までの画像を用いて学習されている。

特徴

2026/4現在、ローカル環境ではまだまだ主流とされているSDXL系列モデル(以下、「SDXL」と表記する。)と比較すると、

  • 全体的な精度が高い
  • 水平線などの破綻が少ない
  • 自然言語による指示や制御ができる

といった強みがある。
もっとも、これらはSDXL後発モデル(Lumina-Imageなど、以下「後発モデル」と表記する。)にも当てはまる特徴であり、このモデルならではの強みというわけではない。

そんな中で、後発モデルとしてこのモデルが大きく注目されているポイントは

  • LoRAなしのベースモデルの時点で、NSFWイラストをバリバリ生成可能な実用性
  • SDXLよりもメモリ消費が少なく、SDXLが動作するPC環境であれば問題なく動作する導入ハードルの低さ

が挙げられる。

もう少し詳しく述べると、昨今は様々な事情で、特に海外を中心に発展している画像生成の分野においてベースモデルはNSFWに弱いケースが多く、派生モデルが作られてようやくNSFWの実用性が出てくるという流れが多い。
そんな中で、ベースモデルの時点でNSFWに強いというのは他の後発モデルと比べて明確なメリットといえる。
SDXLの派生モデルと比べても多種多様なシチュエーションに対応できるほか、自然言語による制御が可能であるため、SDXLではLoRAを使わないと厳しかった、あるいはLoRAを使っても厳しかったシチュエーションも対応できる場合もある。

そして、導入ハードルについてだが、画像生成初心者向けに語るならば、ローカル環境による画像生成というのは要求されるPCのスペックが高く、
「ハイスペックのゲームを(ある程度高めの設定で)普通に動かせる」くらいの一般基準でいえばかなりハイエンドな性能のPCでさえ画像生成のエントリーモデルと言われるのが常である。
しかしながら、昨今登場する後発モデルは、高性能化の代償として、要求スペックも更に高くなっており、文字通りモンスタースペックといっていいほどのハイエンドなグラボを用意しなければ満足に動かせないケースも増えてきている。
ハイエンドなグラボは以前からそれだけで何十万という高価な買い物となっていたのだが、昨今は円安やメモリ高騰の煽りを受け、そういったハイエンドなグラボは輪をかけて高騰化しており、後発モデルが利用できるPCを新たに用意しようとすると、50万円以上、こだわると100万円以上という途轍もない初期費用が掛かることさえある。
そんな中で、本モデルはメモリ要求面ではSDXLよりも若干ではあるが軽いことから、SDXLが動作するPCであれば、そもまま移行することができるし、これから新たに導入するという場合であってもSDXLの動作環境の情報をそのまま参考にすることができる。

後発モデルは性能が高いと聞いても、必要スペックが高いということで尻込みしていたユーザーにとってはかなりありがたい話である。

もちろん、必要スペックが後発モデルと比較すると低いというのは言い換えれば性能面で劣る部分があるというのは否めない。
とはいえ、あくまで後発モデルと比較した上でプロンプト追従性や自然言語への反応などが多少劣る程度に留まっており、SDXLと比べれば断然高性能であり、NSFWを利用したいという要望は十分叶えてくれる。

また、プロンプト追従性とは別に、Animaは生成画像の一貫性、整合性、妥当性といったものの総合的な質(Coherence)が高い。
例えば、それっぽい乗り物に乗る、武器を持つ、それっぽく水中を泳ぐ、階段を昇り降りする、など。
ここらへんはSDXL比ではなく、26年5月現在のローカル実行可能な画像生成AIの中でも結構ハイエンドに近い。


先行する後発モデルと比べてやや劣るのは上記のとおりだが、それ以外にも気になる点として、

  • SDXLと比べて同一条件で画像生成をした場合、おおよそ2倍強の時間がかかる
  • 対応UIがComfy UIとForge Neoのみで、SDXL全盛期によく使われたA1111Forge(reForge)に対応していない

といった点が挙げられる。

生成時間については致し方ない話であるものの、A1111Forge等が利用できないのは、人によっては気になる点で、これまで一貫してA1111Forge等を利用していたユーザーは新たな環境を構築するところから始める必要があるので要注意。

なお、本モデルのプレビュー版は512×512をベースに学習しているとのことであり、1024×1024の1メガピクセルを超えたサイズの画像生成でノイズが混じりやすく、更に大きくすると画像が破綻することもある。
また、学習サイズの小ささ故に、指などの細部が溶けてしまうケースも少なくないため、気になるのであれば公式が作った高解像度LoRAを使うか、派生モデルを利用するのが望ましい。
このモデルに限った話ではないが、ベースモデルという性質上、生成される画像の画風も多種多様であるため、アーティストタグで制御するなり、派生モデルを利用するなりするのがいいだろう。

SDXLと比べるとノウハウは明らかに少ないとはいえ、既に利用者は多いようで、派生モデルやLoRAなどは精力的に作られている状況にあるため、初心者であっても問題なく利用可能と思われる。

利用方法

対応UI

Comfy UIとForge Neoのみで、Forge Neoを除くA1111系列(reForgeなど)は非対応。

Comfy UIは独特のインターフェースを持つが、できることの多さや、ノード(処理工程)やプロンプトの共有のしやすさがメリット。
Forge Neoはインターフェースが直感的であり分かりやすいものの、Comfy UIと比べ情報が少ないのがデメリット。
本WikiにもForgeやreForgeのページはあるが、これらとは異なるので導入する際には注意。

SDXL系列と異なり、モデルファイルの他に、テキストエンコーダとVAE*1が必要となる。

Comfy UIを利用する場合は、テンプレートのAnimaを選択するか、公式ページで用意されている画像をComfy UI上で開くことで、必要なファイルのダウンロードを自動で行ってくれる。
もし、手動でファイルをダウンロードする場合は以下のとおり配置する。

ファイル配置先備考
anima-previewXXXX.safetensorsComfyUI/models/diffusion_modelsXXXXはバージョンによって異なる
qwen_3_06b_base.safetensorsComfyUI/models/text_encoders
qwen_image_vae.safetensorsComfyUI/models/vae

派生モデルを利用する場合には、ComfyUI/models/diffusion_modelsに配置する。
なお、テキストエンコーダとVAEについては派生モデルが特段別のものを指定しない限りは、上記ファイルが流用できるので、モデルファイルのみを追加で入れればいい。
(2026/4/25現在、Anima_LiquidMixについては独自のVAEが推奨されている)。

なお、モデルファイルの容量はおよそ4GBであり、SDXL系列のおよそ6.8GBと比べると少なめ。
エンコーダとVAEも含めるとプラス1.5GBくらいであるが、それでもSDXL系列よりモデル容量は軽く済む。

推奨生成パラメータ

公式の推奨設定は以下のとおり

  • サイズ:約1メガピクセル(1024×1024や896×1152など)
  • ステップ数:30~50
  • CFG:4~5
  • サンプラー:特段指定はないが、公式がお気に入りとしているのは「er_sde」「euler_a」「dpmpp_2m_sde_gpu」の3種類
  • スケジューラー:preview3版ではbeta57

推奨設定に対して補足をすると、
サイズについては多少程度であれば大きくしても問題ないが、学習サイズが小さい影響からか大きくしすぎるとノイズや破綻の原因になる。
縦方向の大型化は特にその影響が強い。

一応、preview2、preview3と更新されるにつれ、高解像度の学習も増えているので多少マシになっているが、サイズを大きくしたい場合は派生モデルや、下記高解像度LoRAの使用を推奨。

ステップ数については30以上が推奨されているものの、20ステップ程度でもほとんど影響はない。

サンプラーについては公式がお気に入りとしているサンプラーについての公式のコメントとして、

  • er_sde……標準的なスタイルで、フラットな色使いとシャープな線を描写してくれるため、事実上のデフォルト設定と考えている。
  • euler_a……より柔らかく細い線になるものの、時折2.5次元といっていいイラストになることがある。CFGを少し高めにしても、他のサンプラーと異なりヒリつくことがない。
  • dpmpp_2m_sde_gpu……er_sdeと似ているが、バリエーションが多様で、クリエイティブな表現ができる。ただし、プロンプトによってはやや過激になる。

となっている。
diffuser特化のgradient estimation系は少ないステップ数である程度の完成度を出すことができるのでこの辺りもオススメである。

スケジューラはbeta57を利用しないのであればsimpleが安定。
色々試してみてもいいが、flow matching系なので、karrasとexponentialはほとんどのサンプラーとの組み合わせで絵が破綻する。
なお、beta57は初期状態では選択できないので、カスタムノードのRES4LYFをインストールする必要がある。

プロンプト

Danbooruタグと自然言語の両方が利用可能で、併用も可能。
Preview3からは、DanbooruとGelbooruで異なる用法のタグについてはGelbooruが優先されるという説明文が追加された。

Danbooruタグのみで記述する場合は、概ねSDXLと同じ使い方ができるが、注意点は後述。

一応注意しておく点として一部の特殊タグを除いて、タグの間にアンダースコアを入れてはいけないといったものがある。
最近のローカル環境ではそもそも、スペースの代わりにアンダースコアを使うケースはほとんどないため、気にしなくても良いかもしれないが、SDXLの時とは比較にならないほどプロンプトの効きが悪くなる。
例外的に、Ponyのスコアタグ(Score_9など)や、顔文字系のタグなどにはアンダースコアが利用できる。

自然言語で記述する場合、公式としては最低2文程度で記述するのが望ましいとのことである。
日本語は認識してくれないので、英語が苦手であれば翻訳やChatGPTなどを利用するのも手。
短すぎるのは望ましくないとのことであるが、Qwen3の小型モデルは1k tokenの制限があるため、text2tokenの効率を考えると300語以内に収めるのが無難である。

プロンプトの入力順序は以下が推奨。従わなくともある程度問題はないのは他のモデルと同様。

[品質/メタ/年代/レーティング], [1girl, 1boy, 1otherなど], キャラクター, シリーズ, アーティスト, その他のタグや自然言語

品質~レーティングは順不同。

品質

人間による評価

masterpiece, best quality, good quality, normal quality, low quality, worst quality

Pony V7の美的モデルスコア

score_9, score_8,……, score_1

ベースモデルの宿命からか、masterpieceなどを多用すると、いわゆるマスピ絵に近づきがち。
(masterpiece, best quality:0.4)のようにクオリティタグの効果を弱めるとマスピ絵感が緩和されるが、今度はガチャ要素が増える。

メタ

highres, absurdres, anime screenshot, jpeg artifacts, official artなど。

年代

年数を指定

year 2025, year 2024, ……

時代指定

newest, recent, mid, early, old

レーティング

safe, sensitive, nsfw, explicit

左から順にdanbooruの「general」「sensitive」「nsfw」「explicit」に対応。
SDXL時代のgeneralがsafeに変わっている点に注意。

アーティスト

アーティストタグを入力する際にはそのタグの先頭に「@」を付ける必要がある
付けない場合効果が弱まるとのこと。

ネガティブプロンプト

公式推奨

worst quality, low quality, score_1, score_2, score_3, 6 fingers, 6 toes, ai-generated, bad eyes, bad pupils, bad iris, bad hands, bad fingers,

ロゴ関係をかなり描きたがるので以下も強く推奨

watermark, patreon logo,

プロンプトのコツ

  • Danbooruタグ+人、色、形などの指定といった書き方はSDXLではほとんど使えなかったが、Animaの場合は、こういった書き方でも結構高精度に反応してくれる。
    • 例えば「blonde hair boy, black hair girl,」(金髪の男性、黒髪の女性)と記述した場合、SDXLでは男女で髪の毛の色がごっちゃになっていたが、Animaならある程度まで判別して描き分けてくれる。
  • 逆にSDXLで有効とされていた「影響を及ぼしたくないタグ同士を遠くに書いたり、影響させたいタグ同士を近くに書く」といったやり方はほとんど意味がない。
    • 例えば「1boy, (glassesを含まない多数のタグ), 1girl, glasses,」と書いてもboyが眼鏡をかける確率は相応にある。
    • この場合、タグによる記法ではなく、「girl is wearing glasses」とすれば、boyが眼鏡をかけるケースはほとんど無くなる。
    • 後述のとおり、自然言語による制御をしない場合、SDXLよりも個々に適用させるのは難しい。特に叡智な絵を描かせる時はfacelessに気を付けろ!
  • 複数キャラクターを描き分けてほしい場合は、キャラクターを指定して特徴を自然言語で記載するのがよい。
    • 男女であれば「boy is……. girl is…….」でいいが、同性同士であれば、例えば「left girl is……. right girl is…….」や、「1st girl is……. 2nd girl is…….」などとすればいい。
    • Danbooruタグでは「another」という表現がされるものも少なくなく(例:hand on another's head(他の人物の頭に手を置く))、SDXL系列ではanotherが用いられるケースも少なくなかったが、Animaでは自然言語的に解釈して、記述している人間以外を呼んだり呼ばなかったりで結構グダグダになる。2人組であれば「other」(theは省略可能)でも良いが、基本的には行為者や相手を上の例のように指定したほうが良い。
  • 1boyや2girlsのノリで数字とその他の名詞の間に本来書くべき半角スペースを省略すると生成結果に顕著な悪影響が出る。2dogsと2 dogsで比較するとわかりやすい。
  • 英語が苦手な場合はChat GPTなどでDanbooruタグ形式のプロンプトを自然言語に直してもらう方が制度が高いものの、いっそのこと、髪型や体型などの特徴を全部ひっくるめてandで一纏めにしてしまうという方法は意外と有効で、行為についても、「and……」と記述すれば十分対応してくれる(例えば、left girl is …… and petting center girl.」とすれば、真ん中の子を撫でてくれるはずである。)
    • 記述の見栄えは悪いかもしれないが、英語がそれほど得意ではなくともプロンプトを修正するのは楽である。
  • Lumina-Imageのページにある3人の女の子を出すプロンプトAnimaで再現しようとすると、以下のように記載するといい。

    3 girls are smiling and looking at viewer in classroom.
    left girl is teacher and brown hair ponytail and black suit and pencil skirt and glasses.
    center girl is school girl and black hair and straight hair and sailor uniform and skirt.
    right girl is school girl and red hair and very short hair and tanned skin and red track suit and red track pants.

  • 売りの一つとされている文字出力は文字をダブルクォーテーションで囲むとほぼ確実に伝わる。英語のみ。
    • 「hatsune miku is holding a board, which says "HELLO!"」でHELLO!と書かれたボードを持ったミクさんが出る。
    • 「hatsune miku is saying "HELLO!" in a speech bubble」でHELLO!と吹き出し付きで言うミクさんが出る。
    • 文字を表示させるのは「短くかつ一箇所のみ」で安定する。二箇所以上に表示することは不可能ではないが一気にガチャ化する。
  • Preview3Base現在、()を用いた強調は非推奨。
    • 仕様として実装こそされているが、効果が薄い割に絵を破綻させやすい。特に指が優先して崩れやすい。
    • 代わりに自然言語による強調を推奨。超長い髪を描かせたいなら「very Long hair which touches the floor」など。
    • 非常に注意すべき点として、版権キャラ名でよくある作品名などの()でも破綻や再現度の大幅低下に繋ってしまうので、エスケープ処理が必須。\(nantoka\)か¥(nantoka¥)のように()の両方の前に\か¥を書くのがエスケープ処理。\と¥は環境による表示の違いで機能は同じ。

ライセンス

独自のライセンスを持っているほか、nVidiaのCosmos-Predict2-2B-Text2Imageの派生モデルとなっていることから、nVIDIAオープンモデルライセンスにも準拠する必要がある。

もっとも、独自のライセンスだからといって身構える必要は基本的にない。

要約すると、

  • モデルの利用については、違法な目的や非倫理的な目的を有しない限りは自由
  • 生成物については商用利用可能
  • ただし、モデルそのものの商用利用は不可

であり、かなり緩いといっていい。

公式LoRA

Anima Highres/Aesthetic Boost

高解像度の生成に対応したLoRA。配布ページで以下のように説明されている。

  • 1536解像度は大きな問題なく動作し、さらに2048解像度 (4MP) でも今では完全な破綻なしに動作します。
  • 高品質画像に向けて、わずかに美的品質が向上します。

実際には、2048解像度ともなると、ノイズが出るケースも多いので、1536解像度に抑えたほうが安全である。

Anima Turbo LoRA

高速化LoRAで、CFG1、Step8~12程度で利用を推奨とのこと。
ComfyUIのカスタムノードやForge Neoに標準搭載されているSpectrumとの重複適用も可能。さらに生成時間が短くなる。
ただしWarmup Steps(Spectrumの予測を使用しない初期ステップ数)は初期値(6)から1~2に減らす必要あり。
上記のHighresLoraとも重複適用できる。
他の高速化LoRAにも言えることだが実際にはかなり出力が変化するので注意。

Anima RL

美観とディテールを向上させるLoRA。
独自の報酬モデルを用いた強化学習(RL: Reinforcement Learning) 実験による成果とのこと。
基本的にはアニメイラストのようなベタ塗りではなく絵画のような画風になる。
アーティストタグや画風タグとの組み合わせ、またそもそもの個人の好みで良し悪しの評価は変わると思われる。

派生モデル

2026年4月16日現在およそ以下の派生モデルがある。

モデルによって画風の安定性に差があるといってよいが、画風が安定しているものは、逆にその画風に合わないプロンプトなどが効きにくい場合もあるので一長一短(敢えて、特定の画風にしていないという派生モデルもある)であるため、色々と試してみるのがいいかもしれない。

Civitaiの検索ではベースモデルをAnimaとしてフィルターを掛けることも可能であることから、そこで探してみるのも悪くないだろう。

なお、公式モデルと異なり、サンプラーなどの推奨設定が異なる場合もあるので配布ページを参照のこと。

Anima Cat Tower(制作者:nuko_masshigura氏)

比較的画風が安定している傾向にあるモデル。
高解像度のFTを施しているためか、細部の安定性が高い印象。

2026年4月16日現在の最新バージョンはv0.5(2026/4/8更新)で、Preview3Base準拠。

Anima Yume(制作者:duongve13112002氏)

ベースモデルほどではないが、画風についてはブレがある一方で、出力幅が広いのが強み。
2026/4/26現在CivitaiにおけるAnimaの派生モデルとしては最も利用数が多いようで、このモデルをベースとした派生モデルも少なくない。

2026年4月16日現在の最新バージョンはv0.4(2026/4/12更新)で、Preview3Base準拠。

AnimaIka(制作者:giko氏)

更新頻度がかなり早めのモデル。タイトルやサンプル画像にイカ娘が多いが、イカ娘特化モデルというわけではない。

モデルとしてはAnima YumeとRDBT Animaをマージしたものであるとのこと。

2026年4月18日現在の最新バージョンはv3.5(2026/4/17更新)で、Preview3Base準拠。

Anima_LiquidMix(制作者:liquidn2氏)

複数のカスタムメイドのLoRAをマージした実験的なモデルであるとのこと。

このモデルについてはVAEは同氏が制作したQwenimageVAE_liquid1087を利用することが推奨されている。

2026年4月16日現在の最新バージョンはv3.12(2026/4/13更新)で、Preview3Base準拠。

Animality(制作者:eliont氏)

NSFW限定。

こちらも画風が比較的安定している。

2026年4月16日現在の最新バージョンはAP3(2026/4/11更新)で、Preview3Base準拠。

WAI-ANIMA(制作者:WAI0731氏)

illustriousの派生モデルなどでもおなじみのWAI0731氏のモデル。

2026年4月16日現在の最新バージョンはv1.0(2026/4/16更新)で、Preview3Base準拠。

トラブルシューティング

画風が安定しない

ベースモデルである以上仕方ない一面もある。

一応、対策としては

  • 派生モデルを使う
  • アーティストタグを使う
    • 逆に、一部のアーティストタグをネガティブに入れるのも有効(後述のスタイルエクスプローラを確認し、数が多く絵柄が合わないと思うものをいくつかネガティブに入れるだけでバタ臭い画風などを消すことができる)。ユニークな絵柄のアーティストタグは思った以上にネガティブでも影響が強いので注意深く選択して強度を調整する必要がある。
  • 画風のLoRAを作る
  • 分かりやすいアニメ絵にしたいなら「anime screenshot」「anime screencap」などを用いる

単調な出力になる

SDXL系列と比べると、プロンプトの理解力が高いためか、プロンプトで指示した内容は、可能な限り描写しようとする反面、プロンプトに記載がないものはそもそも描写しない傾向が強い。
体勢や背景などをプロンプトに含めるようにすると、改善する。

指が溶けたり、数がおかしかったりする

学習画像の解像度が低いためか、現時点では仕様といっていい。

ステップ数を増やしたり、解像度を上げたりするとマシになる。
また派生モデルならマシになっている。

学習ツール

LoRA学習ツール
注:2026年4月時点での最新版「Preview3」はあくまで制作途上の評価版であり、それを使って作成したLoRAが正式版モデルのリリース後に再学習になる可能性は考慮しておくべき

Anima-LoRA-Factory

外部リンク(github)
不可思議ちゃん氏によるGUIでのanima用LoRA学習ツール。
キャプション一括編集機能やWD14 Taggerでの自動タグ付け機能もある。

Anima-Standalone-Trainer

外部リンク(github)
gazingstars123氏によるGUIでのanima用LoRA学習ツール。
sd-scriptsを基にGUI化して使いやすくしたとのこと。
マルチGPU対応を強みとしている。

Tips

Animaを使う際のお役立ち情報

スタイルエクスプローラ

外部リンク
20,000人のアーティストのスタイルが収録されている。
特定のアーティストの絵柄を利用する場合や、あまりにも絵柄が不安定な際のネガティブ検討に利用すると良いだろう。

Anima用DMD2 LoRA

Civitai Cosmos-Predict2.5-2B base distilled extracted DMD2 LoRA
SDXLでも使われていた低stepsでの高速出力化LoRA
設定例はSteps6~8、CFG1~1.5程度
Geforce 4060Tiでは1024x1024画像出力時に32steps CFG4で約35秒、LoRAを利用して6steps CFG1で4秒となった(同条件で2回目以降の出力実測値)

AnimaControlNet(LLLite)

https://github.com/kohya-ss/ComfyUI-Anima-LLLite
LoRA由来技術でControlNet類似の制御を。


*1 正確に表現するならば、SDXL系列にもVAEは必要であるが、モデルに内蔵されており、ユーザーが別途導入する必要がないケースが大半