Anima

Last-modified: 2026-06-16 (火) 02:56:20

概要

https://huggingface.co/circlestone-labs/Anima

  • 2026年にリリースしたCircle Stone LabsとComfy Orgが開発する画像生成モデル。
    アニメ寄りのイラスト、スタイルを得意とし、リアル寄りの表現には向いていないと公式が断言している二次向けのモデルである。
  • プレビュー版の時点でSDXLの次世代モデルとして期待されていたが、5/14に正式版であるbase-v1.0がリリースされた。
    ベースモデルは2025年9月までの画像を用いて学習されている。
  • パラメータ数が2Bとなっており、SDXLの2.6Bと比べて若干コンパクトとなっていることから、必要メモリはSDXLよりもやや軽い。
  • 軽量でありながらも、旧式になりつつあるU-Netに代わって、新トレンドであるDiTの採用したことで、プロンプトに対する表現力は格段に向上している
  • SDXLと比べるとノウハウは明らかに少ないとはいえ、リリース直後から利用者は多いようで、派生モデルやLoRAなどは精力的に作られている状況にあるため、初心者であっても問題なく利用可能と思われる。

特徴

SDXLと比べると...

ユーザー目線で特に恩恵が大きい違いは下記

  • U-Net -> DiT
  • パラメータ数2.6B -> 2.0B
  • Text Encoder辞書の最新化
    • SDXLにおけるCLIPは、画像生成に無関係な顔文字や非言語のトークンが多数登録されているという問題があった*1
  • ComfyUIに合わせたモデルアーキテクチャの最適化(詳細は未調査)

長所

2026/5現在、ローカル環境で主流といっていいSDXL系列モデル(以下、「SDXL」と表記する。)と比較すると、下記の強みを持つ。

  • 全体的な精度が高い
  • 水平線などの破綻が少ない
  • 自然言語による指示や制御ができる
  • SDXLよりもメモリ消費が少なく、SDXLが動作するPC環境であれば問題なく動作する導入ハードルの低さ

それらはSDXL後発モデル全般(Lumina-Imageなど)に当てはまる特徴であり、Animaならではの強みというわけではない。つまり、イメージとしては最新トレンドの技術がSDXLに加わったようなもの。

懸念点

  • SDXLと比べて同一条件で画像生成をした場合、おおよそ2倍強の時間がかかる
    DiTにより計算密度が上がっていることの副作用である
    • 高速化技術として高速化LoRAなどが登場しているが、対応UIが限られているというのは辛い。
    • この理由も相まって、立ち絵のようにシンプルな用途ならば、SDXLで十分という意見もある。
    • LuminaやFluxなどの重量級はanimaの2倍強の生成時間と更に重くなる、メモリ要求も大きくなるが。
  • 対応UIが主流ではComfy UIとForge neoのみで、SDXL全盛期によく使われたA1111Forge(reForge)に対応していない
    というのも、SDXLを長らく使っている場合、A1111Forgeなどを使い続けているというケースも少なくなく、このようなユーザーは移行に際して新たに環境を構築しなければならない点である
    マイナーどころだとSD.NextやStable-Diffusion.cpp、その他フォーク等で対応がないわけではないが、情報や日本語対応などは期待できないので難易度が高い

SDXL後発モデルと比べると...

Lumina-Imageなど、以下「SDXL後発モデル」と表記する。

  • パラメータ数が少ないため、計算時間、モデルファイルのサイズ、所要メモリが圧倒的に小さい
  • パラメータ数が少ないため、他のSDXL後発モデルと比較して限界性能で劣る部分があるのは否めない。
    とはいえ、あくまでSDXL後発モデルと比較した際のプロンプト追従性、自然言語への反応などが多少劣る程度であり、パラメータ数や計算コストを考慮すれば十分高性能。
    • TextEncoderやVAEに関しては、qwen向けモデルと共通という点でも優れている
  • Animaは生成画像の一貫性、整合性、妥当性といったものの総合的な質(Coherence)が高い
    • 例えば、それっぽい乗り物に乗る、武器を持つ、それっぽく水中を泳ぐ、階段を昇り降りする、などはかなり強い。
    • ローカル環境で利用な画像生成AI全般を見てもかなり優秀な部類といっていい。
  • LoRAなしのベースモデルであっても、NSFWイラストをバリバリ生成可能な実用性の高さ
    NSFWを生成したいということであれば、SDXL後発モデルはLoRA込みでも十分学習された配布モデルが少ないことから、現時点でのローカル環境におけるNSFW生成ではぶっちぎりで最強といっても過言ではない。

その他、注目されているポイントの詳細

注目されているポイントの詳細

まず、実用性についてだが、画像生成AIは海外を中心に発展している都合上、海外の事情の影響を受けやすい。
その最たる例が、NSFWやロリショタ関係で、昨今のベースモデルはNSFWに弱いケースが多い。
結果として、SDXL後発モデルの多くは、有志がNSFWに適合する派生モデルやLoRAを作って、やっとNSFWがなんとか使える、といったレベルのものが多い。

ローカル環境で画像生成をしたいという人はNSFWに興味があることが多いと思われ、SDXLはNSFWがバリバリ生成できることからローカル環境の主流といっていい地位を築き上げたと言っても過言ではない。

そんな中でAnimaは、LoRAなしのベースモデルの時点でNSFWに対応しており、認識能力の高さや自然言語制御からSDXLよりも更に多種多様なシチュエーションに対応できる。
SDXLではLoRAを使わないと難しかった・LoRAを使っても難しかった、といったケースでもAnimaでであればベースモデルで対応可能というケースも少なくない。

導入ハードルについては、PCスペックのページが詳しいが、画像生成は高いスペックのPCが要求される。
画像生成初心者向けに語ると、一般人にとって高スペックのPCは例えば「最新の3DゲームをフルHD画質(≠4K画質)で普通にぬるぬると動かせる」レベルだと思われるが、画像生成の界隈ではこれくらいのPCはエントリーモデルに過ぎないことが多い。
特に、最近はAIが高度化していることから、画像生成AIそのものの要求スペックも高くなる傾向にあり、SDXLが動かせるという一般人基準では十分ハイスペックのPCですら、そもそも動かすことが出来ないケースも少なくない。

元々、SDXL登場時点ですら画像生成PCは20万円ほどはするかなり高い買い物と言われていたが、上記のとおり要求されるスペックがさらに高くなり、更に「AI需要によるメモリの高騰化」「円安」といったハイスペックなPCを買いづらい事情が重なった結果として、SDXL後発モデルを動かそうとすると、50万円以上のPCを普通に覚悟しなければならないほどには開始するハードルが上がる傾向にある。

残念ながらSDXLやAnimaが動くPCについても現在であれば20万円では少し厳しく30万円程度は見込んだほうが間違いないものの、それでも他のSDXL後発モデルと比べれば10万円単位でお安く始めることができる。
そして、SDXLを既に利用している画像生成ユーザーであれば現在のPCのまま環境移行できるのは大きなメリットである。

そして、これら2点の特徴から、派生モデルやLoRAについてもかなりの数が登場しており、流石に数年レベルで先輩といえるSDXLの蓄積されたノウハウや派生モデルの数には敵わないが、初心者にとっても扱いやすい環境は徐々に整いつつある。

利用方法

対応UI

Comfy UIとForge neoのみで、Forge neoを除くA1111系列(reForgeなど)は非対応。

モデル

SDXL系列と異なり、DiTモデルファイルの他に、テキストエンコーダとVAE*2が必要となる。

  • モデルファイルの配置
    • Comfy UIを利用する場合は、配布されたワークフローを入手して開くときに、必要なファイルのダウンロードを自動で行ってくれる。
      テンプレートのAnimaを選択するか、公式ページで用意されている画像をComfy UI上で開くと良い
      モデル分類ファイル配置先
      DiTanima-base-v1.0.safetensorsComfyUI/models/diffusion_models
      TextEncorderqwen_3_06b_base.safetensorsComfyUI/models/text_encoders
      VAEqwen_image_vae.safetensorsComfyUI/models/vae
       
    • もし、別途準備したモデルを利用する場合には、表記の同じフォルダに配置する。
      • 基本的にはDiTだけが配布されることが多いが、もしも、配布元が専用のテキストエンコーダとVAEを指定した場合は、それらも配置すること
  • ファイルの容量の合計は約5.5GB
    内訳:DiT 4.0GB, TextEncoder 1.2GB, VAE 0.25GB
    *あくまでも目安です。データ型やモデルによって異なります

推奨生成パラメータ

公式の推奨設定は以下のとおり

  • サイズ:512×512~1536×1536
  • ステップ数:30~50
  • CFG:4~5
  • サンプラー:特段指定はないが、公式がお気に入りとしているのは「er_sde」「euler_a」「dpmpp_2m_sde_gpu」の3種類
  • スケジューラー:preview3版ではbeta57、base-v1.0では芸術絵画系にbetaを推奨程度

サイズ

公式では1536×1536までのサイズに対応しているが、学習サイズが小さかった影響から、サイズを大きくしすぎるとノイズや破綻の原因になり、縦方向の大型化は特にその影響が強い。
そういった症状が出る場合は、派生モデルや高解像度LoRAを使用することを推奨である。

一応、preview2、preview3、base-v1.0と更新されるにつれ、高解像度の学習も増えているので多少マシになっているが、サイズを大きくしたい場合は派生モデルや、下記高解像度LoRAの使用を推奨。

previewについて

なお、本モデルのプレビュー版は512×512をベースに学習しているとのことであり、1024×1024(1メガピクセル)を超えたサイズの画像生成でノイズが混じりやすく、更に大きくすると画像が破綻することもある。
また、学習サイズの小ささ故に、指などの細部が溶けてしまうケースも少なくないため、気になるのであれば公式が作った高解像度LoRAを使うか、派生モデルを利用するのが望ましい。
このモデルに限った話ではないが、ベースモデルという性質上、生成される画像の画風も多種多様であるため、アーティストタグで制御するなり、派生モデルを利用するなりするのがいいだろう。

いわゆるHires.fix(アップスケール後にimg2imgすること)を利用する場合、SDXLでは比較的高解像度(2048×2048以上)でも問題ないが、Animaは1536×1536を超えるとノイズが出ることがある。
その場合は、

  • Tiled DiffusionやSD Upscaleで1536×1536以下のサイズにTile分割してimg2imgする
  • SDXLやZITなど別のモデルを使ってimg2imgする
  • img2imgしない

などの対処が必要。

先日NVIDIA PiDが出てQwen VAEも対応したことで、NVIDIA環境中心に4kアップスケールの手段が増えたので、今後は最適解像度で生成してアップスケールが増えるかも。

ステップ数

30以上が推奨されているものの、20ステップ程度でもほとんど影響はない。

サンプラー

公式がお気に入りとしているサンプラーについての公式のコメントとして、

  • er_sde……標準的なスタイルで、フラットな色使いとシャープな線を描写してくれるため、事実上のデフォルト設定と考えている。
  • euler_a……より柔らかく細い線になるものの、時折2.5次元といっていいイラストになることがある。CFGを少し高めにしても、他のサンプラーと異なりヒリつくことがない。
  • dpmpp_2m_sde_gpu……er_sdeと似ているが、バリエーションが多様で、クリエイティブな表現ができる。ただし、プロンプトによってはやや過激になる。

となっている。
diffuser特化のgradient estimation系は少ないステップ数である程度の完成度を出すことができるのでこの辺りもオススメである。

スケジューラ

beta57を利用しないのであればsimpleが安定。
色々試してみてもいいが、Flow Matching系なので、karrasとexponentialはほとんどのサンプラーとの組み合わせで絵が破綻する。
なお、beta57は初期状態では選択できないので、カスタムノードのRES4LYFをインストールする必要がある。

flow_shift

任意の設定項目。一般的には「shift」とも呼ばれる。詳細はこちら

  • 画像の生成初期~中期における計算リソース割り振りを調整する。
    shiftを上げると生成初期側が強化される。
  • 設定方法
    • 任意で設定したい場合は、shift設定が可能なノードを使用する。
      例:ModelSamplingAuraFlow, ModelSamplingSD3(執筆時点ではAnima専用ノードはなさそう)
    • なお、ComfyUIでは設定を省略すると、shift=3.0と同じ生成結果になる *3
  • 設定値
    基本的にはモデル配布元の推奨設定値を使用する。
    • base-v1.0はデフォルト値としてshift=3.0を指定する。
    • ディティールを強めたい場合は下げる
    • 構図やポーズを安定させたいときは5.0~7.0程度に上げる

プロンプト

Danbooruタグと自然言語の両方が利用可能で、併用も可能。
Preview3からは、DanbooruとGelbooruで異なる用法のタグについてはGelbooruが優先されるという説明文が追加された。
また、重み付けについて(例:(chibi:2)のように当該要素を強調すること)はSDXLより高めの数値を入れないと反映されにくい旨の説明がベース版で追加された。

Danbooruタグのみで記述する場合は、概ねSDXLと同じ使い方ができるが、注意点は後述。

一応注意しておく点として一部の特殊タグを除いて、タグの間にアンダースコアを入れてはいけないといったものがある。
最近のローカル環境ではそもそも、スペースの代わりにアンダースコアを使うケースはほとんどないため、気にしなくても良いかもしれないが、SDXLの時とは比較にならないほどプロンプトの効きが悪くなる。
例外的に、Ponyのスコアタグ(Score_9など)や、顔文字系のタグなどにはアンダースコアが利用できる。

また、プロンプトの表記でダンボールタグを使用する場合は、カンマの後にスペースを入れた方がよい。入れない場合、効きが悪くなったり意図しない解釈をされる恐れがある。

自然言語で記述する場合、公式としては最低2文程度で記述するのが望ましいとのことである。
日本語は認識してくれないので、英語が苦手であれば翻訳やChatGPTなどを利用するのも手。
短すぎるのは望ましくないとのことであるが、Qwen3の小型モデルは1k tokenの制限があるため、text2tokenの効率を考えると300語以内に収めるのが無難である。

プロンプトの入力順序は以下が推奨。従わなくともある程度問題はないのは他のモデルと同様。

[品質/メタ/年代/レーティング], [1girl, 1boy, 1otherなど], キャラクター, シリーズ, アーティスト, その他のタグや自然言語

品質~レーティングは順不同。

品質

人間による評価

masterpiece, best quality, good quality, normal quality, low quality, worst quality

Pony V7の美的モデルスコア

score_9, score_8,……, score_1

ベースモデルの宿命からか、masterpieceなどを多用すると、いわゆるマスピ絵に近づきがち。
(masterpiece, best quality:0.4)のようにクオリティタグの効果を弱めるとマスピ絵感が緩和されるが、今度はガチャ要素が増える。

メタ

highres, absurdres, anime screenshot, jpeg artifacts, official artなど。

年代

年数を指定

year 2025, year 2024, ……

時代指定

newest, recent, mid, early, old

レーティング

safe, sensitive, nsfw, explicit

左から順にdanbooruの「general」「sensitive」「nsfw」「explicit」に対応。
SDXL時代のgeneralがsafeに変わっている点に注意。

アーティスト

アーティストタグを入力する際にはそのタグの先頭に「@」を付ける必要がある
付けない場合効果が弱まるとのこと。

ネガティブプロンプト

公式推奨

worst quality, low quality, score_1, score_2, score_3, 6 fingers, 6 toes, ai-generated, bad eyes, bad pupils, bad iris, bad hands, bad fingers,

ロゴ関係をかなり描きたがるので以下も強く推奨

watermark, patreon logo,

プロンプトのコツ

  • Danbooruタグ+人、色、形などの指定といった書き方はSDXLではほとんど使えなかったが、Animaの場合は、こういった書き方でも結構高精度に反応してくれる。
    • 例えば「blonde hair boy, black hair girl,」(金髪の男性、黒髪の女性)と記述した場合、SDXLでは男女で髪の毛の色がごっちゃになっていたが、Animaならある程度まで判別して描き分けてくれる。
  • 逆にSDXLで有効とされていた「影響を及ぼしたくないタグ同士を遠くに書いたり、影響させたいタグ同士を近くに書く」といったやり方はほとんど意味がない。
    • 例えば「1boy, (glassesを含まない多数のタグ), 1girl, glasses,」と書いてもboyが眼鏡をかける確率は相応にある。
    • この場合、タグによる記法ではなく、「girl is wearing glasses」とすれば、boyが眼鏡をかけるケースはほとんど無くなる。
    • 後述のとおり、自然言語による制御をしない場合、SDXLよりも個々に適用させるのは難しい。特に叡智な絵を描かせる時はfacelessに気を付けろ!
  • 複数キャラクターを描き分けてほしい場合は、キャラクターを指定して特徴を自然言語で記載するのがよい。
    • 男女であれば「boy is……. girl is…….」でいいが、同性同士であれば、例えば「left girl is……. right girl is…….」や、「1st girl is……. 2nd girl is…….」などとすればいい。
    • Danbooruタグでは「another」という表現がされるものも少なくなく(例:hand on another's head(他の人物の頭に手を置く))、SDXL系列ではanotherが用いられるケースも少なくなかったが、Animaでは自然言語的に解釈して、記述している人間以外を呼んだり呼ばなかったりで結構グダグダになる。2人組であれば「other」(theは省略可能)でも良いが、基本的には行為者や相手を上の例のように指定したほうが良い。
    • 人称代名詞(he, she, it)もなるべく使わない方が良い。heとsheはその性別が一人なら良いが、itの場合Animaは何を指すか考えるのが死ぬほど苦手なのでほぼいかなる場合も地雷。
    • 逆に関係代名詞は間違いなく直前を指すので大いに有用、「直前の人間でないもの」について書く時はitではなくwhichを使う癖を付けると良い。
  • 1boyや2girlsのノリで数字とその他の名詞の間に本来書くべき半角スペースを省略すると生成結果に顕著な悪影響が出る。2dogsと2 dogsで比較するとわかりやすい。
  • 英語が苦手な場合はChat GPTなどでDanbooruタグ形式のプロンプトを自然言語に直してもらう方が制度が高いものの、いっそのこと、髪型や体型などの特徴を全部ひっくるめてandで一纏めにしてしまうという方法は意外と有効で、行為についても、「and……」と記述すれば十分対応してくれる(例えば、left girl is …… and petting center girl.」とすれば、真ん中の子を撫でてくれるはずである。)
    • 記述の見栄えは悪いかもしれないが、英語がそれほど得意ではなくともプロンプトを修正するのは楽である。
  • Lumina-Imageのページにある3人の女の子を出すプロンプトAnimaで再現しようとすると、以下のように記載するといい。

    3 girls are smiling and looking at viewer in classroom.
    left girl is teacher and brown hair ponytail and black suit and pencil skirt and glasses.
    center girl is school girl and black hair and straight hair and sailor uniform and skirt.
    right girl is school girl and red hair and very short hair and tanned skin and red track suit and red track pants.

  • 売りの一つとされている文字出力は文字をダブルクォーテーションで囲むとほぼ確実に伝わる。英語のみ。
    • 「hatsune miku is holding a board, which says "HELLO!"」でHELLO!と書かれたボードを持ったミクさんが出る。
    • 「hatsune miku is saying "HELLO!" in a speech bubble」でHELLO!と吹き出し付きで言うミクさんが出る。
    • 文字を表示させるのは「短くかつ一箇所のみ」で安定する。二箇所以上に表示することは不可能ではないが一気にガチャ化する。
  • 版権キャラクターを描かせる際の注意点。
    • よくある作品名などの()にエスケープ処理が無いと再現度の大幅低下に繋ってしまうので、Animaではエスケープ処理が完全に必須。\(nantoka\)か¥(nantoka¥)のように()の両方の前に\か¥を書くのがエスケープ処理。\と¥は環境による表示の違いで機能は同じ。
  • 正式版はエロモデル化が著しく、指示外のエロ描写を頻繁に入れたがる。大歓迎な人はともかく、SFW絵を描かせたい人はレーティングタグのsafeを使おう。

ライセンス

使用にあたっては、Anima独自のライセンスに加えて、その派生元のモデルライセンスにも準拠する必要がある。

要約すると、

  • モデルの利用については、違法な目的や非倫理的な目的を有しない限りは自由
  • 生成物については商用利用可能
  • ただし、モデルそのものの商用利用は不可

AIモデルとしては比較的緩いほう

公式LoRA

Anima Highres/Aesthetic Boost

高解像度の生成に対応したLoRA。配布ページで以下のように説明されている。

  • 1536解像度は大きな問題なく動作し、さらに2048解像度 (4MP) でも今では完全な破綻なしに動作します。
  • 高品質画像に向けて、わずかに美的品質が向上します。

実際には、2048解像度ともなると、ノイズが出るケースも多いので、1536解像度に抑えたほうが安全である。

このLoRAのv1.0はpreview3をベースにして作成されており、preview3との組み合わせで最大限に効果を発揮する。
preview2との組み合わせでも効果はあるが、preview1との組み合わせはほとんど効果がない。
逆にbase-v1.0はこのLoRAを使わなくても1536解像度での生成が可能になった。

Anima Turbo LoRA

高速化LoRAで、CFG1、Step8~12程度で利用を推奨とのこと。
なおCFG1ではネガティブプロンプトが効かなくなるうえ、他の高速化LoRAと同様かなり出力が変化するので注意。
某スレでは、
Animaって〇〇できなくね?」→「このプロンプトで余裕でできたぞ」→「すまんなTurbo使っとるんや」
という流れが頻出した結果「Turboを外して試してみる」「相談するならTurboを使ってるかどうか書く」ことがルールになりつつある。

ComfyUIのカスタムノードやForge Neoに標準搭載されているSpectrumとの重複適用も可能。さらに生成時間が短くなる。
ただしWarmup Steps(Spectrumの予測を使用しない初期ステップ数)を初期値(6)から1~2に減らす必要があり、無理のある設定値のためTubroなしに比べるとSpectrumによる劣化が大きい。

Anima RL

美観とディテールを向上させるLoRA。
独自の報酬モデルを用いた強化学習(RL: Reinforcement Learning) 実験による成果とのこと。
基本的にはアニメイラストのようなベタ塗りではなく絵画のような画風になる。
アーティストタグや画風タグとの組み合わせ、またそもそもの個人の好みで良し悪しの評価は変わると思われる。

派生モデル

2026年6月4日現在およそ以下の派生モデルがある。

モデルによって画風の安定性に差があるといってよいが、画風が安定しているものは、逆にその画風に合わないプロンプトなどが効きにくい場合もあるので一長一短(敢えて、特定の画風にしていないという派生モデルもある)であるため、色々と試してみるのがいいかもしれない。

Civitaiの検索ではベースモデルをAnimaとしてフィルターを掛けることも可能であることから、そこで探してみるのも悪くないだろう。

なお、公式モデルと異なり、サンプラーなどの推奨設定が異なる場合もあるので配布ページを参照のこと。

Anima Cat Tower(制作者:nuko_masshigura氏)

比較的画風が安定している傾向にあるモデル。
高解像度のFTを施しているためか、細部の安定性が高い印象。

2026年6月4日現在の最新バージョンはv1.0(2026/5/16更新)で、正式版準拠。

Anima Yume(制作者:duongve13112002氏)

ベースモデルほどではないが、画風についてはブレがある一方で、出力幅が広いのが強み。
2026/4/26現在CivitaiにおけるAnimaの派生モデルとしては最も利用数が多いようで、このモデルをベースとした派生モデルも少なくない。

2026年6月4日現在の最新バージョンはv0.5(2026/5/21更新)で、正式版準拠。

AnimaIka(制作者:giko氏)

更新頻度がかなり早めのモデル。タイトルやサンプル画像にイカ娘が多いが、イカ娘特化モデルというわけではない。

モデルとしてはAnima YumeとRDBT Animaをマージしたものであるとのこと。

2026年6月4日現在の最新バージョンはv4.0(2026/5/24更新)で、正式版を若干統合したものであるらしい。

Anima_LiquidMix(制作者:liquidn2氏)

複数のカスタムメイドのLoRAをマージした実験的なモデルであるとのこと。

このモデルについてはVAEは同氏が制作したQwenimageVAE_liquid1087を利用することが推奨されている。

2026年6月4日現在の最新バージョンはv3.472(2026/5/14更新)(Preview3Base準拠)、base v1.12(2026/5/15)(正式版準拠)。

Animality(制作者:eliont氏)

NSFW限定。

こちらも画風が比較的安定している。

2026年6月4日現在の最新バージョンはbase-flat(2026/6/3更新)で、正式版準拠。

WAI-ANIMA(制作者:WAI0731氏)

illustriousの派生モデルなどでもおなじみのWAI0731氏のモデル。

2026年6月4日現在の最新バージョンはv1.0(2026/6/4更新)で、正式版準拠。

トラブルシューティング

画風が安定しない

前提としてベースモデルは様々な画風が含まれているので、これは仕方ない話である。

気になるのであれば以下の対策を採ると良い。

  • 派生モデルを使う
    • 但し、画風が安定したモデルは代償として、その画風以外が出にくいという点には注意
  • アーティストタグを使う
    • ポジティブに特定のアーティストタグを入れる以上に、ネガティブで一部アーティストタグを弾くという手法が有効
      • 後述のスタイルエクスプローラで、数が多く絵柄が合わないと思うものをいくつかネガティブに入れるだけでもバタ臭い画風を消すことができる。
      • これに限らず、ユニークな絵柄のアーティストタグは思った以上にネガティブの影響が大きいので、注意深く選択して強度を調整するのが望ましい。
  • 画風のLoRAを作る(使う)
  • 分かりやすいアニメ絵にしたいなら「anime screenshot」や「anime screencap」などを用いるのも手。

単調な出力になる

SDXL系列と比較して、プロンプトを忠実に理解しようとする傾向にあるため、プロンプトで指示した内容は可能な限り描写しようとする一方で、プロンプトで指示しなかったものはそもそも描写しない傾向が強い。
特に背景については指示しないと基本的には無地になると思って良いので、SDXL系列と異なり、明確に指示した方が良い。

指が溶けたり、数がおかしかったりする

正式版であればかなり改善されている……はず。
気になるなら派生モデルを使おう。
小さめに出してからupscalerなどで拡大するのではなく、最初から高解像度で出すとマシになるという説がある。

学習

モデルを自分好みに改良したい人向け。

LoRA学習ツール

🫖Google colabでお試し無料インスタントLoRA

sd-scripts

外部リンク(github)
中~上級者向け。
LoRA及びfine tuningが可能です。
詳しくはdocを参照のこと。
fine tuning用のdocはありませんが、fine tuningAnimaのLoRAのdocに書いてあります。

Kohya_lora_param_gui

外部リンク(github)
sd-scriptsを利用した標準的なLoRA学習ツール。UIのモデルの種類の項目でANIMAを選んで使用します。
構成階層とデータセットの形式に注意。

Anima-LoRA-Factory

外部リンク(github)
不可思議ちゃん氏によるGUIでのanima用LoRA学習ツール。内部にsd-scriptsを使用している
キャプション一括編集機能やWD14 Taggerでの自動タグ付け機能もある。

Anima-Standalone-Trainer

外部リンク(github)
gazingstars123氏によるGUIでのanima用LoRA学習ツール。
sd-scriptsを基にGUI化して使いやすくしたとのこと。
マルチGPU対応を強みとしている。

ツールの使用方法

Anima専用設定は特になく、従来のモデル学習の延長線上の知識が求められる。

  • 初めて学習に挑戦したい場合は、まずはツールのマニュアルを参照のこと。
    わからない場合は、AIに質問すればほとんど解決するはず。
  • 既にSDXLなどの旧モデルで学習してきたユーザーが移行する際は、下記の知識が必要

ハードウェア要件

  • SDXL学習できるスペックがあれば問題なし。
    • VRAM16GBで余裕、12GBで一応可能、8GBでも努力で行ける
  • sd-scriptsは、VRAMリソース効率化オプションにより、さらに要件は緩和されている。
    SDXL以降に登場したFLUX.1などの大型モデル対応のために、さまざまなVRAMリソース効率化オプションが大幅に充実化された。マルチGPU対応強化などもある。

使用可能な設定 (従来のSDXL学習ユーザー向け)

sd-scriptsを例として、使用可能なオプションへの影響は下記の通り

  • noise schedulerがFlow Matching方式へ変更。
    • 旧方式となるε-prediction, v-prediction関連のオプションは使用不可。
      v_parameterization
      zero_terminal_snr
      scale_v_pred_loss_like_noise_pred
    • SNRという概念がないため下記は使用不可。
      min_snr_gamma
      debiased_estimation
      huber scheduler=snr    ただし、constantは使える
    • flow_shiftによるtimestepサンプリング分布を使用する手段を用いる(後述)
      従来:timestepサンプリング分布は一様で、timestep毎にlossの倍率を変える
      今回:timestepごとのlossの倍率は一様で、timestepのサンプリング分布を変える
  • max_token_lengthが増加
    • Text Encoder変更に伴い、設定値が最大225->512へ増加した*4
  • UNetからDiTへの変更に伴い、モデルは複雑化
    • パラメータが減った一方、計算時間(特にlossからgradの算出時間)は倍増。
      • ただし、学習効率は悪くないため、必要stepの短さでSDXLよりも早く収束する可能性有り。学習目的や規模によるが、LoRAユーザーに関しては、使用ツールのUI改善やベースモデルの汎用性の高さなどから、既存ユーザーから速度低下に対する悪い報告は上がっていない模様。
      • 一方、大規模な学習やfine tuningに関しては、精緻な結果を得る上で低質なVAE, TEの取り扱いの課題を始めとして対応に苦慮しておりノウハウ蓄積が不足気味(2026/6/6時点)。

学習時の注意

下記はsd-scriptsを例として説明します

  • llm_adapterの学習率は lr = 0 (学習OFF)を推奨。
    • 公式が学習を禁止している
      内容

      引用元:civitai.com/anima/base-v1.0

      • LLMアダプタのトレーニングは行わないでください。私が作成したトレーニングスクリプト「diffusion-pipe」では、llm_adapter_lr=0を設定することでトレーニングを完全に無効にできます。また、サンプル設定ではこれがデフォルト値となっています。
        • sd-scriptsのような他のトレーナーにも同様のオプションがあり、それらを利用すべきです。
        • LLMアダプタは、テキスト埋め込みが拡散モデルに渡される前に処理を行うため、生成される画像に大きな影響を与えます。アダプタ自体には驚くほど多くの知識が含まれており、学習によって容易に劣化する可能性があります。

      以下原文
      Finetuning tips

      • Don't train the LLM adapter. My own training script, diffusion-pipe, lets you set llm_adapter_lr=0 to completely disable training it, and the example config has this as a default.
        • Other trainers like sd-scripts have similar options that should be used.
        • The LLM adapter processes the text embeddings before they get to the diffusion model, and therefore has an outsized influence on the generated images. The adapter itself contains a surprising amount of knowledge and is easy to degrade by training it.
    • llm_adapterはDiTとText Encoderをつなぐ部分。baseモデルはかなり綿密に設計されており、学習すると崩れやすいとの報告がある*5
    • 学習OFFにすることによってVRAM削減にもなる
    • 上級者向けではあるが、Hugging Face/Anima/discussions #67を読むと、llm_adapterの学習意義について参考になる
      • あくまでもベースモデルを活かしたい大半のユーザーにとって学習非推奨なのであり、相応のデータセットでのベースモデル超えや独自用途を目的としてllm_adapter学習に挑戦する道は絶たれていない
  • timestep_sampling(任意)
    • timestepのサンプリング分布を変える設定。
    • 設定例
      --timestep_sampling="sigmoid" --sigmoid_scale=1.0   (中盤優位な滑らか分布)
      --timestep_sampling="shift"  --discrete_flow_shift=3.0  (生成序盤、構図優先な分布)
      --timestep_sampling="flux_shift" (画像解像度に合わせた偏りのある分布)
    • よくわからないうちは、デフォルト設定から始めるべし。
      設定によって学習結果が大きく変わることだけは覚えておこう。
      沼りやすいパラメータなので、知りたい人は調べてね。
    • 設定が不適切な場合、下記のような影響がある
      • 画像全体が茶色く汚染
      • グリッド状のアーティファクトが発生
      • 構図優先し過ぎて、ディティール学習困難
      • ディティール学習しすぎて、画像が溶ける
    • shiftを選択時の注意
      discrete_flow_shiftは生成時に使用するflow_shiftと同じ機能ではあるが、目的が異なるため同値が最適とは言いにくい。
      ユーザーによってshift=1.0~7.0の差異があるが、明確な根拠はなく好みによる所が大きい
    • 最適解が曖昧なパラメータであり、ケースバイケース*6

高速化

triton導入

  • JITでプログラム実行の際にコードが合理化され、学習が少しだけ速くなるライブラリ。
  • インストール方法はリンク先を参照
    triton

高速化ライブラリ導入

  • それぞれインストールの手間は必要だが、速くなるらしい
    気になる人は挑戦してみましょう*7
    triton導入(先述)が前提です
    • torch.compile
    • Flash_attentionインストール
      --attn_mode="flash"

Tips

Animaを使う際のお役立ち情報

スタイルエクスプローラ

外部リンク
40,000人のアーティストのスタイルが収録されている。
特定のアーティストの絵柄を利用する場合や、あまりにも絵柄が不安定な際のネガティブ検討に利用すると良いだろう。

アニマデックス

外部リンク
アーティストStyleサンプル+キャラクターデータサンプルが揃っていてさらに登録済みLoRAも探すことが出来る

Anima用DMD2 LoRA

Civitai Cosmos-Predict2.5-2B base distilled extracted DMD2 LoRA
SDXLでも使われていた低stepsでの高速出力化LoRA
設定例はSteps6~8、CFG1~1.5程度
Geforce 4060Tiでは1024x1024画像出力時に32steps CFG4で約35秒、LoRAを利用して6steps CFG1で4秒となった(同条件で2回目以降の出力実測値)

注意事項はAnima Turbo LoRAと同様。

Anima ControlNet-LLLite

https://github.com/kohya-ss/ComfyUI-Anima-LLLite
Anima用のControlNet(LLLite)。
LoRA由来技術でControlNet類似(LoRA Like Lite)の制御をするもので、ControlNetとはカスタムノードや拡張機能、モデルは別扱い。

Forge NeoではControlNet-LLLiteControlNet Integratedメニューに統合して実装されており、ControlNetControlNet-LLLiteの区別を意識せずに使うことができる。
ただしモデルはAnima ControlNet-LLLite用を別途ダウンロード必要。
https://huggingface.co/kohya-ss/Anima-LLLite

Anima LLLite Regional Controlnet

https://huggingface.co/Sen-sou/Anima-LLLite-Regional-Controlnet
Anima ControlNet-LLLiteを使って領域書き分けをするモデル。
開発者は実験モデルとしているが、実際に利用したユーザーの評判はかなり高い。
Forge CoupleやAttention Coupleノードと組み合わせることでさらに精度を高めることもでき、サンプルワークフローにはAttention Coupleノードが組み込まれている。
注意事項や制約もあるため、利用にあたってはREADMEをよく読みワークフローを理解すること。


*1 辞書の中身を知りたい場合はvocab.jsonを検索してみてください。
*2 正確に表現するならば、SDXL系列にもVAEは必要であるが、モデルに内蔵されており、ユーザーが別途導入する必要がないケースが大半
*3 26/6/6時点の仕様
*4 正確にはQwen3の制限長は32768ではあるが、DiTの受け手側がT5=512であり、512を超過する意味はほとんどない
*5 kohya氏のXや、その他ユーザーの記事より
*6 原理上、学習率やデータセットやオプティマイザ等との相性問題がありtimestep_samplingの内容だけで議論は難しい。
データセットが構図重視、ディティール重視か、オプティマイザの1次モーメントの慣性力(beta等)が高く全timestepに対して平均化する力が強いかどうか、という点だけでも大きな分岐が発生する

*7 筆者は検証環境が整っていないため、公式の提案をそのまま紹介するに留めます。