> Lumina-Image

Lumina-Image

Last-modified: 2026-02-24 (火) 13:49:41

概要
- 特徴
導入方法
モデルの種類

概要

中国の国家級研究機関・上海AIラボに所属するAlpha-VLLMによって開発された画像生成モデル。
パラメータ数2.6BとSDXLよりコンパクトながら、最新技術による高品質な画像を生成できる。
低ステップ化等を施さなくてもSDXLモデルにちょい足しぐらいのまともな生成時間で処理が完了する。品質もちょい足し程度だが。

2025年12月現在はまだDiffusion Transformer世代としては貴重な、日本人好みのパキっとしたアニメ絵に強くNSFW対応・検閲なし・ライセンスゆるゆるの即戦力級派生モデルが出ている。
（FLUX.1や派生であるChroma、それにQwen-Image等もNSFWにある程度は対応しているものの、まだ特にexplicitな方面ではSDXLほど日本的な二次絵に強いわけではない）

特徴

とっしー向けにIllustriousとかのSDXL系と比較してわかりやすい利点はプロンプト追従性。プロンプトだけで3人規模でもかなり安定して描き分けられる。

画像とプロンプト例(モデルはNetaYume Lumina。SFW画像)

3girls, in classroom, smile, looking at viewer,
girl1: teacher, brown hair ponytail, glasses, wearing black suit and pencil skirt,
girl2: school girl, black hair, straight hair, wearing sailor uniform and skirt,
girl3: school girl, red hair, very short hair, tanned skin, wearing red track suit and red track pants,

Unified Next-DiTという、高品質だが重い最新のDiTをベースとしながらも計算効率との両立を目指す技術を基盤としている。
- SD3、FLUX.1やGemini Flash Image(Nano Banana)といった品質一筋で重かったりAPI経由でしか提供されていなかったりする同世代の他の画像生成モデルと比べると、相対的に軽量・高速化にも力が入れられている。
- やはり軽量・高速なZ Image Turboと同様中国系。背景には米中両政府による中国国内におけるNVIDIAチップ使用規制や、中国国内での「千模大战（千モデル大戦）」と呼ばれる異常なまでの過当競争によるコスト削減圧力があるとみられる。
自然言語形式によるプロンプト入力に対応している。
- 自然言語形式にしないといけないわけではない。モデルが解釈できればDanbooru語なども通る。
- 当たり前だがどんなプロンプトが通るかはモデルによる。例えばNetaYume Lumina v4だと「jirai kei girl」は量産型地雷女子が生成されるが、「地雷系女子」だとパンクに寄った地雷になる。
- Lumina-Image 2.0のテキストエンコーダにはGoogle発のGemma-2-2Bが採用されている。もちろん派生モデルによっては何の問題もなくexplicitなNSFWが通る。
文字の出力はできないわけではないがモデルによる。モデルによっては打率が低くほとんどノイズになるのであまり期待しないほうが良い。
ベースモデルの推奨解像度はSDXLと同等の1024x1024だが、派生モデルによってはさらに大きなサイズに対応している。
Lumina-Image 2.0のVAEにはFLUX.1-devのVAEが流用されている*1。
ライセンスはApache2.0。商用利用（やNSFW等）に制限がなく、SD系のOpen RAIL-Mのような感染条項もない。

Neta Lumina系は推奨スケジューラがlinear_quadraticになっている。
これはSDXLモデルの生成の進め方とは対照的で、Flow Matchingモデルの予測が不安定な早期ステップを細かく刻むことで生成を安定させるようにしている。
生成50%程度だとプレビュー画面はボケボケの画像のままだがそういう特徴のスケジューラなので驚かないように。

導入方法

これを書いている時点では、ComfyUI本体のテンプレート一覧にはなぜか派生モデルを利用する「NetaYume Lumina テキストから画像へ」だけがある。それで生成できる。
ただしバージョンが古かったり、各ノードのパラメータも最新の推奨値から外れている可能性がある。
筆者が開いたときには、「モデルサンプリングオーラフロー」が低くボケた画像に仕上がるようになっていた。
ComfyUIならCivitaiのカバー画像をドロップする等でもワークフローを閲覧できるので、モデル制作者がどんなパラメータを使用しているかは調べたほうが良い。

また、forge neoでも利用可能。A1111 web UI系に慣れたユーザーはこちらを使うのも一つの手である。

モデルの種類

Lumina-Image-2.0
https://huggingface.co/Alpha-VLLM/Lumina-Image-2.0
大元のモデル。こちらはアニメ絵にそこまで強いわけではないしSafe for Work。

Neta Lumina
https://civitai.com/models/1612109/neta-lumina
SDXLでいうところのIllustrious-XLにあたるモデル。
といってもクオリティはカバー画像を見ての通りのバラバラで、派生モデルのほうが生成が安定しているという点もIllustriousに近いが。
1300万枚以上もの膨大な二次絵によるファインチューニングが施され、これにより強力な二次絵生成能力を獲得している。
健全絵だけでなくexplicitなNSFWまで対応。ライセンスもベースモデルと同じApache2.0で非常に使い勝手が良い。
香港は九龍に本拠地を置くViscept社のNeta.art Labによって製作されている。

NetaYume Lumina
https://civitai.com/models/1790792
Neta LuminaをベースにさらにDanbooruやe621から取得した画像によるファインチューニングを施したもの。
これによりカバー画像のようなパキっとしたアニメ絵を生成できるようになっている。
explicitな肉体言語にも対応し、2025年12月時点でのQwen-Image系の現状のようにアニメ絵で叡智な絵を生成すると解剖学的に不安になるものが生成されやすいといったこともあまりない。
……うまくやれば。
WAI-illustrious-SDXL等にもあるが、学習内容が玉石混交なのでプロンプトを細かく打たないと暴れやすい。
カバー画像は版権ものが中心なためにある程度画風を固定しやすいのだと思うが、キャラ記号だけで生成しようとすると絵のタッチ等はかなりバラツキが出る。

Flow Matchingモデルなので、プロンプトによってはフリルやリボンなど細かい装飾が過剰になりやすい。
ものによってはFreScaやRenormCFGなどで高周波成分を抑制しないと見ていて痛々しいものが生成されやすくなる。

Neta Lumina [fp8]　※NetaYume Luminaにも対応
https://civitai.com/models/2023440/neta-lumina-fp8
Neta Lumina、Netayume Luminaのモデルをfp8に軽量化したもの。
GPUがfp8に対応していれば心持ち高速化されるが、SDXLほど速くなるわけではない。
また元のモデルと異なり、チェックポイント形式ではなくモデル本体/テキストエンコーダ(Gemma2 2B)/VAEバラバラに配布されている。
このうちVAEは上記ページには置かれていない。Lumina-Image-2.0のHugging Faceリポジトリからダウンロードするか、
あるいはその中身はFLUX.1-devと同じなのでFLUX系のVAEが入っているならそれをそのまま使うこともできる。
ComfyUIでのワークフロー変更部分（モデル読み込みのみ）
- モデル本体は「diffusion_models」フォルダに置き「拡散モデルを読み込む」で読み込む
  - 一応「チェックポイントを読み込む」でもCLIP/VAE出力を他のノードにつながなければ動きはする
  - 「拡大モデルを読み込む」ではないので注意。そっちはUpscaler
- 「CLIPを読み込む」ノードのタイプはlumina2
  
  ※VAEのファイル名は筆者がリネームしただけで、そういう名前で配布されているわけではない