FLUX.1

Last-modified: 2025-11-27 (木) 00:00:07

概要

公式発表
(2024/8/1) Announcing Black Forest Labs

BFL(Black Forest Labs)が開発したモデル系列。
SD1.5、SDXLに続く次世代モデルの一つとして現在(2024/9)注目を集めている。

特徴

プロンプト内容に対する理解が良いため、制御しやすい。
テキストエンコーダとしてSDと同じCLIPの他にパラメータ数11Bの本格的なLLMであるGoogle T5 XXLを併用している。
自然言語にも良く反応してくれるが、いわゆるdanbooru語にも対応してくれる*1し、混在していても構わない。
文字の出力も、英語や数字ならば割と安定して出力してくれる。文字が崩れることも多少はある。

絵柄は特に実写系の画風を得意としており、従来のモデルに比べて不自然さがかなり少ないため定評がある。
二次元的なイラストあるいはアニメ系の画風については、元々のモデルは品質が安定せず、バラつきが激しかった。
しかし8月中にユーザーによる調整や学習が急速に進んだため、現在はそういったモデルやLoRAを利用することで、SDXLやPony系列と比べても遜色ない高品質な画風での出力が可能になっている。
エロについても同様で、元々のモデルには含まれていないが、モデルやLoRAの利用によりある程度実現されている。

SDXLで使われていたU-Net拡散モデル(U-Net Diffusion Model)ではなく、新たにLLMで成功したTransformerを用いたDiT(Diffusion Transformer)を採用している。
対応している出力解像度の幅が広く、512x512のような小さなサイズでも崩れにくい。
また1536x1536のような大きなサイズをHires.fixを使わずに出力しても崩れにくい。

デメリットは、画像生成モデルが大きいだけでなく、テキストエンコーダもやたら大きいこと。
単純にストレージ容量を圧迫するだけでなく、画像生成時のVRAM使用量も多い。
VRAMから溢れてメインメモリへのフォールバック(退避)もよく発生するので、生成時間は長くなりがち。
このためFP8、NF4、GGUFなどの量子化により、品質をなるべく維持したままモデルをコンパクトにする方法が模索されている。
(2024/9) 詳しくは量子化の項で説明するが、グラボのVRAMに収まる規模のモデルを選んで利用するのがコツになりつつある。

また、2024年9月現在ではLora学習は可能ではあるが、SD1.5やSDXLよりも柔軟な学習ができない。
教師画像が10枚程度で1つの概念を学習させるならば大丈夫だが、学習枚数が50枚以上だったり2つ以上の概念を覚えさせるとLoss値が0.3から0.4の間をさまよって0.1以下に収束することは決してない。

2024/11/25現在、学習目的では
dev系で

2つともdevベース脱蒸留モデル、詳しい違いは知らん。

schnell系で

  • OpenFLUX.1
    生成画像で追加学習、CFGを3.5まで上げられるらしいがそのままでもある程度安定してる。anime絵も出る
  • LibreFLUX
    写真素体で追加学習、CFG3.5推奨で下げるとモロに画がぼける。モデル単体ではanime絵を忘れてる、がアニメ系でもLora学習には使える?
    恐らく脱蒸留度は上のOpenFlux.1より強いので学習素体としてはこちらの方が良い?

辺りを素体にして学習し、元のモデル(devやschnell)にマージしてやると良いらしい?
基本的にこれらの学習向けモデルはdevやschnellの蒸留(簡単に言うと低ステップ低CFGで綺麗に出せる代わりに自由度が落ちる処理)を解除し、逆に高STEPが必要になっている(schnellベースのモデルでも出力には20STEP推奨)が、代わりに学習時にLossが収束しやすくCFGもある程度効く(~3.5、結果的にネガティブプロンプトも多少度効く)ようになっている。
特にdev2proで学習したLoraはdevだけでなくschnellモデルにも有効とのこと(但しライセンス周りはdevが優先されるが……)
OpenFluxやLibreFlux周りはまだ報告不足で詳細不明点も多い。
LibreFLUXについてはリポジトリに学習方法も書いてくれてるんで技術に自信のある人は挑戦しても良いかも…?

関連記事
(2024/8/2) ASCII.jp:「Stable Diffusion」開発者たちが新たな画像生成AI「FLUX.1」を発表 迷走するStability AIと対照的な展開に
(2024/8/19) ASCII.jp:「Stable Diffusion」の失敗に学び、画像生成AIの勢力図を塗り変える「FLUX.1」

モデルの種類

  • Pro
    API(有料)経由での利用のみ可能
  • Dev
    ローカル利用可能
  • Schnell
    ローカル利用可能
    4step程度で十分な品質になる
    商用利用などが緩いらしい

FLUX.1 Kontext

i2iが可能なモデル
こちらはProとDevのみ

無料デモ

いずれも登録不要、無料。
https://huggingface.co/spaces/black-forest-labs/FLUX.1-dev
https://huggingface.co/spaces/black-forest-labs/FLUX.1-schnell
https://huggingface.co/spaces/multimodalart/FLUX.1-merged
https://huggingface.co/spaces/black-forest-labs/FLUX.1-Kontext-Dev
残念ながらメタデータは残らない様子。

ほか、Hugging Spacesにて探すといいかも。

ローカル環境での利用

Forge 2.0またはComfyUIが一般的

NVIDIA GeForce RTX 50シリーズでForge 2.0を導入する場合について

PyTorchのバージョンが合う合わないがある。一番簡単で確実な導入方法として
Stability MatrixでStable Diffusion WebUI Forge (main@0ced1d0)=Forge 2.0)を入れる方法を推奨
参考 https://ascii.jp/elem/000/004/188/4188510/ ←ここでは「Stable Diffusion WebUI(AUTOMATIC1111版)」を選択しているが上記「Forge」を選択

量子化

FP32, FP16, FP8, NF4, GGUFなど。
GGUFは物によってQ8~Q2があるが基本的によく公開に使われるのはQ6系~Q4系に時折Q8がある、Q3以下は配布されてることは稀。
Forgeは始めから対応してるがComfyUI拡張機能が必要になる。
nf4はComfyUIでは拡張機能の対応が不完全でLoraが使えないなどの問題が出るためComfyUIを使うなら量子化モデルはほぼGGUF一択になる。
原則数字が大きければ品質とファイルサイズ&メモリ消費が増え、小さいほど減る。
メモリ使用量は概ねファイルサイズと同じと考えて良い。
品質とファイルサイズはトレードオフの関係にある。
つまりコンパクトにすればするほど品質が犠牲になってしまう。
とはいえ技術の新旧や効率などもあるので、ファイルサイズと品質は単純に比例するわけではない。

例えば下記リンクにあるグラフを見ると、GGUFの中ではQ5_K_MやQ6_Kのバランスが良いのでオススメだ。
(参考) https://huggingface.co/city96/FLUX.1-dev-gguf/discussions/21

変換はfp16、bf16、fp8モデルから
stable-diffusion.cppあたりを使えば楽らしい

  • コマンドプロンプトのアプリだが、Releaseページから最新版(master-9578fdc)を落として来て、quantization_and_gguf.mdのページの一番下のコマンドを真似してやれば変換可能。
    • このマニュアルには書かれていない(たぶん更新が間に合ってない)が、上記9578fdc以降のバージョンではq6_K,q5_K,q8_K(qは小文字でKは大文字じゃないと駄目なので注意)オプションが使えるようになってるので比較的お手軽にK系の質の良い変換ができるようになった
      (q8_Kは内部用の形らしくWebUIに渡しても使えないので注意)
    • ダウンロードするファイルはmacはひとつなので迷うことがないと思うが、windows向けはCUDAを入れてるならwin-cudaって書いてるやつを、何もわかんねーならwin-avx-x64ってやつを選んどけば間違いないと思う。
      基本的に自分のハードウェアに最適化されてるやつを選べば速く動くが量子化とかそんなに何度も繰り返さんだろうし多少遅くてもほぼ動くwin-avx-x64で問題ないと思う…多分。
  • もっと精度よく変換頑張りたい人はComfyUI-GGUF/toolsを頑張って読んでビルドしましょう…
  • もしくはEasyForgeからflux_toolを拝借する。こちらの記事によるとインストール後flux_toolとsetupフォルダ以外は消しても動くらしい

高速化

  • より高速なグラボに買い替える。
  • VRAMからメインメモリへのフォールバックを無くす、または程度を少なく抑える。
    これにより画像生成にかかる時間の長大化を防止、または軽減することが可能。
    • そのため、VRAMに収まる規模の画像生成モデルおよびT5を選ぶのが効果的。
    • VRAMに収まる範囲に出来るのなら量子化モデルを使うのも手。
      ただし量子化モデルは厳密には処理速度自体は遅くなっている(変換処理が内部で動く)ので量子化モデルを使うならよりVRAMに収まる範囲のモデル選択が重要になる(VRAMから溢れると量子化のメリットがほぼなくなるため)
    • より搭載VRAM量が多いグラボに買い替える。
  • 画像生成にかかるステップ数を減らす。
    より少ないステップ数で、鑑賞に耐えるレベルの画像が生成されるようにする。収束を早める。
    • [dev]と[schnell]をマージしたモデルを利用する。8ステップ程度で収束する。
    • Hyper LoRA、またはそれがマージされたモデルを利用する。8ステップ程度で収束する。

ダウンロードリンク

Hugging FaceとCivitaiなら大抵の場合において前者からDLする方が高速。
ただしCivitai HelperCivitai Browser+などではAria2を利用することで高速にDL可能。

DL後に置くべき場所は、Forge 2.0とComfyUIとで異なる場合があるので注意。

モデル

VAE

CLIP

T5

Forge 2.0の場合: models\text_encoder に置く
ComfyUIの場合: models\clip に置く

派生モデル紹介

2024年9月末現在、実写系の方はFLUXで、二次絵系の方は引き続きSDXL(のPony系だけでなくIllustrious-XLetc)の方で盛り上がりがある様子。
そのため、先に実写系の方の派生モデルを紹介。
(とはいえ、実写系で紹介したモデルでアニメ風が出力されないわけではない)

実写系

FluxesCore-Dev (制作者:konapieces)

リリース日:2024/08/25
日本のアイドル系kawaii美人さんの出力に強く、Photo of a japanese woman ~やa photorealistic portrait of~あたりのプロンプトで簡単に出てくる。
(標準モデルでこの種の画像を出力しようとするとスン・・・となりがち。
なお、cowboy shotなどのDanbooru語やPony用e621.net語は基本通じない傾向、通常の英文でプロンプトを記述)
NF4タイプとfp16タイプの2種類があり、VRAMが12GB~な環境であればnf4の方で可動(Forge 2.0環境にて)。
VRAM8GB環境だと、nf4タイプwithForge2でメモリチョイ超え、苦しい。VRAM10GBならnf4タイプでギリギリ。
fp16モデルはVRAM24GBなグラボ持ちブルジョワ用。

Flux_Realistic_v1 (制作者:Sa_May)

リリース日:2024/08/18
black-forest-labsによる元祖FLUX.1-devに約7000枚の画像を追加して学習、リアル度を高めたモデルとの事。
上記リンク先のNF4版だけでなく、さらに小サイズのGGUF版モデルもある
(が、GGUF版を使用する場合、ComfyUIにはカスタムノードが、Forge2.0でも「t5xxl-Q6_K.gguf(やt5xxl_fp16.safetensors等)」「clip_l.safetensors」「ae.safetensors」が必要に。
よくわからんという人、Forge2.0にこれら導入機能も付いたEasyForgeその導入手順noteが参考になるかも)

FluxUnchained NF4 (制作者:sissyslave907507)

リリース日:2024/08/20
socalguitarist氏によるFlux Unchained by SCGをNF4化してコンパクトにしたモデル。
モデル名のUnchainedはJailBreak的な意味の様で、要するにNSFW対応(元のFLUX.1は描写されない箇所があるためchainedモデルと言える)。
(とはいえ、それ以外のSFWなモデルにアレなLoRAコレなLoRAを適用させる方法はあるので・・・)

MiyabismMix FLUX (制作者:TKOKD)

リリース日:2024/11/30(ver5)
Pony版でもMiyabiシリーズを出しているTKOKD氏による、FLUX版アジア美人さん出力モデル。
上記のFluxesCore-Devと同じアジア美人さん出力系ではあるのだが、系統が異なる印象(こちらは日本に限定せず「夜街の美人さん」寄りというかなんというか)。
なお、fp8モデルのみのためVRAM使用量が多め(VRAM12GB環境下にてかなりギリギリというかswap発生&生成スピード遅め)。
また、プロンプトでのブレがあり、ガチャ感有り(同じプロンプトでも国の傾向レベルで変わる印象あり)。

NSFW MASTER FLUX (制作者:Defozoおよびtedbiv)

リリース日:2025/04/10(V 1.2 Q8gguf)
名前にNSFWとあるだけあって実用性が高いモデル、特に海外の美人さんに強いがアジア系の美人さんも出てくる。
ここ最近(2025年~)は出なくなってきた、希少な最新FLUXモデル

二次絵系

参考リンク:2024/08/31まゆひら氏による二次絵系モデル紹介https://note.com/mayu_hiraizumi/n/n5b986a0c901f

以下は上記には載ってない最近出たschnellベースのモデル

animepro-flux

Flux.1-schnellにLibreFlux(と同じ学習方法?)で学習したLoraを足し込んだモデル。
画風は色々出るようだが指定せずにざっくりJapanese Anime Styleとかだとフラットな絵柄によりやすい気がする。
露骨にnudeとか指定して頑張れば一応エロ絵も出るが正直得意ではない(エロい所はかなりぬるい描き込み)ので実質sfwモデルと考えて使うほうがよさげ。
絵柄もやや安定していないが今の所少ないschnell系のモデルなので紹介。

shuttle 3 diffusion

一応汎用モデルだが比較的アニメ絵にも強めなので紹介。
animeproと恐らく似た手順で学習されている模様…と言うよりanimeProの学習機材の提供元のモデルの様だ。
元が汎用だけにちゃんとJapanese anime絵を指定しないと暴れやすい。
最近3.1(SD2でもあったArtisticモデル)とかも出た。

二次絵系Lora

Flat

Flux-Animeo-v1

モデルではなくLoraだが相当にアニメ調に強く補正するLora。
画風としてはフラット系よりは割と新し目な絵柄に近い奴が出やすい。
一応トリガーワード型として紹介されているが元がアニメ寄りのモデルだとあまりトリガーワードの効果は強くなく誤差くらいの差になる(Loraの画風影響がトリガーなしでも強く出るタイプのトリガーの有無で影響がない方)。
一方で実写よりモデルだとトリガーワードの有無でアニメ調に寄せる効果が強くなる。
ただしLibreFluxのようにほば完全にアニメ絵を忘れてしまってるモデルだとさすがに効果がないようなので、リアル系モデルでこれをアニメ絵で出せたらなー的なものに試しに使ってみるのが良いかもしれない。元モデルがアニメ絵を完全に忘れてなければ二次美少女に変えてくれるかもしれない。

Chroma(NSFWアンロックモデル)

FLUX.1 schnellベースの脱蒸留脱獄モデルで、explicitなNSFWプロンプトも難なく通る。
その代わりFLUXとはモデルの構成が異なるためツール側が別途対応していないと使えない。
2025年8月末にv1.0が正式リリースされたばかりだが開発中から海外紳士の熱い声援を受けており、既にCivitaiではFlux.1 Sとは別にベースモデル分類を与えられていてLoRAや派生モデルもちょこちょこ出ている。

あくまで「true "base" models」ということなのでか高画質版のChroma.1HDでも解像度はSDXLと同等の1024x1024。
実写も二次絵も両方対応しており、Danbooruタグも使える。ワパニーズがワパニーズの為に作ったモデルではないのでjapanese anime styleと入れないと日本人好みの絵は出してくれないことが多いし、japanese girlと入れると着物のお姉さんを呼んでくれたりもする。
プロンプト追従性はそこそこだが、叡智なプロンプトを渡してもexplicitを打たないとカマトトぶられる。
クオリティタグとしてaesthetic*2 11-0が振られており数字が高いほど高品質で、ポジティブプロンプトに「aesthetic 11」を入れることが推奨されている。

ComfyUIでは本体からテンプレート「Chroma text to image」でワークフローを開けるようになった。ただしWFの注意書きにもあるが、FreScaノードは実写には向かないのでバイパスしないと変な加工がかかったような絵面になる*3
必要なモデルはHugging FaceリポジトリのModel cardからリンクされている。
GGUF版や高速化版のFlashモデルはCivitaiのほうの説明書きからリンクされている。しかしFlashモデルのプロンプト追従性はv1.0ではかなり悪い。

トピックス1:プロンプトにIMG-7587.JPGを付け加えると、Fluxのリアル写真風な描写レベルが向上する

X(旧twitter)にて、まことしやかに流れた話題。一見嘘くさいのだが、実際に検証すると効果あるので困惑する事に。
reddit(英語)でも検証されており、どうやら.jpg無しの
IMG-7587やIMAGE-7587、IM-7587などの単語でも効果ある(デジカメが自動でつけるファイル名に近ければ効果出る可能性)。
こちらの中国語ブログでは
「これらの名前がトレーニングデータのパターンと密接に一致し、AIを誘導、より高いリアリズムを達成できるのでは(おおよその和訳)」との仮説が書かれていたが、明確な理由は不明である。
(なお、公式モデルだけでなく上記の複数のモデルで検証したが、実写系での出力であればどれも効果ある傾向)

トピックス2:(「何が」は言わないが、)プロンプトでsmallやmediumと書いているのに大きくなる傾向、それへの対策LoRAの紹介

「Black Forest LabsはLargeがお好き!」という訳ではないのだろうが(おそらく、海外の3次に強い生成AIの宿命であろう処置のため)
やたらと大きくなりがちな傾向。その対策LoRAがcivitai.comにて公開されていた。
目安として、このLoRAを0.5~0.6でsmall、0.2~0.3でmediumになり、またTrigger WordsがFL4TCH3STであるという事だけ書いておくので、後はご理解いただきたい。

トピックス3:新しい(2025年3月生まれ)Text Encoderの紹介(T5-XXL v1.1をfine-tuneした物)

今まで「t5xxl_fp16.safetensors」や「t5xxl-Q6_K.gguf」を使っていたのだが、きまま氏による新しいText Encoderが公開されたので紹介。
FLAN-T5-XXL (Text-Encorder only) - FP16 - Other Other - Civitai およびhuggingfaceにて。
「最初は flan_t5_xxl_TE-only_FP16.safetensors を試すのがおすすめ」との事から、複数の中からTE-onlyのFP16版を選んでダウンロード。
これを、forge2ならforge2flux\webui\models\text_encoderのフォルダ内に入れ、forge2起動、いつものhttp://127.0.0.1:7860画面の上「VAE / Text Encoder」で選択。
(いままで使ってた「t5xxl_fp16.safetensors」等を×で消して「flan_t5_xxl_TE-only_FP16.safetensors」に置き換え。ファイルサイズも9.55GB→9.30GBと、ややコンパクトになって良)
日本語解説(導入手順含む)もあって色々助かります。

トピックス4:LoRAの、特にmidjourneyシリーズで「FLUXモデルを変えた?」と思うレベルで変わる話(実写三次元)

ここ最近は新しいFLUXモデルが出てこない、相変わらず海外でのFLUXユーザーはいるが日本国内で少ない、
Diving-Illustrious等の3次向けIllustriousモデルで注目が集まる等もあり、あまりFULX関連の注目や新しい情報は無い中、
Midjourney Whisper Innocent Eyes FLUX LoRA等の名前にMidjourneyの入ったLoRAと共に出力すると
海外系人物だけでなくアジア系の人物の出力(紹介のLoRAだと目の変化で顔全体の)表現が大きく変わる(強すぎると写真モデル風)。もし良ければご検討を

メモ


*1 なんでも対応してくれるわけではない。1girlとかならおそらく通じるが、例えばcowboy shotと入れればカウボーイの画像になる。
*2 エスセティック。芸術的な美しさという意味
*3 逆に二次絵はキャラやプロンプトによってはFreScaしないといまいち映えない絵を出してくることが多い。