Qwen-Image

Last-modified: 2025-12-20 (土) 19:43:46

概要

Alibabaが開発したモデル。同社のAIシリーズ「Qwen」の一部。
読みは英語風に「クウェン-イメージ」でいいらしい*1
モデル名としては「Qwen-Image」「Qwen-Image-Edit」が正式名*2

ブランド名のQwenは、中国国内では通义千问(通義千問、トンイーチエンウェン*3)と呼ばれている。
通義千問は「偏りない智慧をもって千の問いに答える」という意味。BATHの他3社がAIに精神的な名称を付けているのに対し、機能美重視の命名。
姉妹ブランドにWanこと通義万相がある。万と千という関係。

特徴

  • 自然言語形式によるプロンプト入力に対応している。
  • プロンプトに対する反応がかなり良い。
    • プロンプトは英語のほか、Alibabaの母国語である中国語も通る。
      • 公式では明言されていないが日本語もある程度通る*4テキストエンコーダ自体はQwen2-VL-7B-InstructのModel cardによると欧州・アジア主要国の言語に対応している模様。ただしこいつはLLMとして使うと怪しい日本語をしゃべる
    • SD系に向けて書いた呪文を入れても、スラングやNSFW系でなければある程度は通る。
    • テキストエンコーダにパラメータ数7Bの本格的なLLMであるQwen2.5-VL-7B-Instructを採用している。
  • 文字の出力は英語、中国語に対応している。
    • 日本語は出せないわけではないがかなり怪しい。
  • 中華製なのでかアジア系の雰囲気になりやすい。他のモデルだと和風建築や和服に偏りがちな現代日本の街並みも出しやすいらしい。
  • SDXLより解像度が高い。推奨解像度は1328x1328(1:1)、1664x928(16:9)、1472x1140(4:3)とその縦横回転。なお、SDXLは1024x1024。
    • 画像生成モデルとして、FLUX.1でも使われているMMDiTが採用されている。
  • Qwen Image Editは元の画像に対し、「女性を立たせる」などプロンプトで編集を加えることができる。img2imgの発展形というかControlNetを組み合わせた感じ。
    • WANやFLUX.1 Kontextと同様、Flow Matchingを採用している。潜在拡散モデルではノイズから完成画像への変換に限られていたが、Flow Matchingでは変換元にも任意の起点を取ることができる。
    • もっともControlNetの組み合わせでも似たようなことはできる。特にNSFW二次絵については専用モデルがない現状では無理に使うほどでもないという印象。
  • 2025年9月時点でのライセンスはモデルも含めてApache2.0。商用利用(やNSFW等)に制限がない。独自ライセンスのSD系やFLUXより緩い。


  • 200億というパラメータ数*5もありめちゃくちゃ重い。あとモデルサイズも巨大。
    • fp8でようやくVRAM24GBに収まるレベル。VRAM16GBならGGUFでQ4 K_M、VRAM12GBだとQ3_K_Mまで落とさないとVRAMからあふれて牛歩になる。一応GGUF版ならVRAM8GB以下でも動作したとの報告はある。
    • 画像生成モデルだけでなく、テキストエンコーダ(Qwen2.5-VL)もパラメータ数70億とSDXL本体の倍もある*6。VRAM 8GBだとfp8でもあふれる。
    • Lightning Loraというstep数削減用のLoraが存在する。ただしネガティブプロンプトが効かなくなる。処理時間的には4ステップ版でようやくSDXLの20ステップ程度といったところ。
    • GGUFやnunchakuといった軽量化・高速化技術の開発が進んでいる。しかしnunchakuはこれを書いている時点では発展途上で難点も多い。
  • NSFWに関してはFLUXなどと同様検閲されている。
    • 少年漫画レベルのグロはそんなに検閲されていないようで、NSFW用のLora等を当てずに(あるいは設定ミスで適用されてない場合とか)叡智な絵を出そうとすると崩壊してなくても血まみれな絵が出てきたりするので注意。同じくアリババ開発のWANもそうだが。
    • NSFW用のLoraはあるにはあり、NSFWな格好のお姉さん程度なら出せる。が、NSFW用のベースモデルは執筆時点ではまだ出回っていないので、複数人が絡む構図をQwenに生成させるには(できるだけNSFW判定を受けない語彙で)詳細な構図指定を行う必要がある。体位だけとか雑なプロンプトを打つとおそらくベースモデル側が理解できなくて崩壊する。
    • NSFW特有の部位は特に破綻しやすい。他のモデルでDetailerをかける等のケアが必要になる。
    • NSFW用のLoraが適用されていて構図指定がしっかりしていれば、一応テキストエンコーダモデルがUncensored/AbliteratedでなくてもNSFW画像は生成できる。

導入方法

まだそんなに普及していないモデルなので、ComfyUIであればComfyUI公式テンプレートか誰かのワークフローを借りてきて足りないカスタムノードやモデルを一個一個落としていくのが楽。
Civitai等ではモデルばかりでなくワークフローも公開されている。

  • サンプラーに関しては、少なくとも4-steps Loraを使う場合はEulerサンプラーでないと4ステップで生成しきらない。

ComfyUI-nunchaku

https://github.com/nunchaku-tech/ComfyUI-nunchaku
ComfyUI用のnunchaku対応カスタムノード。(非nunchaku版に比べれば)爆速・軽量。
2025年9月現在はQwen-Image対応についてはベータ版といったところ。執筆時点ではLoRAに対応してないがすぐに対応するとのこと。

ワークフローはComfyUI-nunchakuのドキュメントからDLできる。


なお、nunchaku本体のインストールについてはNunchaku Installerという専用ノードが用意されており、こいつを1回走らせないと生成できない。
詳しくはこちら

Qwen Image Edit: テキストエンコーダ(CLIP)を変えたらエラーが出た場合

2025年9月現在、ComfyUI公式のQwen Image Editワークフローを使っている場合、同じQwen2.5-VL-7B-Instructから派生したモデルでも入れ替えるとエラーが出ることがある。
TextEncodeQwenImageEditノード上で下記のようなエラーが発生する。

mat1 and mat2 shapes cannot be multiplied (5376x1280 and 3840x1280)

このエラーを回避するにはまず、TextEncodeQwenImageEditノードを削除する。
TextEncodeQwenImageEditノードの実体は、SD系モデルでも使う「CLIPテキストエンコード(プロンプト)」と「ReferenceLatent」の組み合わせ(らしい)のでそちらに置き換える。
ReferenceLatentには潜在画像の入力が必要なので、それは元画像を「VAEエンコード」して入れる。

エラー回避のためのワークフローの例

この例ではネガティブプロンプトを使っていないが、使う場合はネガ側にもReferenceLatentが必要かもしれない。
ワークフロー

モデルの種類

  • Qwen-Image-Edit-Rapid-AIO
    https://huggingface.co/Phr00t/Qwen-Image-Edit-Rapid-AIO
    画像生成モデルのほか、テキストエンコーダ、VAE、4ステップ高速化LoRAほか多々のLoRAをマージしたAIO(All in One)モデル。
    Qwen-Image-Editベースだが参照画像を与えなければ一応t2iもできる。が、Illustrious-XL系モデルのように大規模な追加学習が行われているわけではなくあくまでLoRAの寄せ集めなので、画質はともかくマニアックな衣装指定の理解度などはt2i用途としてはいまいち。
    (そもそも編集モデルは元の画像の構造を大きく崩さないよう訓練されており、仮にt2iのタスクを学んでいたとしても裁量の幅が狭い。
     アリババがQIEの更新を優先しているのは、万能モデルだからというよりt2iがレッドオーシャン化しているためフロンティア領域に活路を見出していると考えたほうが自然である)
    公式モデルと違ってそれぞれをバラバラにDLする必要がないので導入が多少楽。
    NSFW用と一般用に分かれている。2025年12月現在頻繁にアップデートされており、推奨サンプラーなどもころころ変わるのでモデルカード必読。



  • MCNL (Multi Concept NSFW Lora) [Qwen Image]
    https://civitai.com/models/1851673/mcnl-multi-concept-nsfw-lora-qwen-image
    実写系のNSFW用Lora。二次絵に適用すると肌テカテカしがち&破綻しやすい。後者はLightning Loraを併用するとある程度改善される。その他、実写系なのでAVみたいな構図になりやすく漫画やヘボゲでしか見ないような構図は出ない*7

*1 YouTubeのAlibaba公式動画「QWEN: The Future of Multi-Modal AI」より
*2 https://www.alibabacloud.com/help/zh/model-studio/models
*3 チェンウェンをQiānwènと書くと英語話者からはクィアンと読まれがちらしい。
*4 姉妹最強LLMのQwen3-235B-A22B-InstructがAmazon Bedrockで比較的安価に利用できるようになったが、ネタが古いが日本のオタク文化の理解も良い。Qwen-Imageデフォルトのテキストエンコーダは7Bなのでさすがにチープだが。
*5 参考として、SDXL系列が35億。FLUX.1系列でも120億。
*6 SDXLはCLIPのうちテキストエンコーダ部しか使っていないのだが、どうやらQwen-ImageはQwen2.5-VL-7B-Instructをそのまま使っている。
*7 逆に言うと複数視点、コマ割りや断面図もネガティブプロンプトを使わなくても出ない。