Text Encoder

Last-modified: 2025-12-15 (月) 00:23:36

Text Encoderとは何か。

簡単に言うと?

  • Text Encoderとは、
    ざっくり言えば唱えた呪文を数値化してU-Netへ伝えてこういう絵にしてほしいと通訳を行う場所になります。
    • 例えば「1girl,loli,at computer,」でコンピューターへ向かうロリっ娘を出してもらおうとした時に通訳次第ではその内容が変化します。

Text Encoderの構造

  • SD系ではCLIPが採用されています
  • 比較的最近の自然言語言語に強いファイルサイズがやたらデカいテキストエンコーダは、フル版であれば会話もできる本格的なLLMも使われていることがあります。FLUX.1のT5、Qwen-VLなど。
    • プロンプトの通りとかが気になる人はちょっとお話してみるといいかも? Qwen-VLは脱獄文でNSFW通るし
    • FLUX.1のT5 XXLやQwen-VLのようなLLMはそれ自体のパラメータ数がSDXL系の画像生成モデルより多いので、少なくともしばらくのうちは画像生成モデル本体に埋め込めるサイズではありません。SD1.5はパラメータ数1B、SDXLでも3.5Bだが、T5 XXLは11Bもある。画像生成モデル(U-Net拡散モデル)はAIに都合がいいノイズ拡散過程を扱っているので、この世のすべての言葉を理解するよう強いられているLLMよりコンパクトなのです。
      • と思っていましたが、最近のAIO(All in One)モデルでは10GB近いLLM系テキストエンコーダを焼き込んであるものも見受けられます。デカくてもひとまとめにしたほうがお手軽という判断のようです。

Stable Diffusion web UIで使われている場所

230719_02_SDにおけるモデルの役割.png

引用:としあき自作