ブラウザの JavaScript がオフ（ブロックまたは許可しない）に設定されているため、このページは正常に機能しません。

> Text Encoder

Text Encoder

Last-modified: 2026-06-20 (土) 02:28:39

Text Encoderとは何か。
- 簡単に言うと？
Text Encoderの構造
- Stable Diffusion web UIで使われている場所

Text Encoderとは何か。

簡単に言うと？

Text Encoderとは、
ざっくり言えば唱えた呪文を数値化してU-Netへ伝えてこういう絵にしてほしいと通訳を行う場所になります。
- 例えば「1girl,loli,at computer,」でコンピューターへ向かうロリっ娘を出してもらおうとした時に通訳次第ではその内容が変化します。

Text Encoderの構造

SD系ではCLIPが採用されています
比較的最近の自然言語言語に強い~~ファイルサイズがやたらデカい~~テキストエンコーダは、フル版であれば会話もできる本格的なLLMも使われていることがあります。FLUX.1のT5、Qwen-VLなど。
- プロンプトの通りとかが気になる人はちょっとお話してみるといいかも？　~~Qwen-VLは脱獄文でNSFW通るし~~
- FLUX.1のT5 XXLやQwen-VLのようなLLMはそれ自体のパラメータ数がSDXL系の画像生成モデルより多いので、少なくともしばらくのうちは画像生成モデル本体に埋め込めるサイズではありません。SD1.5はパラメータ数1B、SDXLでも3.5Bだが、T5 XXLは11Bもある。画像生成モデル（U-Net拡散モデル）はAIに都合がいいノイズ拡散過程を扱っているので、この世のすべての言葉を理解するよう強いられているLLMよりコンパクトなのです。
  - と思っていましたが、最近のAIO（All in One）モデルでは10GB近いLLM系テキストエンコーダを焼き込んであるものも見受けられます。デカくてもひとまとめにしたほうがお手軽という判断のようです。

Stable Diffusion web UIで使われている場所

260620_01_モデルの役割_2.png

引用：としあき自作

はじめての方へ

初めての方はこちら

このwikiは研究用のwikiです。
知らない人には教えないでくださいね。
スクリーンショットを撮影しSNSに掲載等の行為は大変迷惑なのでご遠慮ください。
研究目的以外でリンクを掲載するなどの行為も含めご遠慮ください。

不具合・エラー情報

不具合issues
エラー解決メモ

スレの主な出来事

最近の主な出来事

生成ツール

無料デモ・Webサービス

ローカル

AUTOMATIC1111 SD Web UI*1
- Forge
  - EasyReforge
- Forge neo

ComfyUI
- Detailer
- Instant-LoRA

NMKD

Nvidia以外で使えるソフト等

Nvidia以外で使えるソフト等

AMD
Intel Arc / iGPU
- IntelのGPUで画像生成

モデル

モデルについて

画像生成モデル

動画生成モデル

その他

VAE

AUTOMATIC1111 SD Web UI

導入

ローカル版

Colab版

導入方法
- Googleドライブからモデルを読み込む
- 学習向けによりローカルの様にColab環境を作るには

Paperspace版

導入方法

使い方

初期設定

使い方（基本）

項目解説
- img2img
- Checkpoint Merger
出力設定

使い方（上級）

Extensions(拡張機能)

Custom Script

階層マージ

アップスケール＆高画質化

学習全般

学習データの種類

LoRA学習

LoRA学習の流れ

事前準備

画像の準備

キャプション・タグ編集

学習方法

学習方法
WebサービスでLoRA作成
- Civitai
- colab

学習のコツ

応用

学習させたLoRAの使い方

学習ファイルの使い方

アイデア・メモ

Wiki編集者向け

wikiwiki編集のコツ
MenuBar
メモ処
執筆中のページ
- 画像の準備
- Text Generation Web UI

外部リンク

リンク集
- AIイラスト投稿

カウンター

今見ているページの
来場者カウンター
↓↓
今日 ?
昨日 ?
合計 ?
このページを見てる人 ? 人

〔人気/今日人気〕〔最新〕

T.?　Y.?
NOW.?　TOTAL.?
}}