視覚言語モデル(VLM)としてのCLIP
概要
- OpenAIが開発したVLM(Vision Language Model、言語と画像を結びつけるAIモデル)
- 商標登録などはされていないが、本来は固有名詞
- SDXLで併用されているOpenCLIPは、OpenAI CLIPのオープンソースなクローンとして構築されたモデル
- ChatGPT等のLLMと比べると、特定のタスクに特化しているのでパラメータ数が小さくて軽い。SDで使われているのは一番大きいCLIP ViT-L/14だが、それでも0.4B(うちテキストエンコーダ部は0.1B)しかない
- CLIPは「Contrastive Language-Image Pre-training」の略
画像生成AIで使用する際のCLIPの役割
引用:としあき自作
概要
- SD系でプロンプト テキストを数値表現に変換するために使われている*1
- テキストエンコーダの一種
- 比較的ファイルサイズが小さいので、SD1.5系やSDXL系では画像生成モデル本体であるU-Net拡散モデルと同じファイルに埋め込まれて配布されている
