CLIP

Last-modified: 2025-12-15 (月) 00:23:36

視覚言語モデル(VLM)としてのCLIP

概要

  • OpenAIが開発したVLM(Vision Language Model、言語と画像を結びつけるAIモデル)
    • 商標登録などはされていないが、本来は固有名詞
  • SDXLで併用されているOpenCLIPは、OpenAI CLIPのオープンソースなクローンとして構築されたモデル
  • ChatGPT等のLLMと比べると、特定のタスクに特化しているのでパラメータ数が小さくて軽い。SDで使われているのは一番大きいCLIP ViT-L/14だが、それでも0.4B(うちテキストエンコーダ部は0.1B)しかない
  • CLIPは「Contrastive Language-Image Pre-training」の略

画像生成AIで使用する際のCLIPの役割

230719_02_SDにおけるモデルの役割.png

引用:としあき自作

概要

関連技術