ブラウザの JavaScript がオフ（ブロックまたは許可しない）に設定されているため、このページは正常に機能しません。

> CLIP

CLIP

Last-modified: 2026-01-01 (木) 00:51:16

視覚言語モデル（VLM）としてのCLIP

概要

OpenAIが開発したVLM（Vision Language Model、言語と画像を結びつけるAIモデル）
- 商標登録などはされていないが、本来は固有名詞
SDXLで併用されているOpenCLIPは、OpenAI CLIPのオープンソースなクローンとして構築されたモデル
ChatGPT等のLLMと比べると、特定のタスクに特化しているのでパラメータ数が小さくて軽い。SDで使われているのは一番大きいCLIP ViT-L/14だが、それでも0.4B（うちテキストエンコーダ部は0.1B）しかない
CLIPは「Contrastive Language-Image Pre-training」の略

画像生成AIで使用する際のCLIPの役割

230719_02_SDにおけるモデルの役割.png

引用：としあき自作

概要

SD系でプロンプトテキストを数値表現に変換するために使われている*1
テキストエンコーダの一種
- あくまでCLIPとテキストエンコーダは別の概念なのだが、ComfyUI等では比喩ではなくテキストエンコーダの代名詞のように使われてしまっている
- FLUX.1やQwen-Imageでは、CLIPとは別のテキストエンコーダも使っている
比較的ファイルサイズが小さいので、SD1.5系やSDXL系では画像生成モデル本体であるU-Net拡散モデルと同じファイルに埋め込まれて配布されている

関連技術

Clip skip

はじめての方へ

初めての方はこちら
- よく見る用語集
- よくある質問

このwikiは研究用のwikiです。
知らない人には教えないでくださいね。
スクリーンショットを撮影しSNSに掲載等の行為は大変迷惑なのでご遠慮ください。
研究目的以外でリンクを掲載するなどの行為も含めご遠慮ください。

不具合・エラー情報

不具合issues
エラー解決メモ

スレの主な出来事

最近の主な出来事

生成ツール

無料デモ・Webサービス

ローカル

AUTOMATIC1111 SD Web UI*1
- Forge
  - EasyReforge

ComfyUI
- Detailer
- Instant-LoRA

NMKD

Nvidia以外で使えるソフト等

Nvidia以外で使えるソフト等

AMD
Intel Arc / iGPU
- IntelのGPUで画像生成

モデル

モデルについて

画像生成モデル

動画生成モデル

その他

VAE

AUTOMATIC1111 SD Web UI

導入

ローカル版

Colab版

導入方法
- Googleドライブからモデルを読み込む
- 学習向けによりローカルの様にColab環境を作るには

Paperspace版

導入方法

使い方

初期設定

使い方（基本）

項目解説
- img2img
- Checkpoint Merger
出力設定

使い方（上級）

Extensions(拡張機能)

Custom Script

階層マージ

学習全般

学習データの種類

LoRA学習

LoRA学習の流れ

事前準備

画像の準備

キャプション・タグ編集

学習方法

学習方法
WebサービスでLoRA作成
- Civitai
- colab

学習のコツ

応用

学習させたLoRAの使い方

学習ファイルの使い方

アイデア・メモ

Wiki編集者向け

外部リンク

リンク集
- AIイラスト投稿

カウンター

今見ているページの
来場者カウンター
↓↓
今日 ?
昨日 ?
合計 ?
このページを見てる人 ? 人

〔人気/今日人気〕〔最新〕

T.?　Y.?
NOW.?　TOTAL.?
}}

*1 引用：https://github.com/kohya-ss/sd-scripts/blob/main/docs/fine_tune_README_ja.md#clipの出力の変更