ブラウザの JavaScript がオフ（ブロックまたは許可しない）に設定されているため、このページは正常に機能しません。

> Vision Transformer

Vision Transformer

Last-modified: 2025-09-26 (金) 16:58:23

略語：ViT,vit
画像特徴を抽出する役割を持つ。テキストエンコーダと組み合わせると、言語と画像を共通の数値表現にマッピングすることができる。
自然言語処理を行うLLMと掛け合わせたものはLVLM等と呼ばれている。VLLMと呼ぶ人もいるが、Very Large Language Modelと紛らわしい。

WD1.4 Taggerでは「wd14-vit-v2」というモデルで使われている。
SDでテキストエンコーダとして使われているCLIP ViT-L/14も画像認識部はViTだが、SDはCLIPのテキストエンコーダ部のみを利用しViTは使っていない。
Qwen-Imageのテキストエンコーダに使われているQwen-VLはLVLM。

GPTシリーズでLLM界を席巻したTransformerを画像解析に応用したもの。TransformerはそれまでのU-Netのような深層学習アルゴリズムより位置的に離れたトークンの扱いが巧みなことが強み。U-Net拡散モデルでは「画像に二人人間がいる」ということは分かっても、例えばどちらがワンピースを着ていてでどちらがブラウスを着ているのか、といった同一画像内での個体間の区別はTransfomerより不得意だった。
- しかし、初期のSDの頃のPCスペックでは画像生成モデル全体をTransformer化するのは難しかったので、画像生成にはU-Net拡散モデルが採用された。
後年DiT（Diffusion Transformer）が発表されたが、これは画像生成処理（Diffusion）にTransfomerを使ったもの。

はじめての方へ

初めての方はこちら

このwikiは研究用のwikiです。
知らない人には教えないでくださいね。
スクリーンショットを撮影しSNSに掲載等の行為は大変迷惑なのでご遠慮ください。
研究目的以外でリンクを掲載するなどの行為も含めご遠慮ください。

不具合・エラー情報

不具合issues
エラー解決メモ

スレの主な出来事

最近の主な出来事

生成ツール

無料デモ・Webサービス

ローカル

AUTOMATIC1111 SD Web UI*1
- Forge
  - EasyReforge

ComfyUI
- Detailer
- Instant-LoRA

NMKD

Nvidia以外で使えるソフト等

Nvidia以外で使えるソフト等

AMD
Intel Arc / iGPU
- IntelのGPUで画像生成

モデル

モデルについて

画像生成モデル

動画生成モデル

その他

VAE

AUTOMATIC1111 SD Web UI

導入

ローカル版

Colab版

導入方法
- Googleドライブからモデルを読み込む
- 学習向けによりローカルの様にColab環境を作るには

Paperspace版

導入方法

使い方

初期設定

使い方（基本）

項目解説
- img2img
- Checkpoint Merger
出力設定

使い方（上級）

Extensions(拡張機能)

Custom Script

階層マージ

学習全般

学習データの種類

LoRA学習

LoRA学習の流れ

事前準備

画像の準備

キャプション・タグ編集

学習方法

学習方法
WebサービスでLoRA作成
- Civitai
- colab

学習のコツ

応用

学習させたLoRAの使い方

学習ファイルの使い方

アイデア・メモ

Wiki編集者向け

外部リンク

リンク集
- AIイラスト投稿

カウンター

今見ているページの
来場者カウンター
↓↓
今日 ?
昨日 ?
合計 ?
このページを見てる人 ? 人

〔人気/今日人気〕〔最新〕

T.?　Y.?
NOW.?　TOTAL.?
}}