Vision Transformer

Last-modified: 2025-09-26 (金) 16:58:23
  • 略語:ViT,vit
  • 画像特徴を抽出する役割を持つ。テキストエンコーダと組み合わせると、言語と画像を共通の数値表現にマッピングすることができる。
  • 自然言語処理を行うLLMと掛け合わせたものはLVLM等と呼ばれている。VLLMと呼ぶ人もいるが、Very Large Language Modelと紛らわしい。
  • GPTシリーズでLLM界を席巻したTransformerを画像解析に応用したもの。TransformerはそれまでのU-Netのような深層学習アルゴリズムより位置的に離れたトークンの扱いが巧みなことが強み。U-Net拡散モデルでは「画像に二人人間がいる」ということは分かっても、例えばどちらがワンピースを着ていてでどちらがブラウスを着ているのか、といった同一画像内での個体間の区別はTransfomerより不得意だった。
    • しかし、初期のSDの頃のPCスペックでは画像生成モデル全体をTransformer化するのは難しかったので、画像生成にはU-Net拡散モデルが採用された。
  • 後年DiT(Diffusion Transformer)が発表されたが、これは画像生成処理(Diffusion)にTransfomerを使ったもの。