Transformer

Last-modified: 2026-01-01 (木) 17:53:10

画像生成AI全般で使用されるTransformer

画像生成AIにおける基盤技術の一つ

概要

  • Googleの研究者等が発表した深層学習モデル。自然言語処理から出発したがその後画像や音声、動画の処理にも応用され、2025年現在のAIムーブメントの中心的な存在となっている。
  • 従来のAIモデルが弱点としていた入力データ全体の大局的な理解を得意としている。自然言語処理であれば文脈の理解、画像生成であれば離れた位置での描写の整合性(たとえば、頭が増えにくい等)に強みを持つ。
  • また、並列タスクへ分解できる都合上、GPUとの相性が良い。一般に、GPUはCPUよりも多くのコアを持ち並列タスクが得意である。
  • アーキテクチャとしては単数形で「Transformer」と書くのが通例。
    • ただしTransformerモデルを扱うライブラリとして、Hugging Faceが提供している「Transformers」という実装が広く使われている。


  • 長文、画像、動画、音声など、重みづけされていない均質なデータの固まりから自動的に特徴量を抽出するのが非常に得意。
  • 一方でエクセルの表やDBレコードのようなTabularデータ(形式、尺度や重要度の異なる細かいデータの集まり)の扱いは(2025現在としては)それほど得意ではないとされる。
    • このため、AI界隈全体でのほぼTransformer一強かのような賑わい方からすると意外なことに、Tabularデータを扱うコンペではまだそこまで健闘していない。もちろん今後変わる可能性も見えてきている。
    • そもそもAI元年でのAlextNet(深層学習)の特徴量エンジニアリング勢に対する大勝利以来、深層学習では特徴量エンジニアリングが軽視されがちで、TabularデータのようなAIに回す前に特徴量エンジニアリングがいるものは(深層学習エンジニアには)扱われにくい傾向がある
  • 「やっぱり遅い」「画像処理や音声処理では自然な局所的低次元マニフォールド構造が破壊されやすい」と欠点も指摘されており、Mamba等の次世代技術も研究されている。
    • しかしTransformerは2025年現在実績が豊富でまだ伸びしろがあると考えられているため、後発技術はTransformerにおけるChatGPTのような実用化されたキラーコンテンツがないと普及しにくい土壌がある。

派生モデル

Transfomerをベースに各種モデルが開発されている。有名なものは下記。

BERT

Googleによってリリースされた自然言語処理モデル。Google検索エンジンに組み込まれている。

GPT

OpenAI社によって開発された言語生成モデル。ChatGPTで有名

ViTVision Transformer

個別のモデルというよりはカテゴリ
Transformerの仕組みを画像認識に応用したもの

DiT(Diffusion Transformer)

これも個別のモデルというよりはカテゴリ
SD3以降の画像生成AIの主流。Transformerの仕組みを画像生成に応用したもの


その他、SDXLなど旧来のSD系モデルで使われているU-Net拡散モデルでも部分的にTransformerのアイデアが流用されている。

関連情報

wikipedia - Transformer (機械学習モデル)

https://ja.wikipedia.org/wiki/Transformer_(%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92%E3%83%A2%E3%83%87%E3%83%AB)

Transformersライブラリ

Hugging Faceが開発したTransformerモデルを扱うためのライブラリの一つ。
紛らわしいがこちらは複数形の「Transformers」。
画像生成AIでは基本的にテキストエンコーダの処理の際に使われている。
DiTもTransformerベースの技術だが、ComfyUIPyTorchを直接呼び出してDiTモデルによる処理を行っている。)

バージョン情報

https://github.com/huggingface/Transformers/releases

各バージョンで特に重要な情報

バージョン
4.31.0
4.26.0sd-scripts v0.6.5デフォルト設定
4.25.1stable-diffusion-webui v1.5.1デフォルト設定

インストール方法

  • 普通、各プログラムの導入の際に自動でインストールされる。
    具体的にはrequirements.txtをpip installする行程で導入される。

関連情報

Transormersソースコード

Transformers by huggingface in GitHub
https://github.com/huggingface/Transformers