画像生成AI全般で使用されるTransformer
画像生成AIにおける基盤技術の一つ
概要
- Googleの研究者等が発表した深層学習モデル。自然言語処理から出発したがその後画像や音声、動画の処理にも応用され、2025年現在のAIムーブメントの中心的な存在となっている。
- 従来のAIモデルが弱点としていた入力データ全体の大局的な理解を得意としている。自然言語処理であれば文脈の理解、画像生成であれば離れた位置での描写の整合性(たとえば、頭が増えにくい等)に強みを持つ。
- また、並列タスクへ分解できる都合上、GPUとの相性が良い。一般に、GPUはCPUよりも多くのコアを持ち並列タスクが得意である。
- アーキテクチャとしては単数形で「Transformer」と書くのが通例。
- ただしTransformerモデルを扱うライブラリとして、Hugging Faceが提供している「Transformers」という実装が広く使われている。
- 長文、画像、動画、音声など、重みづけされていない均質なデータの固まりから自動的に特徴量を抽出するのが非常に得意。
- 一方でエクセルの表やDBレコードのようなTabularデータ(形式、尺度や重要度の異なる細かいデータの集まり)の扱いは(2025現在としては)それほど得意ではないとされる。
- このため、AI界隈全体でのほぼTransformer一強かのような賑わい方からすると意外なことに、Tabularデータを扱うコンペではまだそこまで健闘していない。もちろん今後変わる可能性も見えてきている。
- そもそもAI元年でのAlextNet(深層学習)の特徴量エンジニアリング勢に対する大勝利以来、深層学習では特徴量エンジニアリングが軽視されがちで、TabularデータのようなAIに回す前に特徴量エンジニアリングがいるものは(深層学習エンジニアには)扱われにくい傾向がある
- 「やっぱり遅い」「画像処理や音声処理では自然な局所的低次元マニフォールド構造が破壊されやすい」と欠点も指摘されており、Mamba等の次世代技術も研究されている。
- しかしTransformerは2025年現在実績が豊富でまだ伸びしろがあると考えられているため、後発技術はTransformerにおけるChatGPTのような実用化されたキラーコンテンツがないと普及しにくい土壌がある。
派生モデル
Transfomerをベースに各種モデルが開発されている。有名なものは下記。
BERT
Googleによってリリースされた自然言語処理モデル。Google検索エンジンに組み込まれている。
GPT
OpenAI社によって開発された言語生成モデル。ChatGPTで有名
ViT(Vision Transformer)
個別のモデルというよりはカテゴリ
Transformerの仕組みを画像認識に応用したもの
DiT(Diffusion Transformer)
これも個別のモデルというよりはカテゴリ
SD3以降の画像生成AIの主流。Transformerの仕組みを画像生成に応用したもの
その他、SDXLなど旧来のSD系モデルで使われているU-Net拡散モデルでも部分的にTransformerのアイデアが流用されている。
関連情報
wikipedia - Transformer (機械学習モデル)
Transformersライブラリ
Hugging Faceが開発したTransformerモデルを扱うためのライブラリの一つ。
紛らわしいがこちらは複数形の「Transformers」。
画像生成AIでは基本的にテキストエンコーダの処理の際に使われている。
(DiTもTransformerベースの技術だが、ComfyUIはPyTorchを直接呼び出してDiTモデルによる処理を行っている。)
バージョン情報
https://github.com/huggingface/Transformers/releases
各バージョンで特に重要な情報
| バージョン | |
| 4.31.0 | |
| 4.26.0 | sd-scripts v0.6.5デフォルト設定 |
| 4.25.1 | stable-diffusion-webui v1.5.1デフォルト設定 |
インストール方法
- 普通、各プログラムの導入の際に自動でインストールされる。
具体的にはrequirements.txtをpip installする行程で導入される。
関連情報
Transormersソースコード
Transformers by huggingface in GitHub
https://github.com/huggingface/Transformers