画像生成AI全般で使用されるtransformers
画像生成AIにおける基幹プログラムの一つ
概要
- Googleの研究者等が発表した深層学習モデルであり、主に自然言語処理 (NLP)の分野で使用される*1
- 従来のAIモデルが単一の単語に対する、単一の出力を担っていたのに対して、transformersと呼ばれるEncoderは複数の単語を文章の単位での入力可能であり、並列処理を可能にした。これによって文章全体の文脈を捉えた処理ができる。
- また、並列タスクへ分解できる都合上、GPUとの相性が良い。一般に、GPUはCPUよりも多くのコアを持ち並列タスクが得意である。
派生プログラム
Transfomersをベースに各種モデルが開発されている。有名なものは下記。
BERT
Googleによってリリースされた自然言語処理モデル。Google検索エンジンに組み込まれている。
GPT
OpenAI社によって開発された言語生成モデル。ChatGPTで有名
関連情報
wikipedia - Transformer (機械学習モデル)
コード化されてGitHubに公開されているtransformers
上記を前提にコード化されたもの。
バージョン情報
https://github.com/huggingface/transformers/releases
各バージョンで特に重要な情報
バージョン | |
4.31.0 | |
4.26.0 | sd-scripts v0.6.5デフォルト設定 |
4.25.1 | stable-diffusion-webui v1.5.1デフォルト設定 |
インストール方法
- 普通、各プログラムの導入の際に自動でインストールされる。
具体的にはrequirements.txtをpip installする行程で導入される。
関連情報
Transormersソースコード
transformers by huggingface in GitHub
https://github.com/huggingface/transformers