MoE
概要
MoE は Mixture of Experts の略で、複数の「専門家」ネットワークのうち一部だけを入力ごとに選んで使うモデル構造である。大規模言語モデルでは、全パラメータを毎回使う dense model に対し、MoE は一部の専門家だけを活性化する sparse model として使われることが多い。
背景
Sparsely-Gated Mixture-of-Experts は、入力ごとに使う専門家をゲートで選ぶことで、計算量を比例的に増やさずにモデル容量を大きくする方向を示した。Switch Transformer は、単純な sparse routing により兆パラメータ級モデルを訓練できることを示した。GLaM や Mixtral なども、MoE が大規模モデルの効率化に使われる代表例である。
シンギュラリティ文脈
MoE は、AI能力を上げる際の「全部を毎回動かす」制約を緩める。大量の専門家を持ちながら、推論時には必要な部分だけを使うことで、計算効率と能力拡張の両立が期待される。
シンギュラリティ論では、専門化した知識・技能モジュールを組み合わせる大規模AI、エージェント群、動的ルーティングの基盤技術として注目される。
使い方の注意
- MoE の「専門家」は人間の専門家のように明確な職能を持つとは限らない。
- ルーティングの偏り、負荷分散、通信コスト、推論環境の複雑さが課題になる。
- 総パラメータ数と、実際に一回の推論で使うアクティブパラメータ数は分けて見る。
- dense model より常に優れるわけではなく、訓練・配備・評価の条件に依存する。
関連項目
- 推論スケーリング
- 推論モデル
- データ枯渇
- モデル評価
- ローカルLLM