Flow Matching(FM)とは?
FLUX.1、Qwen-Image*1やWAN*2でDiTとともに採用されている画像生成のアルゴリズム。
SD3はその派生であるRectified Flowを採用している。
従来の潜在拡散モデルと比較してのメリットは、訓練効率が上がりやすく*3、ゴールまでの道のりを直接計算するので少ステップ化に向いている。
潜在拡散モデルは各ステップのノイズ画像(仕掛品)をその場その場でノイズ「除去」していたが、Flow Matchingではノイズ画像が完成品になるまでの作業の流れ(ベロシティ)を学習する。
Flow Matching自体は別に出発点がガウシアンノイズでなくても良い。ただし、AIにとっての「何も描いてないまっさらなキャンバス」としてはガウシアンノイズが扱いやすい。
WAN、Qwen-Image-EditやFLUX.1 Kontextなどは出発点をノイズ画像ではなく別の画像にしたFlow Matchingといえる。
論文
Yaron Lipman他「Flow Matching for Generative Modeling」arXiv