Flow Matching

Last-modified: 2025-09-28 (日) 02:23:56

Flow Matching(FM)とは?

FLUX.1Qwen-Image*1やWAN*2DiTとともに採用されている画像生成のアルゴリズム。
SD3はその派生であるRectified Flowを採用している。
従来の潜在拡散モデルと比較してのメリットは、訓練効率が上がりやすく*3、ゴールまでの道のりを直接計算するので少ステップ化に向いている。

潜在拡散モデルは各ステップのノイズ画像(仕掛品)をその場その場でノイズ「除去」していたが、Flow Matchingではノイズ画像が完成品になるまでの作業の流れ(ベロシティ)を学習する。
Flow Matching自体は別に出発点がガウシアンノイズでなくても良い。ただし、AIにとっての「何も描いてないまっさらなキャンバス」としてはガウシアンノイズが扱いやすい。
WAN、Qwen-Image-EditやFLUX.1 Kontextなどは出発点をノイズ画像ではなく別の画像にしたFlow Matchingといえる。

論文

Yaron Lipman他「Flow Matching for Generative ModelingarXiv


*1 Qwen-Image Technical ReportarXiv
*2 https://github.com/Wan-Video/Wan2.1
*3 ただしU-Netと比較してのDiTの訓練コストが非常に大きいため、トータルとしてはU-Net拡散モデルよりもDiT系Flow Matchingのほうが訓練コストが高い。