Self-Forcing

Last-modified: 2026-06-25 (木) 13:17:04

WAN2.1 Self-Forcing(lightx2v) LoRAで生成を安定させるために使われている技術。

論文
Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion
https://arxiv.org/abs/2506.08009

動画生成モデルは訓練時に教師動画の正しい過去フレームを入力として未来フレームを予測するよう訓練されるが、
生成時の過去フレームはモデルによって生成されており誤差は徐々に蓄積されていく。
そこで訓練時にも正しい過去フレームではなく訓練中のモデル自身によって生成させたフレームを入力として与えることで、
学習時の入力分布を生成時の分布に近づけて誤差耐性を付けることができる。

Self-Forcingの限界

While our method effectively mitigates error accumulation within the training context length, quality degradation remains observable when generating videos substantially longer than those seen during training.

訓練時の入力を生成時に近づけるという点がキモなので、学習データにないような長尺動画では品質劣化が依然として発生する。

Additionally, our gradient truncation strategies—while necessary for memory efficiency—may limit the model’s ability to learn long-range dependencies.

訓練効率を確保するための仕組みの副作用として、モデルが時間の離れたフレーム間での一貫性を学習しづらくなるかもしれない。