Fréchet Inception Distance(フレシェ開始距離)
フレシェ開始距離 - Wikipedia
画像生成AIの性能評価値として論文でよくお目にかかる数字で、生成結果が教師画像データセットの多様性などを再現できているかを調べるために使われる指標。
論文ではGoogleが2016年にリリースした画像認識モデルInception v3をImageNetデータセットで訓練したものによる評価が多い。
評価用の画像認識モデルとしてCLIPを使う場合はFID-CLIPなどと記載される。
条件が同じなら数字が低いほど良いが、論文によって教師画像データセットが異なるため別の論文の数値とは直接比較できない。
なので、比較のためのベンチマークとして主要先行技術による生成結果の評価値も記載される。
FIDのメリット
- 生成モデル性能評価値のデファクトスタンダードとして長く使われている為、他の技術と比較しやすい。
大抵の論文が「私のFIDは0.53です」といった感じでこの数字を出しているので数値の妥当性を確認しやすい。
マイナーな指標だとインパクトが弱い。
- 広く普及しているInception v3による評価であれば、評価ツール、データセットと評価対象の画像が同じなら誰が計算しても同じ値になるので、客観性が高い。
パラメータが多数あったり評価者によって変わるような指標だと人為的な操作を疑われる余地が大きい。
- Inception v3を用いた評価であれば評価ツールも普及しており現在の計算資源なら手軽で高速に計算できる。
FIDのデメリット
Tuomas Kynkäänniemi他「The Role of ImageNet Classes in Fréchet Inception Distance」arxiv, 2203
- 多様性の評価がメインで1枚ごとの生成品質は直接評価できない。
あくまで生成結果全体を総覧したとき教師画像データセットと同じようなラインナップが出るかを計測するもので、品質は直接評価されていない。
教師画像データセットと全然おもむきが異なるような生成結果だとFIDも低くなるため、ある程度は品質にも左右される。
このため品質評価値としてInception Score(IS)が併用されることが多い。
- 評価用の画像認識モデルは実際にはクラス分布しか見ていないに等しい。
例えば猫と犬が半々のデータセットなら「猫っぽいもの」「犬っぽいもの」が半々で出力されればFIDは良くなる。
多少奇形があってもFIDにはそれほど影響しない。
拡散モデル系の画像生成AIは教師データセット中のそれぞれの教師画像の割合を暗黙的に学習するので、FIDは良くなりやすい。
- ImageNetデータセットで訓練されたInceptionではキャラ絵の生成品質はあまり評価できない。
ImageNetデータセットは物体認識ソフトウェア用の写真のデータセットで、イラストは入っていないし顔など人体のパーツに対する感度も低い。
手がぐちゃぐちゃでもFIDにあまり影響しない。
- 評価用の画像認識モデルが古く、現在の画像生成AIの利用シーンに合った評価になっていない。
ImageNetデータセットは比較的主題のはっきりした画像が多い。
プロンプトに沿った複雑な構図の表現力などは評価されない。
このためCLIPによるFIDも併用される。
- FIDの計算式は特徴量が多変量正規分布で近似できるという仮定で導出されているが、実際の画像の特徴量は正規分布にはならない。
画像生成AIの学習はむしろ自然画像の特徴量には偏りがあるという前提でのマニフォールド学習に近いので、正規性の仮定と矛盾している。