統計学に明るくない人にとっては「算術平均」がデータの中心を示す代表値として最も妥当だと考えられがち。
しかし、算術平均は必ずしも人間の感覚的な重心と一致するとは限らない。
専門家であっても、分かりやすさを優先したり、冗長さを避けるために技術用語でも簡略化されて用られていることがある。
そのため、代表値に関する用語が厳密に使い分けられているとは限らない。
日経新聞2012年2月24日の記事に「大学生4人に1人、「平均」の意味理解せず」と書かれているように
AI元年当時学力低下の象徴として話題になったが、それ以前からおそらく一般社会人はもっと理解していない。
算術平均、幾何平均と調和平均を合わせてピタゴラス平均と呼ぶ。
最頻値 / モード / Mode
AI関連の文脈に出てくる「平均」はどちらかというとこっちに近い。
例えば「飼いたいペット」の調査であれば、犬や猫が最頻値になることが多い(と思われる)。
名義尺度のカテゴリカルデータでは、最頻値は「最も多く観測されたカテゴリ」を指す。
これはランキング上位(必ずしも1位とは限らない)に近いイメージ。
AI関連の文脈で言われる「平均化」については
「青空と夕焼けばかり学習すると、(データセット内では比較的少数派だった)森林が出にくくなる」という現象になる。
青空と夕焼けばかり学習しても、間の紫色になったりはしない。
(なので、残念ながら政治的に偏った人たちのものを学習させてもLLM(大規模言語モデル)は中庸にはならず、プロンプトに合わせて極端な思想に振れやすくなる)
さらに、実際には訓練データに多かったがAIの学習特性やRHLF(人間の評価に基づく強化学習)により再現されなくなった場合でも「平均化」と呼ばれる。
編集モデル、動画生成モデルや蒸留モデルは多様性より安定性を優先するように訓練される為、
そこまで深刻になるわけではないが相対的に「平均化」されやすい。
そのため2025年現在、蒸留モデルでも4~8ステップが実用上の最適バランスとして採用されている。
なお、AI・機械学習分野での「モード」は、厳密には最頻値ではなく、確率分布の高密度領域(山)を指す。
これらで言うモードは点ではなく領域(クラスター、パターンや多様体仮説でいうマニフォールド)。
アナログ量についてもヒストグラムのように最頻値は定義できるが、分布が多峰性になると最頻値が複数存在したり、推定方法によって変わったりするため、中央値に比べて汎用性が低い。
例えば年収調査のように連続量を扱う場合、入力欄が1万円単位であっても、実際の回答は100万円単位や50万円単位のキリの良い値に集中しやすい。
このように複数の小さなピークが生じても、それぞれのピークが「分布の代表」を示しているわけではないため、
データがアナログ量の場合は最頻値を見ても分布全体の特徴を把握するにはあまり役に立たない。
モード崩壊 / Mode collapse
本来は、GANという、Stable Diffusionのような拡散モデル系画像生成AIより前に画像生成AIの花形であったAIで起きる現象。
GANは訓練が不安定なため、訓練データの一部どころか本当に1パターンしか生成できなくなることがある。
例
- 犬・猫・鳥のデータで、犬しか出なくなる
- 人物画像が全部同じ顔になる
- どんな入力でも同じ画像が出る
GAN以外のAIでも、「多様性の欠如」を表すものとして拡大解釈されて比喩的に使われている。
(算術)平均 / 相加平均 / Arithmetic mean
一般的には平均=算術平均値と思われていることが多い。
要するにデータの合計値÷データ数。
統計学でも特に断りなく使われている場合はそれを指していることが多いが、他にも平均値の定義は色々ある。
正規分布のように、平均値付近に中央値がある場合にのみ人間の感覚に近い値になる。
資産であれば、例えば「赤貧4人と億り人1人」だったら
算術平均に基づく平均資産は2000万~となり、
そのデータセット内の一般市民の感覚とはおそらく一致しない。
(幾何)平均 / 相乗平均 / Geometric mean
一生一緒にNVIDIAって言ってるときに考えるべきなのは普通はこっち。
近年では、自然科学分野や社会学分野でも、自然に起きる現象について取れるデータの平均としては
幾何平均のほうが「自然」なのではないかと見直す動きがある。
データ全部を掛け算したあと、その値の(データの個数)乗根を取った値。
対数を取ればその算術平均からでも計算できる。
この為、fp32(単精度)といった限られた演算精度でも計算できる。
数学で勉強した後はまったく使ったことがないという社会人も多いと思うが、投資の世界では年平均リターンとしてよくお目にかかる数字。
投資の場合は株価などが上昇してもすぐには売らない(売れない)ので、累積リターンは足し算ではなく掛け算になるのが普通。
たとえば72年かけて2倍になった場合は2.0の72乗根で年平均リターンはおよそ1%になる。72の法則。
最近の自然科学や社会学の研究では、幾何平均のほうが「自然な」平均なのではないかと見直す動きがある。
平均に算術平均を使うのは、中心極限定理に基づき独立同分布の変数の和は(中間層が分厚い)正規分布に従うという経験則に基づく。
しかしながら自然界では「商品Aと同時期に別ラインで開発していた商品Bが同時にヒット」みたいな現象ばかりでなく、
時系列で見ると「商品Aのヒットにより得られた利益を投資し、後に開発した商品Bがヒット」のように変数の掛け算になることのほうが多い。
(事業の成功率が概ね同じ分布に従うといったモデル化ができるなら、上記のどちらも相互依存性の低い変数の和か積として表せる)
独立した変数同士の足し算ではなく、掛け算になる場合は、
その結果の分布は正規分布ではなく対数正規分布に従い、平均値は幾何平均になる。
実際、収入や資産の分布は対数正規分布に近い。NVIDIAの一人勝ちも「自然の成り行き」ということ。
ただしまあ自然な分布であることとそれが望ましいかどうかはまた別な話なので、
「基準値」をどこに置くかは分析の目的(企業の事業目標や行政の政策目的など)によって変わることになる。
中央値 / Median
外れ値の影響を受けにくく計算も容易なため、統計学では代表値としてよく用いられる。
データを小さい順に並べたときの「中央の値」を指す。
データ数が奇数なら中央の1点、偶数なら中央2点の算術平均を取る。
データ間に順序が定義できる場合にのみ使用できる。