RLHF

Last-modified: 2026-06-03 (水) 15:07:59

RLHF

概要

RLHF(Reinforcement Learning from Human Feedback、人間のフィードバックからの強化学習)は、AI モデルの出力に対する人間の評価や選好を使い、モデルの振る舞いを人間にとって望ましい方向へ調整する手法である。大規模言語モデルでは、回答候補を人間が比較し、その選好データから報酬モデルを作り、その報酬に沿うようにモデルを追加学習させる流れがよく知られている。

単に正解データを与えて模倣させる教師あり学習とは異なり、RLHF は「どちらの回答がより有用か」「どちらがより安全か」「どちらが指示に沿っているか」といった相対的な判断を学習に使う。これにより、事前学習だけでは引き出しにくい指示追従、丁寧さ、安全性、拒否判断などを改善しようとする。

背景

人間の好みを使って強化学習を行う研究は、2010年代から深層強化学習の文脈で発展した。2017年の "Deep Reinforcement Learning from Human Preferences" では、人間が短い行動クリップを比較し、その選好から報酬関数を学ぶ方法が示された。

大規模言語モデルの文脈では、OpenAI の InstructGPT 研究が代表例である。この研究では、まず人間が書いた模範回答でモデルを教師あり微調整し、次に複数回答の人間評価から報酬モデルを学習し、最後に強化学習でモデルを調整する手順が使われた。これにより、ベースモデルよりもユーザーの指示に従いやすいモデルを作る方向が示された。

その後、RLHF は ChatGPT 型の対話モデル、Claude などの安全性調整、拒否挙動、文章品質改善、動画生成モデルの出力選好調整など、さまざまな生成 AI システムで重要な後処理技術として扱われるようになった。また、Anthropic の Constitutional AI のように、人間評価だけでなく AI による批評や原則リストを使ってフィードバックを作る方法も提案されている。

シンギュラリティ文脈

シンギュラリティ文脈では、RLHF は AI アライメントの実装上の代表例として重要である。強力なモデルが単に次の単語を予測するだけでなく、人間の指示、社会的規範、安全方針、利用場面に合わせて振る舞うためには、事前学習後の調整が必要になる。

RLHF は、モデルが利用者にとって扱いやすくなる一方で、モデルの能力そのものと、表面上の振る舞いを分けて考えるきっかけにもなる。たとえば、モデルが危険な要求を拒否するよう調整されていても、内部能力が消えたわけではない場合がある。これは、脱獄、レッドチーミング、危険能力評価、モデルカード、メカニスティック解釈可能性などの論点とつながる。

また、RLHF は「人間の価値」をそのまま完全に学習する技術ではない。実際には、ラベラーの指示書、評価基準、提供企業の方針、データ収集の偏り、報酬モデルの限界が反映される。したがって、超知能や自己改善を考える場合、RLHF だけで長期的な安全性が保証されるとは考えにくく、スケーラブル監督、解釈可能性、制度設計、監査と組み合わせる必要がある。

使い方の注意

RLHF を「人間の価値観を完全に入れる方法」と説明すると誤解を招きやすい。実際には、限られた評価者、限られたタスク、限られた比較データから、ある報酬モデルを作っているにすぎない。

また、RLHF はモデルをより正直にする場合もあるが、過度に人間受けする回答、迎合、もっともらしい説明、過剰な拒否、評価者に見えやすい部分だけの最適化を生む可能性もある。報酬モデルに合わせて学習する以上、評価基準が不完全なら、その穴を突くような挙動が出ることがある。

議論では、次の点を分けると分かりやすい。

  • 人間が模範回答を書く教師あり微調整
  • 人間が複数回答を比較する選好データ収集
  • 選好データから報酬モデルを作る段階
  • 報酬モデルに沿ってモデルを強化学習する段階
  • RLHF 後のモデルを評価・監査・レッドチーミングする段階

関連項目

参考