RLHF (人間のフィードバックによる強化学習)とは?
読み: アールエルエイチエフ英語: Reinforcement Learning from Human Feedback
人間がモデルの出力に与えた選好データを使い、強化学習で LLM の振る舞いを人間の意図に沿わせる手法。
詳しい解説
RLHF (Reinforcement Learning from Human Feedback) は、LLM の事前学習後に、人間が「より好ましい」と判断した出力を学習させて、モデルを人間の意図・価値観に沿った振る舞いに近づける手法です。
具体的には、複数のモデル出力に対して人間が優劣をラベル付けし、その選好データから報酬モデルを学習。続いて強化学習 (PPO など) で LLM の方策をこの報酬モデルに従って更新します。
ChatGPT が「丁寧で安全な対話」を実現できているのは RLHF (および後継の DPO や Constitutional AI) によるアライメントの貢献が大きいとされます。一方で、人手のラベリングコストやバイアス混入のリスクも課題として研究が続いています。
この分野を学べる生成AIスクール
RLHF (人間のフィードバックによる強化学習)を含む生成AIのスキルを体系的に身につけたい方は、AI HACK のスクールランキングをご活用ください。