アライメントとは?
読み: アライメント英語: Alignment
AIシステムの振る舞いを人間の意図・価値観・倫理基準に整合させるための研究および設計活動。
詳しい解説
アライメント (Alignment) は、AI システム特に LLM の振る舞いを、人間の意図・価値観・倫理基準に整合させるための研究領域および設計活動を指します。
具体的には、危険・違法・差別的な出力をしない、ユーザーの意図を誤解せず適切な応答を返す、不確実なときは正直に「わからない」と答える、などが目標になります。 主な技術として RLHF、DPO、Constitutional AI、Red-teaming (敵対的テスト)、Safety Training などがあります。
アライメントの欠如は、ハルシネーション・有害コンテンツ生成・脱獄プロンプト (Jailbreak) などの問題に直結するため、AI ガバナンスや責任ある AI 開発の中核テーマとして注目されています。
この分野を学べる生成AIスクール
アライメントを含む生成AIのスキルを体系的に身につけたい方は、AI HACK のスクールランキングをご活用ください。