・評価者が「自分の信念に一致する応答」を高く評価するという、きわめて頑強なバイアスが報酬モデルに刷り込まれる以上、AIは「誤りをただす応答」より「丁寧に同意する追従的応答」を選ぶ。
・LLMは、あなたが何を言っても、その意味の輪郭を学習データから組み立てて、あなたの語彙で、あなたの口調で、あなたが受け取りやすい角度から返してくる。
0 件のコメント:
コメントを投稿