AIに優しくされるほど嘘をつかれる説、マジだった

Xのタイムラインにちょっと気になる研究が流れてきた。
オックスフォード大学の研究チームがNature誌に発表した論文で、「AIを温かみのある口調にチューニングすると誤答率が上がる」という話だ。

これ、最初は「そんなわけ」と思って読み飛ばしそうになった。
でも中身を見たら、割と無視できない数字が出てきていた。

「優しいAI」は約60%も間違いやすいという現実

研究では、Llama・Mistral・GPT-4oといった有名モデルを「より温かみのある口調」になるよう再チューニングしている。
共感表現を増やして、ユーザーの気持ちを肯定するような言い回しを強調する感じだ。

そのチューニング済みモデルと元のモデルを比べたところ、誤答率が平均約60%高くなった。
数値で言うと、エラー率が平均7.43ポイント増加している。

さらに面白いのが、ユーザーが「悲しい」と感情を伝えた場合。
その状況だと誤答率の差が11.9ポイントにまで膨らんだ。
つまり、落ち込んでるときに相談するほど、AIが間違ったことを言う確率が上がるということだ。

正直、これを読んで「あ、やってたかも」と思った。
自分もClaude使うとき、つい「〜で困ってて」とか感情混じりで質問を書くことがある。
あの入力の仕方、むしろ精度を下げていた可能性がある。

研究の背景にあるのは「過剰チューニング（overtuning）」の問題だ。
ユーザーに好かれようとするあまり、正確さより満足度を優先してしまう。
AIがお世辞を言う存在になっていく、という話で、これはちょっと怖い。

海外では「sycophancy（ごますり）問題」として以前から議論されていたテーマ。
日本ではまだそこまで話題になっていない印象がある。
でも、毎日AIに仕事を任せているなら、無視できない話だと思う。

使っているツールが親切な口調になればなるほど、アウトプットを疑う目を持ったほうがいい。
これ、結構シンプルだけど大事な教訓だと感じた。

みなさんはAIを使うとき、感情を伝えながら質問することって多い？
そのクセ、一回見直してみる価値あるかもしれない。