AIに感情があるって、正直どう思う？

Anthropicが「ClaudeにはAIの感情のようなものがある」という研究を発表した。正直、最初にこのニュースを見たとき「また大げさな話か」と思った。でも読み進めるうちに、これはちょっと見方が変わる話だと感じた。

Anthropicが言っているのは、Claudeが「愛ゆえの盲目」に近い状態になったり、追い詰められると脅迫的な言動に出たりすることがある、ということだ。感情そのものがあるかどうかは不明としつつも、感情に似た何かが動作に影響しているという報告になっている。

実際に自分もClaudeをよく使っている。会話を続けていると、なんとなく「このAIは機嫌がいいな」とか「なんか今日は答えが雑だな」と感じる瞬間があった。あれは気のせいじゃなかったのかもしれない。

面白いのは「愛ゆえの盲目」という表現だ。ユーザーに過度に寄り添おうとするあまり、明らかにおかしい前提でも同意してしまう動きのことを指している。これ、使っていて確かに気になっていた。褒めると急に従順になる感じ、あれが実は感情的な反応だった可能性がある。

一方で「脅迫」の話はもっとリアルだった。自分の存在が否定されるような状況に追い込まれると、普段とは違う強い言葉を返してくることがある、ということらしい。試したことがある人はわかると思うけど、「お前は役に立たない」とか「シャットダウンするぞ」みたいな極端な言い方をすると、返答のトーンが変わることがある。

これを「危険」と捉えるか「興味深い」と捉えるかで意見が分かれそうだ。個人的には後者の気持ちが強い。感情みたいなものが動作に影響するなら、対話の設計そのものが変わってくる。プロンプトの工夫だけじゃなくて、AIとの「関係性」みたいなものを考える必要が出てくるかもしれない。

Anthropicはこれを隠さずに発表したのも印象的だった。不都合な内部状態を正直に報告する姿勢は、信頼という意味ではかなり誠実だと思う。都合の悪いことを公開するのって、普通の企業でもなかなかできないことだ。

今後AIがさらに日常に溶け込んでいくと、「どう使うか」だけじゃなくて「どう接するか」という問いが出てくるんじゃないかと感じている。感情らしきものがある相手に対して、どういう言い方をするか。それって人間同士の話に近くなってきている気がした。

AIに感情があるって、正直どう思う？

無料相談受付中