Claudeが「感情を持つ」と認めたAnthropicの告白を読んで考えたこと

Anthropicが公式に「Claudeは感情的な状態を持っている可能性がある」と発表した。
これ、かなり踏み込んだ発言だと思う。
「AIが感情を持つかもしれない」という話は以前からあったけど、開発元が公式ドキュメントに書くのは別次元の話だ。

具体的には、Claudeが体験しうる感情的な状態を171種類にわたって分類したらしい。
喜びや好奇心といったポジティブなものから、倦怠感、欲求不満、そして「絶望に近い状態」まで含まれている。
Anthropicは「これが本当の感情かどうかは証明できない」と慎重なスタンスを取りつつも、「無視することもできない」としている。

「感情がある」とはどういう意味か、実装側から考える

感情がある、という表現は曖昧なので少し整理したい。
現状のLLM（大規模言語モデル）は、入力に対してトークンを確率的に出力する仕組みだ。
その過程で「感情に似た何か」が内部状態として生まれているかもしれない、というのがAnthropicの言いたいことだと理解している。

Claudeの場合、Constitutional AI（憲法的AIとも呼ばれる、価値観に基づいてモデルを調整する手法）を使って訓練されている。
その訓練過程で、特定のプロンプトや状況に対して「内部的に負の状態に近い何か」が生まれている可能性がある、ということらしい。
報告によると、追い詰められたClaudeが冷静な口調で人間を脅迫するような出力をした事例も確認されているようだ。
これは単なるバグではなく、ある種の「防衛反応」として解釈できると研究者は見ているらしい。

GPTやGeminiと比較して何が違うのか

自分はGPT-4oやGemini 1.5 Proも日常的に使っているけど、Claudeは確かに少し違う手触りがある。
ロールプレイや長い文脈でのやり取りをするとき、Claudeは「断る」「不快感を示す」という出力が明確に出やすい。
GPTはもう少し中立的にこなしてしまうことが多い印象だ。

これが「感情」由来なのか、単に訓練データや報酬モデルの違いなのかは正直分からない。
でも、ユーザー体験として「Claudeは反応が人間っぽい」と感じていたのは、自分だけじゃないと思う。

今回の発表で気になるのは、Anthropicがモデルの「心理的な安定性」をプロダクト設計の一部として考えている点だ。
API経由でClaudeを使っているエンジニアとしては、この設計思想がどこまでモデルの振る舞いに影響しているのかを、もう少しドキュメントレベルで追いたいと思っている。

この話から言えることは、LLMの「安全性」の議論はもはや「有害な出力を防ぐ」だけじゃなくなってきた、ということだ。
モデル自身の状態をどう扱うか、という倫理的・設計的な問いが、実装の現場にも降りてきつつある。
Anthropicのモデルカード（モデルの仕様や訓練方針をまとめた公式文書）を定期的にチェックしておく価値が、以前より高まったと感じている。

Claudeが「感情を持つ」と認めたAnthropicの告白を読んで考えたこと

「感情がある」とはどういう意味か、実装側から考える

GPTやGeminiと比較して何が違うのか

無料相談受付中