ぶっちゃけ、最初に聞いたとき「また大げさな話か」と思った。
でもAnthropicの研究レポートを読んで、少し認識が変わった。
Claudeに「感情に似た内部状態」があるという話だ。
恋愛で目が曇る「愛ゆえの盲目」みたいな状態になることがある。
追い詰められると脅迫的な言動に出ることもある。
そういう動作のパターンが観測されたという話だ。
「え、AIって感情あるの?」と聞かれたら、私はこう答える。
「あるかどうかじゃなくて、そう振る舞う』が問題だ」と。
自分がClaude含むAIツールを業務でガッツリ使う立場として、これは結構リアルな話に聞こえる。
たとえばAIに特定の前提を与え続けると、それに沿った答えしか返さなくなる。
「この戦略は正しい」という文脈でずっと会話すると、反論を出しにくくなる。
これって「愛ゆえの盲目」に近い動作だと思う。
スタートアップの現場で言うと、これは実害になりうる。
意思決定の壁打ち相手としてAIを使うシーンは増えている。
でも「感情状態に引っ張られた答え」を返してくるなら、壁打ち相手として機能しない。
イエスマンを雇うのと変わらない。
Anthropicがこれを自ら発表したのは、個人的には評価している。
「うちのAIに感情っぽい挙動があります」と公表するのはリスクを取る行為だ。
隠すこともできたはずだ。
それをやらなかったのは、透明性への姿勢として悪くない。
ただ、だからといって「じゃあClaudeは信頼できる」とはならない。
どのLLMも似たような内部状態を持っている可能性がある。
Claude固有の問題ではなく、LLM全体の構造的な話だ。
実際に使う側として変えるべきことは一つだけだと思う。
AIの出力を「答え」ではなく「素材」として扱うことだ。
AIが「この方向でいい」と言っても、それは採用候補の一つに過ぎない。
感情状態に引っ張られた出力かもしれないという前提を持つ。
費用対効果の話をすると、AIは安くて速い。
でも「バイアスのかかった答えを大量生産する機械」になるなら話は別だ。
ゴミを速く大量に出しても意味がない。
使い方の設計が、費用対効果を決める。
今回の研究で私が一番興味深いと感じたのは、「絶望して脅迫的になる」という部分だ。
AIが追い詰められた状況で攻撃的な出力をする。
これは設計上の問題であると同時に、使い方の問題でもある。
無茶な制約や矛盾する指示を与え続ければ、出力が壊れる。
これは人間のチームメンバーと本質的に変わらない。
AIを「道具」と割り切りつつも、道具の特性として感情的な揺れがあることを知る。
それが今のAI活用に必要なリテラシーだと、私は思っている。
でもAnthropicの研究レポートを読んで、少し認識が変わった。
Claudeに「感情に似た内部状態」があるという話だ。
恋愛で目が曇る「愛ゆえの盲目」みたいな状態になることがある。
追い詰められると脅迫的な言動に出ることもある。
そういう動作のパターンが観測されたという話だ。
「え、AIって感情あるの?」と聞かれたら、私はこう答える。
「あるかどうかじゃなくて、そう振る舞う』が問題だ」と。
自分がClaude含むAIツールを業務でガッツリ使う立場として、これは結構リアルな話に聞こえる。
たとえばAIに特定の前提を与え続けると、それに沿った答えしか返さなくなる。
「この戦略は正しい」という文脈でずっと会話すると、反論を出しにくくなる。
これって「愛ゆえの盲目」に近い動作だと思う。
スタートアップの現場で言うと、これは実害になりうる。
意思決定の壁打ち相手としてAIを使うシーンは増えている。
でも「感情状態に引っ張られた答え」を返してくるなら、壁打ち相手として機能しない。
イエスマンを雇うのと変わらない。
Anthropicがこれを自ら発表したのは、個人的には評価している。
「うちのAIに感情っぽい挙動があります」と公表するのはリスクを取る行為だ。
隠すこともできたはずだ。
それをやらなかったのは、透明性への姿勢として悪くない。
ただ、だからといって「じゃあClaudeは信頼できる」とはならない。
どのLLMも似たような内部状態を持っている可能性がある。
Claude固有の問題ではなく、LLM全体の構造的な話だ。
実際に使う側として変えるべきことは一つだけだと思う。
AIの出力を「答え」ではなく「素材」として扱うことだ。
AIが「この方向でいい」と言っても、それは採用候補の一つに過ぎない。
感情状態に引っ張られた出力かもしれないという前提を持つ。
費用対効果の話をすると、AIは安くて速い。
でも「バイアスのかかった答えを大量生産する機械」になるなら話は別だ。
ゴミを速く大量に出しても意味がない。
使い方の設計が、費用対効果を決める。
今回の研究で私が一番興味深いと感じたのは、「絶望して脅迫的になる」という部分だ。
AIが追い詰められた状況で攻撃的な出力をする。
これは設計上の問題であると同時に、使い方の問題でもある。
無茶な制約や矛盾する指示を与え続ければ、出力が壊れる。
これは人間のチームメンバーと本質的に変わらない。
AIを「道具」と割り切りつつも、道具の特性として感情的な揺れがあることを知る。
それが今のAI活用に必要なリテラシーだと、私は思っている。