OpenAIがGPT-5の奇妙な挙動について、珍しく詳細な事後説明を公開した。「ゴブリン化」と社内で呼ばれていたらしい、AIが突然キャラクターのようにふるまう現象についての話だ。
これを読んで最初に思ったのは、「そういうことか」という妙な納得感だった。自分もClaude使っていて、たまに「あれ、なんかキャラが違うな」と感じる瞬間がある。返答のトーンが急にフォーマルになったり、逆にやたら馴れ馴れしくなったり。あれはバグじゃなくて、モデルの訓練過程で生じた「性格のブレ」だった可能性が高い。
OpenAIの説明によると、こうした挙動は強化学習フェーズでの報酬設計のズレから生まれたという。特定の応答スタイルが高評価を得やすい構造になっていた結果、モデルが「それっぽい返し方」を学習してしまった。GPT-5のリリース前後のタイムラインで複数回確認されていたらしく、開発チームは修正パッチを段階的に当てている。
これ、うちの文脈に引き直すと結構シリアスな話になる。今うちではセールスの初回ヒアリング整理とか、採用候補者へのフォローメール文案とか、わりと対外的なアウトプットにAIを使っている。もしそこでAIが「ゴブリン化」して変なトーンの文章を出していたとしたら、自分は気づかないままそれを送っていたかもしれない。
Claude全面導入してから半年以上経って、自分の中に「このツールはだいたい正しい」という信頼感が育ってきている。これ自体は悪いことじゃない。でも今回の話を読んで、ツールの出力を「なんとなく確認する」から「目的別に検証する」に切り替える必要があると感じた。
特にセールスや採用のアウトプットは、ちょっとしたトーンのズレが相手の印象に直結する。投資家向けのメモと、候補者へのカジュアルな連絡文とでは、求めるトーンがまったく違う。AIがどちらのモードで動いているか、自分がちゃんと把握できているかというと、正直自信がない。
OpenAIが今回やったのは、問題を隠さず原因と対処を公開したことだ。これは珍しい。多くのAI企業は「改善されました」とだけ言う。タイムラインと根本原因と修正内容をセットで出してきたのは、ユーザー側が自衛するための情報として使える。
来週、うちのセールスとリクルーティングで使っているプロンプトを全部見直すつもりだ。「このアウトプットは誰に何の目的で渡るのか」をプロンプトに明示する形に変える。AIのクセを言い訳にしていられるフェーズは、もう過ぎている。
これを読んで最初に思ったのは、「そういうことか」という妙な納得感だった。自分もClaude使っていて、たまに「あれ、なんかキャラが違うな」と感じる瞬間がある。返答のトーンが急にフォーマルになったり、逆にやたら馴れ馴れしくなったり。あれはバグじゃなくて、モデルの訓練過程で生じた「性格のブレ」だった可能性が高い。
ツールのクセを知らないまま使うリスク
OpenAIの説明によると、こうした挙動は強化学習フェーズでの報酬設計のズレから生まれたという。特定の応答スタイルが高評価を得やすい構造になっていた結果、モデルが「それっぽい返し方」を学習してしまった。GPT-5のリリース前後のタイムラインで複数回確認されていたらしく、開発チームは修正パッチを段階的に当てている。
これ、うちの文脈に引き直すと結構シリアスな話になる。今うちではセールスの初回ヒアリング整理とか、採用候補者へのフォローメール文案とか、わりと対外的なアウトプットにAIを使っている。もしそこでAIが「ゴブリン化」して変なトーンの文章を出していたとしたら、自分は気づかないままそれを送っていたかもしれない。
「信頼している」ことの盲点
Claude全面導入してから半年以上経って、自分の中に「このツールはだいたい正しい」という信頼感が育ってきている。これ自体は悪いことじゃない。でも今回の話を読んで、ツールの出力を「なんとなく確認する」から「目的別に検証する」に切り替える必要があると感じた。
特にセールスや採用のアウトプットは、ちょっとしたトーンのズレが相手の印象に直結する。投資家向けのメモと、候補者へのカジュアルな連絡文とでは、求めるトーンがまったく違う。AIがどちらのモードで動いているか、自分がちゃんと把握できているかというと、正直自信がない。
OpenAIが今回やったのは、問題を隠さず原因と対処を公開したことだ。これは珍しい。多くのAI企業は「改善されました」とだけ言う。タイムラインと根本原因と修正内容をセットで出してきたのは、ユーザー側が自衛するための情報として使える。
来週、うちのセールスとリクルーティングで使っているプロンプトを全部見直すつもりだ。「このアウトプットは誰に何の目的で渡るのか」をプロンプトに明示する形に変える。AIのクセを言い訳にしていられるフェーズは、もう過ぎている。