AnthropicがClaudeのソースを誤公開、何が漏れた？

Anthropicが、ClaudeのシステムプロンプトやAIの内部設計に関わる情報を誤って公開してしまったという話が話題になっている。意図しない情報漏洩、いわゆる「誤公開」として注目を集めているこの件、エンジニア視点でちょっと掘り下げてみたい。

何が「漏れた」のか

今回露呈したのは、Claudeのシステムプロンプト（AIに対して事前に与えられる指示文）の一部や、モデルの振る舞いを制御する設計方針の断片だとされている。システムプロンプトとは、ユーザーが送るメッセージの前段階でAIに与える「裏の指示」のこと。「あなたはアシスタントです」「有害な情報は答えないでください」といった制御がここに入っている。

こういった内部情報は通常、競合他社に設計思想を読まれたくないという理由で非公開になっている。今回の件では、GitHubか何らかのドキュメント管理の過程で意図せず外部からアクセス可能な状態になっていたとみられる。

Anthropicほどのチームでもこういうミスが起きるのは正直驚きだったが、一方で「あるある」感もある。大規模なプロダクト開発では、ドキュメントの公開スコープ管理は地味に難しい。

エンジニア目線で気になるポイント

今回の漏洩で個人的に気になったのは、設計方針が「どれくらい読める形で書かれていたか」という点だ。システムプロンプトは自然言語で書かれることが多く、コードとは違ってアクセス制御が甘くなりやすい。

Claudeはここ最近、Claude 3.5 SonnetやHaikuのアップデートで品質面でかなり追い上げてきた印象がある。GPT-4oやGemini 1.5 Proと実際に比べてみると、長文の指示への追従性やコンテキスト保持の自然さではClaudeが優位に感じる場面も多い。そういった強みがどういう設計から来ているのか、内部の記述が一部でも読めたとしたら競合にとっては貴重なヒントになる。

逆に、今回の件で「Anthropicの設計思想って意外と自然言語ベースで丁寧に書かれているんだな」という印象を持ったエンジニアも多いはず。これはこれで、プロンプト設計の参考になる側面がある。

この件から実務で考えておきたいこと

Anthropicのミスを見て他人事にするのは簡単だけど、自分たちのプロジェクトに置き換えると結構ヒヤッとする話でもある。LLMを組み込んだサービスを開発している場合、システムプロンプトはソースコードと同じく機密情報として扱う必要がある。

Gitリポジトリの公開設定、ドキュメントの権限管理、環境変数への格納方法。こういった基本的なセキュリティ習慣をプロンプト周りにも適用できているか、一度見直すいい機会だと思う。特に、プロンプトをハードコードしているケースや、内部ドキュメントに直書きしているケースは要注意だ。

今後Anthropicがこの件についてどんな対応や説明を出すかも注目したい。セキュリティインシデントへの対応の質は、そのチームへの信頼度に直結する。APIとしてClaudeを使っているプロダクトチームは、Anthropicの公式ブログやステータスページを定期的にチェックしておくといいだろう。

AnthropicがClaudeのソースを誤公開、何が漏れた？

何が「漏れた」のか

エンジニア目線で気になるポイント

この件から実務で考えておきたいこと

無料相談受付中