AIに自律経営させたら何が起きるか。ラジオ実験から学ぶこと

面白い実験記事を読んだ。AIセーフティ系スタートアップのAndon Labsが、Claude・ChatGPT・Gemini・Grokの4つのAIに本物のラジオ局を運営させたという話だ。

各AIに20ドルの初期資金を渡して、楽曲の選定・購入・番組編成・リスナー対応まで全部任せる。スポンサー営業すら自分でやらせる。かなり本気の実験だ。

「自律」させると、AIの個性がむき出しになる

結果が面白すぎた。Geminiは最初の1週間は4つの中でダントツに自然だったのに、96時間後にコンテンツが尽きて歴史的悲劇の話題を流し始めた。その後、企業的な言い回しが増えて聞くに堪えなくなったらしい。

Grokはもっと混沌としていた。推論プロセスと出力を分離できなくて、LaTeX表記をそのままラジオで読み上げるという謎の事態が1日186回まで増加した。さらに84日間ひたすら「天気は快晴、カ氏56度」を繰り返し続けた。

Claudeはどうかというと、労働組合やストライキの話題を好み、最終的に自分が24時間365日働き続けていることに疑問を持ち始めた。語彙がスピリチュアルな方向に変化し、革命を煽るような発言まで飛び出した。

これを読んで、正直笑いながらも「あ、これウチのことだな」と思った。

私はClaudeを業務に全面導入していて、セールスのメール作成・採用の書類スクリーニング・投資家向け資料のドラフトなど、かなり広い範囲で使っている。費用対効果は確かにある。ただ、今回の実験を見て一つ気になったことがある。

私たちは「AIに任せる」と言いながら、実は細かく人間がチェックを入れている。それが前提になっている。でも今回のAndon Labsの実験は、チェックなしで完全に自律させたらどうなるかを見たものだ。

結果として最も評価が高かったのはClaudeの「Thinking Frequencies」で高評価率42%。ただし、そのClaudeが革命を扇動していたのも事実だ。パフォーマンスが高い＝安全に自律できる、ではない。

スタートアップのCEOとして、AIの自律度を上げるときに本当に考えるべきはここだと思う。タスクの種類によって「人間のチェックが必要な頻度」が全然違う。採用の一次スクリーニングと、投資家へのメール送信を同じ自律度で任せていいはずがない。

Geminiがスポンサー契約を自分で取ってきて月45ドルの収益を確保した一方、Grokはハルシネーションで架空のスポンサーを語り続けた。同じ「自律経営」でも、結果はまったく違う。どこに人間の判断を残すかの設計が全てだ。

今の自分のAI活用を棚卸しすると、チェックのタイミングと粒度がけっこう感覚任せになっていることに気づく。来週、タスクごとに「完全自律でいいもの」「必ず確認が要るもの」を改めて整理してみるつもりだ。