Xのタイムラインを流し読みしてたら、めちゃくちゃ面白いニュースが流れてきた。
「AIにサッカーの賭けをさせたら全モデルが負けた」って話。
しかもxAIのGrokは3回試して全部破産。最終残高ゼロ。
General Reasoningっていうスタートアップが「KellyBench」っていうレポートを出した。2023〜24年のプレミアリーグシーズンを仮想再現して、AIに賭けをさせる実験。各モデルには10万ポンド(約2000万円)の仮想資金を渡して、3回チャレンジさせた。
GoogleのGeminiは1回だけ34%の利益を出した。でも別の回では破産してる。
AnthropicのClaude Opus 4.6が一番マシで、平均損失11%。かろうじてほぼトントンになった試みもあったとのこと。
で、xAI Grok 4.20は平均ROIがマイナス100%。つまり全試行で完全に溶かした。完敗。
毎日いろんなAIツールを触ってる自分でも、この結果は意外だった。コーディングや文章生成はどんどん上手くなってるのに、「長期間・リアルタイムで変化する情報を判断する」となると途端に弱い。
研究者のTaylorが言ってた一言がすごく刺さった。「ソフトウェアエンジニアリングは重要だが、長い時間軸が必要な活動もたくさんある」って。
そう、AIが得意なのって「静的な環境での問題解決」なんだよね。毎試合ごとに選手データが変わって、チームの調子が変わって、天候も変わる。そういうカオスな現実世界には弱い。
YouTubeのライブ配信でも「AIに仕事を全部取られる」ってコメント来ることがある。でも今回みたいな研究を見ると、少なくとも「長期的な判断力」とか「変化への適応」って部分はまだ人間の方が上だと感じる。
自分がいつも言ってる「AIは道具で、使う人間の質で決まる」って話に繋がってくる気がした。
一方で、これをそのまま「AIは大したことない」って解釈するのは違うと思う。
Geminiが1回で34%の利益を出したのも事実。モデルや使い方によってはかなりの精度が出る場面もある。
問題は「安定して勝ち続ける」のが難しいってこと。それって投資でも仕事でも同じで、一発当たることと継続して成果を出すことは全然別の話。
この研究、まだ査読も通ってないし、あくまでサッカー賭博という特定領域での話。過度に一般化するのも注意が必要。
ただ、シリコンバレーのAI万能論に一石を投じた研究として、かなり注目してる。
あなたは今のAI、どの場面で「これは使えない」と感じてる?
「AIにサッカーの賭けをさせたら全モデルが負けた」って話。
しかもxAIのGrokは3回試して全部破産。最終残高ゼロ。
どんな実験だったのか
General Reasoningっていうスタートアップが「KellyBench」っていうレポートを出した。2023〜24年のプレミアリーグシーズンを仮想再現して、AIに賭けをさせる実験。各モデルには10万ポンド(約2000万円)の仮想資金を渡して、3回チャレンジさせた。
GoogleのGeminiは1回だけ34%の利益を出した。でも別の回では破産してる。
AnthropicのClaude Opus 4.6が一番マシで、平均損失11%。かろうじてほぼトントンになった試みもあったとのこと。
で、xAI Grok 4.20は平均ROIがマイナス100%。つまり全試行で完全に溶かした。完敗。
これ、正直ちょっとホッとした
毎日いろんなAIツールを触ってる自分でも、この結果は意外だった。コーディングや文章生成はどんどん上手くなってるのに、「長期間・リアルタイムで変化する情報を判断する」となると途端に弱い。
研究者のTaylorが言ってた一言がすごく刺さった。「ソフトウェアエンジニアリングは重要だが、長い時間軸が必要な活動もたくさんある」って。
そう、AIが得意なのって「静的な環境での問題解決」なんだよね。毎試合ごとに選手データが変わって、チームの調子が変わって、天候も変わる。そういうカオスな現実世界には弱い。
YouTubeのライブ配信でも「AIに仕事を全部取られる」ってコメント来ることがある。でも今回みたいな研究を見ると、少なくとも「長期的な判断力」とか「変化への適応」って部分はまだ人間の方が上だと感じる。
自分がいつも言ってる「AIは道具で、使う人間の質で決まる」って話に繋がってくる気がした。
でも過信は禁物
一方で、これをそのまま「AIは大したことない」って解釈するのは違うと思う。
Geminiが1回で34%の利益を出したのも事実。モデルや使い方によってはかなりの精度が出る場面もある。
問題は「安定して勝ち続ける」のが難しいってこと。それって投資でも仕事でも同じで、一発当たることと継続して成果を出すことは全然別の話。
この研究、まだ査読も通ってないし、あくまでサッカー賭博という特定領域での話。過度に一般化するのも注意が必要。
ただ、シリコンバレーのAI万能論に一石を投じた研究として、かなり注目してる。
あなたは今のAI、どの場面で「これは使えない」と感じてる?