Xのタイムラインを眺めてたら、マジでヤバいベンチマーク結果が流れてきた。
Artificial AnalysisとIBMが共同で出した「ITBench-AA」というやつで、今のフロンティアモデルが企業IT運用のエージェントタスクを解かせたら全モデル50%未満だったらしい。
トップのClaude Opus 4.7が47%、GPT-5.5が46%、Qwen3が42%。
どれも50点すら取れてないって、なかなか衝撃的な数字だ。
タスクの内容を読んだら、Kubernetesのインシデント対応らしい。
アラート・ログ・トレース・メトリクスが詰まったスナップショットを渡して、障害の根本原因エンティティを特定させる、というやつ。
SRE(サイト信頼性エンジニアリング)の現場仕事をそのままAIにやらせるイメージだ。
試験の中身も具体的で、リソースクォータ枯渇、ロールアウト失敗、コネクションプール枯渇、ネットワーク分断といった典型的な障害パターンが59タスク入っている。
公開タスク40件 + 非公開19件という構成で、ガチのホールドアウト評価になってる。
で、個人的に一番面白かったのがターン数と精度の関係だ。
GPT-5.5はタスクあたり平均31ターンで46%を出したのに、Gemini 3.1 Pro Previewは83ターン使って30%しか取れなかった。
ターン数が約3倍違うのに精度は逆転してる。
調べすぎると誤検知が増えてスコアが下がるらしく、「余計なことをするモデルほど間違える」という結果が出ている。
これ、人間のエンジニアにもありがちな話で、ちょっと笑えた。
海外のAIコミュニティでは「エージェントはもう実用段階」みたいな雰囲気があるけど、このベンチマーク結果を見ると話は全然違う。
Terminal-Benchではフロンティアモデルがそれなりに高いスコアを出してる、という補足がIBMの記事に書かれていた。
でも実際の企業ITタスクになった途端に50%を割る。
つまり「コマンドを打てる」と「障害を診断できる」の間には、まだ大きなギャップがある。
日本ではそもそもKubernetes運用を自社でやってる中小企業がどれくらいいるかって話もあるけど、ポイントはそこじゃない気がしてる。
今後AIエージェントに「調べておいて」と任せる場面は絶対に増えるわけで、そのとき「ターン数が多いほど信用できる」という直感が外れる可能性がある、という話として受け取った。
自分はAIツールを毎日触ってるけど、エージェントが自律的に動いてる間に「頑張ってる感」だけ出て実は迷走してることって、体感としてもある。
Claude使ってて、長いアウトプットが必ずしも正解じゃないな、と感じる場面は何度もあった。
このベンチマークはそれを数値で証明した、みたいな感じだ。
ちなみにオープンウェイトモデルの中ではGLM-5.1(Reasoning)が40%でトップで、Gemini 3.5 Flash(high)と実質同率らしい。
DeepSeek V4 Proが38%、Gemma 4 31Bが37%と続く。
プロプライエタリモデルとのギャップが7ポイント以内という数字は、ローカル派のフォロワーには刺さりそうな話だ。
フォロワーから「どのモデルが一番実用的か」ってDMが来るんだけど、こういうベンチマークを見ると「タスクによる」としか言えない。
汎用的な文章生成と、ライブシステムの診断は全然別物だ。
ITBench-AAはまだSREタスクだけで、今後FinOpsとCISOタスクも追加予定らしいから、そっちの結果も追いかけたい。
次の配信でこのベンチマーク結果を題材に「AIエージェントが本当に使えるタスク・使えないタスク」をやってみようと思ってる。
自分でKubernetesを触れるわけじゃないけど、この話はエンジニア以外にも関係してくる話だから、フォロワーがどう反応するかが楽しみだ。
Artificial AnalysisとIBMが共同で出した「ITBench-AA」というやつで、今のフロンティアモデルが企業IT運用のエージェントタスクを解かせたら全モデル50%未満だったらしい。
トップのClaude Opus 4.7が47%、GPT-5.5が46%、Qwen3が42%。
どれも50点すら取れてないって、なかなか衝撃的な数字だ。
具体的に何をやらせたのか
タスクの内容を読んだら、Kubernetesのインシデント対応らしい。
アラート・ログ・トレース・メトリクスが詰まったスナップショットを渡して、障害の根本原因エンティティを特定させる、というやつ。
SRE(サイト信頼性エンジニアリング)の現場仕事をそのままAIにやらせるイメージだ。
試験の中身も具体的で、リソースクォータ枯渇、ロールアウト失敗、コネクションプール枯渇、ネットワーク分断といった典型的な障害パターンが59タスク入っている。
公開タスク40件 + 非公開19件という構成で、ガチのホールドアウト評価になってる。
で、個人的に一番面白かったのがターン数と精度の関係だ。
GPT-5.5はタスクあたり平均31ターンで46%を出したのに、Gemini 3.1 Pro Previewは83ターン使って30%しか取れなかった。
ターン数が約3倍違うのに精度は逆転してる。
調べすぎると誤検知が増えてスコアが下がるらしく、「余計なことをするモデルほど間違える」という結果が出ている。
これ、人間のエンジニアにもありがちな話で、ちょっと笑えた。
「海外ではこう言われてるが日本では?」を考えてみた
海外のAIコミュニティでは「エージェントはもう実用段階」みたいな雰囲気があるけど、このベンチマーク結果を見ると話は全然違う。
Terminal-Benchではフロンティアモデルがそれなりに高いスコアを出してる、という補足がIBMの記事に書かれていた。
でも実際の企業ITタスクになった途端に50%を割る。
つまり「コマンドを打てる」と「障害を診断できる」の間には、まだ大きなギャップがある。
日本ではそもそもKubernetes運用を自社でやってる中小企業がどれくらいいるかって話もあるけど、ポイントはそこじゃない気がしてる。
今後AIエージェントに「調べておいて」と任せる場面は絶対に増えるわけで、そのとき「ターン数が多いほど信用できる」という直感が外れる可能性がある、という話として受け取った。
自分はAIツールを毎日触ってるけど、エージェントが自律的に動いてる間に「頑張ってる感」だけ出て実は迷走してることって、体感としてもある。
Claude使ってて、長いアウトプットが必ずしも正解じゃないな、と感じる場面は何度もあった。
このベンチマークはそれを数値で証明した、みたいな感じだ。
オープンウェイトモデルの健闘も見逃せない
ちなみにオープンウェイトモデルの中ではGLM-5.1(Reasoning)が40%でトップで、Gemini 3.5 Flash(high)と実質同率らしい。
DeepSeek V4 Proが38%、Gemma 4 31Bが37%と続く。
プロプライエタリモデルとのギャップが7ポイント以内という数字は、ローカル派のフォロワーには刺さりそうな話だ。
フォロワーから「どのモデルが一番実用的か」ってDMが来るんだけど、こういうベンチマークを見ると「タスクによる」としか言えない。
汎用的な文章生成と、ライブシステムの診断は全然別物だ。
ITBench-AAはまだSREタスクだけで、今後FinOpsとCISOタスクも追加予定らしいから、そっちの結果も追いかけたい。
次の配信でこのベンチマーク結果を題材に「AIエージェントが本当に使えるタスク・使えないタスク」をやってみようと思ってる。
自分でKubernetesを触れるわけじゃないけど、この話はエンジニア以外にも関係してくる話だから、フォロワーがどう反応するかが楽しみだ。