AIエージェントの「強さ」を比較する時代が来た

Xのタイムラインを眺めてたら、IBM ResearchがHugging Faceでおもしろいものを出してた。「Open Agent Leaderboard」ってやつで、AIエージェントをモデル単体じゃなくシステム全体で比較するベンチマークだ。速報でシェアしたらそこそこ反応あって、自分でも読み込んでみた。

これまでのAI評価って「このモデルは何点」みたいな話が多かった。でも実際にエージェントを使うとき、モデルだけじゃなくて、どんなツールを持たせるか、どうプランニングさせるか、失敗したときどう立て直すか、その組み合わせ全部で結果が変わってくる。同じモデルでも構成次第でめちゃくちゃ差が出るのは、自分も毎日ツール触ってて実感してるところだ。

Open Agent Leaderboardはそこに着目して、フルシステムとして評価するフレームワークを作った。しかもスコアだけじゃなくてコストも出す。マジで「使えるかどうか」を見るための設計になってる。

6つのベンチマークで「汎用性」を測る

今回のリーダーボードは6つのベンチマークを組み合わせて評価する。それぞれ全然違う種類のタスクだ。

SWE-Bench Verified：実際のコードリポジトリのバグ修正
BrowseComp+：ウェブ横断の複雑なリサーチ
AppWorld：数百のアプリをまたぐ個人タスクの実行
tau2-Bench Airline & Retail：会社ポリシーに沿ったカスタマーサービス
tau2-Bench Telecom：テクニカルサポート対応

コーディング、調査、個人アシスタント、カスタマーサービス、テクサポ、これだけ違うタスクをひとつの評価軸で比べようとしてる。各ベンチマークには独自の前提や命令体系があるから、それを統一プロトコルに落とし込む作業がヤバいくらい大変だったはずで、論文と一緒に「Exgentic」ってフレームワークも公開してる。

「汎用性」って言葉、AIの文脈でよく出てくるけど、今回の定義がわかりやすかった。特定の仕事に特化したエージェントじゃなくて、新しい環境にポンと置いてもそのまま動くかどうか、それを汎用性と呼んでる。そしてそれはバイナリじゃなくてスペクトル、つまり程度の問題だって言ってた。

日本ではまだあんまり話題になってない

海外のAIコミュニティでは「モデルじゃなくてシステムで評価」って方向感はじわじわ広まってる感じがする。でも日本のXを見てると、まだ「ChatGPT vs Claude」みたいなモデル比較の話が主流な気がする。

このリーダーボードが本格的に動き出したら、評価の文脈がガラッと変わる可能性がある。自分もよくフォロワーに「どのAIが一番いい？」って聞かれるけど、そもそもその問い自体が変わってくるかもしれない。「どのシステムが一番いい？」になる。

自分の場合、普段からn8nとかZapierでAIをつないだワークフロー系のコンテンツ作ってるので、「エージェントのシステム構成」って話題は結構刺さる。案件動画のネタにもなりそうだし、Exgenticフレームワークを実際に触ってみた動画は数字取れそうな予感がしてる。

子どもが寝た後の深夜枠でひとりでいじる時間を確保して、まず自分が使ってるエージェント構成をこのフレームワークで評価してみたい。どんな数字が出るか正直わからないけど、それがコンテンツになる。

あなたのエージェント構成、実は「使えるかどうか」まだちゃんと測れてないんじゃないか。