Ai2がLLM評価ツールをOSS公開、マジでヤバい

Xのタイムラインを流し見してたら、Hugging Faceのブログ記事が流れてきた。Allen Institute for AI、通称Ai2が「olmo-eval」というLLM評価ワークベンチをオープンソースで公開したらしい。

olmo-evalはAi2が2024年に出した「OLMES」という評価標準を拡張したツールだ。OLMESは同じモデルを同じベンチマークで評価してるのに、論文ごとにプロンプトの書き方やタスクの形式が違って、スコアの比較ができないという問題を解消するために作られた。それをさらに発展させて、モデル開発の日常ループに使える形にしたのがolmo-evalという位置づけ。

既存ツールとの違いはどこにある？

似たようなツールにHarborというものがある。コンテナ化されたサンドボックスでAIエージェントを評価するOSSフレームワークだ。ただHarborは「ベンチマークを公開・共有するため」に設計されていて、検証ステップが多い。olmo-evalは開発中のモデルをどんどん回すためのもので、スピード感が全然違う。

たとえばHarborは全部を密閉コンテナで動かす。これは再現性は高いけど、リソースをバカ食いする。olmo-evalは「軽く済むならコンテナなしで直接動かす、コードを実行するベンチマークのときだけコンテナを立てる」という設計になってる。デフォルトが軽量路線なのはマジで実用的だと感じた。

olmo-evalの面白いところは、モデル本体・使えるツール・コンテナ環境・LLM-as-a-judgeのような補助モデルが全部スワップできるコンポーネントとして設計されてるところだ。採点モデルを1つのベンチマークだけに差し替えても他に影響しない、みたいな柔軟性がある。

日本のAIクリエイター界隈ではまだ全然知られていない

海外ではAi2のOLMoシリーズを追ってる研究者やエンジニアが早速反応してるのを確認した。ただ日本語の言及はほとんど見当たらない。自分がXで検索してもほぼゼロ。この手の「モデル開発インフラ系」のツールは日本語圏に届くまで時間がかかりがちだ。

自分はフルタイムで研究してるわけじゃないし、olmo-evalをそのまま動かす機会は今すぐにはないかもしれない。でも「評価がちゃんとできないと、どのAIが本当に使えるかわからない」という問題は、毎日ツールを触ってる自分にもリアルに刺さる話だ。

妻に「また深夜に何見てんの」って言われながらこの記事読んでたんだけど、正直「2.4pp（パーセンテージポイント）の改善が本当に有意な変化かどうかを判定する分析機能がある」という一文に一番テンションが上がった。ベンチマークの数字だけ見て「このモデルが強い」と言い切れないのを分かってて言ってる人、実際どれくらいいるんだろうとずっと思ってたので。

コードはGitHubに公開されていて、URLはhttps://github.com/allenai/olmo-evalだ。READMEをざっと読んだ感じ、Pythonベースで構成されている。今週の週末配信でリポジトリの中身をざっくり見るセッションをやるつもり。3歳の子が昼寝してる時間を狙って作業配信する予定なので、気になる人はタイムライン追っといてほしい。

あなたが毎日使ってるAIツールのスコア、どこまで信用してる？

Ai2がLLM評価ツールをOSS公開、マジでヤバい

既存ツールとの違いはどこにある？

日本のAIクリエイター界隈ではまだ全然知られていない

無料相談受付中