先週、投資家との面談でこんな話が出た。「競合のA社がAIエージェント導入して業務を半自動化したらしい」という話だ。正直、焦った。うちもClaudeは全面導入しているけど、エージェントとなると話が違う。
そのタイミングで読んだのが、IBMリサーチがHugging Faceで公開した「VAKRA」というベンチマークの分析記事だった。AIエージェントがどこで壊れるかを調べた研究で、読んでいてかなり胃が痛くなった。
VAKRAが面白いのは、エージェントの単純な知識テストじゃないところだ。62の業務ドメインをまたいだ8,000以上のAPIを実際に叩かせて、3〜7ステップの連続した作業をやらせる。要は「現実の業務に近い状況」でテストしている。
結果は散々だった。ほとんどのモデルがまともなスコアを出せていない。特に複数のAPIを順番につないで答えを出す「APIチェーニング」というタスクで軒並み崩れる。例えば「ビルドアッププレイスピードが31、ドリブルが53、パスが32のサッカーチームはどこか」という問いに答えるには、データ取得→フィルタリング→絞り込み→回答と4回以上の正確な操作が要る。1ステップでもミスると終わり。
これ、うちのセールスプロセスに置き換えると怖い話だ。CRMからリード取得→条件でフィルタ→メール送信→結果記録、みたいな連続作業をエージェントに任せたとき、途中で静かに失敗されたら気づかない。
研究では、エージェントの失敗パターンとして「ツールの選択ミス」が目立つと指摘されている。VAKRAでは、ある問題に対して正しいツールが用意されているのに、似たような別のツールを選んで間違った方向に進むケースが多発した。
これが採用や資金調達の文脈だと本当に怖い。エラーが出れば人間が気づける。でもエージェントが「それっぽい動き」をしながら違う結果を出してたら、気づくのに時間がかかる。投資家向けの数値を作るタスクで静かに間違えてたら、シャレにならない。
今の自分の結論はこうだ。エージェントを業務に入れるなら「失敗したときに人間が絶対に気づける設計」を先に決める。処理件数・出力サンプルの確認・異常値アラートのどれか一個は必ず人間が見る仕組みを残す。自動化の効率を出しながら、ミスの検知だけは手放さない。
Claudeを全面導入して1年経って感じるのは、単機能の補助ツールとしては本当に使える。でもエージェントとして「自律的に動かす」フェーズは、まだ人間の監視設計とセットじゃないと怖い段階だということ。
あなたの会社では、エージェントが静かに失敗したとき、誰がどうやって気づく仕組みになっているか?
そのタイミングで読んだのが、IBMリサーチがHugging Faceで公開した「VAKRA」というベンチマークの分析記事だった。AIエージェントがどこで壊れるかを調べた研究で、読んでいてかなり胃が痛くなった。
エージェントは「つなぐ」ところで落ちる
VAKRAが面白いのは、エージェントの単純な知識テストじゃないところだ。62の業務ドメインをまたいだ8,000以上のAPIを実際に叩かせて、3〜7ステップの連続した作業をやらせる。要は「現実の業務に近い状況」でテストしている。
結果は散々だった。ほとんどのモデルがまともなスコアを出せていない。特に複数のAPIを順番につないで答えを出す「APIチェーニング」というタスクで軒並み崩れる。例えば「ビルドアッププレイスピードが31、ドリブルが53、パスが32のサッカーチームはどこか」という問いに答えるには、データ取得→フィルタリング→絞り込み→回答と4回以上の正確な操作が要る。1ステップでもミスると終わり。
これ、うちのセールスプロセスに置き換えると怖い話だ。CRMからリード取得→条件でフィルタ→メール送信→結果記録、みたいな連続作業をエージェントに任せたとき、途中で静かに失敗されたら気づかない。
「動いてる風」が一番まずい
研究では、エージェントの失敗パターンとして「ツールの選択ミス」が目立つと指摘されている。VAKRAでは、ある問題に対して正しいツールが用意されているのに、似たような別のツールを選んで間違った方向に進むケースが多発した。
これが採用や資金調達の文脈だと本当に怖い。エラーが出れば人間が気づける。でもエージェントが「それっぽい動き」をしながら違う結果を出してたら、気づくのに時間がかかる。投資家向けの数値を作るタスクで静かに間違えてたら、シャレにならない。
今の自分の結論はこうだ。エージェントを業務に入れるなら「失敗したときに人間が絶対に気づける設計」を先に決める。処理件数・出力サンプルの確認・異常値アラートのどれか一個は必ず人間が見る仕組みを残す。自動化の効率を出しながら、ミスの検知だけは手放さない。
Claudeを全面導入して1年経って感じるのは、単機能の補助ツールとしては本当に使える。でもエージェントとして「自律的に動かす」フェーズは、まだ人間の監視設計とセットじゃないと怖い段階だということ。
あなたの会社では、エージェントが静かに失敗したとき、誰がどうやって気づく仕組みになっているか?