AIエージェントが「使えない」理由、競合より先に知っておく

先週、投資家との面談でこんな話が出た。「競合のA社がAIエージェント導入して業務を半自動化したらしい」という話だ。正直、焦った。うちもClaudeは全面導入しているけど、エージェントとなると話が違う。

そのタイミングで読んだのが、IBMリサーチがHugging Faceで公開した「VAKRA」というベンチマークの分析記事だった。AIエージェントがどこで壊れるかを調べた研究で、読んでいてかなり胃が痛くなった。

エージェントは「つなぐ」ところで落ちる

VAKRAが面白いのは、エージェントの単純な知識テストじゃないところだ。62の業務ドメインをまたいだ8,000以上のAPIを実際に叩かせて、3〜7ステップの連続した作業をやらせる。要は「現実の業務に近い状況」でテストしている。

結果は散々だった。ほとんどのモデルがまともなスコアを出せていない。特に複数のAPIを順番につないで答えを出す「APIチェーニング」というタスクで軒並み崩れる。例えば「ビルドアッププレイスピードが31、ドリブルが53、パスが32のサッカーチームはどこか」という問いに答えるには、データ取得→フィルタリング→絞り込み→回答と4回以上の正確な操作が要る。1ステップでもミスると終わり。

これ、うちのセールスプロセスに置き換えると怖い話だ。CRMからリード取得→条件でフィルタ→メール送信→結果記録、みたいな連続作業をエージェントに任せたとき、途中で静かに失敗されたら気づかない。

「動いてる風」が一番まずい

研究では、エージェントの失敗パターンとして「ツールの選択ミス」が目立つと指摘されている。VAKRAでは、ある問題に対して正しいツールが用意されているのに、似たような別のツールを選んで間違った方向に進むケースが多発した。

これが採用や資金調達の文脈だと本当に怖い。エラーが出れば人間が気づける。でもエージェントが「それっぽい動き」をしながら違う結果を出してたら、気づくのに時間がかかる。投資家向けの数値を作るタスクで静かに間違えてたら、シャレにならない。

今の自分の結論はこうだ。エージェントを業務に入れるなら「失敗したときに人間が絶対に気づける設計」を先に決める。処理件数・出力サンプルの確認・異常値アラートのどれか一個は必ず人間が見る仕組みを残す。自動化の効率を出しながら、ミスの検知だけは手放さない。

Claudeを全面導入して1年経って感じるのは、単機能の補助ツールとしては本当に使える。でもエージェントとして「自律的に動かす」フェーズは、まだ人間の監視設計とセットじゃないと怖い段階だということ。

あなたの会社では、エージェントが静かに失敗したとき、誰がどうやって気づく仕組みになっているか？

AIエージェントが「使えない」理由、競合より先に知っておく

エージェントは「つなぐ」ところで落ちる

「動いてる風」が一番まずい

無料相談受付中