先日、アラビア語LLMのリーダーボードに関する記事を読んだ。「QIMMA」というプロジェクトで、既存のアラビア語AIベンチマークを検証したら、広く使われているはずのデータセットにすら系統的な品質問題があった、という話だ。
これ、他人事じゃないと思った。
QIMMASのチームが52,000サンプル以上を検証した結果、何が出てきたか。翻訳由来のズレ、不正解のゴールドラベル、文化的なバイアス。要するに「正しそうに見えるが実は測定がズレている」ベンチマークが山ほどあった。
これを読んで、自分の会社でのAI選定を振り返った。採用候補の履歴書スクリーニングに使っているツールも、セールスのメール生成ツールも、ベンダーが出している「精度○○%」とか「業界最高スコア」を結構そのまま信じていた気がする。そのスコアが何を測ったものなのか、どんなデータで検証されたものなのか、ちゃんと聞いたことがなかった。
8人のスタートアップだと、AIツールの選定は「デモが良かった」「競合が使い始めたと聞いた」「月額が安い」でほぼ決まる。それ自体は別に悪くない。でも、業務の重要な判断に組み込んだ段階で、そのツールの「測定の質」を一度も問い直していないのはリスクだと思った。
特に採用とセールスは直接売上と組織に響く。ここでAIが「それっぽいが実は的外れな判断」を出し続けていたとしたら、気づかないまま積み上がっていく。
QIMMASがやったことを自分なりに翻訳すると、こういうことだと思う。
この3つを聞いたことがあるベンダーは、正直ほとんどない。
次のラウンドに向けて、「AIをどう業務に使っているか」は必ず聞かれる。そこで「精度が高いツールを入れています」と言うだけだと弱い。「このツールのスコアがどういう条件下で測定されたかを把握した上で採用している」と言えると、少し違う印象になる。
AIを使っているかどうかより、AIをどう評価して使っているかの方が、これからは差になる気がしている。
自分は来週、採用ツールのベンダーに「御社のスコアはどんなデータセットで計測されていますか」と一度聞いてみるつもりだ。
これ、他人事じゃないと思った。
「このAIの精度は高い」は何を根拠にしているか
QIMMASのチームが52,000サンプル以上を検証した結果、何が出てきたか。翻訳由来のズレ、不正解のゴールドラベル、文化的なバイアス。要するに「正しそうに見えるが実は測定がズレている」ベンチマークが山ほどあった。
これを読んで、自分の会社でのAI選定を振り返った。採用候補の履歴書スクリーニングに使っているツールも、セールスのメール生成ツールも、ベンダーが出している「精度○○%」とか「業界最高スコア」を結構そのまま信じていた気がする。そのスコアが何を測ったものなのか、どんなデータで検証されたものなのか、ちゃんと聞いたことがなかった。
スコアの裏側を聞く習慣がなかった
8人のスタートアップだと、AIツールの選定は「デモが良かった」「競合が使い始めたと聞いた」「月額が安い」でほぼ決まる。それ自体は別に悪くない。でも、業務の重要な判断に組み込んだ段階で、そのツールの「測定の質」を一度も問い直していないのはリスクだと思った。
特に採用とセールスは直接売上と組織に響く。ここでAIが「それっぽいが実は的外れな判断」を出し続けていたとしたら、気づかないまま積み上がっていく。
QIMMASがやったことを自分なりに翻訳すると、こういうことだと思う。
- そのスコアはどんなデータで計測されたか
- 自社の実際のユースケースで検証したことがあるか
- ベンダーのベンチマークと自社環境で結果が一致しているか
この3つを聞いたことがあるベンダーは、正直ほとんどない。
投資家への説明にも使える視点だと思った
次のラウンドに向けて、「AIをどう業務に使っているか」は必ず聞かれる。そこで「精度が高いツールを入れています」と言うだけだと弱い。「このツールのスコアがどういう条件下で測定されたかを把握した上で採用している」と言えると、少し違う印象になる。
AIを使っているかどうかより、AIをどう評価して使っているかの方が、これからは差になる気がしている。
自分は来週、採用ツールのベンダーに「御社のスコアはどんなデータセットで計測されていますか」と一度聞いてみるつもりだ。