AIの音声認識ベンチマーク、カンニング対策が始まった

Xのタイムラインを流し見してたら、Hugging Faceのブログ記事が目に入った。「Open ASR Leaderboard」というAI音声認識のランキングに、カンニング防止のための非公開テストデータが追加されたという話だ。

正直最初は「へえ、そういうのあるんだ」くらいの温度感だった。でも読み進めると、これって結構本質的な問題を突いてる気がして、気づいたらメモ取り始めてた。

ベンチマークのカンニングって何？

このランキング、2023年9月に公開されてから今まで71万回以上アクセスされてるらしい。それだけ注目度が高いということは、当然「このランキングで上位に入ろう」と最適化してくるモデルも出てくる。テスト問題が公開されてたら、それに合わせた勉強ができちゃうのと同じ理屈だ。英語だと「benchmaxxing」って呼ぶみたい。ベンチマークを最大化することだけに特化してしまう動きのことね。

で、今回AppenとDataoceanAIという2社が提供した非公開データセットが追加された。オーストラリア英語、カナダ英語、インド英語、アメリカ英語など複数のアクセントをカバーしてて、会話形式と朗読形式の両方がある。非公開にすることで「答え合わせができない状態」を意図的に作ってる。

これ、AI評価全体の話だよな

自分が毎日いろんなAIツールを触ってて感じるのは、「ベンチマークのスコアが高い＝実際に使いやすい」じゃないってこと。リリース記事で「〇〇ベンチマークでSOTA達成」って書いてあっても、いざ使ってみると微妙なケースって普通にある。

今回の話はまさにその部分に踏み込んでる。公開データだけで評価し続けると、そのデータへの過剰適合が起きる。だから非公開データで「本当の実力」を測ろうという発想だ。「測定が目標になると、それは良い指標ではなくなる」というグッドハートの法則を冒頭に引用してるのも面白かった。

音声認識に限らず、画像生成でも言語モデルでも同じことが言えると思う。ランキングのために最適化されたモデルが、実ユーザーの手元で役に立つかは別の話。自分がフォロワーにツールを紹介するとき、スコアより実際に触った感触を重視するのはそういう理由でもある。

非公開データという選択は「オープンネスに反する」という批判も出そうだけど、むしろ「本当の性能を守るための措置」として筋は通ってると思った。全部公開したら全部最適化される。それはもうフェアな評価じゃない。

AIのランキングやスコアをどこまで信用するか、改めて考えてみてほしい。あなたが普段使ってるツール、ベンチマーク結果と実際の使用感、一致してる？