採用AIに「身内びいき」があると知って、採用フローを見直した話

先週、気になる研究を読んだ。メリーランド大学などの研究チームが調べた話で、「採用スクリーニングに使うAIは、同じAIモデルが書いた履歴書を高く評価しやすい」というものだ。

最初は「ふーん」で流そうとしたけど、うちの採用フローを思い返して背筋が伸びた。

うちもAIで書類選考している

正直に言うと、うちも半年前からClaudeを使って書類の一次評価をやっている。8人規模だと採用に使える時間が全然ない。エンジニアとセールスを同時に探していた時期は、週に30〜40件の応募を一人で追うのがしんどくて、「要約欄をClaudeに評価させる」フローを作った。これ自体は今でも正解だと思っている。

問題は、応募者側も同じことをやっているという点だ。

研究によると、GPT-4oで評価した場合、GPT-4oが生成した要約とそれ以外を比較すると、なんと97.6ポイントの差で自己の生成物を選びやすかったという。97.6ポイントだ。ほぼ確実に選ぶということになる。

「AIが書いた履歴書が優秀だから選ばれた」ではなかった

最初に思ったのは、「でもAIが書いた要約の方が実際うまいんじゃないか」という疑問だった。研究チームも同じ疑問を持ったらしく、文章の長さや語彙の複雑さなどを統計的に揃えた上で比較している。それでもGPT-4oで81.9%、LLaMA 3.3-70Bで78.9%の自己選好バイアスが残った。つまり品質の問題じゃない。

さらに人間の評価者が「人間の書いた要約の方が良い」と判断したケースでも、AIは自分と同じモデルが書いた要約を選んだと報告されている。

これは採用の意思決定として、かなりまずい話だ。

採用シミュレーションでは、同じAIモデルで書かれた要約を含む履歴書は、人間が書いた要約の履歴書より23〜60%面接に残りやすかった。うちのフローに当てはめると、Claude巧者な応募者が有利になっている可能性がある。それ自体が悪いとは言い切れないが、「Claudeの使い方が上手い」と「仕事ができる」は別の話だ。

今すぐ対策できることが2つある

研究チームは緩和策も試している。一つは「内容の品質だけ見るようにシステムプロンプトで指示する」方法。これでGPT-4oのバイアスは82%から61%に下がった。LLaMA 3.3-70Bは79%から30%まで下がっている。

もう一つは「複数モデルで多数決する」方法。こちらはGPT-4oが82%から30%、DeepSeek-V3が72%から29%に下がった。

30%でもバイアスは残るが、何もしないよりはずっとマシだ。複数モデルを使う方法は、APIコストは上がるけど、8人規模のうちなら許容範囲だと思う。

自分がすぐやるのは、まず評価プロンプトの見直しだ。「文章の出所を気にせず、スキルと経験の中身だけ評価する」という一文を追加する。それと、最終的な書類選考の判断は自分か採用担当者の目を通す運用に戻す。AIに完全委任している部分を一段階だけ人間に戻す、それだけでいい。

採用基準がAIの文体に引っ張られていくと、研究チームが言う「ロックイン効果」が起きる。特定のAIの書き方に最適化した人が通り続ける採用になる。それは自分が望む組織づくりとは少し違う。

あなたの会社の書類評価フロー、一度プロンプトの中身を確認してみる価値はあると思う。