ヴィクトリア朝のAIが教えてくれたこと

先日、顧問先の古書店オーナーからこんな相談を受けた。「先生、AIって学習データが偏ってたら、やっぱり答えも偏るんですか？」

きっかけは、スタッフがChatGPTに商品説明を書かせたら、妙に現代的すぎる文体になって店の雰囲気と合わなかった、という話だった。

「偏る、というか、学習したものしか出てこないんですよ」と答えながら、私はちょうど読んでいた面白い記事を思い出した。

1837年〜1899年のテキストだけで作ったAI

「Mr. Chatterbox」というモデルの話だ。英国図書館が公開しているヴィクトリア朝時代の書籍、2万8035冊だけを学習データに使って作られた言語モデルで、1899年以降のテキストは一切使っていない。

パラメータ数は約3億4000万。GPT-2 Mediumとほぼ同じ規模で、モデルファイルのサイズはたった2.05GBしかない。自分のパソコンでも動かせるくらい軽い。

面白いのは「なぜ作ったか」の動機だ。著作権切れのデータだけで学習したモデルを作りたい、という考えからスタートしている。スクレイピングした無許可のデータに頼らずに、クリーンな素材だけで。

でも正直、まだ使い物にならない

実際に話しかけてみると、マルコフ連鎖（単語の出現確率だけで文章を生成する古い手法）と会話しているような感覚で、質問にまともに答えてくれないらしい。

なぜか。2022年に発表されたChinchillaという研究によると、モデルのパラメータ数の20倍のトークン数が学習に必要だとされている。3億4000万パラメータなら約70億トークン必要な計算だ。でも今回使った英国図書館のコーパスは29億3000万トークンしかなく、必要量の半分にも届かない。データが足りないのだ。

さらに、会話形式で答えさせるための調整（ファインチューニング）には、Claude HaikuやGPT-4o-miniで生成した合成データを使ったことも明かされている。「1899年以降のデータは一切使っていない」という主張が、ここで少し崩れてしまっている。

顧問先への答えはここにあった

この話を古書店オーナーに伝えたら、すごく腑に落ちた顔をしてくれた。

「つまり、AIが出す答えって、食べたものがそのまま出てくる感じなんですね」

そう、まさに。飲食店の顧問先で言えば、仕入れた素材の質がそのまま料理に出る、あれと同じ話だ。クリニックの先生に置き換えると、診断の精度は蓄積してきた症例数に比例する、という感覚に近い。

AIに何かを任せようとするとき、「どんなデータで学習しているか」を気にしてみる。それだけで、使えるシーンと使えないシーンの見極めがずいぶん変わってくる。

顧問先から「先生、このAI使えますか？」と聞かれたら、「何を学習したモデルかを確認してみましょう」という一言を、次から返してみようと思う。

ヴィクトリア朝のAIが教えてくれたこと

1837年〜1899年のテキストだけで作ったAI

でも正直、まだ使い物にならない

顧問先への答えはここにあった

無料相談受付中