先日、顧問先の古書店オーナーからこんな相談を受けた。「先生、AIって学習データが偏ってたら、やっぱり答えも偏るんですか?」
きっかけは、スタッフがChatGPTに商品説明を書かせたら、妙に現代的すぎる文体になって店の雰囲気と合わなかった、という話だった。
「偏る、というか、学習したものしか出てこないんですよ」と答えながら、私はちょうど読んでいた面白い記事を思い出した。
「Mr. Chatterbox」というモデルの話だ。英国図書館が公開しているヴィクトリア朝時代の書籍、2万8035冊だけを学習データに使って作られた言語モデルで、1899年以降のテキストは一切使っていない。
パラメータ数は約3億4000万。GPT-2 Mediumとほぼ同じ規模で、モデルファイルのサイズはたった2.05GBしかない。自分のパソコンでも動かせるくらい軽い。
面白いのは「なぜ作ったか」の動機だ。著作権切れのデータだけで学習したモデルを作りたい、という考えからスタートしている。スクレイピングした無許可のデータに頼らずに、クリーンな素材だけで。
実際に話しかけてみると、マルコフ連鎖(単語の出現確率だけで文章を生成する古い手法)と会話しているような感覚で、質問にまともに答えてくれないらしい。
なぜか。2022年に発表されたChinchillaという研究によると、モデルのパラメータ数の20倍のトークン数が学習に必要だとされている。3億4000万パラメータなら約70億トークン必要な計算だ。でも今回使った英国図書館のコーパスは29億3000万トークンしかなく、必要量の半分にも届かない。データが足りないのだ。
さらに、会話形式で答えさせるための調整(ファインチューニング)には、Claude HaikuやGPT-4o-miniで生成した合成データを使ったことも明かされている。「1899年以降のデータは一切使っていない」という主張が、ここで少し崩れてしまっている。
この話を古書店オーナーに伝えたら、すごく腑に落ちた顔をしてくれた。
「つまり、AIが出す答えって、食べたものがそのまま出てくる感じなんですね」
そう、まさに。飲食店の顧問先で言えば、仕入れた素材の質がそのまま料理に出る、あれと同じ話だ。クリニックの先生に置き換えると、診断の精度は蓄積してきた症例数に比例する、という感覚に近い。
AIに何かを任せようとするとき、「どんなデータで学習しているか」を気にしてみる。それだけで、使えるシーンと使えないシーンの見極めがずいぶん変わってくる。
顧問先から「先生、このAI使えますか?」と聞かれたら、「何を学習したモデルかを確認してみましょう」という一言を、次から返してみようと思う。
きっかけは、スタッフがChatGPTに商品説明を書かせたら、妙に現代的すぎる文体になって店の雰囲気と合わなかった、という話だった。
「偏る、というか、学習したものしか出てこないんですよ」と答えながら、私はちょうど読んでいた面白い記事を思い出した。
1837年〜1899年のテキストだけで作ったAI
「Mr. Chatterbox」というモデルの話だ。英国図書館が公開しているヴィクトリア朝時代の書籍、2万8035冊だけを学習データに使って作られた言語モデルで、1899年以降のテキストは一切使っていない。
パラメータ数は約3億4000万。GPT-2 Mediumとほぼ同じ規模で、モデルファイルのサイズはたった2.05GBしかない。自分のパソコンでも動かせるくらい軽い。
面白いのは「なぜ作ったか」の動機だ。著作権切れのデータだけで学習したモデルを作りたい、という考えからスタートしている。スクレイピングした無許可のデータに頼らずに、クリーンな素材だけで。
でも正直、まだ使い物にならない
実際に話しかけてみると、マルコフ連鎖(単語の出現確率だけで文章を生成する古い手法)と会話しているような感覚で、質問にまともに答えてくれないらしい。
なぜか。2022年に発表されたChinchillaという研究によると、モデルのパラメータ数の20倍のトークン数が学習に必要だとされている。3億4000万パラメータなら約70億トークン必要な計算だ。でも今回使った英国図書館のコーパスは29億3000万トークンしかなく、必要量の半分にも届かない。データが足りないのだ。
さらに、会話形式で答えさせるための調整(ファインチューニング)には、Claude HaikuやGPT-4o-miniで生成した合成データを使ったことも明かされている。「1899年以降のデータは一切使っていない」という主張が、ここで少し崩れてしまっている。
顧問先への答えはここにあった
この話を古書店オーナーに伝えたら、すごく腑に落ちた顔をしてくれた。
「つまり、AIが出す答えって、食べたものがそのまま出てくる感じなんですね」
そう、まさに。飲食店の顧問先で言えば、仕入れた素材の質がそのまま料理に出る、あれと同じ話だ。クリニックの先生に置き換えると、診断の精度は蓄積してきた症例数に比例する、という感覚に近い。
AIに何かを任せようとするとき、「どんなデータで学習しているか」を気にしてみる。それだけで、使えるシーンと使えないシーンの見極めがずいぶん変わってくる。
顧問先から「先生、このAI使えますか?」と聞かれたら、「何を学習したモデルかを確認してみましょう」という一言を、次から返してみようと思う。