IBMのGranite 4.1、8Bで32Bを超えたって本当？

Xのタイムラインを眺めてたら、IBMが「Granite 4.1」っていうLLMファミリーを公開したという話が流れてきた。海外のAI界隈ではちょっとざわついてたので、自分でも原文を読んでみた。

正直、最初は「またIBMか〜」くらいの温度感だったんだけど、読み進めていくうちに「あ、これはちゃんと注目すべきやつだ」と思い直した。

8Bモデルが32Bを超えるってどういうこと？

一番驚いたのはここ。Granite 4.1の8Bインストラクトモデルが、以前のGranite 4.0-H-Small（32B-A9Bというパラメータ数のMoEモデル）と同等以上の性能を出してるという話。パラメータ数でいえば4倍近く違うのに、だ。

モデルを大きくすれば賢くなる、というのが今までの常識だったけど、この結果を見ると「データの質と学習の設計次第でそこを覆せる」ということになる。自分がAIツールを毎日触っていて感じてきた「なんか最近の小さいモデル、ちゃんと賢くない？」という感覚と一致する話だった。

15兆トークン・5フェーズで何が起きてるのか

技術の細かい話は省くけど、大枠だけ押さえておくと面白い。Granite 4.1は約15兆トークンのデータで学習されていて、その学習が5つのフェーズに分かれている。最初の10兆トークンで幅広い言語理解を作り、次の2兆トークンでコードと数学を強化する、という流れ。

最後のフェーズでは、コンテキストウィンドウを最大51万2千トークンまで伸ばす長文対応の学習もやってる。これ、書類の束をまるごと読み込ませるような使い方ができるってことで、実用面でかなり変わってくる話だと思う。

しかも全部Apache 2.0ライセンスで公開されてるので、商用利用も含めて自由に使える。これは地味に大きい。

自分がここ最近AIツールを試しまくっていて思うのは、「どのモデルを選ぶか」より「どのモデルが自分の用途にフィットするか」の方が重要になってきたということ。GPT-4やClaudeが強いのはわかってるけど、Granite 4.1みたいにオープンで小さくて速いモデルが実用レベルに達してくると、選択肢の幅が一気に広がる。

フォロワーのみんなはどう思う？「オープンソースのLLMをもう試してる」って人、結構いるんじゃないかな。Xで感想送ってきてほしい。自分は来週、実際にGranite 4.1-8Bをローカルで動かして、普段使ってるツールとの比較をやってみるつもりだ。