Xを眺めていたら、Hugging Faceのブログに面白い記事が流れてきた。AWSが基盤モデルのトレーニングとinference(推論)に使うインフラの全体像を公開したやつ。英語だったけど読んでみたら、自分の中の「AIってとにかく大きいモデルを作ればいい」という感覚が少し崩れた。
長い間、AIの世界では「モデルを大きくすれば性能が上がる」という信仰みたいなものがあった。Kaplan et al.(2020)という研究が、パラメータ数・データ量・計算量を増やせば損失がきれいに下がるという「べき乗則」を示したことで、その流れが加速した。でも今はそれだけじゃない。NVIDIA自身が「スケーリング則は3つある」と言い始めている。事前学習だけじゃなく、SFT(教師あり微調整)やRLを使った後学習、さらにテスト時に計算を増やす「推論時スケーリング」まで含めると、もう話がぜんぜん違ってくる。海外のAI界隈では当たり前の話かもしれないけど、日本では意外と広まってない気がする。
で、その複雑化したAIライフサイクルを支えるのがAWSのインフラなんだけど、記事の中でいくつか具体的な構成が出てきた。たとえばGPUインスタンスの話。p5.48xlargeというインスタンスにはNVIDIA H100が8基入っていて、新しいp6-b200.48xlargeにはBlackwell B200というアーキテクチャのGPUが積まれている。さらにその上位としてBlackwell Ultra B300搭載のp6-b300.48xlargeまで出てきた。正直、型番を追うだけでもしんどい。でも「どのGPUを使うか」より、その上のソフトウェア層の話の方が自分には刺さった。
記事が強調していたのは、コンピューティング・ネットワーク・ストレージの三つ組みの上に、SlurmやKubernetesでリソースを管理して、PyTorchやJAXで学習を走らせて、PrometheusとGrafanaで監視するという4層構造。ハードが最強でも、観測できなければブラックボックスのまま。そこに費用と時間をかける理由がわかった気がした。
毎日AIツールを触っていると、どうしても「出力の良し悪し」にしか目がいかない。でも実際には、その出力の品質はこういうインフラ層の設計に依存している。モデルの評判だけ追いかけていても見えない部分がある。自分がレビューしているツールの「なぜこのモデルは遅いのか」「なぜ品質が安定しないのか」が、こういう記事を読むと少し解像度が上がる感じがする。
フォロワーの皆さんは、使っているAIツールの裏側のインフラってどこか気にしたことある? 意外とここが体験の差に直結してると思うんだけど、どうだろう。
「とにかくデカくすれば強くなる」は終わった?
長い間、AIの世界では「モデルを大きくすれば性能が上がる」という信仰みたいなものがあった。Kaplan et al.(2020)という研究が、パラメータ数・データ量・計算量を増やせば損失がきれいに下がるという「べき乗則」を示したことで、その流れが加速した。でも今はそれだけじゃない。NVIDIA自身が「スケーリング則は3つある」と言い始めている。事前学習だけじゃなく、SFT(教師あり微調整)やRLを使った後学習、さらにテスト時に計算を増やす「推論時スケーリング」まで含めると、もう話がぜんぜん違ってくる。海外のAI界隈では当たり前の話かもしれないけど、日本では意外と広まってない気がする。
裏側のインフラ、どんな構成なの?
で、その複雑化したAIライフサイクルを支えるのがAWSのインフラなんだけど、記事の中でいくつか具体的な構成が出てきた。たとえばGPUインスタンスの話。p5.48xlargeというインスタンスにはNVIDIA H100が8基入っていて、新しいp6-b200.48xlargeにはBlackwell B200というアーキテクチャのGPUが積まれている。さらにその上位としてBlackwell Ultra B300搭載のp6-b300.48xlargeまで出てきた。正直、型番を追うだけでもしんどい。でも「どのGPUを使うか」より、その上のソフトウェア層の話の方が自分には刺さった。
記事が強調していたのは、コンピューティング・ネットワーク・ストレージの三つ組みの上に、SlurmやKubernetesでリソースを管理して、PyTorchやJAXで学習を走らせて、PrometheusとGrafanaで監視するという4層構造。ハードが最強でも、観測できなければブラックボックスのまま。そこに費用と時間をかける理由がわかった気がした。
毎日AIツールを触っていると、どうしても「出力の良し悪し」にしか目がいかない。でも実際には、その出力の品質はこういうインフラ層の設計に依存している。モデルの評判だけ追いかけていても見えない部分がある。自分がレビューしているツールの「なぜこのモデルは遅いのか」「なぜ品質が安定しないのか」が、こういう記事を読むと少し解像度が上がる感じがする。
フォロワーの皆さんは、使っているAIツールの裏側のインフラってどこか気にしたことある? 意外とここが体験の差に直結してると思うんだけど、どうだろう。