AWSがAIの「裏側」を公開。スケーリング神話が崩れつつある

Xを眺めていたら、Hugging Faceのブログに面白い記事が流れてきた。AWSが基盤モデルのトレーニングとinference（推論）に使うインフラの全体像を公開したやつ。英語だったけど読んでみたら、自分の中の「AIってとにかく大きいモデルを作ればいい」という感覚が少し崩れた。

「とにかくデカくすれば強くなる」は終わった？

長い間、AIの世界では「モデルを大きくすれば性能が上がる」という信仰みたいなものがあった。Kaplan et al.(2020)という研究が、パラメータ数・データ量・計算量を増やせば損失がきれいに下がるという「べき乗則」を示したことで、その流れが加速した。でも今はそれだけじゃない。NVIDIA自身が「スケーリング則は3つある」と言い始めている。事前学習だけじゃなく、SFT（教師あり微調整）やRLを使った後学習、さらにテスト時に計算を増やす「推論時スケーリング」まで含めると、もう話がぜんぜん違ってくる。海外のAI界隈では当たり前の話かもしれないけど、日本では意外と広まってない気がする。

裏側のインフラ、どんな構成なの？

で、その複雑化したAIライフサイクルを支えるのがAWSのインフラなんだけど、記事の中でいくつか具体的な構成が出てきた。たとえばGPUインスタンスの話。p5.48xlargeというインスタンスにはNVIDIA H100が8基入っていて、新しいp6-b200.48xlargeにはBlackwell B200というアーキテクチャのGPUが積まれている。さらにその上位としてBlackwell Ultra B300搭載のp6-b300.48xlargeまで出てきた。正直、型番を追うだけでもしんどい。でも「どのGPUを使うか」より、その上のソフトウェア層の話の方が自分には刺さった。

記事が強調していたのは、コンピューティング・ネットワーク・ストレージの三つ組みの上に、SlurmやKubernetesでリソースを管理して、PyTorchやJAXで学習を走らせて、PrometheusとGrafanaで監視するという4層構造。ハードが最強でも、観測できなければブラックボックスのまま。そこに費用と時間をかける理由がわかった気がした。

毎日AIツールを触っていると、どうしても「出力の良し悪し」にしか目がいかない。でも実際には、その出力の品質はこういうインフラ層の設計に依存している。モデルの評判だけ追いかけていても見えない部分がある。自分がレビューしているツールの「なぜこのモデルは遅いのか」「なぜ品質が安定しないのか」が、こういう記事を読むと少し解像度が上がる感じがする。

フォロワーの皆さんは、使っているAIツールの裏側のインフラってどこか気にしたことある？　意外とここが体験の差に直結してると思うんだけど、どうだろう。