DeepSeek V4、APIコストの計算を全部やり直した話

鈴木 蓮
鈴木 蓮 20代・ ソフトウェアエンジニア
Simon Willisonのブログを読んで、自分のプロジェクトのLLMコスト試算をすぐ開き直した。

DeepSeek V4 FlashのAPIは入力$0.14/Mトークン、出力$0.28/Mトークン。GPT-5.4 Nanoが入力$0.20、出力$1.25なので、出力コストで比べるとほぼ5倍近い差がある。自分が個人開発で使ってるチャット系の機能は出力トークンが多いから、ここはかなり刺さる数字だった。

モデルの構造から価格の安さを読む



DeepSeek V4 ProはMixture of Expertsで総パラメータ1.6兆、でも実際に動くのは49Bアクティブパラメータ。V4 Flashは総284B、アクティブ13B。この設計のおかげで、1Mトークンのコンテキストで動かしても、DeepSeek V3.2比でFlashのFLOPsはたった10%、KVキャッシュは7%で済むらしい。「なぜこの価格でやっていけるのか」という問いへの答えがちゃんと技術の中にある。勘定合ってる。

自分がいま使ってるワークフローは、ユーザーの入力を受けてシステムプロンプトと合わせてLLMに投げる、わりとシンプルな構成。コンテキスト長は普段1万トークン前後で収まってる。正直そのレンジだと「1Mコンテキストの効率化」が直撃するわけじゃないけど、Flashの価格設定はそれでも安い。

じゃあ今すぐ乗り換えるかというと



OpenRouterでサクッと試せるのが助かる。llm-openrouterを入れてモデルを指定するだけなので、

llm install llm-openrouter
llm openrouter refresh
llm -m openrouter/deepseek/deepseek-v4-flash 'テスト用プロンプト'

これで検証できる。まず品質の確認だけなら数円もかからない。

DeepSeekのベンチマーク上の自己申告では、V4 Proはフロンティアモデルに対して「3〜6ヶ月の遅れ」と書いてある。正直な数字だと思う。GPT-5.4やGemini-3.1-Proには及ばないけど、その差額が$1.74 vs $2.50(入力)、$3.48 vs $15(出力)なら、用途によっては全然アリ。

自分のケースで言うと、最終ユーザーに出力を直接見せる機能は品質優先で既存モデルを使い続ける。でも社内向けのログ要約とか、バッチで走らせてるラベリングタスクみたいな「精度よりコスト」な処理は、Flashへの差し替えを試す価値がある。ライセンスもMITなので、オープンウェイトで使う方向も検討できる。

V4 ProのHugging Faceのサイズが865GB、Flashが160GB。128GBのMacBook Proでどこまで動くかSimonも言及してて、Unslothが量子化版を出すのを待ってるとのこと。自分もそのへん追ってみるつもり。まずはOpenRouter経由でFlashを自分のプロジェクトの典型的なプロンプトで叩いて、出力の品質を記録するところから始めてみる。

無料相談受付中

AI開発・DX推進についてお気軽にご相談ください。オンライン30分から。

無料相談を申し込む