Simon WillisonがPyCon US 2026でやったライトニングトークのスライドを読んだ。5分で過去6ヶ月のLLM動向をまとめたやつで、内容がえぐくてしばらく頭から離れなかった。
特に刺さったのが「coding agents went from often-work to mostly-work」という一文だ。2025年11月あたりを境に、コーディングエージェントのクオリティが明確に閾値を超えたと書いてある。OpenAIとAnthropicがRLVR(Reinforcement Learning from Verifiable Rewards)に1年近くぶち込んだ結果、CodexとClaude Codeが「ミスを直し続けるコスト」を払わなくてもいい水準に達したということらしい。
正直、去年の秋ごろまで自分もコーディングエージェントには懐疑的だった。GitHub Copilotはinline補完で使う分にはまあ便利だけど、エージェントに任せると謎のリファクタが混入したりテストが壊れたりして、レビューコストのほうが高くつく感覚があった。「動くには動くけど触りたくない」みたいな。
でも今年に入ってClaude Codeをちゃんと使い直してみたら、明らかに別物になってた。具体的にはこういう場面で使えてる:
以前は生成物を1行ずつ確認しないと怖くて使えなかった。今は差分をざっくり眺めて方向性が合ってればOKくらいの信頼感がある。自分のレビュー時間が体感で3割は削れてる気がする。
Willisonの記事にはモデルの「best」ポジションがNovember以降だけで5回入れ替わったと書いてある。Claude Sonnet 4.5 → GPT-5.1 → Gemini 3 → GPT-5.1 Codex Max → Claude Opus 4.5という順番だ。ペリカンが自転車に乗れるかどうかで評価するのは笑えるけど、実務目線だと「どのモデルが一番強いか」より「同じタスクをどのモデルで回すのが最安か」のほうが自分には切実だ。
個人開発のサイドプロジェクトでAPI代がじわじわ膨らんでいて、先月は請求が思ったより上に来た。Opus系はやっぱり高い。で、今試してるのがモデルのルーティング設計で、コンテキスト長が短くて精度を問わないタスクはGemma 4系のローカル推論に逃がして、複雑な設計相談だけOpusを使う構成だ。
Willisonの記事でもGoogleがGemma 4シリーズを出したと触れていて、「most capable open-weight models yet」と書いてある。ローカルで動かせるモデルのクオリティが上がり続けてるのは個人開発者にとってはかなりありがたい話で、クラウドAPIへの依存を意図的に下げる選択肢が現実的になってきた。
記事に出てくる「OpenClaw」という話が気になって調べた。もともとNovember末にPeteという人が「Warelay」としてコミットを始めたリポジトリが、名前を何度か変えながらFebruary頃に爆発的に広まったやつらしい。「personal AI assistant」の総称として「Claws」というジャンル名まで生まれたと書いてある。Mac Miniがシリコンバレーで売り切れたのもClaw用に買う人が増えたからという話で、Drew Breunigが「新しいデジタルペット」と表現したのは笑った。
個人的にはこのジャンル、アーキテクチャとしてどう動いてるのかがまだよくわかってない。ローカルLLM + 何らかのオーケストレーション層という理解でいいのか、もう少し掘ってみるつもりだ。自分の個人開発にそのまま使えるかどうかは、まずコードを読まないとなんとも言えない。
とりあえず今週末はOpenClawのリポジトリをcloneして、アーキテクチャを図に起こしてみる。理解してから使うか捨てるか決める。
特に刺さったのが「coding agents went from often-work to mostly-work」という一文だ。2025年11月あたりを境に、コーディングエージェントのクオリティが明確に閾値を超えたと書いてある。OpenAIとAnthropicがRLVR(Reinforcement Learning from Verifiable Rewards)に1年近くぶち込んだ結果、CodexとClaude Codeが「ミスを直し続けるコスト」を払わなくてもいい水準に達したということらしい。
自分のコードがどう変わったか
正直、去年の秋ごろまで自分もコーディングエージェントには懐疑的だった。GitHub Copilotはinline補完で使う分にはまあ便利だけど、エージェントに任せると謎のリファクタが混入したりテストが壊れたりして、レビューコストのほうが高くつく感覚があった。「動くには動くけど触りたくない」みたいな。
でも今年に入ってClaude Codeをちゃんと使い直してみたら、明らかに別物になってた。具体的にはこういう場面で使えてる:
- 既存のPythonサービスに新しいエンドポイントを追加するとき、ルーティング・バリデーション・テストをまとめて生成させる
- TypeScriptの型エラーをコンテキストごと渡してfix PRを出させる
- 依存ライブラリのメジャーバージョンアップに伴うbreaking change対応を任せる
以前は生成物を1行ずつ確認しないと怖くて使えなかった。今は差分をざっくり眺めて方向性が合ってればOKくらいの信頼感がある。自分のレビュー時間が体感で3割は削れてる気がする。
モデルのベンチ争いより「コスト設計」のほうが気になる
Willisonの記事にはモデルの「best」ポジションがNovember以降だけで5回入れ替わったと書いてある。Claude Sonnet 4.5 → GPT-5.1 → Gemini 3 → GPT-5.1 Codex Max → Claude Opus 4.5という順番だ。ペリカンが自転車に乗れるかどうかで評価するのは笑えるけど、実務目線だと「どのモデルが一番強いか」より「同じタスクをどのモデルで回すのが最安か」のほうが自分には切実だ。
個人開発のサイドプロジェクトでAPI代がじわじわ膨らんでいて、先月は請求が思ったより上に来た。Opus系はやっぱり高い。で、今試してるのがモデルのルーティング設計で、コンテキスト長が短くて精度を問わないタスクはGemma 4系のローカル推論に逃がして、複雑な設計相談だけOpusを使う構成だ。
Willisonの記事でもGoogleがGemma 4シリーズを出したと触れていて、「most capable open-weight models yet」と書いてある。ローカルで動かせるモデルのクオリティが上がり続けてるのは個人開発者にとってはかなりありがたい話で、クラウドAPIへの依存を意図的に下げる選択肢が現実的になってきた。
OpenClawって結局なんなのか
記事に出てくる「OpenClaw」という話が気になって調べた。もともとNovember末にPeteという人が「Warelay」としてコミットを始めたリポジトリが、名前を何度か変えながらFebruary頃に爆発的に広まったやつらしい。「personal AI assistant」の総称として「Claws」というジャンル名まで生まれたと書いてある。Mac Miniがシリコンバレーで売り切れたのもClaw用に買う人が増えたからという話で、Drew Breunigが「新しいデジタルペット」と表現したのは笑った。
個人的にはこのジャンル、アーキテクチャとしてどう動いてるのかがまだよくわかってない。ローカルLLM + 何らかのオーケストレーション層という理解でいいのか、もう少し掘ってみるつもりだ。自分の個人開発にそのまま使えるかどうかは、まずコードを読まないとなんとも言えない。
とりあえず今週末はOpenClawのリポジトリをcloneして、アーキテクチャを図に起こしてみる。理解してから使うか捨てるか決める。