Hugging FaceのブログでIBMリサーチの記事が流れてきて、マジで「あーそういうことか」ってなった。
タイトルは「Beyond LLMs」。要するに、LLMだけに頼ってもエンタープライズ向けのAIはスケールしないよ、という話だ。エージェントに「agent logic」を組み込むことが大事、という主張で、IBM自身がそれを実証した内容になってる。
ざっくり言うと、ナレッジグラフやプログラム解析ライブラリみたいなソフトウェアの仕組みを、LLMの外側のエージェント層に積んでおくイメージ。これによってLLMに渡すコンテキストを絞り込めるから、ハルシネーションが減るし、トークン消費も抑えられる。
記事で出てくる具体例がヤバい。IBMのwatsonx Code Assistantという製品は、レガシーなCobolやPL/1のコードを解析する用途に使われてる。最大100万行・1000プログラム規模のシステムを相手に、フロンティアLLMだけのアプローチと比べてトークン消費が約30倍少ない状態で同等以上の精度を出してるらしい。
30倍って相当でかい数字だ。コストに直結するから、企業側がなぜそこにこだわるのかがよくわかる。
もう一個、Asterというプログラム解析ライブラリの話も出てくる。テスト自動生成のためのツールで、開発者コミュニティの評価でオープンソースのツールより高評価を得てるという話が書いてあった。ここも「LLMを使うけど、ロジックは別で持つ」という設計思想が共通してる。
毎日いろんなAIツールを触ってる自分からすると、こういう記事はちょっと違う種類の学びがある。普段追いかけてるのは「Claude 4がこう使える」「Geminiがここまでできる」みたいな話が多い。モデル単体の性能比較とか、新機能のキャッチアップとか。
でもIBMの記事が言ってるのは、モデルのスペックよりもその周りの設計が現場ではむしろ決め手になる、ということだ。企業の業務フローって動的で長期稼働が前提だし、APIやデータベースが複雑に絡み合ってるし、業界規制もある。その環境でLLMをそのまま投入しても、コンテキストがパンクするかトークン代が爆発するかのどちらかになりやすい。
自分のフォロワーを見てると、ChatGPTやClaudeをビジネスに使い始めた中小企業の人が増えてきてる。「使ってみたけどなんか期待より薄い」という声もXで結構来る。この記事の話と重ねると、その「薄さ」の正体って、モデルが悪いんじゃなくて設計が追いついてないケースが多いんじゃないかって気がしてきた。
AIパイロットの失敗率が高いという調査結果に複数の研究が言及してるとも書いてあって、それは日本も例外じゃないだろう。
正直、今まで「このモデルが速い」「このUIが好き」みたいなレビュー動画が再生数取れてたから、そのスタイルを続けてた。でもエージェントAIの話が盛り上がってきた今、もう少し「設計レイヤー」の話もやったほうが面白くなる気がしてる。
妻に「また難しい話の動画撮るの?」って言われそうだが、子どもが昼寝してる2時間くらいで短めのコンテンツとして形にできるかどうか試してみようと思ってる。
「agent logicって何?」を5分で説明する動画、フォロワーのみんなは見たい? Xで反応あったらマジで作る。
タイトルは「Beyond LLMs」。要するに、LLMだけに頼ってもエンタープライズ向けのAIはスケールしないよ、という話だ。エージェントに「agent logic」を組み込むことが大事、という主張で、IBM自身がそれを実証した内容になってる。
agent logicって何なのか
ざっくり言うと、ナレッジグラフやプログラム解析ライブラリみたいなソフトウェアの仕組みを、LLMの外側のエージェント層に積んでおくイメージ。これによってLLMに渡すコンテキストを絞り込めるから、ハルシネーションが減るし、トークン消費も抑えられる。
記事で出てくる具体例がヤバい。IBMのwatsonx Code Assistantという製品は、レガシーなCobolやPL/1のコードを解析する用途に使われてる。最大100万行・1000プログラム規模のシステムを相手に、フロンティアLLMだけのアプローチと比べてトークン消費が約30倍少ない状態で同等以上の精度を出してるらしい。
30倍って相当でかい数字だ。コストに直結するから、企業側がなぜそこにこだわるのかがよくわかる。
もう一個、Asterというプログラム解析ライブラリの話も出てくる。テスト自動生成のためのツールで、開発者コミュニティの評価でオープンソースのツールより高評価を得てるという話が書いてあった。ここも「LLMを使うけど、ロジックは別で持つ」という設計思想が共通してる。
日本のAIツール界隈ではあまり語られてない視点
毎日いろんなAIツールを触ってる自分からすると、こういう記事はちょっと違う種類の学びがある。普段追いかけてるのは「Claude 4がこう使える」「Geminiがここまでできる」みたいな話が多い。モデル単体の性能比較とか、新機能のキャッチアップとか。
でもIBMの記事が言ってるのは、モデルのスペックよりもその周りの設計が現場ではむしろ決め手になる、ということだ。企業の業務フローって動的で長期稼働が前提だし、APIやデータベースが複雑に絡み合ってるし、業界規制もある。その環境でLLMをそのまま投入しても、コンテキストがパンクするかトークン代が爆発するかのどちらかになりやすい。
自分のフォロワーを見てると、ChatGPTやClaudeをビジネスに使い始めた中小企業の人が増えてきてる。「使ってみたけどなんか期待より薄い」という声もXで結構来る。この記事の話と重ねると、その「薄さ」の正体って、モデルが悪いんじゃなくて設計が追いついてないケースが多いんじゃないかって気がしてきた。
AIパイロットの失敗率が高いという調査結果に複数の研究が言及してるとも書いてあって、それは日本も例外じゃないだろう。
じゃあ自分の発信はどうする
正直、今まで「このモデルが速い」「このUIが好き」みたいなレビュー動画が再生数取れてたから、そのスタイルを続けてた。でもエージェントAIの話が盛り上がってきた今、もう少し「設計レイヤー」の話もやったほうが面白くなる気がしてる。
妻に「また難しい話の動画撮るの?」って言われそうだが、子どもが昼寝してる2時間くらいで短めのコンテンツとして形にできるかどうか試してみようと思ってる。
「agent logicって何?」を5分で説明する動画、フォロワーのみんなは見たい? Xで反応あったらマジで作る。