Gemini 3.1のHome統合が変えるスマートホームAPIの設計思想

Google HomeのGeminiがバージョン3.1にアップデートされた。
このニュースを読んで最初に思ったのは「またUIの話か」ではなく、「マルチステップタスクの処理をどう実装したのか」だった。

Gemini 3.1のリリースノートで気になったのは、複数のタスクを1つの音声コマンドで実行できるようになった点だ。
「電気を消して、明日の朝7時にアラームをセットして、カーテンを閉めて」を1発で処理できる。
裏側の実装を想像すると、これはシンプルなfunctionコールの羅列じゃなくて、意図の解析とタスクグラフの構築が同時に走っているはずだ。

マルチステップ処理をLLMに任せるときの設計判断

自分が最近個人開発で触っているLLM統合でも同じ問題にぶつかった。
ユーザーの1つの入力に対して複数のAPIを順番に叩く必要があるとき、どこまでLLMに解釈を任せるかが悩みどころだ。
Gemini for Homeが「recurring eventやall-day eventの扱い」まで改善したというのは、エッジケースのハンドリングをモデル側に寄せたということだと読んでいる。

自分のコードで言えば、こういう設計の揺れが出やすい。

タスクの分解をプロンプトで指示する方法と、アプリ側でパーサーを書いてLLMの出力を構造化する方法。
前者はシンプルだけど、モデルのバージョンが変わったときに壊れるリスクがある。
後者はコードが増えるけど、テストが書きやすい。

Gemini 3.1がやっていることは、おそらく前者の精度を後者並みに引き上げようとしているアプローチだ。
モデル側で意図解析とタスク順序の決定を吸収しているなら、クライアント側のコードはずいぶん薄くできる。

Ask Home on WebとAPIアクセスの可能性

今回のアップデートで個人的に一番気になっているのはAsk Home on Webのパブリックプレビューだ。
ブラウザからカメラ履歴を自然言語で検索したり、オートメーションを作ったりできるようになる。
これはつまり、Webから叩けるインターフェースが増えるということだ。

今のGoogle Home SDKはできることが限られていて、自前でオートメーションを組むのにすごく遠回りを強いられる。
Ask Home on Webのプレビューが進んで公式APIが整備されるなら、自分のホームオートメーションをコードで管理したい人間には朗報だ。
REST APIかGraphQLかはわからないけど、どちらにしてもローカルのHomebridge経由で無理やり繋いでいる現状より100倍マシになる。

もう1つの注目点は通知機能の改善だ。
通知にクイックアクションボタンを持たせてデバイスを直接操作できるようにするらしい。
Webhookとプッシュ通知を組み合わせて使っている自分のシステムで、同じ設計をやろうとすると結構な実装コストがかかる。
それをプラットフォーム側で吸収してくれるなら、自分のコードの責務が減る。

LLMにマルチステップタスクを渡すとき、モデルの解釈精度に依存しすぎると本番でハマる。
Gemini 3.1のアップデートがどこまでエッジケースを拾えているか、自分は実際にGoogle Homeで試してからAPIの設計判断に活かすつもりだ。
Ask Home on Webのプレビューが始まったら、まずカメラ履歴の自然言語検索からレスポンスの構造を観察してみる。