OpenAIが「GPT-Rosalind」というLLMを発表した。ロザリンド・フランクリンの名を冠したこのモデル、生物学ワークフロー専用に訓練されている。
これ読んだとき、正直「また汎用LLMの亜種か」と思ってスルーしかけた。でも中身を見てちょっと考え直した。
OpenAIのLife Sciences Product Leadであるユニュン・ワン氏によると、このモデルは50の代表的な生物学ワークフローと、主要な公開データベースへのアクセス方法を学習させたという。汎用LLMに「生物学もわかるようにしておく」ではなく、最初からスコープを決めて訓練している。
ここが刺さった。自分がLLM APIを使うとき、プロンプトで「あなたは〇〇の専門家です」って書くじゃないですか。あれって結局、訓練済みの汎用知識から特定の振る舞いを引き出しているだけで、本当にそのドメインに最適化されているわけじゃない。GPT-Rosalindはその違いを体で示してきた感じがする。
さらに面白いのが、モデルが「懐疑的になるように」チューニングされている点。LLMのお世辞っぽい返答や過度な楽観を抑制するために、ドラッグターゲットとして微妙なものはちゃんと「これは良くない」と返すよう調整されているらしい。
LLMを組み込んだツールを作るとき、自分はよく「一個のプロンプトで全部やらせよう」としてしまう。コードレビュー支援でも、「バグ検出・リファクタ提案・ドキュメント生成を同時にやって」みたいな指示を一回で投げがちだった。
でも最近試してみたのが、タスクごとにシステムプロンプトを完全に分離する構成。たとえばこんな感じ:
これをやるだけで、返ってくる内容のノイズが明らかに減った。「懐疑的にチューニング」という発想は、要するにモデルの応答範囲を絞るということでもある。
GPT-Rosalindは今のところ米国法人しかアクセス申請できない。ウイルスの感染力を最適化させるといった悪用リスクを理由に、オープンには提供しないという判断だ。
これはAPIを設計する側として参考になる。「誰でも使えるようにしたい」という気持ちはあるけど、強力なドメイン特化機能ほど、誰に渡すかの設計が先に必要になる。自分が社内向けツールを作るときも、「どのチームが・どのユースケースで使うか」を決めずに実装から入ると、後からスコープ問題で詰まる。
汎用より特化、全公開より信頼ベースのアクセス制御、万能プロンプトより役割分離。GPT-Rosalindの設計判断は、生物学の話だけじゃなく自分のLLM活用コードへの問い直しになった。
自分は来週、今のコードレビューbotのシステムプロンプトをタスク別に分割して、応答品質が変わるかちゃんと計測してみるつもりだ。
これ読んだとき、正直「また汎用LLMの亜種か」と思ってスルーしかけた。でも中身を見てちょっと考え直した。
「50の生物学ワークフロー」に絞ったという事実
OpenAIのLife Sciences Product Leadであるユニュン・ワン氏によると、このモデルは50の代表的な生物学ワークフローと、主要な公開データベースへのアクセス方法を学習させたという。汎用LLMに「生物学もわかるようにしておく」ではなく、最初からスコープを決めて訓練している。
ここが刺さった。自分がLLM APIを使うとき、プロンプトで「あなたは〇〇の専門家です」って書くじゃないですか。あれって結局、訓練済みの汎用知識から特定の振る舞いを引き出しているだけで、本当にそのドメインに最適化されているわけじゃない。GPT-Rosalindはその違いを体で示してきた感じがする。
さらに面白いのが、モデルが「懐疑的になるように」チューニングされている点。LLMのお世辞っぽい返答や過度な楽観を抑制するために、ドラッグターゲットとして微妙なものはちゃんと「これは良くない」と返すよう調整されているらしい。
これ、自分のAPIラッパー設計にも同じ話が当てはまる
LLMを組み込んだツールを作るとき、自分はよく「一個のプロンプトで全部やらせよう」としてしまう。コードレビュー支援でも、「バグ検出・リファクタ提案・ドキュメント生成を同時にやって」みたいな指示を一回で投げがちだった。
でも最近試してみたのが、タスクごとにシステムプロンプトを完全に分離する構成。たとえばこんな感じ:
BUG_REVIEW_SYSTEM = """
あなたはバグ検出専門のレビュアーです。
リファクタや設計提案は一切行わないでください。
バグの可能性がある箇所のみ報告してください。
"""
REFACTOR_SYSTEM = """
あなたはリファクタリング専門のレビュアーです。
バグ修正には触れないでください。
コードの可読性・保守性の改善のみ提案してください。
"""これをやるだけで、返ってくる内容のノイズが明らかに減った。「懐疑的にチューニング」という発想は、要するにモデルの応答範囲を絞るということでもある。
クローズドアクセスという判断をどう見るか
GPT-Rosalindは今のところ米国法人しかアクセス申請できない。ウイルスの感染力を最適化させるといった悪用リスクを理由に、オープンには提供しないという判断だ。
これはAPIを設計する側として参考になる。「誰でも使えるようにしたい」という気持ちはあるけど、強力なドメイン特化機能ほど、誰に渡すかの設計が先に必要になる。自分が社内向けツールを作るときも、「どのチームが・どのユースケースで使うか」を決めずに実装から入ると、後からスコープ問題で詰まる。
汎用より特化、全公開より信頼ベースのアクセス制御、万能プロンプトより役割分離。GPT-Rosalindの設計判断は、生物学の話だけじゃなく自分のLLM活用コードへの問い直しになった。
自分は来週、今のコードレビューbotのシステムプロンプトをタスク別に分割して、応答品質が変わるかちゃんと計測してみるつもりだ。