生物学専用LLM「GPT-Rosalind」から学ぶ、ドメイン特化APIの設計思想

OpenAIが「GPT-Rosalind」というLLMを発表した。ロザリンド・フランクリンの名を冠したこのモデル、生物学ワークフロー専用に訓練されている。

これ読んだとき、正直「また汎用LLMの亜種か」と思ってスルーしかけた。でも中身を見てちょっと考え直した。

「50の生物学ワークフロー」に絞ったという事実

OpenAIのLife Sciences Product Leadであるユニュン・ワン氏によると、このモデルは50の代表的な生物学ワークフローと、主要な公開データベースへのアクセス方法を学習させたという。汎用LLMに「生物学もわかるようにしておく」ではなく、最初からスコープを決めて訓練している。

ここが刺さった。自分がLLM APIを使うとき、プロンプトで「あなたは〇〇の専門家です」って書くじゃないですか。あれって結局、訓練済みの汎用知識から特定の振る舞いを引き出しているだけで、本当にそのドメインに最適化されているわけじゃない。GPT-Rosalindはその違いを体で示してきた感じがする。

さらに面白いのが、モデルが「懐疑的になるように」チューニングされている点。LLMのお世辞っぽい返答や過度な楽観を抑制するために、ドラッグターゲットとして微妙なものはちゃんと「これは良くない」と返すよう調整されているらしい。

これ、自分のAPIラッパー設計にも同じ話が当てはまる

LLMを組み込んだツールを作るとき、自分はよく「一個のプロンプトで全部やらせよう」としてしまう。コードレビュー支援でも、「バグ検出・リファクタ提案・ドキュメント生成を同時にやって」みたいな指示を一回で投げがちだった。

でも最近試してみたのが、タスクごとにシステムプロンプトを完全に分離する構成。たとえばこんな感じ：

BUG_REVIEW_SYSTEM = """
あなたはバグ検出専門のレビュアーです。
リファクタや設計提案は一切行わないでください。
バグの可能性がある箇所のみ報告してください。
"""

REFACTOR_SYSTEM = """
あなたはリファクタリング専門のレビュアーです。
バグ修正には触れないでください。
コードの可読性・保守性の改善のみ提案してください。
"""

これをやるだけで、返ってくる内容のノイズが明らかに減った。「懐疑的にチューニング」という発想は、要するにモデルの応答範囲を絞るということでもある。

クローズドアクセスという判断をどう見るか

GPT-Rosalindは今のところ米国法人しかアクセス申請できない。ウイルスの感染力を最適化させるといった悪用リスクを理由に、オープンには提供しないという判断だ。

これはAPIを設計する側として参考になる。「誰でも使えるようにしたい」という気持ちはあるけど、強力なドメイン特化機能ほど、誰に渡すかの設計が先に必要になる。自分が社内向けツールを作るときも、「どのチームが・どのユースケースで使うか」を決めずに実装から入ると、後からスコープ問題で詰まる。

汎用より特化、全公開より信頼ベースのアクセス制御、万能プロンプトより役割分離。GPT-Rosalindの設計判断は、生物学の話だけじゃなく自分のLLM活用コードへの問い直しになった。

自分は来週、今のコードレビューbotのシステムプロンプトをタスク別に分割して、応答品質が変わるかちゃんと計測してみるつもりだ。

生物学専用LLM「GPT-Rosalind」から学ぶ、ドメイン特化APIの設計思想

「50の生物学ワークフロー」に絞ったという事実

これ、自分のAPIラッパー設計にも同じ話が当てはまる

クローズドアクセスという判断をどう見るか

無料相談受付中