LLMの学習データに自分の曲が入ってる話

The Atlanticが公開した検索可能なデータベース、X のタイムラインに流れてきて思わず開いた。Alex Reisnerという記者が掘り起こしたやつで、AIモデルの学習に使われた音楽データセットが4つある。そのうち2つが1200万曲と900万曲という規模で、残り2つも10万曲超え。さらっと読んでたら Google と Stability AI がそれを使ったと論文で認めているという一文があって、「あ、これ本番運用したモデルに食わせてるやつじゃん」と妙な感覚になった。

自分は音楽作らないけど、この話を OSS のコードに置き換えると途端に他人事じゃなくなる。GitHubに上げてるライブラリって、今どのモデルの学習に使われてるかわからない。Apache 2.0 だから商用も OK だけど、モデルの学習に使っていいと明示してライセンスを書いたわけじゃない。音楽の話でいうと、Free Music Archive のデータは個人視聴は無料だけど商用利用にはライセンスが必要なのに、それが学習データとして使われているというくだりがある。コードも似た構造になってきてる気がした。

もう一個えぐいと思ったのは、データの配布方法。3つのデータセットが YouTube や Spotify の URL のリストとして配布されていて、開発者はツールで実際の音声をダウンロードしているという話。そのツールはログインや広告のバイパスができる実装になってるらしい。正直「あーそういうスクレイパー、npm に転がってるやつじゃん」と思った。技術的には動かせちゃうから存在してる、という状態。

自分の開発でモデルをfine-tuneするときのデータ収集、改めて棚卸しした。今年の頭にちょっとやった実験で、こういう構成を書いた。

dataset:
  sources:
    - type: github_public
      license_filter: ["MIT", "Apache-2.0"]
    - type: stackoverflow
      note: "CC BY-SA 4.0 確認済み"
  exclude:
    - no_license
    - proprietary

ライセンスフィルタはかけてたけど、「AIの学習に使える」かどうかの確認まではしてなかった。今回の記事を読んで、ここに `training_use_permitted` みたいなフラグを別途チェックする処理を噛ませないといけないなと感じた。

Lady Gaga、Radiohead、Wu-Tang Clan、Aphex Twin の名前がデータセットにあるというのも、なんというか現実感があった。好き嫌いじゃなくて、それだけの規模のアーティストの作品が無断で使われているとすれば、個人開発者のコードなんて当然のようにスコープ内に入ってる。

データの出所をコードで記録しておく話

実務レベルの話をすると、学習データの provenance を残しておく文化がチームに根付いてないと後で詰む。モデルを配布したあとで「このデータどこから来たの」と聞かれたとき、答えられない状態は怖い。自分のチームでは今こういうことを記録するようにしている。

データセット名とバージョン
取得日
ライセンス種別と商用可否
学習利用の可否を明示しているか
取得スクリプトの git commit hash

これを README に書いておくだけで、後のデバッグや法務確認がだいぶ変わる。面倒くさいけど一回フォーマット作ればあとは埋めるだけだ。

Atlantic の AI Watchdog サイトを実際に触ってみた

The Atlantic の AI Watchdog サイト、検索機能があって音楽だけじゃなく書籍や他のメディアも調べられる。試しに何曲か検索してみたけど、ヒットしたときの感覚はちょっとヒヤッとする。「このファイル、モデルの重みの中に溶けてるんだな」という感覚。

個人的にはこのデータベース自体がエンジニアリングの観点で興味深い。12万曲や900万曲規模のレコードを検索可能な形で公開するのは、インフラ設計が気になる。全文検索どう実装してるんだろうという方向で深掘りしたくなってきた。

とりあえず自分のリポジトリをもう一回見直して、学習データとして使われたくないものには AGENTS.md か README に明示するつもりだ。GitHubが公開イコール何でも使っていいわけじゃない、という認識をもう少し広めてほしいとも思う。

LLMの学習データに自分の曲が入ってる話

データの出所をコードで記録しておく話

Atlantic の AI Watchdog サイトを実際に触ってみた

無料相談受付中