オープンソースコードで学習させたコードライティングAI「Copilot」をめぐり、Githubに対して集団訴訟が起こされるなど、著作権で保護されたデータを使った機械学習が著作権を侵害するのか、フェアユースの原則に該当するかという問題は、これまでも指摘されていましたが今後のAI技術の進化により、より深刻な問題に発展するかもしれません。
機械学習には膨大な量の学習データが必要
機械学習アルゴリズムは、サンプル入力データに基づいてパターンを作成し、人間のプログラマーから(ほぼ)独立して予測や決定を行います。機械学習アルゴリズムは、正確なAIモデルを作成するために、膨大な量の学習データを処理しなければなりません。例えば、最も人気のある機械学習データセットには、58億5000万件の画像とテキストの組からなるLAION-5B(Stable DiffusionとLensa Appで使用)、1750億件のパラメータを持つ自己回帰言語モデルGPT-3(AIチャットボットChatGPTで使用)などがあります。
AIに関する著作権の問題点
多くの場合、これらの巨大なデータセットには、写真、絵画、書籍、コード行など、著作権で保護された素材が含まれています。さらに多くの場合、著作権者は自分の著作物が機械学習に利用されることを知らない(ましてや同意していない)という状況です。
著作物を機械学習のデータセットにコピーすることは複製権を意味し、処理されたデータセットに基づいて作品を作成することは二次的著作物を作成する権利を意味します。これらの行為はフェアユースなどの例外規定がない限り、著作権侵害行為となります。
現在の状況
今の所アメリカではまだ機械学習における著作物の利用を直接取り上げた判例はありません。しかし、最近起こされたGithub Copilot訴訟の原告は、オープンソースのコードからなるデータセットを機械学習に使用することは、オープンソースのライセンスに違反すると主張しています。
多くのライセンスの条項では、独自のコードを書く際に保護されたコードを使用する者は、基礎となるコードの作者を明示し、得られたコードを公共のリポジトリで無償で共有しなければならないことがよく定められています。これらの原則は、オープンソースコミュニティとソフトウェア開発にとって不可欠なものとなっています。
話をGitHubの集団訴訟に戻しますが、GitHubはまだ回答を提出していません。しかし、以前、機械学習におけるオープンソースコードの使用は、フェアユースの原則に該当すると主張していました。この訴訟のオープンソースの要素は、複雑なレイヤーを追加していますが、私たちが今直面している核心の問題は、「機械学習は著作権を尊重しなければならないのか、それともフェアユースなのか」ということです。
フェアユースの判断はケース・バイ・ケースで難しい
フェアユース・ドクトリン(fair use doctrine)の目的は、著作権がその所有者に与える保護と「より大きな社会的利益」のバランスを取り、創造性、教育、言論の自由、研究を促進することです。これは、批判、コメント、報道、教育、学問、研究のために、所有者の同意なしに著作物を使用することを認める著作権の例外です(§107 of the Copyright Act)。
フェアユースは法律と事実の混合問題であり、何かがフェアユースにあたるかどうかの認定はケースバイケースであることを意味しています。そのため、推定的にフェアユースであるとする分類はありません。(判例:Campbell v. Acuff-Rose Music, Inc.)
フェアユースのケースを決定する際、裁判所は以下の要素を同等の重みで考慮しなければなりません:
- 商業目的か非営利の教育目的かを含む、使用の目的と性質
- 著作権で保護された作品の性質
- 著作権で保護された作品全体に対する、使用された部分の量と重要性
- 著作権で保護された作品の潜在的な市場や価値に対する使用の影響
フェアユースの認定は、その利用が非営利ではなく商業的である場合、可能性が低くなります。侵害者とされる者が、著作権所有者に通常の価格を支払うことなく著作物を利用することで利益を得ている場合、その利用は商業的である傾向があります。
一方、著作物の利用が以下のような場合、フェアユースが適用される可能性が高いです:
- 変形的(transformative)である (原作を何らかの形で変形させる場合)
- オリジナルとは異なる目的を持っている場合
- 「中間」コピー(“intermediate” copying) (解析やリバースエンジニアリングの過程でのコピー) である場合
例えば、技術的互換性を判断するためにコンピュータ・コードをコピーし、機能的な用途のためには使用していなかったことは、フェアユースであるとされました(Sega Enterprises Ltd. v. Accolade, Inc., 977 F.2d 1510 (9th Cir. 1992) )。
AIによって作られたものは著作権的にアウト?
フェアユースの認定で興味深いのは、その利用が(1)著作物の潜在的な市場、または(2)著作物の価値に及ぼす影響です。すでにデジタルアートのニーズをAIにアウトソーシングしている企業もあり、アートを生成するAIが人間のアーティストと競合する可能性は低くはないでしょう。このような競争により、AIアートは、そのベースとなる著作権保護されたアートの価値に悪影響を及ぼす可能性があります。もっと遠い未来には、コードや小説を書くような他の産業での類似性が描けるかもしれません。
結論として、以下のような場合、AIプロジェクトは著作権のフェアユースの例外に該当する可能性は低いです:
- 著作権で保護された素材に学習させた製品を使用するために金銭を請求している場合
- AIが学習させた素材と同様の目的を持つ素材を作成する場合(例えば、デジタルアートの学習から作成されたデジタルアートなど)
しかし、裁判所が決定的な答えを出すには、与えられたケースのすべての要素を考慮する必要があります。弁護士がよく言う「場合による」(“it depends” )という言葉で終わらざるを得ませんが、それが法律問題の本質なのかもしれません。
参考文献:Fair Use or Infringement: Does Machine Learning Have to Respect Copyright?