Image depicting the landmark decision in the OpenAI copyright lawsuit - Shift in burden of proof for rights holders regarding AI training data

OpenAI vs メディア企業の戦い:著作権訴訟却下で見えた生成AIの法的課題と実務への影響

1. はじめに

2024年11月7日、ニューヨーク南部地区連邦地方裁判所(United States District Court for the Southern District of New York)のColleen McMahon判事は、Raw Story社とAlterNet社による生成AI企業のOpenAIに対する著作権訴訟を却下しました。

このRaw Story Media v. OpenAI事件(以下、Raw Story事件)は、大手メディアのNew York Times社がOpenAI社を提訴したことで注目を集めているAIと著作権を巡る一連の訴訟の一つです。本件は、生成AIのトレーニングデータに関する権利者の立証責任について、重要な先例となる可能性を秘めています。

本件で原告は、OpenAIが自社の記事を無断でChatGPTの学習に使用し、著作権管理情報(Copyright Management Information、CMI)を削除したことがデジタルミレニアム著作権法(Digital Millennium Copyright Act、DMCA)に違反すると主張しました。しかし裁判所は、原告がCMI削除による具体的な損害を立証できていないとして、訴えを却下したのです。

この判決は、生成AI開発企業にとって朗報となる一方で、権利者側にとっては厳しい判断となりました。特に、裁判所が示した立証責任の基準は、今後のAI関連訴訟において重要な指針になると考えられます。

本稿では、Raw Story事件の詳細な分析を通じて、AI開発企業と権利者の双方が今後取るべき実務的な対応について解説していきます。まさに今、生成AIの開発と知的財産権の保護の在り方が大きく問われているのです。

2. 訴訟の概要

2.1 事案の背景

Raw Story社とAlterNet社は、インターネット上で40万件以上のニュース記事や調査報告を発表してきたオンラインメディアです。これらの記事は、ウェブクローリング(Web Crawl)と呼ばれる技術によってインターネット上から収集され、OpenAIの学習用データセット(training sets)に取り込まれました。

特に問題とされたのは、WebText、WebText2、Common Crawlと呼ばれる3つの学習用データセットです。OpenAIは、これらのデータセットを使用してChatGPTの学習を行いました。この過程で、原告の記事から著者名、タイトル、著作権情報などが削除されたとされています。

学習用データの収集方法については、OpenAI社は「公開データ(publicly available data)」を利用していると説明していますが、その具体的な収集方法や範囲については明らかにされていません。この不透明性が、権利者側の懸念を引き起こす一因となっています。

2.2 原告の主張

原告は主に2つの重要な法的主張を展開しました。第一に、OpenAIによる著作権管理情報の削除は、DMCAの第1202条(b)(1)に違反すると主張しました。具体的には、OpenAIが原告の記事から著作権管理情報を故意に削除し、それによってChatGPTが著作権情報なしで記事の内容を再生成できるようになったと指摘しています。

第二の主張は、将来的な損害の可能性に関するものです。原告は、ChatGPTの以前のバージョンが他人の文章・語句・説などを用いた大量の剽窃コンテンツを生成していた事実を指摘し、著作権管理情報が削除された状態で記事がChatGPTのデータベースに残り続ける限り、将来的に原告の著作物が適切な帰属表示なしで再生成される「実質的なリスク(substantial risk)」があると主張しました。

これらの主張に基づき、原告は1件の違反につき最低2,500ドルの法定損害賠償*を求めるとともに、OpenAIに対して著作権管理情報が削除された原告の著作物を学習データから除外するよう求める差止命令を請求しました。

*デジタルミレニアム著作権法(DMCA)では、著作権管理情報の削除などの違反行為1件につき、最低2,500ドルの法定損害賠償を定めており、これは実際の損害額の立証が困難な場合でも権利者を保護するために規定されています。

2.3 被告の反論

OpenAIは、原告の主張に対して、連邦裁判所における訴訟を提起する資格である「原告適格(Article III standing)」の欠如を指摘しました。具体的には、原告が主張する損害が「具体的な損害(concrete injury)」に該当せず、単なる推測的なものに過ぎないと反論しています。

特に注目すべきは、OpenAIが「公正利用(fair use)」や類似の法理に基づいて公開データを利用する権利があると主張している点です。OpenAIの広報担当者は「私たちは公開データを利用してAIモデルを構築しており、これは公正利用やその他の法理によって保護されている」と述べています。

また、OpenAIは、原告が主張する将来的な著作権侵害の可能性についても、ChatGPTの膨大なデータベースの中から特定の記事が再生成される可能性は極めて低く、「実質的なリスク」とは言えないと反論しました。このように、OpenAIは損害の具体性と差し迫った危険の欠如を強調する防御戦略を展開したのです。

3. 裁判所の判断

3.1 Article III Standing(原告適格)の分析

McMahon判事は、原告適格の問題を本件の「閾値的問題(threshold question)」として位置づけ、詳細な分析を展開しました。そもそも原告適格が認められるためには、「具体的で、個別的で、現実のまたは差し迫った損害」(concrete, particularized and actual or imminent injury)の存在が必要です。しかし裁判所は、原告の主張する2つの損害理由のいずれについても、この要件を満たさないと判断しました。

注目すべきは、裁判所が著作権管理情報の削除自体による損害について、明確な判断基準を示した点です。判決では、歴史的または判例法上の類似の損害(historical or common-law analogue)が存在するかという観点から分析が行われ、単なる情報の削除は、財産権侵害という伝統的な損害類型とは異なると判示されました。

特に重要なのは、裁判所がデータの使用と配布を明確に区別した点です。ChatGPTのリポジトリ内でデータが保持されているだけでは、実際の損害(actual adverse effects)は発生していないと判断されました。

3.2 デジタルミレニアム著作権法の解釈

裁判所のDMCAに関する解釈は、今後の実務に大きな影響を与えるものとなりました。McMahon判事は、DMCA第1202条は著作物の特定の形での使用を禁止するものではなく、著作権管理情報の完全性(integrity)を保護するものだと明確に述べています。

この解釈は、DMCAの立法趣旨にも合致するものです。裁判所は、DMCAが「電子市場における詐欺や誤情報を防止する」ことを目的として制定されたことを指摘し、著作物の使用自体を規制する法律ではないことを強調しました。

さらに注目すべきは、裁判所が「真に求められている救済(what is really at stake)」について言及した点です。判決は、原告の真の不満は著作権管理情報の削除ではなく、補償なしでの著作物の使用にあると指摘し、これはDMCAで保護される利益とは異なると明確に述べています。

3.3 今後の著作権訴訟への影響

本判決の影響は、AI開発企業と権利者の双方に及ぶものとなりそうです。まず、AI開発企業にとって、トレーニングデータの使用自体は直ちに法的責任を生じさせないという方向性が示されました。ただし裁判所は、他の法律や法理論によって救済される可能性を明確に残しています。

権利者側にとっては、今後の訴訟戦略の再考が必要となるでしょう。特に、具体的な損害の立証方法や、著作権侵害の主張方法について、より慎重な検討が求められます。単なる可能性や推測ではなく、具体的な証拠に基づく主張の必要性が強調されたからです。

また、本判決は米国のAI関連訴訟全体にも大きな影響を与える可能性があります。Cornell大学のデジタル法・インターネット法の教授であるJames Grimmelmann氏は、「この判決は、連邦裁判所が審理できる知的財産訴訟の種類を大幅に制限する可能性がある」と指摘しています。AI開発における著作物の使用に関する訴訟において、より具体的な損害の立証が求められることになるかもしれません。

4. 実務への影響

4.1 AI開発企業が取るべき対応

Raw Story事件の判決は、AI開発企業に一定の安心材料を提供しましたが、法的リスクが完全に消滅したわけではありません。AI開発企業は、トレーニングデータの使用に関して、より慎重なアプローチを取る必要があるでしょう。

まず、著作権管理情報の取り扱いについて、明確な社内ガイドラインの策定が推奨されます。今回の判決では具体的な損害が立証できなかったことが却下の理由となりましたが、将来的な訴訟リスクを考慮すると、可能な限り著作権管理情報を保持する仕組みを検討すべきです。

また、トレーニングデータの使用記録の保管も重要となってきます。AIの出力結果と学習データの関係性を追跡できるシステムを構築することで、将来的な権利侵害の申し立てに対して適切な防御が可能となります。OpenAI社の広報担当者が述べているように、「公開データを公正利用の原則に基づいて利用している」という主張を裏付ける証拠の確保が重要です。

4.2 権利者側が取るべき対応

権利者側にとって本判決は、訴訟戦略の大幅な見直しを迫るものとなりました。今後は、具体的な損害の立証方法について、より綿密な準備が必要となります。

特に重要なのは、AIによる著作物の使用と実際の損害の因果関係を明確に示すことです。例えば、The Intercept社の事例では、ChatGPTが生成した内容が同社の記事とほぼ同一であることを示す600ページにも及ぶ証拠を提出しています。このような具体的な証拠の収集と分析が、今後の訴訟では重要となるでしょう。

さらに、権利者は自社のコンテンツ管理戦略を見直す必要があります。著作権管理情報の付与方法や、ウェブサイト上での利用規約の表示方法など、技術的・法的な保護手段を総合的に検討することが求められます。

4.3 今後の法改正の可能性

本判決は、現行法制度とAI技術の進展との間に存在するギャップを浮き彫りにしました。DMCAが1998年に制定された当時は、現在のようなAI技術の発展は想定されていませんでした。

このギャップを埋めるため、立法府による新たな法的枠組みの検討が必要となる可能性があります。特に、AI開発におけるデータ使用に関する明確なガイドラインの策定や、権利者の利益を適切に保護するための新たな法的メカニズムの導入が検討されるべきでしょう。

また、Eversheds Sutherland法律事務所の知的財産権専門家であるAnn G. Fort氏が指摘するように、今後の訴訟では、ChatGPTの出力結果に関する具体的な証拠の提示が求められることになりそうです。こうした実務の変化を踏まえ、立法による対応が必要となる可能性も高いといえます。

5. 結論

Raw Story事件の判決は、生成AIの開発とデータ利用に関する重要な先例となりました。AI開発企業にとっては一定の安心材料となる一方で、具体的な損害の立証を求める裁判所の判断は、権利者側に新たな課題を突きつけることになりました。今後は、AI技術の発展に対応した新たな法的枠組みの整備が求められる中、AI開発企業と権利者の双方が、より慎重かつ具体的な証拠に基づいた対応を迫られることになるでしょう。本判決を契機として、AIの開発と知的財産権の保護の適切なバランスを模索する議論が、さらに活発化することが予想されます。

Leave a Reply

Your email address will not be published. Required fields are marked *

こちらもおすすめ