1. はじめに
2024年9月27日、ドイツのハンブルク地方裁判所(Hamburg Regional Court)は、AIの学習データセットに関する重要な判断を示しました。Large-scale Artificial Intelligence Open Network(LAION)が作成した約58.5億件の画像-テキストペアからなるデータセットに関する著作権侵害訴訟において、裁判所は科学研究目的でのデータ収集を適法と判断したのです。
この判決は、人工知能(Artificial Intelligence、AI)の開発におけるデータセット収集という、これまで法的な判断が示されてこなかった領域に一石を投じるものでした。特に、欧州連合(EU)のデジタル単一市場における著作権指令(Digital Single Market Directive、DSM指令)に基づくテキスト・データマイニング(Text and Data Mining、TDM)の例外規定の解釈について、初めて司法判断が示されたという点で画期的です。
注目すべきは、本判決がAI開発に必要なデータセットの収集と著作権保護のバランスについて、具体的な判断基準を提示したことです。さらに、2024年に成立したEU AI規則(EU AI Act)との関係性にも言及しており、AI開発をめぐる法的枠組みの全体像を理解する上でも重要な意義を持っています。
米国では現在、OpenAIやMetaに対して同様の著作権侵害訴訟が提起されており、本判決がこれらの訴訟にどのような影響を与えるのか、国際的な注目を集めています。日本の知的財産専門家にとっても、AI学習データの収集に関する法的リスクを評価する上で、重要な参考事例となるでしょう。
本稿では、この画期的な判決の内容を詳しく解説するとともに、AI開発企業や権利者への実務的な影響、さらには国際的な法制度への示唆について検討していきます。*
*この記事はアメリカの特許弁護士の視点から書かれています。著者はドイツの知的財産、特に著作権に関しての専門的な知識は持ち合わせていないですが、AIに関する重要な判決なのでこのドイツの判決を取り上げています。
2. 事案の概要
2-1. LAIONの画像データ収集活動
LAIONは生成AIの研究開発を促進する目的で設立された非営利団体で、AIのトレーニングに利用可能な大規模データセットを作成・提供する活動を行っています。2021年後半、同団体は約58.5億件もの画像とテキストのペアデータを含む「LAION-5B」データセットを作成しました。
データセット作成のプロセスは以下のような流れで行われました。まず、米国のCommon Crawl Foundationが作成した既存のデータセットから画像のURLとその説明文を抽出します。次に、それらのURLから画像をダウンロードし、専用ソフトウェアを使用して画像の内容と説明文の整合性を確認します。そして、整合性が確認された画像についてのメタデータ(URL、説明文等)を新しいデータセットに取り込むという方法がとられました。
2-2. 写真家による著作権侵害の主張
写真家のRobert Kneschke氏は、自身の写真がLAIONのデータセットに無断で含まれていることを発見しました。問題となった写真は写真素材サイト(Microstock Photography Website)に掲載されていたもので、同サイトの利用規約では自動化されたプログラム、アプレット、ボット等を使用してウェブサイトやそのコンテンツにアクセスすることが禁止されていました。
Kneschke氏は、LAIONによる写真の複製が著作権侵害に当たると主張し、訴訟を提起しました。
2-3. 裁判所の判断
しかし、ハンブルク地方裁判所(事件番号:310 O 227/23)は、LAIONの行為が著作権侵害に該当しないと判断し、Kneschke氏の請求を棄却しました。裁判所の判断の核心は以下の3点です。
- LAIONの活動は、ドイツ著作権法第60d条が定める「科学研究目的のテキスト・データマイニング」の例外規定に該当する。
- AI学習用データセットの作成は「科学研究」の定義に含まれる。裁判所は、新しい知識の獲得を目指す体系的な活動であれば十分であり、必ずしも直接的な研究成果は必要ないとの解釈を示しました。
- LAIONが作成したデータセットを無償で公開していることは、その活動の非営利性を示す重要な証拠となる。商業企業がこのデータセットを利用する可能性があるとしても、それはLAIONの活動自体の非営利性を否定する理由とはならない。
この判決は、AI開発におけるデータ収集活動に関する初めての本格的な司法判断として、国際的な注目を集めています。
3. 判決の法的分析
3-1. 科学研究例外(ドイツ著作権法第60d条)の適用
裁判所は、まずドイツ著作権法第60d条が定める科学研究目的の権利制限規定の適用を検討しました。同条は、DSM指令第3条を国内法化したもので、研究機関(Research Organizations)による科学研究目的のテキスト・データマイニングを認めています。
注目すべきは、裁判所が「科学研究」の概念を広く解釈した点です。従来の判例では必ずしも明確でなかった「科学研究」の定義について、「新しい知識の獲得を目指す体系的・方法論的な追求」(”methodical and systematic pursuit of new knowledge”)であれば十分であると判示しました。さらに重要なのは、直接的な研究成果を必要とせず、将来の知識獲得のための基礎的な作業も含まれるとした点です。
非営利性の判断においても、裁判所は柔軟な解釈を示しました。EU情報社会指令(InfoSoc Directive)の前文42項を参照し、組織の構造や資金調達方法ではなく、当該活動自体の性質に基づいて判断すべきとしています。LAIONの場合、データセットを無償で公開していることが、非営利性を示す決定的な証拠として評価されました。
3-2. テキスト・データマイニング例外(同法第44b条)の検討
裁判所は、第44b条についても詳細な検討を行いました。同条は、DSM指令第4条に基づく一般的なテキスト・データマイニングの例外を定めています。特筆すべきは、権利者による利用制限(Opt-out)の表明方法に関する判断です。
従来の学説では、機械可読な形式(Machine-readable Format)での表明が必要とされていましたが、裁判所は、自然言語による利用規約での表明でも十分である可能性を示唆しました。その理由として、現代のAI技術が自然言語を理解できる能力を持っていることを挙げています。
さらに、裁判所は以下のような重要な指摘をしています:
- AIウェブスクレイピングと従来型のデータマイニングを区別する必要性はない
- データセットの作成段階と、そのデータセットを用いたAIトレーニングは別個の行為として評価すべき
- 将来的な技術発展の可能性を理由に、現時点でのデータ収集を制限することは適切でない
3-3. EU AI規則との関係
本判決は、EU AI規則第53条との関連性にも言及しています。特に、同条1項(c)が汎用AI(General-purpose AI)の提供者に対して、DSM指令第4条3項に基づく権利者の利用制限を遵守するための戦略構築を義務付けていることを重視しています。
裁判所は、この規定の存在自体が、EU立法者がAIトレーニングのためのデータセット作成をテキスト・データマイニングの範囲内と考えていることの証拠であると解釈しました。これにより、AI開発とデータマイニング例外規定の関係について、より明確な法的位置づけが示されたと言えます。
このように本判決は、既存の著作権法の枠組みとAI技術の発展を調和させる新たな解釈指針を提示しており、今後のAI開発実務に大きな影響を与えることが予想されます。
4. 実務への影響
4-1. AI開発企業への示唆
本判決は、AI開発企業にとって重要な実務的指針を提供しています。特に、データ収集活動の適法性を確保するための具体的な判断基準が示されました。
まずAI開発企業は、データ収集の目的と方法について明確な方針を確立する必要があります。具体的には、科学研究目的であることを明確に文書化し、体系的・方法論的なアプローチを採用することが求められます。また、データ収集プロセスの透明性を確保することも重要です。
次に、非営利性の証明も重要な要素となります。データセットを無償で公開し、商業的影響力からの独立性を確保すること、さらには研究成果の公開に関する明確な方針を策定することが求められます。
特に商業企業との関係については、本判決を踏まえ、影響力や優先的アクセス権の有無について慎重な検討が必要です。単なる技術支援や計算リソースの提供は許容されますが、研究活動への決定的な影響力を持つことは避けるべきでしょう。このバランスを適切に保つことが、法的リスクを最小限に抑えるための鍵となります。
4-2. 権利者が取るべき対応
次に、本判決は著作権を保有している権利者側にとっても利用制限(Opt-out)の表明方法に関する重要な示唆を示しています。裁判所は、機械可読形式での表明に限定せず、自然言語による利用規約での表明も有効である可能性を示唆しました。
この判断を踏まえ、権利者は様々な対応を検討する必要があります。まず、ウェブサイトの利用規約を包括的に見直し、データマイニングに関する明確な制限条項を追加すること、そしてAI学習目的での利用に関する具体的な条件を明記することが重要です。また、技術面での対応として、robots.txtファイルの適切な設定やアクセス制御システムの導入など、技術的保護手段の実装も検討に値します。
さらに、権利行使戦略についても再検討が必要です。特に、商業的利用と非商業的利用を明確に区別し、それぞれの利用形態に応じた適切なライセンス体系を構築することが望ましいでしょう。このような総合的なアプローチにより、権利者は自身の著作物の利用をより効果的にコントロールすることが可能となります。
4-3. 科学研究機関の位置づけ
本判決は、「科学研究機関」の概念を従来よりも広く解釈しています。この解釈は、組織形態と活動内容の両面から科学研究機関の該当性を判断する柔軟なアプローチを示しています。
組織形態に関して、裁判所は非営利団体であることを有利な要素としつつも、必須条件とはしていません。むしろ重要なのは、研究目的が定款等で明確に規定されていることと、意思決定の独立性が確保されていることです。
活動内容については、新知識獲得のための体系的な活動を行っていることが基本となります。さらに、研究成果の公開・共有を積極的に行い、商業的利用との関係について透明性を確保することも求められます。
これらの要件を満たすため、研究機関は実務上いくつかの重要な対応を取る必要があります。具体的には、研究活動の詳細な文書化と記録の保持、商業企業との関係の適切な管理、そしてデータセット作成プロセスの透明性確保などが挙げられます。
とりわけ重要なのは、商業企業との協力関係です。本判決は、企業からの支援を完全に否定するものではありませんが、研究機関の独立性が損なわれない程度に留めるべきとしています。実務上は、支援企業による「決定的な影響力」や「優先的なアクセス権」を避けることが肝要です。このバランスを適切に保つことが、科学研究機関としての地位を維持する上で極めて重要となります。
5. 米国法との比較分析
5-1. 米国著作権法におけるAIトレーニングデータの扱い
米国では、AIトレーニングデータの著作権法上の取り扱いについて、明示的な法規定が存在しません。EUのように包括的なデータマイニング例外規定を持たない米国では、主にフェアユースの法理を通じてこの問題に対処しています。
特筆すべきは、カリフォルニア州北部地区連邦地方裁判所で現在審理中のAndersen v. Stability AI事件です。本件では、アーティストたちが自身の作品がAIの教師データとして無断使用されたとして、Stability AIなどのAI企業を提訴しています。オリック判事は、最新の判断において、AIモデルが訓練データの「圧縮されたコピー(compressed copies)」を含んでいるという新しい法的概念を示唆し、著作権侵害の可能性を認めました。
また、米国著作権局は2023年3月から「AI Initiative」を開始し、AIがもたらす著作権法上の課題について包括的な検討を進めています。この動きと並行して、Andersen事件の判断は、AI学習データの著作権問題に関する重要な司法判断として注目を集めています。
5-2. フェアユースとの関係
米国におけるAIトレーニングデータの適法性は、フェアユース(fair use)の4要素に基づいて判断されることになります:
米国におけるAIトレーニングデータの適法性は、フェアユース(fair use)の4要素に基づいて判断されることになります:
- 使用の目的と性質: 著作物の使用によって新たな価値や意味が付加されているか、そして商業目的での利用であるかを検討します。この曾祖は、変形的利用(transformative use)と呼ばれています。
- 著作物の性質: 元の著作物がどの程度の創作性を持つか、また公表状況によって保護の程度が異なることを考慮します。そのため、作品が事実に基づくものなのか創作的な作品かなどが重要になり、どのように公開されているかも考慮される要素の1つとなります。
- 使用された部分の量と実質性: 著作物全体のうちどの程度が使用され、その部分がどの程度重要であるかを判断します。AI教師データの場合、データセット全体における各著作物の割合が重要な要素となる可能性があります。また、収集方法の合理性もここでは考慮されるでしょう。
- 著作物の潜在的市場への影響: 著作物の現在および将来の市場価値にどのような影響を与えるかを評価します。特に、ライセンス市場への影響や代替手段の有無がここでは評価されます。
LAIONのケースをこれらの要素に照らして分析すると、特に「変形的利用」の観点から、フェアユースが認められる可能性は高いと考えられます。
5-3. 進行中の類似訴訟への影響
現在、米国では複数のAI関連著作権訴訟が進行中です。特に注目を集めているのは以下の事件です:
- Sarah Silverman氏らによるOpenAIとMeta社への訴訟
- Paul Tremblay氏らによるOpenAI社への訴訟
- 多数のインターネットユーザーによるOpenAI社に対する集団訴訟
これらの訴訟では、著作物の大規模スクレイピングの適法性が争点となっています。今回のドイツ判決はアメリカの訴訟には直接的な拘束力こそありませんが、国際的な調和なども考えると、特にフェアユースの分析において、ドイツで考慮された「科学研究」や非営利性が影響を与える可能性があります。
6. 今後の展望
6-1. 残された法的課題
ハンブルク地方裁判所の判決は、AIトレーニングデータの収集に関する重要な指針を示しましたが、いくつかの重要な法的課題が未解決のまま残されています。
第一に、データセットの作成とその後のAIトレーニングの法的区分の問題です。本判決は、データセットの作成段階に焦点を当てていますが、そのデータセットを用いた実際のAIトレーニングの適法性については判断を示していません。この区分は実務上重要な意味を持ちます。
第二の課題は、「機械可読形式」(Machine-readable Format)の解釈です。裁判所は自然言語による利用制限も有効である可能性を示唆しましたが、具体的な判断基準は示されていません。以下の点について、さらなる明確化が必要です:
- 利用制限の表示方法の標準化
- 技術の進歩に応じた解釈の柔軟性
- クローラーによる認識可能性の基準
第三に、商業利用と非商業利用の境界線の問題があります。特に、オープンソースのAIモデルの開発においては、この区別が極めて困難な場合があります。
6-2. AIデータセット収集の国際的な実務への影響
本判決の影響は、すでに国際的なAI開発実務に波及し始めています。具体的な変化として以下が観察されています:
- データ収集プロセスの変更
- 科学研究目的の明確な文書化
- 商業企業との関係の再構築
- 透明性確保のための施策導入
- 権利処理アプローチの見直し
- 地域ごとの法的リスク評価の必要性
- 権利者とのコミュニケーション方法の改善
- オプトアウト制度の標準化への動き
特に注目すべきは、AP通信社がOpenAI社にニュース記事のアーカイブ利用を許諾したように、大手コンテンツホルダーとAI開発企業との間で新たなライセンスモデルが模索され始めていることです。
6-3. 国際的な法制度の調和の可能性
AIの開発と利用がグローバルに展開される中、法制度の国際的な調和の必要性が高まっています。現在、以下のような動きが見られます:
- EU主導のアプローチ
- EU AI規則の国際的な影響力
- データマイニング例外規定のモデル化
- 国際的な規制枠組みの提案
- 各国・地域の対応
- 米国:フェアユースの再解釈
- アジア:独自の規制枠組みの模索
- 新興国:技術移転との関係での検討
- 国際機関の取り組み
- WIPOによる調整の可能性
- 国際標準化機構(ISO)の関与
- OECDガイドラインの検討
特に重要なのは、EU AI規則第53条が示す、AIトレーニングデータの収集に関する国際的な基準の確立です。これは、今後のグローバルな法制度調和の出発点となる可能性があります。
このように、AI開発をめぐる法的枠組みは、国際的な調和と各国の独自性のバランスを取りながら、段階的に発展していくことが予想されます。知的財産専門家には、これらの動向を注視しつつ、クライアントに適切な助言を提供することが求められるでしょう。
7. 結論
ハンブルク地方裁判所による本判決は、AI学習データに関する著作権法上の取り扱いについて、重要な先例を示しました。特に、「科学研究」の概念を広く解釈し、データセット作成を研究活動の一環として認めた点は、AI開発実務に大きな影響を与えるでしょう。一方で、米国では同様の問題について、Andersen v. Stability AI事件において「圧縮されたコピー」という新しい法的概念が提示されるなど、異なるアプローチでの対応が模索されています。AI技術の急速な発展に伴い、著作権法制度もまた進化を迫られていますが、本判決は、科学研究の自由と著作権保護のバランスをとる上での重要な指針を示したと言えるでしょう。今後は、この判決を起点として、国際的な法制度の調和に向けた議論がさらに活発化することが期待されます。