AI時代のデータ所有権：ビッグデータとAI由来データの種類別の対応

10/22/2023

ビッグデータ、人工知能（AI）、モノのインターネット（IoT）の出現は、データの理解と活用を根本的に変えました。ビッグデータの価値に議論の余地がないものの、その管理、特にデータの所有権、ライセンス、派生データの保護に関しては、複雑な法的問題が生じます。そこで、今回は、AIで処理された、または、IoTによって生成されたデータがもたらす法的な課題と機会について概説します。

ビッグデータの定義とその法的意味合い

ビッグデータとは、ダイナミックに進化する大規模な電子データの集合体を指す包括的な用語で、従来のデータ管理システムの能力を超えることが多いです。このようなデータは、単に量が多いだけでなく、法的にも重要な影響を及ぼす2つの重要な属性を持っています。

第一に、ビッグデータは、消費者の嗜好の解読からマクロ経済動向の予測、公衆衛生パターンの特定に至るまで、多くの用途に活用できる貴重な資産であること。

第二に、ビッグデータの豊富さは、多くの場合、独自のビジネス・インテリジェンスや個人を特定できる情報（personally identifiable information、略してPII）など、機密性の高い情報を含んでいることがあります。

その結果、ビッグデータの管理と活用には、これらの情報のセキュリティと倫理的取り扱いの両方を確保するための厳格な法的保護措置が必要となることがあります。

データ所有権を管理する法的枠組み

データの所有権の複雑な状況を理解するには、法的、倫理的、技術的な考察を含む多角的な理解が必要です。

この複雑さは、多様な知的財産権（IP）法や企業秘密法によってさらに高まり、それぞれが特定のデータセットに排他的な権利を与える可能性があります。さらに、欧州連合（EU）の一般データ保護規則（GDPR）や米国のカリフォルニア州消費者プライバシー法（CCPA）など、データ保護法の管轄区域の違いも複雑さを増しています。

関連記事：生成AIの規制と法的課題

これらの法律では、個人情報へのアクセス、訂正、削除、移植の権利を個人に付与し、個人データに対する管理権限を強化しています。しかし、「所有権」の概念は、法域やデータの種類（個人情報であれ匿名化されたデータであれ）によって異なることが多いです。

機械生成データと所有権

データ所有権の問題は、個人データだけでなく、機械が生成するデータにも及び、複雑な問題が発生することがあります。

人間の対話に基づいてデータを生成するスマートアシスタントであれ、人間の入力とは無関係に動作する自律走行車であれ、所有権は多くの場合、機械を所有または操作する主体にあります。これは通常、利用規約やエンドユーザーライセンス契約（EULA）によって定義されるものです。

さらに、特にデータが特殊な処理や分析を受ける場合には、特許や企業秘密を含む知的財産権法が関係することもあります。

派生データとアルゴリズム

派生データおよび派生アルゴリズムとは、既存のアルゴリズムから発展、適応、または着想を得た計算モデルや手法を指します。これらの新しいアルゴリズムは、革新的な機能、最適化、または応用を導入しなければ、派生的とみなされません。

米国の著作権法では、二次的著作物の創作者は一般に、元の作品には存在しなかった新しい要素について著作権を有します。しかし、これは派生アルゴリズムが基礎とするものには及びません。元のアルゴリズムの所有権は、ライセンス契約などの法的手段によって明示的に譲渡されない限り、最初の創作者に残ります。

特許法の分野では、派生アルゴリズムは、新しく、自明でなく、有用であるという基準を満たせば、特許になる可能性があります。ただし、特許がカバーするのは派生アルゴリズムの新規な側面だけであり、派生アルゴリズムの元となった基礎的なアルゴリズムは対象外です。元のアルゴリズムの特許権者は権利を保持し、元のアルゴリズムの特許化された側面を採用した派生アルゴリズムの使用には、元の特許権者の許可またはライセンスが必要となります。

派生アルゴリズムも、その所有者に競争上の優位性をもたらす秘密情報を保護する企業秘密保護の対象となる場合があります。特許とは異なり、企業秘密は登録や公開を必要としませんが、秘密を維持するための合理的な措置が必要となります。例えば、企業は独自のアルゴリズムを保護するために、秘密保持契約、暗号化、物理的なセキュリティ対策を採用することができるでしょう。

AI処理及び派生データ

AIの登場はデータ分析の新時代を到来させ、知的財産権の領域においてユニークな機会と課題の両方をもたらしています。「派生データ」や「利用データ」を生成するAIの能力は、著作権、営業秘密、そして潜在的には特許法を含む複数の法的枠組みと交差する広範囲な意味を持ちます。この交差性は、データ所有権の問題に複雑なレイヤーを追加し、ライセンス契約やデータ使用契約（ Data Use Agreements 、略してDUA）における明確な契約の必要性を強調しています。

AIによって処理され、派生したデータは様々な形で現れる可能性があり、それぞれにユニークな特徴があります。抽出データ（Extracted data）とは、特定の分析のために大規模なデータセットから抽出されたデータを指します。再構築されたデータ（Restructured data）は、より分かりやすい分析ができるように再フォーマット化または再編成されたものを示します。拡張データ（Augmented data）は、より包括的な視野を提供するために、追加の変数やパラメータで強化されたものです。推論データ（Inferred Data）とは、既存データの分析に基づき、新たな変数や洞察を作成するものです。最後に、モデル化されたデータ（modeled data）は、将来の結果や傾向を予測するためにML（Machine Learning）モデルによって変換されたものです。重要なのは、これらのデータには元のデータセットにはなかった新しい情報や洞察が含まれていることが多く、それによって価値や有用性が何層にも重なっていることです。

AIによって処理され、派生したデータを使用する利点は、主に3つのポイントに集約されます。第一に、AIアルゴリズムはデータをクリーニング、ソート、エンリッチし、その質を高めることができること。第二に、AIによって生成された洞察は、元のデータに大きな価値を付加し、様々な用途に有用なものにすることができること。第三に、AIによって処理されたデータは、新たな研究、イノベーション、製品開発の道を切り開くことができること。

逆に、データ所有における課題は多面的で複雑です。第一に、AI処理・派生データには、データ提供者、AI開発者、エンドユーザーを含む複数の利害関係者が複雑に絡んでいることが多く、所有権の決定が複雑になる可能性があります。第二に、AIやデータサイエンスは急速に進化しているため、「派生データ」のような用語の定義が明確でなく、法的合意に曖昧さが生じる可能性があります。第三に、複数の関係者が関与することから、各関係者の権利と責任を綿密に説明する明確で一貫性のある定義と合意を確立することが不可欠となります。

参考記事：Navigating Data Ownership in the AI Age, Part 1: Types of Big Data and AI-Derived Data | Online and On Point