display-with-code

係争中のCopilot集団訴訟から学べるソフトウェア開発のベストプラクティス

GitHub Inc.が提供するクラウドベースのプラットフォームは、ソースコードのホスティングや共有、ソースコードのドラフト作成における共同作業など、多くのソフトウェアプログラマーの間で人気を博しています。また、GitHubの人工知能(AI)ベースのCopilotツールは、ソフトウェア開発者にとって貴重なリソースとなっており、さまざまなプログラミング言語にわたってリアルタイムのコード自動補完候補を提供しています。しかし、GitHub、OpenAI、Microsoft(GitHubの親会社)に対して起こされた集団訴訟では、オープンソースのライセンスと著作権法に関する違反が主張されており、ツールの使用とコードの複製に関する複雑な法的問題が提起されています。 

この記事では、デジタルミレニアム著作権法(DMCA)違反とオープンソースライセンス違反の疑惑を検証することで、Copilotをめぐる論争を掘り下げ、AIが生成するコードへの影響について議論し、AI支援コーディングの進化する状況における法的課題を乗り切るための推奨事項を提示します。

Copilotとは?

Copilotは、ソフトウェアホスティングサービスおよびオープンソースのバージョン管理システムであるGitHubが、AI研究所のOpenAIと共同で開発したプログラミング支援ツールです。OpenAIのCodex機械学習モデル(OpenAIのChatGPTの原動力である有名なGPTモデルの亜種)を搭載しており、AIを使ってソフトウェア開発者にソースコードの行を完成させるための提案をリアルタイムで提供します。

このツールは、短いオートフィルから、変数名、関数定義、アルゴリズムを含む長いコード行まで、様々な長さのコードスニペットを提案することができます。 2018年にGitHubを買収したマイクロソフトは、自社のクラウドサーバー上でCopilotをホストしています。Copilotは幅広いプログラミング言語をサポートしており、さまざまなソフトウェア開発環境で働くプログラマーにとって汎用的で利用しやすいものとなっています。

Copilotではペアプログラミングも可能なため、開発者が共同でコーディング作業を行うこともできます。また、Copilotは機械学習(大量のサンプルデータを取り込んで分析することで、コンピューターがパターンを見つけたり予測したりするように訓練するプロセス)を利用しており、主にGitHubで公開されているコードリポジトリから入手した膨大なデータセットで訓練されています。

これらのリポジトリの大部分は、少なくとも部分的にはオープンソースライセンスの対象です。 

オープンソースライセンス:入門編

一般論として、ソースコードは文学作品として著作権法によって保護されています。通常では、作品の創作者が著作権と独占的な頒布権を持っています。そのため、ライセンスがなければ、他の人はその著作権を侵害することなく著作権のあるコードを使用することはできません。

しかし、コラボレーションを促進し、コード開発の進歩を促進するために、多くの開発者は、指定された条件に従って、そのコードの第三者による使用、配布、および改変を許可する、コストのかからないライセンスの下でコードを公開することを選択します。これらの条項は、オープンソースライセンスを構成します。

オープンソース・イニシアティブ(OSI)は非営利団体であり、「オープンソース」を構成するものとして、ソースコードへのアクセス、自由な再配布、二次的著作物の作成が可能であること、誰がどのような目的でその著作物を使用するのかについての使用制限がないこと、追加ライセンスの要求がないこと、配布形式の要求がないこと、といった一般的に受け入れられている定義を提供しています。

オープンソースソフトウェア(OSS)は、ライセンスの法的条件が守られている限り、商業目的で使用することができます。 しかし、ほとんどのOSSライセンスは帰属表示を義務付けており、OSSを組み込んだ開発者は原作者のクレジットを表示しなければなりません。また、派生物を同じ条件または同等の条件で配布することを義務付けているライセンスもあります。つまり、ユーザーがこの条件のコードを新しいプログラムに組み込んだ場合、新しいプログラムも同様にOSSとして公衆に配布しなければならない、という縛りが設けられている場合も多数存在するということになります。

Doe v. GitHub

GitHub、OpenAI、Microsoftは、2021年半ばにCopilotを一般に公開し、コード支援ツールやサービスにサブスクリプションを請求しました。 この動きを見て、2022年11月3日、GitHubに保存されているソフトウェアの所有権を主張する複数の匿名のコーダーが、GitHub、OpenAI、Microsoftを相手取り、カリフォルニア州北部地区連邦地方裁判所に集団訴訟を起こしました。この集団訴訟では、GitHubに保存され、Copilotのトレーニングに使用された原告のOSSの使用、およびCopilotのリアルタイム提案に適切な帰属表示なしにそのソースコードが複製されたことに起因する複数の訴因が主張されています。Doe et al v. GitHub, Inc. et al, No.4:22-cv-06823 (N.D. Cal. Nov 03, 2022)。 

GitHub、OpenAI、Microsoftは、原告が匿名であったため、Copilotがライセンスコードを複製した事例を特定できなかったなどの理由で、訴えの却下を申し立てました。また、GitHubのサービス利用規約(「TOS」)には、コードの使用、表示、実行、および複製に関する広範な権利が付与されており、TOSはライセンス違反の主張を先取りするものであるため、原告は主張を述べることができないとして、却下を求めました。 

その結果、GitHub、OpenAI、Microsoftの3社は一部の請求を棄却することに成功しましたが、裁判所は、DMCA違反、OSSライセンス違反、不当利得、不正競争に関する請求については、原告側の修正も含め、訴訟を進めることを認めました。具体的には、裁判所は2023年5月11日、DMCA1202条(a)および1202条(b)(2)違反、契約関係における不法行為妨害、詐欺、虚偽の出所指定、不当利得、不正競争、GitHubプライバシーポリシーおよびTOS違反、CCPA違反、過失に対する原告の請求を棄却し、一部棄却の申し立てを認めました。 しかし裁判所は、これらの不備を修正するため、原告に修正の許可を与えています。裁判所はまた、民事共謀と宣言的救済に関する原告の請求を棄却。

2023年6月8日、原告は修正訴状を提出し、そこにおける分析では、原告のDMCA違反とOSSを管理するオープンソースライセンス違反の主張に焦点を当てています。これら2つの主張は、修正された訴状でも実質的に変更されていません。 

DMCA1202条違反 

著作権法は、タイトル、著作者、著作権所有者、著作物の使用条件、著作権表示または著作物に関連して伝達されるその他の識別情報などの情報、(まとめて、著作権管理情報(「CMI」)と呼ばれます)の削除または改変を制限しています。

DMCA第1202条(b)は、無許可で、  (1)故意にCMIを削除または改変すること、 (2) CMIが削除または改変されていることを知りながらCMIを頒布すること、(3) CMIが削除または改変されていることを知りながら、それが侵害を誘発し、可能にし、容易にし、または隠蔽することを知りながら、または知る合理的な根拠がありながら、著作物のコピーを頒布すること、を禁じています。

原告は、彼らのOSSには、著作権表示、タイトル、作者名、著作権者名、コードの使用条件、識別番号や記号を含むCMIが含まれていると主張しました。原告はさらに、GitHubとOpenAIは、Copilotが帰属表示、著作権表示、およびライセンス条項を確認するようにプログラムすることを故意に怠り、Copilotがオープンソースライセンスの対象となるコードを複製する提案を行う場合、その提案では帰属表示、著作権表示、またはライセンス条項が省略されると主張しました。よって、CopilotはCMIを削除または変更し、GitHub、OpenAI、MicrosoftはCMIを変更または削除することを知りながらCopilotを配布したと結論付けています。 

OSSライセンス違反 

2つ目の請求について、カリフォルニア州の契約違反法では、原告は「被告が違反したと主張する契約上の義務を具体的に特定する」必要があります。Williams v. Apple, Inc., 449 F. Supp. 3d 892, 908 (N.D. Cal. 2020)。

同じ事実関係に基づき、原告は、Copilotの出力ファイルが、(1)所有者への帰属表示、(2)著作権表示、および(3)ライセンス条項を提供しておらず、これらの情報に基づいて二次的著作物を作成する許可を条件とする明示的なOSSライセンス条項を満たしていないと指摘しました。原告は、このようなライセンスされたコードの使用は、各OSSライセンスの関連条項に違反していると主張しました。Copilotが訓練されたコードには、いくつかの異なるタイプのOSSライセンスが適用される可能性がありますが、これらのOSSライセンスのほとんど(すべてではないにしても)は、コードまたはコードセクションが使用される場合に適切な帰属を要求している可能性が高いです。 

現在の状況 

GitHub、OpenAI、Microsoftは2023年6月29日、修正された訴状を却下する申し立てを行いました。

ここでも前回と同じように、各社は、原告がCMIの削除後にコピーされたり、同一の形で配布されたりした作品の具体例を特定できなかったという理由で、DMCAの申し立てに異議を唱えています。

しかし、GitHub、OpenAI、Microsoftは、原告のOSSライセンス違反の主張には異議を唱えていません。 もしGitHubによるコードの利用がフェアユースに該当するのであれば、ライセンスは不要であり、OSSライセンス条項の対象にはならないという理論に基づき、各社は肯定的抗弁の可能性としてフェアユースを提起すると予想されます。 

このケースから読み取れること 

Copilotのケースは、Copilotのような著作権で保護された素材に学習させたツールからAIが生成したコードの使用をめぐる法的複雑性を浮き彫りにしています。オープンソースライセンスの対象となるコードは、依然として著作権で保護されており、オープンソースライセンスの下で規定される条項と制限がコードの使用を支配します。

説明したように、OSSライセンスは多様な義務を伴い、通常はコードによって異なる複雑な帰属要件を含んでいます。AI企業やAIを利用する企業にとって、トレーニングセットの内容や、AIツールがコードを直接複製しているのか、それとも独自に作成しているのかを判断することは、特に企業が数百万行、いやそれ以上のコードを扱っている場合には、依然として難しいです。 

ソフトウェア開発者にとっては、訴訟が解決するまでCopilotのようなツールの使用を控えることが、OSS条項違反による訴訟を回避する最も安全な方法です。しかし、現在の競争の激しいソフトウェア開発市場では、この推奨は現実的ではないかもしれません。したがって、AI支援ツールの使用を進めることを選択した企業は、慎重に行動し、不必要なリスクを回避すべきです。

フロントエンドでは、企業はAIツールのベンダーに、AI学習モデルにOSSライセンスの対象となるソースコードが含まれているかどうかを尋ねることができます。もしそうであれば、そのツールがOSSライセンスの対象となるトレーニングデータを除外できるかどうかを尋ねてみるといいでしょう。バックエンドでは、コードスキャナーを使用して、OSSライセンスの対象となるコードと一致する可能性のあるコードを監査することができます。

著作権法に基づいて自社のソースコードを保護することに関心のある企業は、AIやOSSへの全体的な依存を減らすことで、保護の強度と範囲が高まることにも留意する必要です。米国著作権局の最近のガイダンスでは、著作権登録を目指す申請者に対し、「AIが生成したコンテンツを含むことを開示」し、「作品に対する人間の著作者の貢献について簡単な説明を提供」するよう求めています。AIが生成したコードのような人間以外の貢献は著作権登録の対象とはならず、OSSから派生したコードのような既存の素材は保護範囲から除外されます。 

最後に、企業が従業員にAIツールを明示的に提供したり使用を許可していないとしても、開発者はすでにプログラミングを支援するためにAIツールを使用していると考えるのが最も安全です。その結果、企業はAIの使用に関する社内ポリシーを採用し、従業員にその問題やリスクについて教育するためのトレーニングを提供すべきです。 

関連記事:増えつつあるAI関連訴訟:米国におけるジェネレーティブAI訴訟の最新動向 – Open Legal Community 

結論 

Copilotはソフトウェア開発における大きな進歩ですが、複雑な法的考慮事項が伴います。

企業とその弁護士は、これらの問題を認識し、進行中の紛争に関する最新情報を入手し、AIが生成するコードに関連するリスクを軽減するための予防措置を講じる必要があります。この進化する状況において、コーディングにおけるAIを取り巻く法的課題を乗り切るためには、慎重な検討とイニシアチブを取った対策が不可欠です。

参考記事:Insights from the Pending Copilot Class Action Lawsuit | Articles | Finnegan | Leading IP+ Law Firm 

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

こちらもおすすめ