大規模言語モデル(LLM)をどう考えるべきか？

11/08/2023

大規模言語モデル（LLM）は士業にも大きな影響を及ぼす可能性がありますが、リスクを軽視することなく、弁護士や弁理士を含む多くの専門家は導入に慎重に取り組む必要があります。LLMに関してはまだ未知数な部分が多く、バージョンによって特定のタスクによる出来不出来に差が出たり、幻覚を起こしたりします。また、弁護士が様々な協力者と協議して行うアドバイスはLLMが再現できるものではありません。LLMの利便性は決して無視できませんが、万能ではなく限界があるので、正しい理解の元、LLMを活用することがもとめられます。

ーーー

LLMは、「生成人工知能（AI）」モデルのサブセットです。生成的AIの他の例としては、音楽生成や画像生成などがあります。また、GPT-4のように、テキストと画像の両方を処理できるモデルもあります。

LLMは、膨大なテキストデータに対して「深い」ニューラルネットワーク（機械学習モデル）を学習させることで形成されます。まずモデルはデータ中のテキストの塊を「トークン」と呼ばれるものに変えます。トークンは1文字から数語のものまで様々です。その次に各トークンには、モデルによって整数番号が割り当てられます。そして、モデルは、どのトークンが互いに続く可能性が高いかを学習します。このような処理を通して、モデルはテキストの予測を学習します。LLMにおいて興味深い点は、LLMが優れたテキスト予測ツールにとどまらず、プロンプトに対して人間のような回答を生成するのにも使えるということです。ChatGPTはこのような特性を対話型のUIにしたことで爆発的に人気を得ました。

最近の生成AIブームによりAI全般とLLMを特に注目が集まったことにより、メディアもで々な「事件」を取り上げるようになりました。特に、このような傾向は、2023年第2四半期にOpenAIのGPT-4が発表されて以来、顕著に増加しています。

生成AIに詳しくない人でも、学生がLLMを利用して学校や大学の小論文などを作成したことにより、新しい形のカンニングが懸念されたり、学び方それ自体に問題を指摘するようなニュースを知っているかもしれません。また、私達の業界では、とある米国の弁護士が、法廷報告書の作成にチャットGPTを使用し、そのモデルが（生成AIによる「幻覚」により）存在しない架空の法的引用を生成し、裁判を台無しにしたことがアメリカもマスメディアでも大々的に取り上げられました。

しかし、LLMが、よく設計されたプロンプトに対して人間のような応答を生成したり、大量のテキストをわかりやすく要約したり、言語間の翻訳を行ったり、スペルチェックやトーンモデレーターを提供したりするとても便利な能力を持っていることを無視することはできません。そのため、法律文書のドラフトに使用するために特別にAIツールを開発する取り組みなどもあります。しかし、このようなツールは将来的には有望ではあるものの、機密性、信頼性、クライアントへの配慮について重大な問題を提起する可能性があります。

したがって、私たちは、リスクを軽視することなく、弁護士や弁理士を含む多くの専門家にLLMが提供する可能性に慎重に取り組むべきです。

現状

現世代のLLMには、マルチモーダルな機能（例えば、上記のGPT-4が示すように、画像のユーモラスな特徴をテキストで説明するなど）など、多くの利点があります。また、（BingやWolfram Alphaのような）ユーザーフレンドリーなプラグインの登場により、インターネット検索機能（またはWolframデータベース）の力と、チャットGPT（GPT-3や-4）で使われているようなLLMの人間らしい反応を組み合わせることができるようになりました。

一方、新しいLLMが様々な企業によって常に開発され、進化していっています。例えば、OpenAIモデルであるGPT-4とGPT3.5を比較した場合、米国の司法試験の模擬試験で、GPT-4が受験者の上位10％に入るスコアを達成したのに対し、GPT-3.5は下位10％だったことはよく知られています。

とはいえ、GPT-4のテクニカルレポートでは、GPT-3.5と比較したGPT-4のパフォーマンスについて、複数の異なる米国試験における全体像が示されています。そこでは、性能が向上している場合もありますが、そうでない場合もあります。

このグラフは、ある世代のGPTから次の世代のGPTへの改善と非改善の予測不可能な挙動を示しています。したがって、一般的なAI、特にLLMの将来を予測するのは非常に難しいです。後世代のLLMは、より強力であるにもかかわらず、あるいは強力であるがゆえに、開発に時間がかかるとも考えられています。

LLMの現状を一言で言うならば、「不透明」です。LLMは大きな利益をもたらすが、その利益にはリスクが伴います。

「Thinking, Fast and Slow」

LLMは、その解決策発見能力と事実発見能力を高く評価されています（ただし、検索エンジンと全く同じように扱わないことが重要）。特に顕著な例はコーディングで、LLMは人間の開発者のために解決策を考案するのに使われています。しかし、LLMが常に合理的な解決策を提供したり、正しい事実を提供したりするとは限らないです。

それはなぜでしょうか？

この点を考察する上で、LLMがどのように「考える」のかと、人間がどのように考えるのかを比較してみましょう。LLMは正しく促されなければ、質問に対して浅はかで、しばしば誤解を招くような答えを出す傾向があることがわかります。このことから、LLMの「思考」を、ノーベル賞受賞者ダニエル・カーネマンの代表的著作『Thinking, Fast and Slow』で定義されている「システム1」思考と比較する研究者もいます。(「システム1」思考は浅い思考であり、瞬時に近く、労力も少ない。対照的に、「システム2」とは、問題を解決する必要があるときに取り組む、より分析的で慎重な思考であるというもの)。

これが、いわゆる「プロンプト・エンジニアリング」の出現につながりました。つまり、価値のある答えを得るためには、人間がLLMに投げかける質問を慎重に設計しなければならない、ということです。つまり、モデルが動き出す前に、人間の頭脳が「難しい」思考を行うということです。その結果、LLMを活用する場合でも、理性的な論理と、モデルが間違っていることを見抜く専門知識をユーザーが持っている必要があります。

聞きたいことを話す

LLMが特定の個別事実を「幻覚」することはよく知られています。例えば、NASAが提出した特許出願の例を尋ねたLLMが本当の答えを返しているかどうかを判断するのは簡単で、EspacenetやGoogle Patentなどで検索すればいいのです。このような回答に関して、LLMが本当の答えを返しているかどうかを判断するのは簡単です。

しかし、簡単に発見できる幻覚は、より深く、より厄介な問題の徴候でもあります。つまり、LLMはユーザーが聞きたいと思うことを言うという問題です。その結果生じるエラーは非常に微妙で、それゆえに大きなリスクになる場合があります。例えば、法律文書のような場面にそのような幻覚が現れると、重大な問題を引き起こす可能性があります。そのため、チャットGPTが作成できる一見説得力のある文は、熟慮されたアドバイスの基礎となる洞察力や経験に代わるものではないということを心に留めておく必要があります。

反復的思考がなく、チームワークがない

LLMにおいてもう一つの問題を考えます。それは、LLMは反復的思考をしないということです。これは「心のスクラッチパッド」が使えないと表現されます。そのため、異なる専門分野の弁護士が協力したり、発明者と企業のCEOと顧問弁護士が一緒にブレーンストーミングでアイデアを出し合ったりするような、チームでの思考を再現する能力に欠けています。例えば、質の高い特許を書くには、特許弁護士は優秀な発明者と共に協力し、議論することが必要です。このようなプロセスはLLMでは再現できないので、重要な決断の根拠となるアドバイスをLLMに頼るのは、その決断が商業的なものであれ個人的なものであれ、危険であると言わざるを得ません。

結論

LLMの登場は衝撃的です。特に、定型的な、あるいはリスクの低い書面業務を自動化するためにLLMを賢く用いることは、人間がより重要で戦略的な事柄に時間を割くことを可能にします。しかし、LLMの能力には限界があります。そのため、LLMの活用に関しては、このことを常に念頭に置くことが重要です。技術に過度に依存すると、将来、恥をかいたり、悲惨なことにさえなりかねないです。また、異なる法域において規制がどのように発展していくかは興味深いです。

今後、LLMがより洗練されていくにつれて、弁理士や弁護士などの法律専門家にとってどのように役立つかも含め、LLMの世界の発展を監視し続ける際には、適切な注意と留保を持ちつつ、バランスの取れた見解を採用すべきでしょう。

参考記事：Abel + Imray | Large language models – a patent law perspective