OpenAIがLibGen由来データの削除理由を変更し弁護士秘匿特権を失う、開示されるSlack等の履歴に証拠があれば巨額賠償の可能性

弁護士等のやり取り中に「使わなかったから削除した」以上の情報があった場合、最大で1冊当たり15万ドルの賠償を払う必要性も / 2025年12月02日

OpenAIは、GPTなどの作成において著作権者の利益を害する形で学習を行ったとして全米の作家を対象としたクラスアクションを提起されており、ニューヨーク南部地区連邦地方裁判所(District Court for the Southern District of New York)において審理が行われています。その過程でOpenAIは著作権侵害を指摘されているLibGen由来のデータの削除に関して、「不使用のため」削除したとしていましたが、その後「弁護士秘匿特権のため開示できない」と理由を変更しました。これに基づいた11月24日の判事の判断により、LibGen由来のデータを削除した際のやり取りに関して開示する義務が発生しました。

この記事ではOpenAIの主張の変遷と、アメリカにおける弁護士秘匿特権について簡単に説明します。筆者は適切な法曹資格の類(弁護士等)を持っておりませんので、参考程度に活用していただけますと幸いです。

結論

  1. OpenAIは作家との裁判において、2022年にLibGen由来のデータを削除した際のやり取りを開示する義務が発生
  2. 一旦理由を示したことにより、弁護士秘匿特権を失ったと判断される
  3. 著作権侵害を認識して削除を行ったことを示すやり取りがあった場合、最大で1冊当たり15万ドルの賠償義務がOpenAIに発生

AIとLibGen

LibGen(Library Genesis)は、いわゆるシャドウライブラリの1つです。少なくとも2008年頃から運営が続けられており、Sci-HubやZ-Libraryなどと同様、著作権侵害を含むコンテンツをオンラインかつ無償でユーザーに対して提供し続けています。

既にMetaが開発するAIモデルであるLlamaの学習過程において、これらを活用したとして2023年に3人の作家から訴訟を起こされています。著作権侵害を行っているサイトからダウンロードしたデータを活用することが著作権侵害となるといったロジックを用いていました。この訴訟は棄却されていますが、Metaの内部メールにおいて、Torrentを用いておよそ35TBのシャドウライブラリのデータがダウンロードされたことが言及されていることが示されています。

OpenAIも、GPT等の学習に使用するデータセットの一部においてこれらシャドウライブラリ由来のデータを使用していたことが指摘されていました。OpenAI内部で「book1」・「book2」として使用されたデータセットにはLibGen由来のデータが含まれるとされていましたが、OpenAIは2022年にこれらのデータを「使用しなかった(due to non-use)」という理由で削除を行いました。

訴訟におけるOpenAIの主張の変遷

命令文においてOpenAIの主張及びそれに対する裁判所の対応がまとめられています。OpenAIは2024年に使用しなかったことを基に「book1」・「book2」のデータの削除を行ったと主張していましたが、2025年1月からその理由を弁護士秘匿特権(詳細は後述します)があると主張することによって提示しないといった形で主張の変更を行っています。

  • 2024年3月〜4月: OpenAIは、Books1およびBooks2データセットが「非使用」を理由に2022年に削除されたと主張
  • 2025年1月: OpenAIは、Michael Trinhの証言録取において、Books1およびBooks2データセットの削除理由は秘匿特権の対象であると主張
  • 2025年5月20日: OpenAIは、Books1およびBooks2の削除に関する全ての理由が秘匿特権の対象であると主張
  • 2025年5月27日: OpenAIは、法廷において、Books1およびBooks2の削除に関するすべての側面が秘匿特権の対象であるわけではないと主張
  • 2025年6月13日: OpenAIは、「非使用」に関する以前の発言を「撤回」
  • 2025年6月29日: OpenAIは、集団訴訟原告らの連邦民事訴訟規則30(b)(6)通知への回答において、Books1およびBooks2の「削除に関する秘匿特権の対象外の理由」を一切提示しないと主張
  • 2025年7月25日: OpenAIは、Trinh氏の連邦民事訴訟規則30(b)(6)証言録取において、Books1およびBooks2データセットの削除に関する全ての理由が秘匿特権の対象であると主張
  • 2025年7月30日: OpenAIは、Books1およびBooks2の削除に関する全ての理由が秘匿特権の対象であると主張
  • 2025年8月: OpenAIは、Books1およびBooks2の削除理由が秘匿特権の対象であることを「一貫して主張してきた」と主張
  • 2025年10月1日の裁判所決定: OpenAIの秘匿特権主張に関する裁判所の判断

2025年10月1日の決定において、LibGen(すなわちBooks1およびBooks2データセット)の削除に関する2022年の様々なOpenAI従業員間のSlackメッセージを含むいくつかの文書は秘匿特権の対象ではないと判断し、その提出を命じています。この決定を基に11月24日に改めてOpenAIに対して記録を提出するよう命令が出た形となっています。

命令の中には具体例として裁判所が(非公開で)議論したものが含まれており、社内弁護士によるSlack上のメッセージが含まれています。今回OpenAIに対して提出が求められているのは「書面における通信記録」ですので、より幅広い形式(電子メール等)が含まれるかもしれませんが、基本的にはこういったメッセージとなると思われます。

Wang判事による命令の全文はArs Technicaのサイト上に掲載されています。米国外からでもPACERを通して公式に全文を取得することが可能ですが、米国発行のクレジットカードとページ数に基づく支払いを求められるため、日本からわざわざ取得することはおすすめできません。

Wang判事による命令書の一部のスクリーンショット。「OpenAI is directed to produce forthwith the communications」の部分が強調されている。2025年12月2日作成。

結論セクションにおいて、OpenAIは以下のことを行うように命じられています。

OpenAIは、裁判所が非公開で審査した通信記録(ログ番号14、15、17、18)、および2022年における(a)Books1およびBooks2データセットの削除理由、ならびに(b)OpenAIが弁護士依頼者間秘匿特権を根拠に編集または保留したLibGenへのすべての内部言及に関する、社内弁護士とのその他すべての書面通信を、直ちに提出するよう命じられる。

OpenAIは、OpenAIの特権ログにまだ記載されていない範囲で、同じ事項に関するすべての書面通信をログに記録し、上記(a)および(b)の削除に関連する特定の通信を特権ログ上で特定するよう、さらに命じられる。OpenAIの提出は2025年12月8日までに完了しなければならない。

さらに、OpenAIの連邦民事訴訟規則30(b)(6)に基づく証人が、Books1およびBooks2データセットの削除に関する口頭通信にOpenAIの弁護士が参加し、OpenAIがこれらの通信について弁護士依頼者間秘匿特権を主張したと証言したため(ECF 413-1の97-98頁参照)、集団訴訟原告らは、OpenAIが上記の書面通信を提出した後、そのような通信およびOpenAIの社内弁護士の個人的知識について、同弁護士らの証言録取を行う権利を有する。

OpenAIによる不適切な特権主張が継続していることを考慮し、集団訴訟原告らは、2022年にそのような通信に参加した各OpenAI弁護士につき最大2時間の証言録取を行う権利を有し、これは裁判所が以前に設定した証言録取時間の総枠には算入されない。OpenAIは、2025年12月5日までにこれらのOpenAI弁護士を特定し、2025年12月19日までにこれらの証言録取のために弁護士らを出席させるよう命じられる。

要約すると、OpenAIは、裁判所が非公開で審査した記録を含め、Book1及びBook2データセットの削除理由・秘匿特権のため公開しなかったLibGenについて言及した全ての記録を裁判所に提出し、原告に対して開示する必要があります。また、OpenAIの弁護士に対して原告が聴取を行う権利を認めています。

Wang判事は「OpenAIは削除理由について特権主張を行ったり引っ込めたりしている。一度"理由"を述べた後に、その"理由"が特権で保護されると主張して証拠開示を回避することはできない」と指摘しています。このことはAIに関係なく重要な指摘となるでしょう。

賠償金額の増加の可能性

開示されたOpenAIの記録の中において、LibGen由来のデータをなぜ削除するべきかについて議論が行われている可能性が高いと言えます。もしこの内部記録において、OpenAIが著作権侵害を認識していた場合賠償金額が大きく増加する可能性があります。

この訴訟はクラスアクションですので、詳細な条件は裁判所の判断によるところとなりますが、Book1・Bool2データセットにおいて保存されていた多数の書籍の著者がそれぞれ15万ドルをOpenAIに請求できる可能性が生まれたこととなります。これは通常の著作権侵害の場合、法定損害賠償金額は作品あたり750ドルから3万ドルの範囲となりますが、故意の侵害(willful infringement)と認定された場合は最大15万ドルまで増額されるためです。

また削除したことによる「証拠隠滅」の嫌疑も生まれるでしょうし、本当に学習に対して使用していないかどうかの確認も行われます。もし学習に使用したということが証明された場合、OpenAIはモデルの使用についても損害賠償を求められる可能性があり、損害賠償金額がさらに跳ね上がる可能性もあります。

9月にAnthropicが15億ドルの支払いで、著作権侵害を訴える作家らと和解したことを考えると、同様の額の支払いがOpenAIに対して求められる可能性が高いと思われます。またこの額は法定損害賠償額と比較すると著しく低いものですので、OpenAIが和解に失敗した場合には、(理論的には)数十億ドルから数兆ドルの賠償義務が発生する可能性があります。

アメリカにおけるディスカバリー開示と弁護士秘匿特権

アメリカの弁護士には、日本の弁護士と同様に守秘義務が課せられています。この守秘義務の存在によって、例え不都合な事実があったとしても、依頼者は弁護士に対して適切なアドバイス等を求めるためそれを隠さずに示すことが出来るようになっています。

一方、アメリカの民事訴訟にはディスカバリー(Discovery)という証拠開示手続き制度が存在しています。これは公判審理(トライアル、Trial)以前に、必要な証拠等を保全及び裁判所・当事者に示すことが出来る制度です。ディスカバリーにおいて開示する対象となるデータ等は裁判官が指定するものとなっており、訴訟に関係するものであれば開示対象として指定される可能性があるものとなっています。

ここにおいて、 弁護士とのやり取り(手紙やメール、チャットなど)もディスカバリーによる開示対象として取り扱われ得ります 。むろん弁護士とのやり取りに重要な証拠が含まれる可能性は高いのですが、これによって弁護士の守秘義務が損なわれてしまい、依頼者が委縮してしまう可能性があります。

このバランスを取るために、「 弁護士秘匿特権(Attorney-Client Privilege) 」が定められています。これは一定の条件を満たすやり取りは開示命令を受けたとしても秘匿特権を理由に拒絶できるものとなっています。制度の詳細は西村あさひ法律事務所のニュースレター(日本語)が参考となります。

これは「特権」といえど権利ですので、場合によっては放棄されることがあります。この放棄は明示的に行われることもあり得ますが、黙示的に放棄されたとみなされる場合もあります。黙示的な放棄としては、特権の対象となる事象について自ら開示したことが含まれます

過去の事例として、病院経営会社(Columbia/HCA)が米国司法省(DOJ)の調査に資料を提出する形で協力を行いました。しかし、別に起こされた民事訴訟において、資料の提出は秘匿特権のため行うことが出来ないと病院経営会社は主張しました。ここにおいて連邦地方裁判所はDOJの調査において提出された資料に関しては「自ら開示した」ことに含まれると2002年に裁判所が判断したというものがあります。このように弁護士秘匿特権の放棄は広範な形で判断されることがあり、実務において注意が必要とされています。

関連リンク

最後に

初めから「弁護士秘匿特権のため、削除理由やそれに関するやり取りは開示できない」と主張していれば、このような展開になる可能性がかなり下がった事案であると思います。このためOpenAIは法廷における戦略を間違えてしまったと言えるでしょう。

一方、開示されるであろうSlackのやり取りにおいて、OpenAIが著作権侵害を認識していたことを示すものが残っているかどうかは不明瞭です。これに関しては今後の訴訟を見守る必要があると言えます。

Writer

Osumi Akari

カテゴリ