OpenAI 数据抓取大获全胜,Raw Story 版权诉讼被纽约法院驳回

OpenAI 数据抓取大获全胜,Raw Story 版权诉讼被纽约法院驳回

纽约南区法院驳回了另类左倾在线新闻机构Raw Story Media, Inc. 和AlterNet Media, Inc. 针对 OpenAI提起的版权侵权诉讼,有效地驳回了有关这家生成式人工智能公司在其训练数据中使用抓取的新闻内容侵犯版权的指控。 

此次驳回可被视为有关版权和人工智能工具的持续斗争中的一个重要时刻——特别是根据《数字千年版权法》(DMCA)第 1202(b) 条的规定——但值得注意的是,其他案件也未能根据该条款成功提出索赔。

让我们深入了解一下发生了什么,法官为何驳回此案,以及这对人工智能、版权的未来以及科技公司在未经创作者明确许可或补偿的情况下从网络上抓取内容的合法性意味着什么。

了解 DMCA 第 1202(b) 条

该诉讼围绕 DMCA 第 1202(b) 条展开,该条款旨在保护“版权管理信息”(CMI)。

这包括任何作者姓名、标题和其他标识受版权保护作品的元数据。第 1202(b) 条禁止未经授权删除或更改此类信息,尤其是如果这样做会助长侵犯版权的行为。

本案中,Raw Story 和 AlterNet 指控 OpenAI 使用其网站上的文章来训练 ChatGPT 和其他模型,而没有保留 CMI,违反了第 1202(b) 条。

OpenAI 并不是唯一一家可能从网络上抓取此类资料的 AI 公司——尽管 AI 模型提供商往往会严密保护其训练数据集,但整个行业无疑已经从网络上抓取了大量资料来训练其各种模型(这种做法类似于谷歌在其主要搜索引擎产品中抓取和索引搜索结果的做法)。因此,一些创造者认为数据抓取类似于 AI 的“原罪”。

在该案中,原告 Raw Story 和 Alternet 声称 OpenAI 的 AI 输出(由模型生成的响应)有时基于他们的文章,并且该公司在 CMI 被删除后故意侵犯版权。

法院为何驳回 Raw Story 的诉讼

法官科琳·麦克马洪 (Colleen McMahon) 批准了 OpenAI 的动议,理由是缺乏诉讼资格。具体来说,法官发现原告无法证明他们因 OpenAI 的行为而遭受了具体、实际的伤害——这是美国宪法第三条规定的任何诉讼得以进行的必要要求。

麦克马洪法官还考虑了大型语言模型 (LLM) 接口的不断发展,并指出这些系统的更新使归因和可追溯性更加复杂。她强调,生成式人工智能的迭代改进使得内容被逐字复制的可能性降低,这使得原告的诉求更加具有推测性。

法官指出,“ChatGPT 输出原告文章中抄袭内容的可能性似乎很小。”这反映了此类案件的一个关键难点:生成式人工智能旨在合成信息,而不是逐字复制信息。原告未能提供令人信服的证据证明他们的具体作品受到直接侵权,并导致可识别的损害。

该裁决与法院难以将传统版权法应用于生成式人工智能的类似案件相一致。例如,涉及微软 Copilot 的 Doe 1 诉 GitHub 案也涉及第 1202(b) 条下的索赔。在该案中,法院发现 Copilot 生成的代码不是原始代码的“完全相同的副本”,而是经过重新配置的片段,因此很难证明违反了 CMI 要求。

第 1202(b) 条的分歧越来越大

Raw Story 的判决凸显了法院在第 1202(b) 条方面面临的更广泛的不确定性,尤其是在生成性人工智能方面。

目前,对于第 1202(b) 条如何适用于大量在线内容,尚无统一意见。一方面,一些法院规定了所谓的“同一性”要求,即原告必须证明侵权作品是原始内容的精确副本,但不包括 CMI。然而,其他法院允许更灵活的解释。

例如,德克萨斯州南区法院最近驳回了同一性要求,指出如果故意删除 CMI,即使是部分复制也可能构成违法。

与此同时,在 Sarah Silverman 和一群作者提起的诉讼中,法院裁定原告未能提供足够的证据证明 OpenAI 主动从她的内容中删除了 CMI。这项裁决与 Raw Story 的裁决非常相似,强调了原告面临的举证责任。

正如玛丽亚·克鲁西(Maria Crusey)在作者联盟(Authors Alliance)的一篇文章中所解释的那样,“§1202(b)索赔的增加提出了一些具有挑战性的问题,即:§1202(b)如何适用于将版权作品作为数据集的一部分进行清理、重组和处理,以将版权管理信息与内容本身分开?”

为什么这项裁决对人工智能和内容创作者很重要

Raw Story 诉讼被驳回不仅仅是 OpenAI 的胜利,它还表明,在快速发展的生成式人工智能领域,法院可能会如何处理类似的版权索赔。OpenAI 及其投资者微软目前正在对《纽约时报》提起的类似诉讼进行辩护,这项裁决只能帮助建立一些先例,以驳回这一诉讼和未来的诉讼。

事实上,该裁决表明,如果没有明显的、可证明的伤害或完全相同的复制,原告可能会难以在法庭上获得辩护。

麦克马洪法官的裁决还涉及一个更广泛的问题,即人工智能如何合成数据而不是直接复制数据。OpenAI 的 ChatGPT 不会直接调用 Raw Story 中的文章,而是使用训练数据来生成类似于人类写作的新颖输出。这使得根据现行版权法证明侵权行为本身就很困难。

对于内容创作者来说,这带来了一个重大挑战:如何确保版权归属,防止未经授权在训练数据集中使用其作品。OpenAI与VogueWired所有者 Condé Nast等大型新闻出版商达成的许可协议可能成为一种新标准,让公司可以合法使用受版权保护的内容,同时向创作者提供补偿。

在机器人和困境之间

法院仍在研究如何处理生成式人工智能,最近的裁决表明,除非原告证明其造成了真实、具体的损害,否则他们不愿延长第 1202(b) 条的保护。人工智能生成的内容是合成的,而不是复制的,因此很难证明侵犯版权。

对于原告来说,这意味着证明损害是一场艰苦的战斗。法院表示,模糊的指控是不够的——原告需要确凿的损害证据。对于开发者和科技公司来说,即使胜算似乎很大,也没人想打官司。透明度、数据记录和合规性对于避免法律麻烦至关重要。

麦克马洪法官指出,该案可以重新提起(“并解释为什么拟议的修正案不会徒劳无功”,她写道),但仍然存在重大障碍。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/openai-shu-ju-zhua-qu-da-huo-quan-sheng-raw-story-ban-quan

Like (0)
王 浩然的头像王 浩然作者
Previous 2024年11月9日
Next 2024年11月9日

相关推荐

发表回复

Please Login to Comment