OpenAI 数据抓取大获全胜，Raw Story 版权诉讼被纽约法院驳回

王浩然 • 2024年11月9日下午2:00 • AI前沿 • 120 views

纽约南区法院驳回了另类左倾在线新闻机构Raw Story Media, Inc. 和AlterNet Media, Inc. 针对 OpenAI提起的版权侵权诉讼，有效地驳回了有关这家生成式人工智能公司在其训练数据中使用抓取的新闻内容侵犯版权的指控。

此次驳回可被视为有关版权和人工智能工具的持续斗争中的一个重要时刻——特别是根据《数字千年版权法》（DMCA）第 1202(b) 条的规定——但值得注意的是，其他案件也未能根据该条款成功提出索赔。

让我们深入了解一下发生了什么，法官为何驳回此案，以及这对人工智能、版权的未来以及科技公司在未经创作者明确许可或补偿的情况下从网络上抓取内容的合法性意味着什么。

了解 DMCA 第 1202(b) 条

该诉讼围绕 DMCA 第 1202(b) 条展开，该条款旨在保护“版权管理信息”（CMI）。

这包括任何作者姓名、标题和其他标识受版权保护作品的元数据。第 1202(b) 条禁止未经授权删除或更改此类信息，尤其是如果这样做会助长侵犯版权的行为。

本案中，Raw Story 和 AlterNet 指控 OpenAI 使用其网站上的文章来训练 ChatGPT 和其他模型，而没有保留 CMI，违反了第 1202(b) 条。

OpenAI 并不是唯一一家可能从网络上抓取此类资料的 AI 公司——尽管 AI 模型提供商往往会严密保护其训练数据集，但整个行业无疑已经从网络上抓取了大量资料来训练其各种模型（这种做法类似于谷歌在其主要搜索引擎产品中抓取和索引搜索结果的做法）。因此，一些创造者认为数据抓取类似于 AI 的“原罪”。

在该案中，原告 Raw Story 和 Alternet 声称 OpenAI 的 AI 输出（由模型生成的响应）有时基于他们的文章，并且该公司在 CMI 被删除后故意侵犯版权。

法院为何驳回 Raw Story 的诉讼

法官科琳·麦克马洪 (Colleen McMahon) 批准了 OpenAI 的动议，理由是缺乏诉讼资格。具体来说，法官发现原告无法证明他们因 OpenAI 的行为而遭受了具体、实际的伤害——这是美国宪法第三条规定的任何诉讼得以进行的必要要求。

麦克马洪法官还考虑了大型语言模型 (LLM) 接口的不断发展，并指出这些系统的更新使归因和可追溯性更加复杂。她强调，生成式人工智能的迭代改进使得内容被逐字复制的可能性降低，这使得原告的诉求更加具有推测性。

法官指出，“ChatGPT 输出原告文章中抄袭内容的可能性似乎很小。”这反映了此类案件的一个关键难点：生成式人工智能旨在合成信息，而不是逐字复制信息。原告未能提供令人信服的证据证明他们的具体作品受到直接侵权，并导致可识别的损害。

该裁决与法院难以将传统版权法应用于生成式人工智能的类似案件相一致。例如，涉及微软 Copilot 的 Doe 1 诉 GitHub 案也涉及第 1202(b) 条下的索赔。在该案中，法院发现 Copilot 生成的代码不是原始代码的“完全相同的副本”，而是经过重新配置的片段，因此很难证明违反了 CMI 要求。

第 1202(b) 条的分歧越来越大

Raw Story 的判决凸显了法院在第 1202(b) 条方面面临的更广泛的不确定性，尤其是在生成性人工智能方面。

目前，对于第 1202(b) 条如何适用于大量在线内容，尚无统一意见。一方面，一些法院规定了所谓的“同一性”要求，即原告必须证明侵权作品是原始内容的精确副本，但不包括 CMI。然而，其他法院允许更灵活的解释。

例如，德克萨斯州南区法院最近驳回了同一性要求，指出如果故意删除 CMI，即使是部分复制也可能构成违法。

与此同时，在 Sarah Silverman 和一群作者提起的诉讼中，法院裁定原告未能提供足够的证据证明 OpenAI 主动从她的内容中删除了 CMI。这项裁决与 Raw Story 的裁决非常相似，强调了原告面临的举证责任。

正如玛丽亚·克鲁西（Maria Crusey）在作者联盟（Authors Alliance）的一篇文章中所解释的那样，“§1202（b）索赔的增加提出了一些具有挑战性的问题，即：§1202（b）如何适用于将版权作品作为数据集的一部分进行清理、重组和处理，以将版权管理信息与内容本身分开？”

为什么这项裁决对人工智能和内容创作者很重要

Raw Story 诉讼被驳回不仅仅是 OpenAI 的胜利，它还表明，在快速发展的生成式人工智能领域，法院可能会如何处理类似的版权索赔。OpenAI 及其投资者微软目前正在对《纽约时报》提起的类似诉讼进行辩护，这项裁决只能帮助建立一些先例，以驳回这一诉讼和未来的诉讼。

事实上，该裁决表明，如果没有明显的、可证明的伤害或完全相同的复制，原告可能会难以在法庭上获得辩护。

麦克马洪法官的裁决还涉及一个更广泛的问题，即人工智能如何合成数据而不是直接复制数据。OpenAI 的 ChatGPT 不会直接调用 Raw Story 中的文章，而是使用训练数据来生成类似于人类写作的新颖输出。这使得根据现行版权法证明侵权行为本身就很困难。

对于内容创作者来说，这带来了一个重大挑战：如何确保版权归属，防止未经授权在训练数据集中使用其作品。OpenAI与Vogue和Wired所有者 Condé Nast等大型新闻出版商达成的许可协议可能成为一种新标准，让公司可以合法使用受版权保护的内容，同时向创作者提供补偿。

在机器人和困境之间

法院仍在研究如何处理生成式人工智能，最近的裁决表明，除非原告证明其造成了真实、具体的损害，否则他们不愿延长第 1202(b) 条的保护。人工智能生成的内容是合成的，而不是复制的，因此很难证明侵犯版权。

对于原告来说，这意味着证明损害是一场艰苦的战斗。法院表示，模糊的指控是不够的——原告需要确凿的损害证据。对于开发者和科技公司来说，即使胜算似乎很大，也没人想打官司。透明度、数据记录和合规性对于避免法律麻烦至关重要。

麦克马洪法官指出，该案可以重新提起（“并解释为什么拟议的修正案不会徒劳无功”，她写道），但仍然存在重大障碍。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/openai-shu-ju-zhua-qu-da-huo-quan-sheng-raw-story-ban-quan

Like (0)

王浩然作者

0 0

Puppygraph 加快了 LLM 获取图形数据洞察的速度

Previous 2024年11月9日

“不受限制”的人工智能集团 Nous Research 推出首个聊天机器人

Next 2024年11月9日

AI前沿

通用人工智能：安永对短期未来的展望

通用人工智能（AGI）是一种人工智能，它有望通过匹配或超越人类的认知能力来颠覆多个行业并解决世界上一些最大的问题。尽管这一概念源自科幻小说，但 AGI 可能比我们想象的更接近现实…

王浩然
2025年1月26日
000
AI前沿

Slack 正在成为人工智能工作场所：这对你的工作意味着什么

这款让数百万办公室工作人员分享表情包、协调项目的消息应用程序正在悄然转变为一个更具雄心壮志的目标：一个让人工智能代理作为数字同事与人类一起工作的平台。作为 Salesforce …

王浩然
2024年12月21日
000
AI前沿

GitHub Spark 让你用简单的英语构建 Web 应用程序

当 GitHub Copilot 推出并开始自动完成代码行（后来是整个代码片段）时，许多人都在问：我们多久才能用自然语言描述一个应用程序，然后 Copilot 会为我们构建它？近几…

王浩然
2024年10月30日
000
AI前沿

随着“AlphaChip”的兴起，谷歌和 Meta 更新了他们的人工智能模型

于 OpenAI 的影响，本周人工智能新闻异常繁忙，包括首席执行官 Sam Altman 发表的一篇有争议的博客文章、高级语音模式的广泛推出、5GW数据中心的传闻、重大员工变动以及…

点点
2024年9月30日
000
AI前沿

非营利组织加入伊隆·马斯克的行列，阻止 OpenAI 向营利性转型

Encode 是一家非营利组织，也是加利福尼亚州命运多舛的 SB 1047人工智能安全法案的共同发起人，该组织已请求允许提交一份法庭之友陈述，以支持埃隆·马斯克的禁令，阻止 Ope…

王浩然
2024年12月29日
000
AI前沿

低致幻性人工智能微剂量给药

Agentforce已经到来。今年 9 月，Salesforce 结束了又一次年度Dreamforce 大会。加入众多与会者——以及在格外干净的旧金山穿梭的 Waymos 大军——…

点点
2024年10月8日
000
AI前沿

IDC：GenAI 智能手机将在 2024 年推动全球出货量增长

IDC 已修订其对 2024 年全球智能手机出货量的预测，预计同比增长 5.8% 至 12.3 亿部。这家市场情报公司之所以持乐观态度，是因为新兴市场中价格实惠的 Androi…

AI News
2024年9月1日
000
AI前沿

IBM为五家城市可持续发展非营利组织提供人工智能支持

IBM最近宣布了一项与城市可持续发展相关的非营利组织开展的开创性合作。通过这些非营利组织参与的IBM可持续发展计划，它们将获得人工智能（AI）支持，以扩大其援助世界上最脆弱社区的使…

王浩然
2025年2月22日
000
AI前沿

为什么人工智能无法让你成为更好的作家

文学界一直充满争议，从《坏艺术朋友》到 BookForum 对长期受到称赞的评论家劳伦·奥勒的报应。然而，最近的争论点不是人际关系的戏剧或吹毛求疵的评论。相反，这是一篇来自 N…

王浩然
2024年11月18日
000
AI前沿

Hugging Face 推出用于机器人命令的自然语言 AI 模型

模型使得构建和部署能够执行复杂任务的人工智能机器人变得更加容易。开源代码库Hugging Face推出了一种机器人基础人工智能模型，可将自然语言命令转化为身体动作。该模型名为…

王浩然
2025年2月19日
000
AI前沿

亚马逊正在将生成式人工智能融入其购物体验

亚马逊推出了一批新的生成式人工智能工具，旨在改善平台上客户和卖家的零售体验。周四在亚马逊加速活动上宣布的一项最引人注目的功能将利用客户的偏好、搜索、浏览和购买历史在亚马逊主页上创建…

王浩然
2024年9月22日
000
AI前沿

Pika 1.5 推出，具有违反物理规律的 AI 特效

Pika，也称为 Pika Labs，是首批推出自己的 AI 视频生成模型的初创公司之一，用户只需输入文本即可获得视频片段，并于 2023 年 11 月在 A 轮融资中筹集了 35…

free
2024年10月2日
000
AI前沿

思科AI防御如何抵御你从未见过的网络威胁

随着企业在各个业务领域中加速采用AI技术，其快速适应性也带来了一个安全悖论——如何在系统不断演变的同时，将其安全扩展到整个企业范围？目前，对抗性AI正主导着威胁态势，引发了一场隐形…

王浩然
2025年2月23日
000
AI前沿

ChatGPT 集成如何与 Apple Intelligence 协同工作

周三，借助新发布的 iOS 18.2、iPadOS 18.2 和 macOS Sequoia 15.2 更新，开发人员首次体验了 Apple Intelligence 的 Chat…

王浩然
2024年10月25日
000
AI前沿

如何将 RAG 与流数据库相结合来改变实时数据交互

虽然GPT-3和Llama等大型语言模型 (LLM) 的功能令人印象深刻，但它们通常需要更多信息和更多特定领域数据的访问权限。检索增强生成(RAG) 通过将 LLM 与信息检索相结…

点点
2024年10月12日
000
AI前沿

AI工作取代：是逐渐发生还是突然到来？‌

人工智能（AI）正在迅速改变我们的工作方式，无论是通过自动化任务、作为辅助工具，还是从普通英语生成文本、图像、视频和软件。然而，尽管关于AI将彻底改变工作的讨论甚嚣尘上，但广泛的工…

王浩然
2025年3月24日
000
AI前沿

我们能教机器像人类一样思考吗？

介绍当我开始学习人工智能时，最令人着迷的想法之一就是机器像人类一样思考。但是，当我仔细研究人工智能和机器学习方法的实际作用时，我惊讶地发现，课程和书籍中关于人类思维方式（即人类认…

王浩然
2024年10月20日
000
AI前沿

Prime 通过 AI 系统风险分析和建议措施重新思考企业安全设计

即使软件世界已经转向简化的用户界面和应用程序，幕后的安全工作也变得更加复杂——特别是对于依赖软件运营的大中型企业而言。尽管许多企业都试图采用“设计安全”的方法，即仔细考虑每个新更…

王浩然
2024年10月10日
000
AI前沿

微软利用三哩岛核电站为人工智能提供动力

训练人工智能背后大型语言模型的数据中心消耗着难以想象的大量能源，大型科技公司必须确保有足够的电力来运行这些工厂。这就是微软现在全力支持核电的原因。这家科技巨头周五与核电站运营商 …

王浩然
2024年9月21日
000
AI前沿

应对副驾驶的安全风险

越来越多的企业正在使用副驾驶和低代码平台，使员工（即使是那些技术专长很少或没有技术专长的员工）能够创建强大的副驾驶和业务应用程序，以及处理大量数据。 Zenity 的一份新报告《2…

点点
2024年9月25日
000