企鹅出版社在其图书中添加了“禁止为人工智能抓取内容”页面

王浩然 • 2024年10月20日下午4:00 • AI前沿 • 114 views

据《书商》报道，出版巨头企鹅兰登书屋将修改其所有图书版权页上的文字，明确禁止将其作品用于训练人工智能系统，以坚决反对科技公司未经授权使用其作者的作品。

这与其他大型出版商有着显著的不同，例如学术印刷公司Taylor & Francis、Wiley 和牛津大学出版社，它们都已同意将其作品集授权给人工智能公司。

埃默里大学法学院的人工智能和版权专家马修·萨格表示，企鹅兰登书屋的新措辞似乎是针对欧盟市场，但也可能影响美国人工智能公司对其资料的使用方式。根据欧盟法律，版权持有人可以选择不让其作品数据被挖掘。虽然这项权利并未被美国法律所规定，但最大的人工智能开发商通常不会抓取付费墙后面的内容或网站robot.txt文件排除的内容。萨格说：“你会认为，只要这是一个他们可以大规模处理的信号，他们就没有理由不尊重这种选择（企鹅兰登书屋在其书中包含的选择）。”

数十名作家和媒体公司在美国对谷歌、Meta、微软、OpenAI 和其他人工智能开发商提起诉讼，指控他们使用受版权保护的作品训练大型语言模型，违反了法律。这些科技公司辩称，他们的行为符合合理使用原则，该原则允许在某些情况下未经许可使用受版权保护的材料——例如，如果衍生作品实质性地改变了原始内容，或者如果它被用于批评、新闻报道或教育。

美国法院尚未裁定将书籍输入大型语言模型是否构成合理使用。与此同时，社交媒体上用户发布消息告诉科技平台不要用他们的内容训练人工智能模型的趋势可想而知地失败了。

企鹅兰登书屋的“无需培训”理念与那些乐观的复制粘贴略有不同。首先，社交媒体用户必须同意平台的服务条款，这必然允许他们的内容用于训练人工智能。其次，企鹅兰登书屋是一家富有的国际出版商，可以借助律师团队来支持其理念。

据《书商报》报道，出版商的新版权页将部分内容如下：“本书的任何部分不得以任何方式用于或复制用于训练人工智能技术或系统。根据《数字单一市场指令》第 2019/790 条第 4(3) 款，企鹅兰登书屋明确保留对本作品的文本和数据挖掘豁免权。”

科技公司乐于在互联网上挖掘语言数据集，尤其是像 Reddit 这样的网站，但这些内容的质量往往很差——充斥着错误的建议、种族主义、性别歧视和所有其他主义，导致最终模型出现偏见和不准确性。人工智能研究人员表示，由于写作和事实核查的质量，书籍是模型最理想的训练数据之一。

如果企鹅兰登书屋能够成功将其受版权保护的内容与大型语言模型隔离开来，那么它将对生成式人工智能行业产生重大影响，迫使开发人员要么开始为高质量内容付费（这将对依赖于免费使用他人作品的商业模式造成打击），要么试图向客户推销使用低质量互联网内容和过时出版材料训练的模型。

“企鹅兰登书屋等公司选择退出 AI 训练的最终目的可能是满足那些反对以任何理由将其作品用作训练数据的作者的利益，但这可能是为了让出版公司转而开始收取访问训练数据的许可费，”Sag 说。“如果我们最终处于这样的世界，AI 公司将继续在‘开放互联网’上进行训练，但任何控制大量文本的人都会选择退出并收取访问费用。这似乎是一个很好的妥协，它让出版商和网站能够将访问权货币化，而不会给整个 AI 训练带来无法承受的交易成本。”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/qi-e-chu-ban-she-zai-qi-tu-shu-zhong-tian-jia-le-jin-zhi

Meta OpenAI 人工智能企鹅兰登书屋微软谷歌

Like (0)

王浩然作者

0 0

人为因素：企业如何预防云灾难

Previous 2024年10月20日

美国财政部称人工智能工具在 2024 年阻止了 10 亿美元的欺诈行为

Next 2024年10月20日

AI前沿

Brightband 认为人工智能天气预报的前景光明

随着上一代工具无法处理的天气和气候数据激增，人工智能会成为预测的未来吗？研究确实表明了这一点，一家名为Brightband的新融资初创公司正在尝试将机器学习预测模型转变为商业和开…

王浩然
2024年9月20日
000
AI前沿

Claude：你需要了解的有关 Anthropic 人工智能的一切

Anthropic 是规模仅次于 OpenAI 的第二大 AI 供应商，它拥有一个名为 Claude 的强大生成式 AI 模型系列。这些模型可以执行一系列任务，从为图片添加字幕、撰…

王浩然
2024年10月20日
000
AI前沿

大厂养不起大模型？

身处于观望期的大模型赛道，似乎任何风吹草动，都让市场有了不同以往的波动。近日，摩根士丹利发布报告称，中国AI正在面临更大的变现问题，文中直接指出AI应用先行者业绩不及预期，金山办…

点点
2024年9月16日
000
AI前沿

AnyChat 整合了 ChatGPT、Google Gemini 等功能，可实现终极 AI 灵活性

一种名为AnyChat的新工具通过在单一界面下统一各种领先的大型语言模型 (LLM)，为开发人员提供了前所未有的灵活性。该平台由人工智能社区的知名人物、Gradio 的机器学习增…

王浩然
2024年11月19日
000
AI前沿

OpenAI 为 DeepSeek 竞赛提供 o3-mini 详细推理轨迹

OpenAI 目前正在展示其最新推理模型 o3-mini 的更多推理过程细节。这一变化是在OpenAI 的 X 账户上宣布的，而此时人工智能实验室正面临来自 DeepSeek-R1…

王浩然
2025年2月9日
000
AI前沿

Turnitin 首席产品官 Annie Chechitelli – 访谈系列

Annie Chechitelli是 Turnitin 的首席产品官，负责监督 Turnitin 应用程序套件，包括学术诚信、评分和反馈以及评估功能。 Turnitin是一家全球性…

点点
2024年9月17日
000
AI前沿

据报道，TikTok 的研究承认其对青少年产生了负面影响

据美国国家公共广播电台和肯塔基公共广播电台报道，法庭文件表明，TikTok 高管意识到该应用对青少年的潜在危害。本周早些时候， 14 名美国总检察长起诉 TikTok ，声称该应…

点点
2024年10月13日
000
AI前沿

DeepMind的米开朗基罗基准：揭示长上下文LLMs的局限性

随着人工智能 (AI) 的不断发展，处理和理解长序列信息的能力变得越来越重要。人工智能系统现在用于执行复杂的任务，例如分析长文档、跟上长时间的对话以及处理大量数据。然而，许多当前模…

点点
2024年10月18日
000
AI前沿

腾讯研究院对话前OpenAI研究员：为什么伟大不能被计划？

2024年9月25日，腾研读书举办了一场对谈，腾讯研究院资深专家袁晓辉对谈前OpenAI研究员，也是《为什么伟大不能被计划》一书的两位作者肯尼斯·斯坦利（Kenneth Stanl…

点点
2024年10月12日
000
AI前沿

谷歌更换搜索和广告主管

谷歌首席执行官 Sundar Pichai周四宣布，负责公司搜索引擎和广告产品的高管 Prabhakar Raghavan 将离职。谷歌资深高管 Nick Fox 将接替 Ragh…

点点
2024年10月18日
000
AI前沿

OpenAI的ChatGPT用户激增至4亿，GPT-5即将面世‌

OpenAI的ChatGPT用户量已突破4亿周活跃用户大关，这一里程碑彰显了公司在消费者和企业市场的快速扩张。根据首席运营官Brad Lightcap周四在X平台上的帖子，Chat…

王浩然
2025年2月22日
000
AI前沿

新加坡初创公司 Sapient 凭借全新模型架构加入全球企业 AI 竞赛

新加坡首家基础模型 AI 初创公司Sapient Intelligence宣布成功完成种子轮融资，以 2 亿美元的估值募集 2200 万美元。在 Vertex Ventures、…

王浩然
2024年12月11日
000
AI前沿

Qodo 的完全自主代理解决了回归测试的复杂性

在软件开发过程中，代码不断演变，需要不断测试其质量和可维护性。这是回归测试的根源，在回归测试中，现有测试会重新运行，以确保修改后的代码继续按预期运行。然而，回归测试可能非常耗时且…

王浩然
2024年12月5日
000
AI前沿

亚马逊网络服务 (AWS) re:Invent 2024 的重磅新闻

云计算领导者亚马逊网络服务 (AWS) 的2024 年年度 re:Invent 大会本周于内华达州拉斯维加斯举行，它有望成为该系列12 年前推出以来规模最大的一次大会。为什么？当…

王浩然
2024年12月5日
000
AI前沿

Google 的 DataGemma AI 是统计向导

谷歌正在扩大其 AI 模型系列，同时解决该领域的一些最大问题。今天，该公司推出了 DataGemma，这是一对开源的、指令调整的模型，它们朝着缓解幻觉挑战迈出了一步——大型语言模型…

王浩然
2024年9月15日
000
AI前沿

OpenAI 称其商业用户已达 100 万

OpenAI 的付费商业产品达到了一个里程碑，ChatGPT Enterprise、Team 和 Edu 产品的付费商业用户达到一百万。 100 万用户大关较该公司今年 4 月公…

王浩然
2024年9月9日
000
AI前沿

从 o1 到 o3：OpenAI 如何重新定义人工智能中的复杂推理

生成式人工智能重新定义了我们对人工智能能力的认知。它最初只是一种用于完成简单重复性任务的工具，现在正在解决我们面临的一些最具挑战性的问题。OpenAI 在这一转变中发挥了重要作用，…

王浩然
2024年12月27日
000
AI前沿

Meta 的 Llama 3.2：利用设备端和多模式功能重新定义开源生成式 AI

Meta 最近推出了 Llama 3.2 ，这是其 Llama 系列大型语言模型的最新版本，是开源生成式 AI 生态系统发展的重要进展。此次升级在两个维度上扩展了 Llama 的功…

点点
2024年9月28日
000
AI前沿

神秘「蓝莓」登顶文生图竞技场，疑似Flux.1续作，网友：都来免费打广告了

都来玩这套。继OpenAI“草莓”之后，又有神秘模型蓝莓来“霸榜”。在文生图模型排行榜上，两个“无人认领”的模型blueberry_0和blueberry_1力压Flux.1、…

点点
2024年9月29日
000
AI前沿

Gusto 技术主管表示，雇佣大批专家是错误的 AI 做法

当创始人计划日益以人工智能为中心的未来时，Gusto 联合创始人兼技术主管 Edward Kim 表示，裁减现有团队并聘请一批经过专门培训的人工智能工程师是“错误的做法”。相反，…

王浩然
2024年10月21日
000

发表回复

Please Login to Comment

企鹅出版社在其图书中添加了“禁止为人工智能抓取内容”页面

相关推荐

发表回复

Share To :