企鹅出版社在其图书中添加了“禁止为人工智能抓取内容”页面

企鹅出版社在其图书中添加了“禁止为人工智能抓取内容”页面

据《书商》报道,出版巨头企鹅兰登书屋将修改其所有图书版权页上的文字,明确禁止将其作品用于训练人工智能系统,以坚决反对科技公司未经授权使用其作者的作品。

这与其他大型出版商有着显著的不同,例如学术印刷公司Taylor & Francis、Wiley 和牛津大学出版社,它们都已同意将其作品集授权给人工智能公司。

埃默里大学法学院的人工智能和版权专家马修·萨格表示,企鹅兰登书屋的新措辞似乎是针对欧盟市场,但也可能影响美国人工智能公司对其资料的使用方式。根据欧盟法律,版权持有人可以选择不让其作品数据被挖掘。虽然这项权利并未被美国法律所规定,但最大的人工智能开发商通常不会抓取付费墙后面的内容或网站robot.txt文件排除的内容。萨格说:“你会认为,只要这是一个他们可以大规模处理的信号,他们就没有理由不尊重这种选择(企鹅兰登书屋在其书中包含的选择)。”

数十名作家和媒体公司在美国对谷歌Meta微软OpenAI 和其他人工智能开发商提起诉讼,指控他们使用受版权保护的作品训练大型语言模型,违反了法律。这些科技公司辩称,他们的行为符合合理使用原则,该原则允许在某些情况下未经许可使用受版权保护的材料——例如,如果衍生作品实质性地改变了原始内容,或者如果它被用于批评、新闻报道或教育。

美国法院尚未裁定将书籍输入大型语言模型是否构成合理使用。与此同时,社交媒体上用户发布消息告诉科技平台不要用他们的内容训练人工智能模型的趋势可想而知地失败了。

企鹅兰登书屋的“无需培训”理念与那些乐观的复制粘贴略有不同。首先,社交媒体用户必须同意平台的服务条款,这必然允许他们的内容用于训练人工智能。其次,企鹅兰登书屋是一家富有的国际出版商,可以借助律师团队来支持其理念。

据《书商报》报道,出版商的新版权页将部分内容如下:“本书的任何部分不得以任何方式用于或复制用于训练人工智能技术或系统。根据《数字单一市场指令》第 2019/790 条第 4(3) 款,企鹅兰登书屋明确保留对本作品的文本和数据挖掘豁免权。”

科技公司乐于在互联网上挖掘语言数据集,尤其是像 Reddit 这样的网站,但这些内容的质量往往很差——充斥着错误的建议、种族主义、性别歧视和所有其他主义,导致最终模型出现偏见和不准确性。人工智能研究人员表示,由于写作和事实核查的质量,书籍是模型最理想的训练数据之一。

如果企鹅兰登书屋能够成功将其受版权保护的内容与大型语言模型隔离开来,那么它将对生成式人工智能行业产生重大影响,迫使开发人员要么开始为高质量内容付费(这将对依赖于免费使用他人作品的商业模式造成打击),要么试图向客户推销使用低质量互联网内容和过时出版材料训练的模型。 

“企鹅兰登书屋等公司选择退出 AI 训练的最终目的可能是满足那些反对以任何理由将其作品用作训练数据的作者的利益,但这可能是为了让出版公司转而开始收取访问训练数据的许可费,”Sag 说。“如果我们最终处于这样的世界,AI 公司将继续在‘开放互联网’上进行训练,但任何控制大量文本的人都会选择退出并收取访问费用。这似乎是一个很好的妥协,它让出版商和网站能够将访问权货币化,而不会给整个 AI 训练带来无法承受的交易成本。”

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/qi-e-chu-ban-she-zai-qi-tu-shu-zhong-tian-jia-le-jin-zhi

Like (0)
王 浩然的头像王 浩然作者
Previous 2024年10月20日
Next 2024年10月20日

相关推荐

发表回复

Please Login to Comment