周日,加州州长加文·纽瑟姆签署了一项法案AB-2013,要求开发生成式人工智能系统的公司发布用于训练其系统的数据的高级摘要。除其他事项外,摘要必须涵盖谁拥有数据、数据是如何获得或授权的,以及数据是否包含任何版权或个人信息。
很少有人工智能公司愿意表示他们是否会遵守,人工智能领域的主要参与者,包括 OpenAI、Anthropic、微软、谷歌、亚马逊、Meta,以及初创公司 Stability AI、Midjourney、Udio、Suno、Runway 和 Luma Labs。只有不到一半的公司做出了回应,而微软这家供应商明确拒绝发表评论。
只有 Stability、Runway 和 OpenAI 表示他们将遵守 AB-2013。
OpenAI 的一位发言人表示:“OpenAI 遵守我们运营所在司法管辖区的法律,包括这个司法管辖区。”Stability 的一位发言人表示,该公司“支持既能保护公众又不会扼杀创新的周到监管”。
公平地说,AB-2013 的披露要求不会立即生效。虽然它们适用于 2022 年 1 月或之后发布的系统(例如 ChatGPT 和 Stable Diffusion),但公司必须在 2026 年 1 月之前开始发布训练数据摘要。该法律也仅适用于向加州人提供的系统,留下了一些回旋余地。
但供应商对此事保持沉默可能还有另一个原因,这与大多数生成式人工智能系统的训练方式有关。
训练数据通常来自网络。供应商从网站上抓取大量图片、歌曲、视频等,并以此训练他们的系统。
多年前,AI 开发人员通常会在模型发布时附上技术论文,列出其训练数据的来源。例如,谷歌曾透露,它在公开的LAION数据集上训练了其图像生成模型系列Imagen的早期版本。许多较早的论文都提到了 The Pile,这是一个包含学术研究和代码库的开源训练文本集合。
在当今竞争激烈的市场中,训练数据集的构成被视为一种竞争优势,各公司将此作为不披露训练数据集的主要原因之一。但训练数据细节也可能成为开发人员的法律目标。LAION 链接到受版权保护和侵犯隐私的图像,而 The Pile 包含Books3,这是 Stephen King 和其他作者的盗版作品库。
目前已有多起针对滥用训练数据的诉讼 ,而且每个月都有更多诉讼被提起。
作家和出版商声称OpenAI、Anthropic 和 Meta 使用受版权保护的书籍(其中一些来自 Books3)进行训练。唱片公司已将 Udio 和 Suno 告上法庭,指控他们使用歌曲进行训练却不向音乐家支付报酬。艺术家们已对 Stability 和 Midjourney提起集体诉讼,称他们的数据抓取行为相当于盗窃。
不难看出 AB-2013 可能会给那些试图避免法庭纠纷的供应商带来麻烦。该法律要求公开一系列可能对训练数据集产生影响的规范,包括一份说明这些数据集首次使用时间以及数据收集是否正在进行的通知。
AB-2013 的范围相当广泛。任何“大幅修改”人工智能系统的实体(即对其进行微调或重新训练)也必须发布他们用于这样做的训练数据的信息。该法律有一些例外,但它们主要适用于网络安全和国防中使用的人工智能系统,例如用于“国家领空内飞机运行”的人工智能系统。
当然,许多供应商认为合理使用原则 提供了法律保障, 他们在法庭和 公开声明中都坚持这一点。Meta 和 Google 等一些公司已经更改了其平台的设置和服务条款,以允许他们利用更多用户数据进行培训。
迫于竞争压力,加上相信合理使用辩护最终会胜出,一些公司大肆利用受知识产权保护的数据进行训练。路透社的报道显示,Meta 曾一度使用受版权保护的书籍进行 AI 训练,尽管其律师发出了警告。有证据表明,Runway 采购了 Netflix 和迪士尼的电影来训练其视频生成系统。据报道,OpenAI在未经创作者知情的情况下转录 YouTube 视频以开发模型,包括 GPT-4。
正如我们之前所写,最终的结果是,生成式人工智能供应商可以逍遥法外,无论是否披露系统训练数据。法院最终可能会站在合理使用支持者一边,并判定生成式人工智能具有足够的变革性——而不是《纽约时报》和其他原告所指控的抄袭引擎。
在更戏剧性的情况下,AB-2013 可能会导致供应商在加州扣留某些模型,或向加州人发布仅使用合理使用和授权数据集训练的模型版本。一些供应商可能会认为,AB-2013 最安全的做法是避免泄露信息(并避免引发诉讼)。
假设该法律没有受到挑战或被搁置,那么一年多后,AB-2013 的最后期限一到,我们就会有一个清晰的认识。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/xu-duo-gong-si-bu-yuan-tou-lu-shi-fou-hui-zun-shou-jia-zhou