我们终于对开源人工智能有了“官方”定义

我们终于对开源人工智能有了“官方”定义

开源人工智能终于有了“官方”定义。

开放源代码促进会 (OSI) 是一家长期存在的机构,旨在定义和“管理”所有开源事物,今天发布了其开放源代码 AI 定义 (OSAID) 1.0 版。OSAID 是与学术界和业界多年合作的成果,旨在提供一个标准,任何人都可以通过该标准确定 AI 是否是开源的。

您可能想知道——正如这位记者所想——为什么共识对于开源 AI 的定义如此重要。OSI 执行副总裁 Stefano Maffulli 表示,一个很大的动机是让政策制定者和 AI 开发者达成共识。

“监管机构已经在关注这个领域了,”Maffulli表示,并指出欧盟委员会等机构已寻求给予开源特别认可。“我们明确接触了各种利益相关者和社区——不仅仅是科技界的常见嫌疑人。我们甚至试图联系最常与监管机构交谈的组织,以便获得他们的早期反馈。”

开放人工智能

根据 OSAID,要被视为开源,AI 模型必须提供足够的设计信息,以便人们可以“实质上”重现它。该模型还必须披露有关其训练数据的任何相关细节,包括来源、数据处理方式以及如何获取或授权。

“开源人工智能是一种人工智能模型,它能让你充分了解它是如何构建的,”Maffulli 说。“这意味着你可以访问所有组件,例如用于训练和数据过滤的完整代码。”

OSAID 还列出了开发人员对开源 AI 的使用权,例如可以自由地将模型用于任何目的并对其进行修改,而无需征求任何人的许可。“最重要的是,你应该能够在此基础上进行构建,”Maffulli 补充道。

OSI 没有任何强制机制。它无法强迫开发人员遵守或遵循 OSAID。但它确实打算标记被描述为“开源”但不符合定义的模型。

“我们希望,当有人试图滥用这个术语时,人工智能社区会说‘我们不承认这是开源’,然后予以纠正,”Maffulli 说道。从历史上看,这会带来好坏参半的结果,但并非完全没有效果。

许多初创公司和大型科技公司(其中最著名的是 Meta)都使用“开源”一词来描述他们的 AI 模型发布策略——但很少有公司符合 OSAID 的标准。例如,Meta 要求每月活跃用户超过 7 亿的平台申请特殊许可才能使用其Llama模型。

Maffulli 曾公开批评Meta 将其模型称为“开源”的做法。他表示,在与 OSI 讨论后,谷歌和微软同意不再使用“开源”一词来称呼那些尚未完全开放的模型,但 Meta 却没有这么做。

Stability AI 一直宣称其模型是“开放的”,要求收入超过 100 万美元的企业获得企业许可证。而法国人工智能新贵 Mistral 的许可证禁止将某些模型和输出用于商业项目。

去年 8 月,Signal Foundation、非营利组织 AI Now Institute 和卡内基梅隆大学的研究人员进行了一项 研究,发现许多“开源”模型基本上只是名义上的开源。训练模型所需的数据是保密的,运行模型所需的计算能力超出了许多开发人员的能力范围,而微调模型的技术也非常复杂。

该研究的作者总结道,这些“开源”项目非但没有让人工智能民主化,反而倾向于巩固和扩大集中权力。事实上,Meta 的 Lllama 模型的下载量已达数亿次,Stability声称其模型为高达 80% 的人工智能生成图像提供支持。

不同意见

不出所料,Meta 不同意这一评估,并对 OSAID 的书面内容提出异议(尽管参与了起草过程)。一位发言人为该公司的 Llama 许可辩护,称这些条款以及随附的可接受使用政策可以作为防止有害部署的护栏。

Meta 还表示,随着加州培训透明度法等法规的不断发展,它对分享模型细节(包括有关培训数据的细节)采取了“谨慎的态度” 。

“我们在很多事情上都同意我们的合作伙伴 OSI 的观点,但我们和业内其他人一样,不同意他们的新定义,”该发言人表示。“没有单一的开源 AI 定义,定义它是一项挑战,因为以前的开源定义没有涵盖当今快速发展的 AI 模型的复杂性。我们免费公开提供 Llama,我们的许可和可接受使用政策通过设置一些限制来帮助确保人们的安全。无论技术定义如何,我们将继续与 OSI 和其他行业组织合作,以负责任的方式让 AI 更易于访问和免费。”

该发言人指出了其他将“开源”人工智能编纂成法典的努力,比如 Linux 基金会的建议定义、自由软件基金会对“自由机器学习应用程序”的标准,以及其他人工智能研究人员的建议。

奇怪的是,Meta 是资助 OSI 工作的公司之一,其他几家公司包括亚马逊、谷歌、微软、思科、英特尔和 Salesforce 等科技巨头。(OSI 最近获得了非营利性斯隆基金会的资助,以减少对科技行业支持者的依赖。)

Meta 不愿意透露训练数据可能与其(以及大多数)AI模型的开发方式有关。

人工智能公司从社交媒体和网站上抓取大量图片、音频、视频等,并利用这些通常称为“公开数据”的数据来训练模型。在当今竞争激烈的市场中,公司收集和优化数据集的方法被视为竞争优势,公司 将此 作为不披露数据的主要原因之一。

但训练数据细节也可能让开发者面临法律制裁。作家和出版商 声称 Meta 使用受版权保护的书籍进行训练。艺术家们已 对 Stability提起诉讼, 指控其抄袭并未经授权复制他们的作品,他们认为这种行为相当于盗窃。

不难看出,OSAID 可能会给那些试图顺利解决诉讼的公司带来麻烦,尤其是当原告和法官认为该定义足够有说服力,可以在法庭上使用时。

未解决的问题

一些人认为该定义还不够深入,例如在处理专有训练数据许可方面。Lightning AI 首席执行官 Luca Antiga 指出,尽管用于训练模型的数据并非免费提供,但模型可能满足 OSAID 的所有要求。如果您必须支付数千美元来检查模型创建者付费获得许可的私人图像存储,这是否是“开放”的?

Antiga 告诉 TechCrunch: “要具有实用价值,尤其是对企业而言,开源 AI 的任何定义都需要提供合理的信心,即授权的内容 可以 根据组织使用它的方式进行授权。”“由于忽视了处理训练数据的许可,OSI 留下了一个巨大的漏洞,这将使条款在确定 OSI 授权的 AI 模型是否可以在现实世界中采用时变得不那么有效。”

在 OSAID 1.0 版中,OSI 也没有解决与 AI 模型相关的版权问题,以及授予版权许可是否足以确保模型满足开源定义。目前尚不清楚模型(或模型组件)是否可以根据现行知识产权法获得版权。但如果法院裁定可以,OSI建议可能需要新的“法律手段”来正确开源受知识产权保护的模型。

Maffulli 同意该定义需要更新 — 也许这需要尽快完成。为此,OSI 成立了一个委员会,负责监督 OSAID 的应用情况,并提出未来版本的修订建议。

“这不是地下室里孤独的天才们的杰作,”他说。“这是广泛利益相关者和不同利益团体公开开展的工作。”

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/wo-men-zhong-yu-dui-kai-yuan-ren-gong-zhi-neng-you-le-guan

Like (0)
王 浩然的头像王 浩然作者
Previous 2024年10月28日 下午9:00
Next 2024年10月29日

相关推荐

发表回复

Please Login to Comment