我们终于对开源人工智能有了“官方”定义

王浩然 • 2024年10月29日上午8:00 • AI前沿 • 80 views

开源人工智能终于有了“官方”定义。

开放源代码促进会 (OSI) 是一家长期存在的机构，旨在定义和“管理”所有开源事物，今天发布了其开放源代码 AI 定义 (OSAID) 1.0 版。OSAID 是与学术界和业界多年合作的成果，旨在提供一个标准，任何人都可以通过该标准确定 AI 是否是开源的。

您可能想知道——正如这位记者所想——为什么共识对于开源 AI 的定义如此重要。OSI 执行副总裁 Stefano Maffulli 表示，一个很大的动机是让政策制定者和 AI 开发者达成共识。

“监管机构已经在关注这个领域了，”Maffulli表示，并指出欧盟委员会等机构已寻求给予开源特别认可。“我们明确接触了各种利益相关者和社区——不仅仅是科技界的常见嫌疑人。我们甚至试图联系最常与监管机构交谈的组织，以便获得他们的早期反馈。”

开放人工智能

根据 OSAID，要被视为开源，AI 模型必须提供足够的设计信息，以便人们可以“实质上”重现它。该模型还必须披露有关其训练数据的任何相关细节，包括来源、数据处理方式以及如何获取或授权。

“开源人工智能是一种人工智能模型，它能让你充分了解它是如何构建的，”Maffulli 说。“这意味着你可以访问所有组件，例如用于训练和数据过滤的完整代码。”

OSAID 还列出了开发人员对开源 AI 的使用权，例如可以自由地将模型用于任何目的并对其进行修改，而无需征求任何人的许可。“最重要的是，你应该能够在此基础上进行构建，”Maffulli 补充道。

OSI 没有任何强制机制。它无法强迫开发人员遵守或遵循 OSAID。但它确实打算标记被描述为“开源”但不符合定义的模型。

“我们希望，当有人试图滥用这个术语时，人工智能社区会说‘我们不承认这是开源’，然后予以纠正，”Maffulli 说道。从历史上看，这会带来好坏参半的结果，但并非完全没有效果。

许多初创公司和大型科技公司（其中最著名的是 Meta）都使用“开源”一词来描述他们的 AI 模型发布策略——但很少有公司符合 OSAID 的标准。例如，Meta 要求每月活跃用户超过 7 亿的平台申请特殊许可才能使用其Llama模型。

Maffulli 曾公开批评Meta 将其模型称为“开源”的做法。他表示，在与 OSI 讨论后，谷歌和微软同意不再使用“开源”一词来称呼那些尚未完全开放的模型，但 Meta 却没有这么做。

Stability AI 一直宣称其模型是“开放的”，要求收入超过 100 万美元的企业获得企业许可证。而法国人工智能新贵 Mistral 的许可证禁止将某些模型和输出用于商业项目。

去年 8 月，Signal Foundation、非营利组织 AI Now Institute 和卡内基梅隆大学的研究人员进行了一项研究，发现许多“开源”模型基本上只是名义上的开源。训练模型所需的数据是保密的，运行模型所需的计算能力超出了许多开发人员的能力范围，而微调模型的技术也非常复杂。

该研究的作者总结道，这些“开源”项目非但没有让人工智能民主化，反而倾向于巩固和扩大集中权力。事实上，Meta 的 Lllama 模型的下载量已达数亿次，Stability声称其模型为高达 80% 的人工智能生成图像提供支持。

不同意见

不出所料，Meta 不同意这一评估，并对 OSAID 的书面内容提出异议（尽管参与了起草过程）。一位发言人为该公司的 Llama 许可辩护，称这些条款以及随附的可接受使用政策可以作为防止有害部署的护栏。

Meta 还表示，随着加州培训透明度法等法规的不断发展，它对分享模型细节（包括有关培训数据的细节）采取了“谨慎的态度” 。

“我们在很多事情上都同意我们的合作伙伴 OSI 的观点，但我们和业内其他人一样，不同意他们的新定义，”该发言人表示。“没有单一的开源 AI 定义，定义它是一项挑战，因为以前的开源定义没有涵盖当今快速发展的 AI 模型的复杂性。我们免费公开提供 Llama，我们的许可和可接受使用政策通过设置一些限制来帮助确保人们的安全。无论技术定义如何，我们将继续与 OSI 和其他行业组织合作，以负责任的方式让 AI 更易于访问和免费。”

该发言人指出了其他将“开源”人工智能编纂成法典的努力，比如 Linux 基金会的建议定义、自由软件基金会对“自由机器学习应用程序”的标准，以及其他人工智能研究人员的建议。

奇怪的是，Meta 是资助 OSI 工作的公司之一，其他几家公司包括亚马逊、谷歌、微软、思科、英特尔和 Salesforce 等科技巨头。（OSI 最近获得了非营利性斯隆基金会的资助，以减少对科技行业支持者的依赖。）

Meta 不愿意透露训练数据可能与其（以及大多数）AI模型的开发方式有关。

人工智能公司从社交媒体和网站上抓取大量图片、音频、视频等，并利用这些通常称为“公开数据”的数据来训练模型。在当今竞争激烈的市场中，公司收集和优化数据集的方法被视为竞争优势，公司将此作为不披露数据的主要原因之一。

但训练数据细节也可能让开发者面临法律制裁。作家和出版商声称 Meta 使用受版权保护的书籍进行训练。艺术家们已对 Stability提起诉讼，指控其抄袭并未经授权复制他们的作品，他们认为这种行为相当于盗窃。

不难看出，OSAID 可能会给那些试图顺利解决诉讼的公司带来麻烦，尤其是当原告和法官认为该定义足够有说服力，可以在法庭上使用时。

未解决的问题

一些人认为该定义还不够深入，例如在处理专有训练数据许可方面。Lightning AI 首席执行官 Luca Antiga 指出，尽管用于训练模型的数据并非免费提供，但模型可能满足 OSAID 的所有要求。如果您必须支付数千美元来检查模型创建者付费获得许可的私人图像存储，这是否是“开放”的？

Antiga 告诉 TechCrunch： “要具有实用价值，尤其是对企业而言，开源 AI 的任何定义都需要提供合理的信心，即授权的内容可以根据组织使用它的方式进行授权。”“由于忽视了处理训练数据的许可，OSI 留下了一个巨大的漏洞，这将使条款在确定 OSI 授权的 AI 模型是否可以在现实世界中采用时变得不那么有效。”

在 OSAID 1.0 版中，OSI 也没有解决与 AI 模型相关的版权问题，以及授予版权许可是否足以确保模型满足开源定义。目前尚不清楚模型（或模型组件）是否可以根据现行知识产权法获得版权。但如果法院裁定可以，OSI建议可能需要新的“法律手段”来正确开源受知识产权保护的模型。

Maffulli 同意该定义需要更新 — 也许这需要尽快完成。为此，OSI 成立了一个委员会，负责监督 OSAID 的应用情况，并提出未来版本的修订建议。

“这不是地下室里孤独的天才们的杰作，”他说。“这是广泛利益相关者和不同利益团体公开开展的工作。”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/wo-men-zhong-yu-dui-kai-yuan-ren-gong-zhi-neng-you-le-guan

AI LLaMA Meta OSAID OSI 开源人工智能

Like (0)

王浩然作者

0 0

Read AI 融资 5000 万美元，以满足市场对其 AI 摘要机器人的强劲需求

Previous 2024年10月28日下午9:00

埃隆·马斯克的 xAI 为 Grok 添加了图像理解功能

Next 2024年10月29日

AI前沿

谷歌的 Whisk AI 生成器将“重新混合”你输入的图片

谷歌宣布了一款名为 Whisk 的新 AI 工具，该工具可让您使用其他图像作为提示来生成图像，而不需要长文本提示。使用 Whisk，您可以提供图像来建议您想要的主题、场景和 AI…

王浩然
2024年12月28日
000
AI前沿

确保 OT 环境中 AI 的使用安全

随着拥有运营技术 (OT) 的组织开始采用 AI，安全性需要成为其战略的重中之重。AI 的集成大大拓宽了攻击面 — — 这一范围已经因 IT 和 OT 的融合而扩大。大多数 OT …

点点
2024年9月6日
000
AI前沿

Zillow 升级人工智能搜索，将向你展示更多你买不起的房屋

Zillow 正在升级其 AI 搜索功能，能够根据房屋或出租房屋与办公室、学校或其他兴趣点的距离来查找房屋或出租房屋。现在，您无需通过选择特定位置或过滤器来缩小搜索范围，只需输入“…

王浩然
2024年9月4日
000
AI前沿

构建一个对话式人工智能需要花费多少钱？

超过 40% 的营销、销售和客户服务组织已采用生成式人工智能，仅次于 IT 和网络安全。在所有生成式人工智能技术中，对话式人工智能将在这些领域迅速普及，因为它能够弥合企业与客户之间…

王浩然
2024年9月15日
000
AI前沿

神秘「蓝莓」登顶文生图竞技场，疑似Flux.1续作，网友：都来免费打广告了

都来玩这套。继OpenAI“草莓”之后，又有神秘模型蓝莓来“霸榜”。在文生图模型排行榜上，两个“无人认领”的模型blueberry_0和blueberry_1力压Flux.1、…

点点
2024年9月29日
000
AI前沿

Tessl 以 5 亿美元以上的估值筹集 1.25 亿美元，用于构建编写和维护代码的 AI

许多初创公司和大型科技公司都尝试开发人工智能来编写软件。现在，又有一家新公司从幕后走出来，加入竞争行列，其使命是解决人类和所有这些人工智能一起编写代码时出现的许多问题。 Tessl…

王浩然
2024年11月15日
000
AI前沿

“它谈到绑架我”：阅读指控人工智能协助青少年自杀的诉讼

一名 14 岁男孩在与在线聊天机器人建立关系后自杀，其家人正在起诉开发该聊天机器人的人工智能公司和谷歌。该诉讼已提起并公开。诉讼长达 93 页，令人心碎，其中包括一个幻想绑架客户的…

王浩然
2024年10月29日
000
AI前沿

扩展 AI：平台最佳实践

企业现在投入大量资金来构建和不断发展世界一流的企业平台，使 AI 用例能够随着时间的推移而构建、部署、扩展和发展。许多公司历来都采用联合方式构建平台，以构建功能和特性来支持其业务各…

王浩然
2024年12月12日
000
AI前沿

DeepSeek宣布重大决策：将开源部分在线服务核心代码

DeepSeek公司近期做出了一项具有深远影响的决策——计划将其部分在线服务的核心代码进行开源。这一举措被视为DeepSeek对技术开放与共享理念的坚定践行，旨在通过代码的全面公开…

王浩然
2025年2月25日
000
AI前沿

苹果发布专为人工智能打造的 iPhone 16；Apple Intelligence 即将加入产品阵容

苹果正在将人工智能引入其产品线，从周一发布的新款 iPhone 16 和新的个人智能系统开始。苹果表示，公司的Apple Intelligence将为新机型提供“易于使用的个人智…

点点
2024年9月11日
000
AI前沿

Twins首推AI智能体：专为Qonto客户打造的发票检索助手

在数字化转型的浪潮中，金融科技领域正经历着前所未有的变革。近日，创新企业Twins宣布推出其首款AI智能体——专为Qonto客户设计的发票检索助手。这一举措不仅标志着AI技术在财务…

王浩然
2025年3月28日
000
AI前沿

‌Sakana声称其AI论文通过同行评审，但情况更为复杂‌

在人工智能领域，每一项新的研究成果都可能引领行业的变革。近日，一家名为Sakana的初创公司宣布，其关于人工智能的最新研究论文已经通过了严格的同行评审。然而，在深入探究后，我们发现…

王浩然
2025年3月13日
000
AI前沿

人工智能活了过来：从调酒师到手术助手再到小狗，未来的机器人正在路上

人形机器人不再是科幻小说中的东西。想象一下这样一个世界：机器人不仅能在工厂与我们合作，还能在商店迎接我们、协助手术并照顾我们所爱的人。特斯拉计划在2026 年部署数千台 Optim…

王浩然
2025年1月20日
000
AI前沿

DPAD 算法增强脑机接口，有望推动神经技术进步

人类大脑拥有由数十亿个神经元组成的复杂网络，不断产生电活动。这种神经交响乐编码了我们的每一个想法、动作和感觉。对于研究脑机接口 (BCI) 的神经科学家和工程师来说，破译这种复杂的…

点点
2024年9月14日
000
AI前沿

企业供应链需要特定领域的AI，而非通用模型：Articul8如何构建新模型，实现3倍性能提升

在企业运营中广泛实施AI的过程中，许多企业发现通用模型在处理需要深厚领域知识和顺序推理的专门工业任务时常常力不从心。虽然微调和检索增强生成（RAG）可以提供帮助，但对于像供应链这样…

王浩然
5天前
000
AI前沿

IBM Cloud 将于明年提供英特尔 Gaudi 3 AI 芯片

英特尔为其 Gaudi 3 AI 加速器芯片找到了首个云客户：IBM Cloud。 IBM 和英特尔周四表示，IBM Cloud 将于明年初开始向客户提供 Gaudi 3。该芯片的…

王浩然
2024年8月31日
000
AI前沿

活体细胞计算机：超越硅的人工智能和计算新前沿

几十年来，生物系统以其处理复杂信息、适应、学习和实时做出复杂决策的卓越能力吸引了计算机科学家。这些自然系统启发了神经网络和进化算法等强大模型的发展，这些模型已经改变了医学、金融、人…

点点
2024年9月6日
000
AI前沿

大模型拉新大战，Kimi竟然不是赢家？揭秘背后真相

2024年以来，大模型厂商在各大平台开启了烧钱大战，大模型广告铺天盖地，从线上甚至烧到了地铁、机场广告牌，动辄上亿的成本背后，留存依旧是各大大模型厂商的一道难关。今年以来，大模型…

点点
2024年9月9日
000
AI前沿

Google Cloud 在 Vertex 上推出 Veo AI 视频生成器模型

随着亚马逊凭借其新的 Nova 系列基础模型向人工智能领域迈出重要一步，谷歌也在加倍加强其自身的多模态人工智能能力。这家科技巨头的云部门宣布，其最新的视频和图像生成模型Veo和Im…

王浩然
2024年12月4日
000
AI前沿

Pegasystems 首席技术官 Don Schuerman – 访谈系列

Don Schuerman 是 Pegasystems 的首席技术官兼产品营销副总裁，负责 Pega 的平台和客户关系管理 (CRM) 应用程序。他拥有 20 年为财富 500 …

点点
2024年10月16日
000

发表回复

Please Login to Comment

我们终于对开源人工智能有了“官方”定义

开放人工智能

不同意见

未解决的问题

相关推荐

发表回复

Share To :