
如果之前还不清楚,那么现在肯定非常清楚:开源对人工智能确实很重要。DeepSeek -R1的成功实质上证明了对开源人工智能的需求。
但开源 AI 究竟是什么?对于 Meta 及其Llama模型来说,这意味着可以在某些条件下自由使用模型。DeepSeek 在宽松的开源许可下提供, 可大量访问其架构和功能。然而,具体的训练代码和详细方法,特别是涉及强化学习 (RL) 技术(如组相对策略优化 (GRPO))的代码和方法,尚未公开披露。这一遗漏限制了社区充分理解和复制模型训练过程的能力。
然而,DeepSeek 和 Llama 都无法完全无条件访问所有模型代码,包括权重和训练数据。没有所有这些信息,开发人员仍然可以使用开放模型,但他们没有所有必要的工具和见解来了解它的实际工作原理,更重要的是,如何构建一个全新的模型。这是一个由前谷歌和苹果 AI 资深人士领导的新创业公司旨在解决的挑战。
Oumi于今日正式启动,其背后有 13 所顶尖研究型大学的支持,包括普林斯顿大学、斯坦福大学、麻省理工学院、加州大学伯克利分校、牛津大学、剑桥大学、滑铁卢大学和卡内基梅隆大学。Oumi 的创始人筹集了 1000 万美元,他们表示这笔适度的种子轮融资满足了他们的需求。虽然 OpenAI 等主要参与者正考虑通过Stargate等项目向大型数据中心投资 5000 亿美元,但 Oumi 采取了截然不同的方法。该平台为研究人员和开发人员提供了一套完整的工具包,用于构建、评估和部署基础模型。
“即使是最大的公司也无法独自做到这一点,”Oumi 联合创始人、前苹果机器学习工程师 Oussama Elachqar 表示。“我们实际上是在苹果内部各自为政,而且整个行业中还存在许多其他的各自为政的情况。必须有更好的方法来协作开发这些模型。”
DeepSeek 和 Llama 等开源模型缺少什么
Oumi 首席执行官、前 Google Cloud AI 高级工程经理 Manos Koukoumidis 说,研究人员不断告诉他 AI 实验已经变得极其复杂。
虽然如今的开放模型向前迈进了一步,但这还不够。Koukoumidis 解释说,借助 DeepSeek-R1 和 Llama 等当前的“开放”AI 模型,组织可以使用该模型并自行部署。缺少的是,任何想要在该模型上进行构建的人都不知道它是如何构建的。
Oumi 创始人认为,缺乏透明度是协作式 AI 研究和开发的一大障碍。即使是像 Llama 这样的项目,也需要研究人员付出大量努力才能弄清楚如何复制和发展成果。
Oumi 如何为企业用户、研究人员和其他所有人开放人工智能
Oumi 平台通过提供一体化环境来简化构建 AI 模型所涉及的复杂工作流程。
Koukoumidis 解释说,要构建基础模型,通常需要完成 10 个或更多步骤,而且这些步骤通常是并行进行的。Oumi 将所有必要的工具和工作流程集成到一个统一的环境中,无需研究人员拼凑和配置各种开源组件。
主要技术特点包括:
- 支持从10M到405B参数的模型
- 实施先进的培训技术,包括 SFT、LoRA、QLoRA 和 DPO
- 与文本和多模式模型兼容
- 使用 LLM Judges 进行训练数据综合和管理的内置工具
- 通过 vLLM 和 SGLang 等现代推理引擎部署选项
- 跨行业标准基准的综合模型评估
“我们不需要处理开源开发的困境,不需要弄清楚什么可以组合,什么可以发挥最佳作用,”Koukoumidis 解释道。
该平台允许用户从小处着手,使用自己的笔记本电脑进行初步实验和模型训练。随着用户的进步,他们可以扩展到更大的计算资源,例如大学集群或云提供商,所有这些都在同一个 Oumi 环境中进行。
不需要大规模的训练基础设施来构建开放模型
DeepSeek-R1 的一大惊喜是,它显然只使用了 Meta 或 OpenAI 构建模型所用资源的一小部分。
当 OpenAI 和其他公司在集中式基础设施上投资数十亿美元时,Oumi 则押注于可以大幅降低成本的分布式方法。
“认为需要数千亿美元来建设人工智能基础设施的想法从根本上就是错误的,”库库米迪斯说。“通过跨大学和研究机构的分布式计算,我们可以用很少的成本实现类似甚至更好的结果。”
Oumi 最初的重点是打造用户和开发的开源生态系统。但这并不是该公司计划的全部。Oumi 计划开发企业产品,帮助企业在生产环境中部署这些模型。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/qian-gu-ge-ping-guo-gong-cheng-shi-wu-tiao-jian-kai-yuan