微软在 Hugging Face 上将强大的 Phi-4 模型完全开源

微软在 Hugging Face 上将强大的 Phi-4 模型完全开源

尽管其大投资伙伴 OpenAI 不断发布更强大的推理模型(例如最新的o3 系列),但微软并没有袖手旁观。相反,它正在开发以自有品牌发布的更强大的小型模型。

正如多位现任和前任微软研究人员和人工智能科学家今天在 X 上宣布的那样,微软将在人工智能代码共享社区Hugging Face上发布其 Phi-4 模型作为一个完全开源项目,并提供可下载的权重。

微软 AI 首席研究工程师 Shital Shah 在 X 上写道: “phi-4 发布后反响非常热烈,这让我们非常惊讶。很多人都在要求我们发布权重。一些人甚至在 HuggingFace 上上传了盗版的 phi-4 权重……好吧,别再等了。我们今天将在 HuggingFace 上发布官方 phi-4 模型!使用 MIT 许可证(原文如此)!!”

权重是指指定 AI 语言模型(无论大小)如何理解和输出语言和数据的数值。模型的权重由其训练过程确定,通常通过无监督深度学习,在此过程中,它会根据收到的输入确定应提供哪些输出。人类研究人员和模型创建者可以在训练期间向模型添加自己的设置(称为偏差),从而进一步调整模型的权重。除非模型的权重已公开,否则通常不被视为完全开源,因为只有这样,其他人类研究人员才能采用该模型并完全自定义或根据自己的目的对其进行调整。

尽管微软上个月实际上就发布了 Phi-4,但它的用途最初仅限于微软新的Azure AI Foundry开发平台。

现在,任何拥有 Hugging Face 帐户的人都可以在该专有服务之外使用 Phi-4,并且它附带宽松的 MIT 许可证,允许它用于商业应用。

此版本为研究人员和开发人员提供了对该模型的 140 亿个参数的完全访问权限,从而可以进行实验和部署,而不受大型 AI 系统通常存在的资源限制。

人工智能向效率转变

Phi-4 于 2024 年 12 月首次在微软的 Azure AI Foundry 平台上推出,开发人员可以根据研究许可协议访问它。

该模型在数学推理和多任务语言理解等领域的表现超越了许多更大的模型,而且所需的计算资源却少得多,因此迅速引起了人们的关注。

该模型的精简架构及其对推理和逻辑的关注旨在满足对人工智能日益增长的高性能需求,同时在计算和内存受限的环境中保持高效。借助在宽松的 MIT 许可下发布的开源版本,微软正在让更广泛的研究人员和开发人员(甚至是商业研究人员和开发人员)更容易使用 Phi-4,这标志着人工智能行业在模型设计和部署方面的方法可能会发生转变。

是什么让Phi-4脱颖而出?

Phi-4 在测试高级推理和特定领域能力的基准测试中表现出色。亮点包括:

• 在 MATH 和 MGSM 等具有挑战性的基准测试中得分超过 80%,表现优于 Google 的 Gemini Pro 和 GPT-4o-mini 等更大的模型。

• 在数学推理任务中表现出色,这对金融、工程和科学研究等领域来说是一项关键能力。

• HumanEval 在功能代码生成方面取得了令人印象深刻的成果,使其成为 AI 辅助编程的有力选择。

此外,Phi-4 的架构和训练过程在设计时也充分考虑了精度和效率。其 140 亿参数密集型、仅解码器转换器模型在 9.8 万亿个精选和合成数据集上进行了训练,其中包括:

• 对公开发布的文件进行严格的质量筛选。

• 教科书风格的合成数据,侧重于数学、编码和常识推理。

• 高质量的学术书籍和问答数据集。

尽管该模型主要针对英语应用程序进行了优化,但训练数据也包括多语言内容(8%)。

微软的创建者表示,安全和协调过程(包括监督微调和直接偏好优化)可确保强大的性能,同时解决公平性和可靠性问题。

开源优势

通过在 Hugging Face 上提供具有完整权重和 MIT 许可证的 Phi-4,微软向企业开放了它在其商业运营中的使用。

开发人员现在可以将该模型纳入他们的项目中或针对特定应用程序进行微调,而无需大量的计算资源或微软的许可。

此举也符合开源基础 AI 模型以促进创新和透明度的日益增长的趋势。与通常仅限于特定平台或 API 的专有模型不同,Phi-4 的开源性质确保了更广泛的可访问性和适应性。

平衡安全性和性能

随着 Phi-4 的发布,微软强调了负责任的 AI 开发的重要性。该模型经过了广泛的安全评估,包括对抗性测试,以最大限度地减少偏见、有害内容生成和错误信息等风险。

但是,建议开发人员在敏感场景中部署模型时,针对高风险应用程序实施额外的保护措施,并将输出基于经过验证的上下文信息。

对人工智能格局的影响

Phi-4 挑战了将 AI 模型扩展到大规模的主流趋势。它表明,较小、设计良好的模型可以在关键领域取得相当甚至更好的结果。

这种效率不仅降低了成本,而且降低了能耗,使得计算预算有限的中型组织和企业更容易获得先进的人工智能功能。

随着开发人员开始试验该模型,我们很快就会看到它是否可以成为 OpenAI、Anthropic、Google、MetaDeepSeek 等许多其他公司的商业和开源模型的可行替代方案。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/wei-ruan-zai-hugging-face-shang-jiang-qiang-da-de-phi4-mo

Like (0)
王 浩然的头像王 浩然作者
Previous 13小时前
Next 9小时前

相关推荐

发表回复

Please Login to Comment