DeepSeek-V2.5获赞为新版真正开源AI模型领导者

王浩然 • 2024年9月17日下午3:00 • AI前沿 • 471 views

开源生成式人工智能运动可能很难保持领先地位——即使对于那些在该领域工作或报道该领域的人来说也是如此，比如我们 VenturBeat 的记者。从本质上讲，新的开源人工智能模型的广泛可访问性和其许可的宽松性意味着其他有进取心的开发人员更容易采用和改进它们，而不是专有模型。

因此，在上一位开源 AI 模型领导者被宣布之后的几天内，似乎已经出现了一位新的开源 AI 模型领导者。

中国量化对冲基金 High-Flyer Capital Management 的 AI 分支DeepSeek已正式推出其最新模型 DeepSeek-V2.5，这是一个增强版本，集成了其前身 DeepSeek-V2-0628 和 DeepSeek-Coder-V2-0724 的功能。

此新版本于2024 年 9 月 6 日发布，将通用语言处理和编码功能结合到一个强大的模型中。

该模型现已在Hugging Face上发布，可通过 Web 和 API 为用户提供无缝访问，根据第三方研究人员的观察和测试，它似乎是目前开源领域最先进的大型语言模型 (LLM)。

在 DeepSeek-V2.5 获得赞誉之前，HyperWrite 的 Reflection 70B仍饱受争议。9月 5 日，HyperWrite联合创始人兼首席执行官马特·舒默 (Matt Shumer) 声称，根据其内部基准测试，Reflection 70B 是“世界顶级开源人工智能模型”。然而，独立研究人员和更广泛的人工智能研究界对此提出了质疑，他们迄今未能重现所述结果。

增强的功能和性能

DeepSeek-V2.5 针对多项任务进行了优化，包括写作、指令遵循和高级编码。为了更好地符合人类的偏好，它进行了各种改进，以确保它在几乎所有基准测试中都优于其前代产品。

值得注意的是，该模型引入了函数调用功能，使其能够更有效地与外部工具交互。此功能将其应用范围扩大到实时天气报告、翻译服务以及编写算法或代码片段等计算任务等领域。

法国国家科研中心首席 AI/ML/数据工程师 Maziyar Panahi最近在社交网络 X 上发表了一篇文章，根据 DeepSeek 团队发布的基准测试，该模型被誉为“世界上最好的开源 LLM”。

迄今为止最好的 DeepSeek 模型

据英国《金融时报》报道，DeepSeek 的母公司 High-Flyer 是“六家拥有超过 10,000 台 [Nvidia] A100 处理器的中国集团之一”，并且显然正在充分利用这些处理器来造福开源 AI 研究人员。

DeepSeek-V2.5 在一系列关键基准测试中表现出色，证明了其在自然语言处理 (NLP) 和编码任务方面的优势。

根据内部测试和外部评估，该模型在几个关键指标上提供了顶级结果：

AlpacaEval 2.0：DeepSeek-V2.5 的总体准确率为 50.5，比 DeepSeek-V2-0628（46.6）和 DeepSeek-Coder-V2-0724（44.5）有所提高。
ArenaHard：该模型的准确率达到了 76.2，而前代产品的准确率分别为 68.3 和 66.3。
HumanEval Python：DeepSeek-V2.5 得分为 89，反映出其编码能力的显著进步。

语言对齐方面，DeepSeek-V2.5在中文内部评测中表现优于GPT-4o mini和ChatGPT-4o-latest。

这些结果是通过GPT-4o评判的模型取得的，体现了其跨语言和文化的适应性。

人工智能观察员 Shin Megami Boson 是 HyperWrite 首席执行官 Matt Shumer 的坚定批评者（他指责Matt Shumer 因 Reflection 70B 上分享的不可重现的基准而存在欺诈行为），他在 X 上发布了一条消息，称他将运行一个模仿研究生级 Google 证明问答基准（GPQA）的私人基准。

据他介绍，DeepSeek-V2.5 的表现优于 Meta 的 Llama 3-70B Instruct 和 Llama 3.1-405B Instruct，但与 OpenAI 的 GPT-4o mini、Claude 3.5 Sonnet 和 OpenAI 的 GPT-4o 相比，性能较差。

他写道：“DeepSeek V2.5 是我测试过的性能最好的开源模型，包括 405B 变体”，进一步强调了该模型的潜力。

拥有合适的硬件，具有广泛的可访问性和商业用途

DeepSeek-AI 已在 Hugging Face 上根据 MIT 许可证的变体将 DeepSeek-V2.5 开源，允许开发人员和组织随意免费使用它，

DeepSeek 模型许可允许在特定条件下将该技术用于商业用途。该许可授予全球范围内、非独占的、免版税的版权和专利权许可，允许使用、分发、复制和再授权该模型及其衍生品。这意味着您可以在商业环境中使用该技术，包括销售使用该模型的服务（例如软件即服务）。

但是，它确实有一些基于使用的限制，禁止军事用途、生成有害或虚假信息以及利用特定群体的弱点。

此举表明 DeepSeek-AI 致力于让高级 AI 功能普及大众。企业可以将该模型集成到各种任务的工作流程中，从自动客户支持和内容生成到软件开发和数据分析。

该模型的开源特性也为进一步的研究和开发打开了大门。人工智能工程师和数据科学家可以在 DeepSeek-V2.5 的基础上构建针对特定应用的专用模型，或进一步优化其在特定领域的性能。

要在本地运行 DeepSeek-V2.5，用户需要 BF16 格式设置和 80GB GPU（8 个 GPU 才能充分利用）。该模型针对大规模推理和小批量本地部署进行了高度优化。

DeepSeek-V2.5 的架构包含多项关键创新，例如多头潜在注意力 (MLA)，可大幅减少 KV 缓存，从而在不影响模型性能的情况下提高推理速度。这种压缩可以更高效地利用计算资源，使模型不仅性能强大，而且在资源消耗方面也非常经济。

DeepSeek-V2.5 为开源 LLM 树立了新标准，将尖端技术进步与实际实际应用相结合。随着企业和开发人员寻求更有效地利用人工智能，DeepSeek-AI 的最新版本将自己定位为通用语言任务和专业编码功能方面的顶级竞争者。

通过开源DeepSeek-V2.5，DeepSeek-AI继续提升AI的可及性和潜力，巩固其在大规模模型领域的领先地位。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/deepseekv2-5-huo-zan-wei-xin-ban-zhen-zheng-kai-yuan-ai-mo

AI API DeepSeek LLM NLP 开源AI模型量化对冲基金

Like (0)

王浩然作者

0 0

科学家设计分子级记忆状态，超越传统计算限制

Previous 2024年9月17日下午2:00

Oracle 数据库已应用于许多企业，现在也应用于 Google Cloud

Next 2024年9月17日下午4:00

AI前沿

谷歌绘制人工智能代理的未来：给企业的五大教训

谷歌新发布的一份名为《代理》的白皮书设想了未来人工智能将在商业领域扮演更积极、更独立的角色。这份长达 42 页的文件于 9 月悄然发布，目前已在 X.com（原 Twitter）和…

王浩然
2025年1月7日
000
AI前沿

2025 年的身份管理：安全团队可通过 4 种方式解决漏洞和风险

虽然99%的企业计划在安全方面投入更多，但只有52% 的企业完全实施了多因素身份验证 (MFA)，只有41% 的企业在访问管理中遵守最小特权原则。包括民族国家、国家资助的攻击者和…

王浩然
2024年11月11日
000
AI前沿

网络防御的NFL战术：安全领袖如何闪电突击、灵活转向并取得胜利

在当今数字化时代，网络安全已成为企业运营的核心要素。面对层出不穷的网络威胁，安全领袖们需要制定一套高效且灵活的防御策略，如同美式足球（橄榄球）比赛中的战术布局一样，既要快速突击，又…

王浩然
2025年2月23日
000
AI前沿

编排代理：以集成、人机交互和企业知识为核心

毫无疑问，人工智能代理将继续成为企业人工智能中快速增长的趋势。但随着越来越多的公司希望部署代理，他们也在寻找一种方法来帮助他们理解这些自主或半自主的人工智能引导机器人将采取的诸多…

王浩然
2024年11月23日
000
AI前沿

狮门影业片库卖去炼 AI ，潘多拉魔盒就此打开

AI初创公司Runway近日与狮门娱乐（Lions Gate Entertainment）签订了一项合作协议，旨在将生成式人工智能技术引入电影和电视制作领域。根据该协议，Runw…

点点
2024年9月20日
000
AI前沿

该法学硕士框架首次尝试对 Big AI 是否遵守《欧盟人工智能法案》进行基准测试

当大多数国家的立法者仍在讨论如何为人工智能设置护栏时，欧盟已经走在了前面，并于今年早些时候通过了基于风险的人工智能应用监管框架。该法律于 8 月生效，尽管泛欧盟人工智能治理制度的…

王浩然
2024年10月17日
000
AI前沿

Midjourney v7 发布：语音提示与快速草稿模式引发热议

自2022年问世以来，Midjourney作为AI图像生成领域的佼佼者，一直被视为该领域的“黄金标准”。近日，这家初创公司推出了其最新版本——Midjourney v7，该版本带来…

王浩然
2天前
000
AI前沿

ChatGPT 的最新功能让用户可以为其分配“Chatty”和“Gen Z”等特征

OpenAI 正在推出一种新方式，让用户定制与该公司人工智能聊天机器人ChatGPT 的互动。周五，OpenAI宣布将为 ChatGPT 的自定义指令菜单推出新的用户界面，包括自…

王浩然
2025年1月20日
000
AI前沿

AWS 将数据库价格降低近 50%，并增加了分布式扩展功能

AWS正在扩展其云数据库产品组合的功能，同时降低企业成本。在今天的AWS re:invent 2024会议上，这家云计算巨头概述了一系列云数据库创新。其中包括新的 Amazon …

王浩然
2024年12月6日
000
AI前沿

Meta 不愿透露是否利用智能眼镜拍摄的照片来训练 AI

Meta 的 AI 驱动雷朋眼镜正面有一个隐蔽的摄像头，不仅会在你要求时拍照，还会在 AI 功能触发某些关键词（例如“看”）时拍照。这意味着这款智能眼镜会收集大量照片，包括有意拍摄…

点点
2024年10月2日
000
AI前沿

Hugging Face 推出用于机器人命令的自然语言 AI 模型

模型使得构建和部署能够执行复杂任务的人工智能机器人变得更加容易。开源代码库Hugging Face推出了一种机器人基础人工智能模型，可将自然语言命令转化为身体动作。该模型名为…

王浩然
2025年2月19日
000
AI前沿

谷歌发布免费 Gemini 2.0 Flash Thinking 模型，对 OpenAI 的付费战略施压

谷歌悄然发布了其热门人工智能模型 Gemini 的重大更新，该模型现在可以解释其推理过程，在数学和科学任务中创下新的性能记录，并提供了 OpenAI 高级服务的免费替代方案。周二…

王浩然
2025年1月23日
000
AI前沿

医学教育的AI飞跃：代理式检索增强生成（RAG）、开放权重大型语言模型（LLMs）和实时病例洞察如何塑造纽约大学朗格尼医学中心的新一代医生

病人数据记录往往复杂且有时不完整，这意味着医生并不总能立即获得所需的所有信息。此外，医学专业人士无法跟上行业内涌现的大量病例研究、研究论文、试验和其他前沿发展。位于纽约市的纽约大学…

王浩然
2025年2月22日
000
AI前沿

OpenAI 呼吁美国政府将其数据输入人工智能系统

OpenAI 表示，美国只有借助人工智能才能在全球舞台上击败中国。 OpenAI 希望你将人工智能视为汽车。欧洲发明了汽车，但严格的监管阻碍了汽车在那里的广泛应用。在自由放任的美国…

王浩然
2025年1月21日
000
AI前沿

Orion Security以LLMs为核心，悄然面世，致力于追踪并阻止企业数据外泄

初露锋芒‌ 在数据泄露事件频发的当下，Orion Security如同一股清流，悄然涌入了网络安全领域。这家新兴公司宣布完成600万美元的种子轮融资，由Pico Partners和…

王浩然
2025年3月20日
000
AI前沿

Meta AI 现在可以理解和编辑你的照片

在人工智能照片编辑方面，Meta AI 开始赶上谷歌。周三，在Meta Connect 2024 大会上，这家科技巨头宣布，Meta AI 现在将能够使用人工智能技术帮助您编辑照片…

王浩然
2024年9月28日
000
AI前沿

微软让开发人员更容易构建 AI 应用程序——这对 AWS 来说可能是个坏消息

微软周二公布了其人工智能工具的一项雄心勃勃的扩展，推出了适用于 Azure 的 GitHub Copilot和一套以开发人员为中心的功能，这些功能可能会从根本上改变人工智能时代的软…

王浩然
2024年11月1日
000
AI前沿

OpenAI 雄心勃勃的增长战略伴随着巨大的财务风险

据 The Information最近的一份报告称， OpenAI的内部财务预测揭示了一项高风险战略，即将激进的收入目标与巨额预计损失相结合。该公司的计划凸显了快速发展的人工智能领…

点点
2024年10月11日
000
AI前沿

用AI“创造”蛋白质，「分子之心」获数亿元A轮融资

AI蛋白质设计平台公司「分子之心」近日完成数亿元A轮融资，由谢诺投资、深创投联合领投，商汤国香资本、久奕投资跟投。本轮融资将用于进一步扩大复合型人才团队，深入完善AI蛋白质基础大模…

点点
2024年9月13日
000
AI前沿

DPAD 算法增强脑机接口，有望推动神经技术进步

人类大脑拥有由数十亿个神经元组成的复杂网络，不断产生电活动。这种神经交响乐编码了我们的每一个想法、动作和感觉。对于研究脑机接口 (BCI) 的神经科学家和工程师来说，破译这种复杂的…

点点
2024年9月14日
000