开源生成式人工智能运动可能很难保持领先地位——即使对于那些在该领域工作或报道该领域的人来说也是如此,比如我们 VenturBeat 的记者。从本质上讲,新的开源人工智能模型的广泛可访问性和其许可的宽松性意味着其他有进取心的开发人员更容易采用和改进它们,而不是专有模型。
因此,在上一位开源 AI 模型领导者被宣布之后的几天内,似乎已经出现了一位新的开源 AI 模型领导者。
中国量化对冲基金 High-Flyer Capital Management 的 AI 分支DeepSeek已正式推出其最新模型 DeepSeek-V2.5,这是一个增强版本,集成了其前身 DeepSeek-V2-0628 和 DeepSeek-Coder-V2-0724 的功能。
此新版本于2024 年 9 月 6 日发布,将通用语言处理和编码功能结合到一个强大的模型中。
该模型现已在Hugging Face上发布,可通过 Web 和 API 为用户提供无缝访问,根据第三方研究人员的观察和测试,它似乎是目前开源领域最先进的大型语言模型 (LLM)。
在 DeepSeek-V2.5 获得赞誉之前,HyperWrite 的 Reflection 70B仍饱受争议。9月 5 日,HyperWrite联合创始人兼首席执行官马特·舒默 (Matt Shumer) 声称,根据其内部基准测试,Reflection 70B 是“世界顶级开源人工智能模型”。然而,独立研究人员和更广泛的人工智能研究界对此提出了质疑,他们迄今未能重现所述结果。
增强的功能和性能
DeepSeek-V2.5 针对多项任务进行了优化,包括写作、指令遵循和高级编码。为了更好地符合人类的偏好,它进行了各种改进,以确保它在几乎所有基准测试中都优于其前代产品。
值得注意的是,该模型引入了函数调用功能,使其能够更有效地与外部工具交互。此功能将其应用范围扩大到实时天气报告、翻译服务以及编写算法或代码片段等计算任务等领域。
法国国家科研中心首席 AI/ML/数据工程师 Maziyar Panahi最近在社交网络 X 上发表了一篇文章,根据 DeepSeek 团队发布的基准测试,该模型被誉为“世界上最好的开源 LLM”。
迄今为止最好的 DeepSeek 模型
据英国《金融时报》报道,DeepSeek 的母公司 High-Flyer 是“六家拥有超过 10,000 台 [Nvidia] A100 处理器的中国集团之一”,并且显然正在充分利用这些处理器来造福开源 AI 研究人员。
DeepSeek-V2.5 在一系列关键基准测试中表现出色,证明了其在自然语言处理 (NLP) 和编码任务方面的优势。
根据内部测试和外部评估,该模型在几个关键指标上提供了顶级结果:
- AlpacaEval 2.0:DeepSeek-V2.5 的总体准确率为 50.5,比 DeepSeek-V2-0628(46.6)和 DeepSeek-Coder-V2-0724(44.5)有所提高。
- ArenaHard:该模型的准确率达到了 76.2,而前代产品的准确率分别为 68.3 和 66.3。
- HumanEval Python:DeepSeek-V2.5 得分为 89,反映出其编码能力的显著进步。
语言对齐方面,DeepSeek-V2.5在中文内部评测中表现优于GPT-4o mini和ChatGPT-4o-latest。
这些结果是通过GPT-4o评判的模型取得的,体现了其跨语言和文化的适应性。
人工智能观察员 Shin Megami Boson 是 HyperWrite 首席执行官 Matt Shumer 的坚定批评者(他指责Matt Shumer 因 Reflection 70B 上分享的不可重现的基准而存在欺诈行为),他在 X 上发布了一条消息,称他将运行一个模仿研究生级 Google 证明问答基准(GPQA)的私人基准。
据他介绍,DeepSeek-V2.5 的表现优于 Meta 的 Llama 3-70B Instruct 和 Llama 3.1-405B Instruct,但与 OpenAI 的 GPT-4o mini、Claude 3.5 Sonnet 和 OpenAI 的 GPT-4o 相比,性能较差。
他写道:“DeepSeek V2.5 是我测试过的性能最好的开源模型,包括 405B 变体”,进一步强调了该模型的潜力。
拥有合适的硬件,具有广泛的可访问性和商业用途
DeepSeek-AI 已在 Hugging Face 上根据 MIT 许可证的变体将 DeepSeek-V2.5 开源,允许开发人员和组织随意免费使用它,
DeepSeek 模型许可允许在特定条件下将该技术用于商业用途。该许可授予全球范围内、非独占的、免版税的版权和专利权许可,允许使用、分发、复制和再授权该模型及其衍生品。这意味着您可以在商业环境中使用该技术,包括销售使用该模型的服务(例如软件即服务)。
但是,它确实有一些基于使用的限制,禁止军事用途、生成有害或虚假信息以及利用特定群体的弱点。
此举表明 DeepSeek-AI 致力于让高级 AI 功能普及大众。企业可以将该模型集成到各种任务的工作流程中,从自动客户支持和内容生成到软件开发和数据分析。
该模型的开源特性也为进一步的研究和开发打开了大门。人工智能工程师和数据科学家可以在 DeepSeek-V2.5 的基础上构建针对特定应用的专用模型,或进一步优化其在特定领域的性能。
要在本地运行 DeepSeek-V2.5,用户需要 BF16 格式设置和 80GB GPU(8 个 GPU 才能充分利用)。该模型针对大规模推理和小批量本地部署进行了高度优化。
DeepSeek-V2.5 的架构包含多项关键创新,例如多头潜在注意力 (MLA),可大幅减少 KV 缓存,从而在不影响模型性能的情况下提高推理速度。这种压缩可以更高效地利用计算资源,使模型不仅性能强大,而且在资源消耗方面也非常经济。
DeepSeek-V2.5 为开源 LLM 树立了新标准,将尖端技术进步与实际实际应用相结合。随着企业和开发人员寻求更有效地利用人工智能,DeepSeek-AI 的最新版本将自己定位为通用语言任务和专业编码功能方面的顶级竞争者。
通过开源DeepSeek-V2.5,DeepSeek-AI继续提升AI的可及性和潜力,巩固其在大规模模型领域的领先地位。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/deepseekv2-5-huo-zan-wei-xin-ban-zhen-zheng-kai-yuan-ai-mo