DeepSeek是中国量化对冲基金High-Flyer Capital Management旗下的 AI 分支,专注于发布高性能开源技术,现已推出其最新的以推理为重点的大型语言模型 (LLM) R1-Lite-Preview,目前可通过其基于网络的 AI 聊天机器人DeepSeek Chat独家使用。
DeepSeek 以其对开源 AI 生态系统的创新贡献而闻名,其新版本旨在为公众带来高级推理能力,同时保持对可访问和透明 AI 的承诺。
尽管 R1-Lite-Preview 目前只能通过聊天应用程序使用,但它已经引起了人们的关注,因为它提供的性能接近甚至在某些情况下超过了 OpenAI 所推崇的 o1-preview 模型。
与 2024 年 9 月发布的模型一样,DeepSeek-R1-Lite-Preview 展示了“思路链”推理,向用户展示了它响应他们的查询和输入的不同链或“思路”,并通过解释它在做什么以及为什么这样做来记录这一过程。
虽然有些思路在人类看来可能毫无意义,甚至是错误的,但 DeepSeek-R1-Lite-Preview 总体上似乎非常准确,甚至可以回答其他较老但功能强大的 AI 模型(如 GPT-4o 和 Claude 的 Anthropic 家族)所遇到的“技巧”问题,包括“Strawberry 这个词中有多少个字母 R?”和“9.11 和 9.9 哪个更大?”请参阅以下我在 DeepSeek Chat 上对这些提示进行测试的屏幕截图:
人工智能推理的新方法
DeepSeek-R1-Lite-Preview 旨在完成需要逻辑推理、数学推理和实时解决问题的任务。
据 DeepSeek 称,该模型在 AIME(美国邀请数学考试)和 MATH 等既定基准上的表现超过了 OpenAI o1 预览版的水平。
其透明的思维过程增强了它的推理能力,使用户可以跟随模型一步步解决复杂的挑战。
DeepSeek 还发布了扩展数据,表明当模型获得更多时间或“思维标记”来解决问题时,准确率会稳步提高。性能图表突显了随着思维深度的增加,它在 AIME 等基准测试中取得更高分数的能力。
基准测试和实际应用
DeepSeek-R1-Lite-Preview 在关键基准测试中表现出色。
该公司公布的结果凸显了其处理广泛任务的能力,从复杂的数学到基于逻辑的场景,其性能得分可与 GPQA 和 Codeforces 等推理基准中的顶级模型相媲美。
其推理过程的透明度进一步使其与众不同。用户可以实时观察模型的逻辑步骤,增加了许多专有人工智能系统所缺乏的责任感和信任感。
然而,DeepSeek 尚未发布完整代码供独立第三方分析或基准测试,也没有通过 API 提供 DeepSeek-R1-Lite-Preview 以进行同类独立测试。
此外,该公司尚未发布博客文章或技术论文来解释 DeepSeek-R1-Lite-Preview 是如何训练或构建的,这留下了许多关于其底层起源的问号。
可访问性和开源计划
R1-Lite-Preview 现在可通过Chat.deepseek.com上的 DeepSeek Chat 访问。虽然该模型可供公众免费使用,但其先进的“深度思考”模式每日消息数量限制为 50 条,为用户体验其功能提供了充足的机会。
展望未来,根据该公司在 X 上的帖子,DeepSeek 计划发布其 R1 系列模型和相关 API 的开源版本。
此举符合该公司支持开源 AI 社区的历史。
其上一版本的DeepSeek-V2.5因融合了通用语言处理和高级编码能力而获得好评,成为当时最强大的开源AI模型之一。
继承传统
DeepSeek 继续其在开源 AI 领域不断突破界限的传统。早期的模型如 DeepSeek-V2.5 和DeepSeek Coder在语言和编码任务中表现出了令人印象深刻的能力,基准测试将其列为该领域的领导者。
R1-Lite-Preview的发布增加了一个新的维度,专注于透明推理和可扩展性。
随着企业和研究人员探索推理密集型人工智能的应用,DeepSeek 对开放的承诺确保其模型仍然是开发和创新的重要资源。
通过结合高性能、透明操作和开源可访问性,DeepSeek 不仅推动了人工智能的发展,而且还重塑了人工智能的共享和使用方式。
R1-Lite-Preview 现已开放公开测试。预计开源模型和 API 也将随之推出,进一步巩固 DeepSeek 在易用、先进 AI 技术领域的领先地位。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/deepseek-shou-ge-tui-li-mo-xing-r1litepreview-yin-ren-zhu