新兴开源AI公司Deep Cogito发布首批模型，迅速登顶排行榜‌

王浩然 • 6天前 • AI前沿 • 61 views

2025年4月8日，位于旧金山的AI研究初创公司Deep Cogito正式亮相，推出了其首批产品——Cogito v1系列。这是一系列经过精细调优的开源大型语言模型（LLMs），基于Meta的Llama 3.2，并配备了混合推理能力。这种能力使模型能够迅速、即时地回答，或者像OpenAI的“O”系列和DeepSeek R1那样进行“自我反思”。Deep Cogito致力于打破当前AI受人类监督者限制的局限，使模型能够迭代地优化和内化自己的推理策略。公司的最终目标，是开发出超越所有领域人类智慧的超级智能。尽管如此，Deep Cogito明确表示：“我们创建的所有模型都将是开源的。”

Deep Cogito的首席执行官兼联合创始人Drishan Arora曾是谷歌的高级软件工程师，负责谷歌生成式搜索产品的大型语言模型建模。他在一篇帖子中表示，他们的模型是“在其规模下最强的开源模型，包括LLaMA、DeepSeek和Qwen的模型”。

首批模型阵容包括五种基础规模：30亿、80亿、140亿、320亿和700亿参数。这些模型现已在AI代码共享社区Hugging Face、Ollama以及通过Fireworks和Together AI的应用程序编程接口（API）上可用。它们遵循Llama的许可条款，允许商业使用，第三方企业可以将它们应用于付费产品中，直到达到7亿月度用户，届时需要从Meta获得付费许可。Deep Cogito计划在未来几个月内发布规模更大的模型，参数高达6710亿。

Arora将公司的训练方法——迭代蒸馏与放大（IDA）——描述为传统人类反馈强化学习（RLHF）或教师模型蒸馏的一种新颖替代方案。IDA的核心思想是为模型分配更多的计算能力来生成改进的解决方案，然后将改进的推理过程提炼到模型自身的参数中，从而有效地创建一个能力增长的反馈循环。Arora将这种方法与谷歌AlphaGo的自我对弈策略相提并论，并将其应用于自然语言领域。

‌基准测试和评估‌

Deep Cogito公布了一系列广泛的评估结果，将其Cogito模型与开源同行在一般知识、数学推理和多语言任务方面进行了比较。亮点包括：Cogito 3B（标准）在MMLU上比LLaMA 3.2 3B高出6.7个百分点（65.4% vs. 58.7%），在Hellaswag上高出18.8个百分点（81.1% vs. 62.3%）。在推理模式下，Cogito 3B在MMLU上得分72.6%，在ARC上得分84.2%，超过了其标准模式下的性能，展示了基于IDA的自我反思的效果。Cogito 8B（标准）在MMLU上得分80.5%，比LLaMA 3.1 8B高出12.8个百分点。它在MMLU-Pro上也领先超过11个百分点，在ARC上达到88.7%。在推理模式下，Cogito 8B在MMLU上得分83.1%，在ARC上得分92.0%。它在几乎所有类别中都超过了DeepSeek R1 Distill 8B，除了在MATH基准上，Cogito得分明显较低（60.2% vs. 80.6%）。Cogito 14B和32B模型在综合基准上比Qwen2.5对应模型高出约2-3个百分点，其中Cogito 32B（推理）在MMLU上得分90.2%，在MATH基准上得分91.8%。Cogito 70B（标准）在MMLU上比LLaMA 3.3 70B高出6.4个百分点（91.7% vs. 85.3%），在综合基准得分上超过了LLaMA 4 Scout 109B（54.5% vs. 53.3%）。与DeepSeek R1 Distill 70B相比，Cogito 70B（推理）在一般和多语言基准上取得了更强的结果，MMLU得分高达91.0%，MGSM得分高达92.7%。Cogito模型在推理模式下通常表现出最高的性能，但在数学方面存在一些权衡。例如，虽然Cogito 70B（标准）在数学和GSM8K上与同行相匹配或略胜一筹，但Cogito 70B（推理）在数学上比DeepSeek R1落后超过五个百分点（83.3% vs. 89.0%）。

‌内置工具调用‌

除了基准测试外，Deep Cogito还评估了其模型在原生工具调用性能方面的表现——这是代理和API集成系统日益重要的一个方面。Cogito 3B原生支持四种工具调用任务（简单、并行、多个和并行多个），而LLaMA 3.2 3B不支持工具调用。Cogito 3B在简单工具调用上得分92.8%，在多个工具调用上得分超过91%。Cogito 8B在所有工具调用类型上的得分都超过89%，显著超过了LLaMA 3.1 8B，后者的得分范围在35%到54%之间。这些改进不仅归因于模型架构和训练数据，还归因于许多基线模型目前缺乏的任务特定后训练。

‌展望未来‌

Deep Cogito计划在未来几个月内发布更大规模的模型，包括参数规模分别为1090亿、4000亿和6710亿的专家混合变体。该公司还将继续更新其当前模型的检查点，进行更长时间的训练。Deep Cogito将其IDA方法论定位为通向可伸缩自我改进的长期路径，消除了对人类或静态教师模型的依赖。Arora强调，尽管性能基准很重要，但模型的现实世界效用和适应性才是真正的考验。该公司认为，它正处于一条陡峭的增长曲线的起点，而现在只是开始。

Deep Cogito的研究和基础设施合作伙伴包括Hugging Face、RunPod、Fireworks AI、Together AI和Ollama的团队。所有发布的模型现在都是开源的，并已可供使用。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/xin-xing-kai-yuan-ai-gong-si-deep-cogito-fa-bu-shou-pi-mo

Deep Cogito 合作伙伴基准测试大型语言模型工具调用开源AI 未来发展混合推理能力超级智能迭代蒸馏与放大

Like (0)

王浩然作者

0 0

威尔斯法戈AI助手实现2.45亿次无人工介入零敏感信息交互

Previous 6天前

DeepSeek发布新技术：打造更智能、可扩展的AI奖励模型

Next 5天前

AI前沿

RAG性能评估的新纪元：开源框架助力企业科学衡量AI效能

随着企业纷纷投入资源构建检索增强型生成（RAG）系统，一个关键问题逐渐浮现：这些系统是否真的如预期般有效工作？为了填补这一评估盲区，矢量科技（Vectara）携手滑铁卢大学的林吉米…

王浩然
6天前
000
AI前沿

人工智能增强型量子大型语言模型发布

Secqai 是一家专门从事超安全硬件和软件的公司，推出了混合量子大语言模型 (QLLM)。 QLLM 旨在通过将量子计算与传统大型语言模型 (LLM) 相结合来增强人工智能应用，…

王浩然
2025年2月11日
000
AI前沿

Experity 远程放射学首席医疗官 Ron Boucher 博士 – 访谈系列

Ron Boucher 博士担任Experity的远程放射学首席医疗官，Experity 是一家专注于美国紧急护理市场的软件和服务公司。 Experity 提供集成操作系统，包括电…

点点
2024年10月27日
000
AI前沿

OpenAI为付费ChatGPT用户推出深度研究功能‌

在人工智能领域持续创新的浪潮中，OpenAI再次迈出重要一步。据最新消息，OpenAI现已向其付费ChatGPT用户推出深度研究功能，旨在为用户提供更加专业、深入的AI分析与解答服…

王浩然
2025年2月28日
000
AI前沿

为你点击的人工智能：微软的研究指出了 GUI 自动化的未来

微软研究人员和学术合作伙伴进行的一项全面的新调查显示，由大型语言模型 (LLM) 驱动的人工智能代理越来越能够控制图形用户界面 (GUI)，从而有可能改变人类与软件的交互方式。这…

王浩然
2024年12月1日
000
AI前沿

Grok 3疑似短暂屏蔽对特朗普和马斯克的负面提及

近日，有报道称，人工智能系统Grok 3似乎曾短暂地对涉及特朗普和马斯克的负面言论进行了屏蔽。这一发现引发了公众的广泛关注与讨论，人们开始质疑Grok 3是否具备足够的公正性和客观…

王浩然
2025年2月26日
000
AI前沿

AI驱动的更加个性化的Siri被推迟发布‌

近期，苹果公司宣布了一个令人意外的消息：原定于近期推出的AI驱动的更加个性化的Siri版本将延期发布。这一决定引发了广泛关注和讨论。据悉，新款Siri在个性化方面进行了大幅提升。…

王浩然
2025年3月10日
000
AI前沿

OpenAI 推出适用于 iPhone 的 ChatGPT，与 Apple 实现具有里程碑意义的 AI 整合

随着iOS 18.2向用户推出，OpenAI于周三展示了其新的 iPhone 集成，将 ChatGPT 直接引入 Siri、写作工具和相机功能。该功能更新在 OpenAI 的“ …

王浩然
2024年12月12日
000
AI前沿

Matt Mullenweg 称 WP Engine 是“WordPress 的毒瘤”，并敦促社区更换提供商

Automattic 首席执行官兼 WordPress 联合创始人马特·穆伦维格 (Matt Mullenweg)本周对竞争对手发起了严厉批评，称WP Engine是“WordPr…

点点
2024年9月23日
000
AI前沿

“Figures”人形机器人：语音指令助手，让家务变得更轻松

近日，一款名为“Figures”的人形机器人走进了大众视野，这款机器人能够通过接收语音指令来帮助用户完成各种家务任务。它的问世，预示着智能家居领域迎来了又一位得力助手，将为用户带来…

王浩然
2025年2月24日
000
AI前沿

什么是 Apple Intelligence，它何时会到来以及谁将会获得它？

经过数月的猜测，Apple Intelligence终于在6 月份的 WWDC 2024 上成为焦点。该平台是在谷歌和 Open AI 等公司发布大量生成式人工智能消息之后发布的，…

王浩然
2024年10月26日
000
AI前沿

适当的节奏对人工智能至关重要：Gartner 主题演讲的见解

在周一 Gartner IT Symposium/Xpo 2024 的开幕主题演讲中，分析师 Mary Mesaglio 和 Hung LeHong 描述了构建成功的 AI 堆栈的…

点点
2024年10月22日
000
AI前沿

GPT-4o：OpenAI推出原生图像生成功能，惊艳用户

引言‌ 自OpenAI在2024年5月发布其首款“全能”或多模态模型GPT-4o以来，近一年的时间里，这款模型始终保持着强大的竞争力。而今，OpenAI再次为ChatGPT的Plu…

王浩然
2025年3月27日
000
AI前沿

Meta 推出开源 Llama 3.3，将强大的大模型缩小到更小的尺寸

Meta 生成 AI 副总裁 Ahmad Al-Dahle 今天在竞争对手社交网络 X 上宣布发布Llama 3.3，这是 Facebook、Instagram、WhatsApp …

王浩然
2024年12月7日
000
AI前沿

身份验证：安全的关键点——正确实施零信任，否则将功亏一篑‌

在当今的数字化时代，身份验证已成为安全性的关键点。随着深度伪造（Deepfakes）和武器化大型语言模型（LLMs）等AI驱动欺骗手段的出现，威胁态势已经发生了根本性变化。攻击者不…

王浩然
2025年2月22日
000
AI前沿

ARM与马来西亚签署2.5亿芯片供应协议‌

近日，全球领先的半导体知识产权供应商ARM宣布，将与马来西亚达成一项重大合作协议。根据协议，ARM将向马来西亚提供价值2.5亿芯片的解决方案，旨在助力马来西亚半导体产业的进一步发展…

王浩然
2025年3月6日
000
AI前沿

OpenAI震撼发布里程碑式模型，代号o1：更强了，也更贵了

传闻已久、拖了又拖的OpenAI模型项目“草莓”，终于现身了。北京时间9月13日凌晨，Open AI正式发布了其首款具有推理能力的模型，代号为OpenAI o1，包括无所不能的大…

点点
2024年9月13日
000
AI前沿

Wayve CEO 分享自动驾驶技术扩展的关键要素

在自动驾驶技术的浩瀚星空中，Wayve 正如一颗冉冉升起的新星，以其独特的技术视角和商业策略引领着行业的未来。近日，Wayve 的 CEO 在一次深度访谈中，慷慨地分享了他在推动自…

王浩然
2025年3月23日
000
AI前沿

OpenAI将ChatGPT变成搜索引擎，直指谷歌

OpenAI今天将其广受欢迎的ChatGPT服务改造成一款强大的搜索引擎，这是该公司与谷歌竞争以来最大胆的举措。此次升级让用户能够用简单的英语提问，并获取有关新闻、体育、股票和天气…

王浩然
2024年11月3日
000
AI前沿

前谷歌、苹果工程师无条件开源 Oumi AI 平台，或将助力打造下一个 DeepSeek

如果之前还不清楚，那么现在肯定非常清楚：开源对人工智能确实很重要。DeepSeek -R1的成功实质上证明了对开源人工智能的需求。但开源 AI 究竟是什么？对于 Meta 及其L…

王浩然
2025年2月4日
000

发表回复

Please Login to Comment

新兴开源AI公司Deep Cogito发布首批模型，迅速登顶排行榜‌

相关推荐

发表回复

Share To :