
2025年4月8日,位于旧金山的AI研究初创公司Deep Cogito正式亮相,推出了其首批产品——Cogito v1系列。这是一系列经过精细调优的开源大型语言模型(LLMs),基于Meta的Llama 3.2,并配备了混合推理能力。这种能力使模型能够迅速、即时地回答,或者像OpenAI的“O”系列和DeepSeek R1那样进行“自我反思”。Deep Cogito致力于打破当前AI受人类监督者限制的局限,使模型能够迭代地优化和内化自己的推理策略。公司的最终目标,是开发出超越所有领域人类智慧的超级智能。尽管如此,Deep Cogito明确表示:“我们创建的所有模型都将是开源的。”
Deep Cogito的首席执行官兼联合创始人Drishan Arora曾是谷歌的高级软件工程师,负责谷歌生成式搜索产品的大型语言模型建模。他在一篇帖子中表示,他们的模型是“在其规模下最强的开源模型,包括LLaMA、DeepSeek和Qwen的模型”。
首批模型阵容包括五种基础规模:30亿、80亿、140亿、320亿和700亿参数。这些模型现已在AI代码共享社区Hugging Face、Ollama以及通过Fireworks和Together AI的应用程序编程接口(API)上可用。它们遵循Llama的许可条款,允许商业使用,第三方企业可以将它们应用于付费产品中,直到达到7亿月度用户,届时需要从Meta获得付费许可。Deep Cogito计划在未来几个月内发布规模更大的模型,参数高达6710亿。
Arora将公司的训练方法——迭代蒸馏与放大(IDA)——描述为传统人类反馈强化学习(RLHF)或教师模型蒸馏的一种新颖替代方案。IDA的核心思想是为模型分配更多的计算能力来生成改进的解决方案,然后将改进的推理过程提炼到模型自身的参数中,从而有效地创建一个能力增长的反馈循环。Arora将这种方法与谷歌AlphaGo的自我对弈策略相提并论,并将其应用于自然语言领域。
基准测试和评估
Deep Cogito公布了一系列广泛的评估结果,将其Cogito模型与开源同行在一般知识、数学推理和多语言任务方面进行了比较。亮点包括:Cogito 3B(标准)在MMLU上比LLaMA 3.2 3B高出6.7个百分点(65.4% vs. 58.7%),在Hellaswag上高出18.8个百分点(81.1% vs. 62.3%)。在推理模式下,Cogito 3B在MMLU上得分72.6%,在ARC上得分84.2%,超过了其标准模式下的性能,展示了基于IDA的自我反思的效果。Cogito 8B(标准)在MMLU上得分80.5%,比LLaMA 3.1 8B高出12.8个百分点。它在MMLU-Pro上也领先超过11个百分点,在ARC上达到88.7%。在推理模式下,Cogito 8B在MMLU上得分83.1%,在ARC上得分92.0%。它在几乎所有类别中都超过了DeepSeek R1 Distill 8B,除了在MATH基准上,Cogito得分明显较低(60.2% vs. 80.6%)。Cogito 14B和32B模型在综合基准上比Qwen2.5对应模型高出约2-3个百分点,其中Cogito 32B(推理)在MMLU上得分90.2%,在MATH基准上得分91.8%。Cogito 70B(标准)在MMLU上比LLaMA 3.3 70B高出6.4个百分点(91.7% vs. 85.3%),在综合基准得分上超过了LLaMA 4 Scout 109B(54.5% vs. 53.3%)。与DeepSeek R1 Distill 70B相比,Cogito 70B(推理)在一般和多语言基准上取得了更强的结果,MMLU得分高达91.0%,MGSM得分高达92.7%。Cogito模型在推理模式下通常表现出最高的性能,但在数学方面存在一些权衡。例如,虽然Cogito 70B(标准)在数学和GSM8K上与同行相匹配或略胜一筹,但Cogito 70B(推理)在数学上比DeepSeek R1落后超过五个百分点(83.3% vs. 89.0%)。
内置工具调用
除了基准测试外,Deep Cogito还评估了其模型在原生工具调用性能方面的表现——这是代理和API集成系统日益重要的一个方面。Cogito 3B原生支持四种工具调用任务(简单、并行、多个和并行多个),而LLaMA 3.2 3B不支持工具调用。Cogito 3B在简单工具调用上得分92.8%,在多个工具调用上得分超过91%。Cogito 8B在所有工具调用类型上的得分都超过89%,显著超过了LLaMA 3.1 8B,后者的得分范围在35%到54%之间。这些改进不仅归因于模型架构和训练数据,还归因于许多基线模型目前缺乏的任务特定后训练。
展望未来
Deep Cogito计划在未来几个月内发布更大规模的模型,包括参数规模分别为1090亿、4000亿和6710亿的专家混合变体。该公司还将继续更新其当前模型的检查点,进行更长时间的训练。Deep Cogito将其IDA方法论定位为通向可伸缩自我改进的长期路径,消除了对人类或静态教师模型的依赖。Arora强调,尽管性能基准很重要,但模型的现实世界效用和适应性才是真正的考验。该公司认为,它正处于一条陡峭的增长曲线的起点,而现在只是开始。
Deep Cogito的研究和基础设施合作伙伴包括Hugging Face、RunPod、Fireworks AI、Together AI和Ollama的团队。所有发布的模型现在都是开源的,并已可供使用。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/xin-xing-kai-yuan-ai-gong-si-deep-cogito-fa-bu-shou-pi-mo