
在人工智能领域,通用型代理的竞争格局正日益激烈且充满野心。近日,总部位于帕洛阿尔托的初创公司Genspark推出了其名为Super Agent的快速自主系统。该系统旨在跨多个领域处理现实世界的任务,包括一些令人瞠目结舌的应用,如使用逼真的合成声音拨打餐厅电话进行预订。
随着Genspark的Super Agent问世,一场关于AI竞争的新前沿正在形成:谁将打造出首个可靠、灵活且真正实用的通用型代理?而更为紧迫的是,这对于企业来说意味着什么?
就在三周前,另一家由中国人创立的初创公司Manus因其能够协调工具和数据源以完成异步云任务(如旅行预订、简历筛选和股票分析)而备受瞩目。这些任务通常需要当前大多数代理所不具备的自主能力。而Genspark现在声称,其Super Agent在功能上更进一步。
据联合创始人Eric Jing介绍,Super Agent的构建基于三大支柱:九个不同的大型语言模型(LLMs)的协同、80多个工具以及10多个专有数据集,所有这些都在一个协调的流程中协同工作。它远远超越了传统的聊天机器人,能够处理复杂的工作流程并返回完全执行的结果。
在一次演示中,Genspark的代理规划了一次完整的五天圣地亚哥之旅,计算了景点之间的步行距离,规划了公共交通路线,并使用语音呼叫代理预订餐厅,同时处理了食物过敏和座位偏好等细节。另一项演示展示了该代理如何制作烹饪视频集锦,包括生成食谱步骤、视频场景和音频叠加。在第三项演示中,它编写并制作了一集以近期涉及与政治记者分享战争计划的Signalgate政治丑闻为主题的《南方公园》风格动画。
这些应用看似以消费者为中心,但它们实际上揭示了技术的未来发展方向——即向多模态、多步骤任务自动化迈进,模糊了创意生成与执行之间的界限。
“解决这些现实世界的问题比我们想象的要困难得多,”Jing在视频中说,“但我们对所取得的进展感到兴奋。”
Super Agent的一个引人注目的特点是,它能够清晰地可视化其思维过程,追踪它是如何通过每一步进行推理的,它调用了哪些工具,以及为什么要调用这些工具。实时观看这种逻辑展开使该系统不再像一个黑盒子,而更像是一个协作伙伴。这可能会激励企业开发者在自己的AI系统中构建类似的可追溯推理路径,从而提高应用的透明度和可信度。
此外,Super Agent还非常容易试用。其界面在浏览器中顺利启动,无需任何技术设置。Genspark允许用户无需提供个人凭据即可开始测试。相比之下,Manus仍然要求申请者加入等待列表,并披露社交媒体账户和其他私人信息,这给试验带来了不便。
早在去年11月,我们就曾报道过Genspark,当时它推出了由Claude支持的财务报告。该公司已筹集至少1.6亿美元的两轮融资,并由美国和新加坡的投资者支持。
Genspark的方法之所以脱颖而出,是因为它解决了长期存在的AI工程挑战:即大规模的工具协调。大多数当前的代理在处理超过几个外部API或工具时就会崩溃。而Genspark的Super Agent似乎在这方面做得更好,它可能通过使用模型路由和基于检索的选择来根据任务动态选择工具和子模型。
这一策略与中国苏州大学的CoTools框架中的新兴研究相呼应,该框架增强了大型语言模型(LLMs)如何使用广泛且不断演变的工具集。与以前依赖大量提示工程或严格微调的旧方法不同,CoTools保持基础模型“冻结”状态,同时训练较小的组件以高效判断、检索和调用工具。
另一个促成因素是模型上下文协议(MCP),这是一个鲜为人知但越来越被采用的标准,它允许代理在跨步骤时携带更丰富的工具和内存上下文。结合Genspark的专有数据集,MCP可能是其代理看起来比其他替代方案更“可控”的原因之一。
当然,Genspark并不是第一家推广通用代理的初创公司。上个月,由总部位于中国的Monica公司推出的Manus凭借其多代理系统引起了轰动,该系统可以自主运行如网页浏览器、代码编辑器或电子表格引擎等工具来完成多步骤任务。
Manus对开源组件(包括网页工具和如Claude这样的LLMs)的高效集成令人惊讶。尽管它没有构建专有模型堆栈,但在GAIA基准测试(一项旨在评估代理现实任务自动化的合成测试)上仍超越了OpenAI,取得了86%的分数。
然而,Genspark声称已经超越了Manus,在GAIA上获得了87.8%的分数,并且其架构包括专有组件和更广泛的工具覆盖。
与此同时,美国最大的AI公司则显得更为谨慎。微软的主要AI代理产品Copilot Studio专注于与Excel和Outlook等企业应用紧密对齐的微调垂直代理。OpenAI的Agent SDK提供了构建块,但并未推出自己功能齐全、通用的代理。亚马逊最近宣布的Nova Act则采用了以开发者为先的方法,通过SDK提供基于浏览器的原子操作,但紧密绑定在其Nova LLM和云基础设施上。
这些方法更加模块化、更安全,并且明确针对企业使用。但它们缺乏Genspark演示中所展示的雄心或自主性。
这背后的原因可能是风险规避。如果谷歌或微软的通用代理预订了错误的航班或在电话中说出了奇怪的话,那么声誉成本可能会很高。这些公司还受限于自己的模型生态系统,限制了它们在多模型协调方面进行实验的灵活性。
相比之下,像Genspark这样的初创公司则拥有自由混合搭配LLMs并快速行动的能力。
这是战略层面的问题。大多数企业并不需要通用型代理来预订晚餐或制作讽刺漫画。但它们可能很快就会需要能够处理特定领域多步骤任务的代理,如提取和格式化合规数据、协调客户入职流程或跨多种格式生成内容。
在此背景下,Genspark的工作变得更具相关性。通用代理变得越来越无缝和自主,同时它们整合了语音、内存和外部工具,就越有可能开始与传统SaaS应用和RPA平台竞争。
而且,它们正在以更轻量级的基础设施做到这一点。例如,Genspark声称其代理“极易操控”,并且可被营销人员、教师、招聘人员、设计师和分析师等使用,且几乎无需设置。
通用代理时代已不再是假设。它已经到来,并且正在快速发展。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/gensparks-de-super-agent-tong-yong-ren-gong-zhi-neng-dai-li