研究人员开源 Sky-T1，这是一种“推理”人工智能模型，训练成本不到 450 美元

王浩然 • 2025年1月12日下午7:00 • AI前沿 • 52 views

所谓的推理人工智能模型正变得越来越容易开发，并且更便宜。

周五，加州大学伯克利分校天空计算实验室的研究团队 NovaSky 发布了 Sky-T1-32B-Preview，该推理模型在多个关键基准测试中与OpenAI 的 o1 早期版本相媲美。Sky-T1 似乎是第一个真正的开源推理模型，因为它可以从头开始复制；该团队发布了他们用来训练它的数据集以及必要的训练代码。

该团队在一篇博客文章中写道：“值得注意的是，Sky-T1-32B-Preview 的训练成本不到 450 美元，这表明可以经济高效地复制高级推理能力。”

450 美元听起来可能不太实惠。但不久前，训练一个具有同等性能的模型的价格往往高达数百万美元。合成训练数据或由其他模型生成的训练数据有助于降低成本。据报道，人工智能公司 Writer 最近发布的模型 Palmyra X 004 几乎完全基于合成数据进行训练，开发成本仅为 70 万美元。

与大多数人工智能不同，推理模型可以有效地进行自我事实核查，这有助于它们避免一些通常会使模型陷入困境的陷阱。与典型的非推理模型相比，推理模型需要更长的时间（通常要多几秒到几分钟）才能得出解决方案。好处是，它们在物理、科学和数学等领域往往更可靠。

NovaSky 团队表示，他们使用了另一个推理模型，即阿里巴巴的 QwQ-32B-Preview，来生成 Sky-T1 的初始训练数据，然后“整理”数据混合，并利用 OpenAI 的GPT-4o-mini将数据重构为更易用的格式。使用 8 个 Nvidia H100 GPU 机架训练 320 亿参数的 Sky-T1 大约需要 19 个小时。（参数大致对应于模型的解决问题的能力。）

NovaSky 团队表示，Sky-T1 在 MATH500（一组“竞赛级”数学挑战）上的表现优于 o1 的早期预览版本。该模型还在一组来自 LiveCodeBench（一种编码评估）的难题上击败了 o1 的预览版本。

然而，Sky-T1 不如 GPQA-Diamond 上的 o1 预览版，后者包含博士毕业生应该了解的物理、生物和化学相关问题。

同样值得注意的是，OpenAI 的o1 GA 版本比 o1 的预览版更强大，并且 OpenAI 预计将在未来几周发布性能更佳的推理模型o3 。

但NovaSky团队表示，Sky-T1仅标志着他们开发具有高级推理能力的开源模型之旅的开始。

“展望未来，我们将专注于开发更高效的模型，保持强大的推理性能，并探索先进的技术，进一步提高模型在测试时的效率和准确性，”该团队在帖子中写道。“请继续关注我们在这些激动人心的计划上取得的进展。”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/yan-jiu-ren-yuan-kai-yuan-skyt1-zhe-shi-yi-zhong-tui-li-ren

Like (0)

王浩然作者

0 0

倾听技术用户的声音——他们引领了历史上最具颠覆性的创新

Previous 2025年1月12日

从意图到执行：微软如何将大型语言模型转变为行动导向型人工智能

Next 2025年1月12日

AI前沿

Passionfroot 是一个面向以商业为中心的内容创作者寻求品牌合作的市场，反之亦然

随着创作者经济的快速增长，品牌合作仍然是创作者赚钱的主要方式。其他服务，如带有联盟链接的 Link-in-Bio 应用或类似 Patreon 的订阅，成为增加创作者收入的次要方式…

王浩然
2024年10月23日
000
AI前沿

在云中构建更好的产品：为什么现在正是时候

全球范围内对云计算的投资持续大规模展开，Gartner 预测，到 2027 年，公共云支出将达到惊人的 1 万亿美元。随着企业对生成式人工智能的投资不断增加，这一数字正在大幅增长，…

王浩然
2025年1月13日
000
AI前沿

DeepSeek 有助于加速威胁检测，但同时也引发了国家安全担忧

DeepSeek 及其 R1 模型不会浪费任何时间来实时重写网络安全 AI 规则，从初创公司到企业提供商等所有公司都在本月试行集成到他们的新模型中。 R1 是在中国开发的，基于纯强…

王浩然
2025年2月3日
000
AI前沿

MIPS 发布用于自动驾驶汽车的 RISC-V CPU

MIPS发布了基于 RISC-V 计算架构的 P8700 CPU，针对驾驶辅助和自动驾驶汽车应用。这家总部位于加利福尼亚州圣何塞的公司专注于开发高效且可配置的知识产权计算，并将其…

王浩然
2024年11月9日
000
AI前沿

LangChain 表明，人工智能代理尚未达到人类水平，因为它们被工具所淹没

一旦人工智能代理显示出前景，组织就必须努力弄清楚单个代理是否足够，或者是否应该投资构建一个覆盖组织中更多点的更广泛的多代理网络。编排框架公司LangChain试图更接近这个问题…

王浩然
2025年2月12日
000
AI前沿

Anthropic的Claude聊天机器人：疑似采用Brave浏览器驱动其网页搜索功能

在人工智能领域，每一次技术创新都可能引发行业的广泛关注。近日，Anthropic公司旗下的Claude聊天机器人被曝出疑似采用Brave浏览器作为其网页搜索功能的强大后盾。这一消息…

王浩然
2025年3月24日
000
AI前沿

禁止勒索软件支付是打击网络犯罪的关键吗？

勒索软件是一种威胁全球组织的无情威胁。犯罪分子精心计算他们的要求，以最大限度地提高付款的可能性，目标是那些最不能承受长期中断的组织。英国政府的新提案可能会大大减少针对其公共服务的威…

王浩然
2025年1月29日
000
AI前沿

应对虚假信息：人工智能聊天机器人如何帮助揭穿阴谋论

虚假信息和阴谋论是数字时代面临的重大挑战。互联网是信息交流的强大工具，但也成为虚假信息的温床。阴谋论曾经只限于小团体，现在却有能力影响全球事件并威胁公共安全。这些理论通常通过社交媒…

点点
2024年11月6日
000
AI前沿

中国电信利用国产芯片训练具有1万亿参数的AI模型

中国电信是中国国有电信巨头之一，它已设立了两门仅针对国产芯片进行培训的法学硕士课程。这一突破代表着中国在人工智能技术自主化方面不断努力迈出的重要一步，特别是在美国对其竞争对手获取…

点点
2024年10月11日
000
AI前沿

2024年电子游戏发布时间表在“从《星球大战不法分子》中学习”后，《刺客信条：阴影》推迟到2025年2024年电子游戏发布时间表

育碧宣布大幅推迟《刺客信条：暗影》，该版将于2025年2月14日发布，而不是之前计划于今年11月发布。现有的预购将退还。出版商一直以《刺客信条》大片的年度关键假日销售期为目标，这…

点点
2024年9月26日
000
AI前沿

马里兰州采用人工智能交通管理

在巴尔的摩的五个路口部署其平台不到两个月，基于人工智能的交通管理初创公司 NoTraffic 就获得了一份合同，将在马里兰州容易发生交通拥堵的路口安装该平台。在经历了“意外中断和…

王浩然
2024年12月22日
000
AI前沿

放射学AI软件供应商Gleamer通过两项小型收购进军MRI领域‌

放射学AI领域的佼佼者Gleamer近日宣布了两项重要的小型收购，标志着其正式进军MRI（磁共振成像）市场。此次战略扩展，旨在强化Gleamer在医疗影像诊断方面的技术实力和市场地…

王浩然
2025年3月12日
000
AI前沿

Adobe 为 AWS 带来生成式 AI 和实时个性化：以下是下一步计划

Adobe正在积极进军亚马逊的云计算领域，将其体验平台扩展到AWS，这一合作标志着企业处理人工智能和客户数据方式的重大转变。 Adobe 领导层表示，该交易于上周在亚马逊网络服务r…

王浩然
2024年12月10日
000
AI前沿

人工智能机器人加速器计划助力大学启动

该项目使大学能够使用 Richtech 自主移动机器人和机械臂平台人工智能服务机器人制造商Richtech Robotics启动了一项加速器计划，为美国大学提供开发框架和 Ric…

王浩然
2025年2月19日
000
AI前沿

人工智能科学家：自动化研究的新时代或才刚刚开始

科学研究是深厚知识和创造性思维的迷人结合，推动着新的见解和创新。最近，生成式人工智能已成为一股变革力量，利用其能力处理大量数据集并创建反映人类创造力的内容。这种能力使生成式人工智能…

点点
2024年9月1日
000
AI前沿

这款“AI Granny”黑客利用无聊的闲聊浪费电话诈骗者的时间

电话诈骗并不是什么新鲜事，但随着人工智能的出现，人们比以往任何时候都更难知道他们正在通话的人是否是他们所说的那个人。但英国移动网络 O2 正在扭转局面，创造了所谓的“人工智能奶奶”…

王浩然
2024年11月17日
000
AI前沿

人工智能驱动的制造业和机器人创新技术揭晓

工业自动化开发商 Vention 宣布推出基于人工智能的增强功能以及用于先进制造和机器人技术的新产品

点点
2024年9月18日
000
AI前沿

了解影子人工智能及其对您的业务的影响

市场正因创新和新的 AI 项目而蓬勃发展。企业纷纷使用 AI 以在当前快节奏的经济中保持领先地位，这并不奇怪。然而，这种快速的 AI 采用也带来了一个隐藏的挑战：“影子 AI ”的…

王浩然
2024年12月26日
000
AI前沿

Salesforce 推出 Agentforce 测试中心，让座席人员接受测试

代理人工智能的下一阶段可能只是评估和监控，因为企业希望让他们开始部署的代理更具可观察性。虽然AI 代理基准可能会产生误导，但了解代理是否按其期望的方式工作却具有很大的价值。为此，…

王浩然
2024年11月26日
000
AI前沿

DeepSeek 的 R1 和 OpenAI 的 Deep Research 重新定义了 AI——RAG、蒸馏和自定义模型将不再一样

人工智能发展迅速——如果你不跟上，就会落后。两项最新进展正在重塑开发者和企业的格局：DeepSeek 的 R1 模型发布和OpenAI 的新 Deep Researc…

王浩然
2025年2月7日
000

发表回复

Please Login to Comment

研究人员开源 Sky-T1，这是一种“推理”人工智能模型，训练成本不到 450 美元

相关推荐

发表回复

Share To :