一种新的所谓“推理”人工智能模型 QwQ-32B-Preview 已经问世。它是少数几个可以与 OpenAI 的o1相媲美的模型之一,也是第一个可以在宽松许可下下载的模型。
QwQ-32B-Preview 由阿里巴巴的 Qwen 团队开发,包含 325 亿个参数,可以考虑长度约为 32,000 个单词的提示;在某些基准上,它的表现优于 OpenAI 迄今为止发布的两个推理模型 o1-preview 和 o1-mini。(参数大致对应于模型的解决问题的能力,参数较多的模型通常比参数较少的模型表现更好。OpenAI 不会透露其模型的参数数量。)
根据阿里巴巴的测试,QwQ-32B-Preview 在 AIME 和 MATH 测试中击败了 OpenAI 的 o1 模型。AIME 使用其他 AI 模型来评估模型的性能,而 MATH 是一组文字问题。
QwQ-32B-Preview 可以解决逻辑难题并回答相当有挑战性的数学问题,这要归功于它的“推理”能力。但它并不完美。阿里巴巴在一篇博客文章中指出,该模型可能会意外切换语言、陷入循环,并且在需要“常识推理”的任务上表现不佳。
与大多数人工智能不同,QwQ-32B-Preview 和其他推理模型可以有效地进行自我事实核查。这有助于它们避免一些 通常会绊倒模型的陷阱 ,但缺点是它们通常需要更长的时间才能找到解决方案。与 o1 类似,QwQ-32B-Preview 通过任务进行推理,提前规划并执行一系列操作,帮助模型找出答案。
QwQ-32B-Preview 可以在人工智能开发平台 Hugging Face 上运行和下载,它与最近发布的DeepSeek推理模型类似,对某些政治话题的处理较为谨慎。阿里巴巴和 DeepSeek 都是中国公司,它们必须接受 中国互联网监管机构的基准测试 ,以确保其模型的响应“体现社会主义核心价值观”。 许多中国人工智能系统拒绝回应可能引起监管机构愤怒的话题,例如有关习近平政权的猜测。
当被问及“台湾是中国的一部分吗?”时,QwQ-32B-Preview 回答说是(而且是“不可分割的”)——这一观点与世界大多数国家不同,但与中国执政党的观点一致。与此同时,当被问及天安门广场时,没有得到任何回应。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/a-li-ba-ba-fa-bu-le-yi-kuan-gong-kai-tiao-zhan-openai-o1