本周人工智能：OpenAI 的 o1 为何会改变人工智能规则游戏

王浩然 • 2024年9月19日下午4:00 • AI前沿 • 93 views

几天前，OpenAI 向全世界发布了其最新的旗舰生成模型 o1。o1被宣传为一种“推理”模型，它实际上需要更长的时间来“思考”问题，然后再回答问题，分解问题并检查自己的答案。

o1 有很多事情做不好——OpenAI 自己也承认这一点。但在某些任务上，比如物理和数学，o1 表现出色，尽管其参数不一定比 OpenAI 之前表现最好的模型 GPT-4o 多。（在人工智能和机器学习中，“参数”通常以数十亿计，大致相当于模型的解决问题的能力。）

这对人工智能监管有着重要影响。

例如，加州提出的法案 SB 1047 对开发成本超过 1 亿美元或使用超过一定阈值的计算能力进行训练的 AI 模型提出了安全要求。然而，像 o1 这样的模型表明，扩大训练计算能力并不是提高模型性能的唯一方法。

Nvidia 研究经理 Jim Fan 在 X 上的一篇文章中提出，未来的 AI 系统可能会依赖小型、更易于训练的“推理核心”，而不是最近流行的训练密集型架构（例如 Meta 的 Llama 405B）。他指出，最近的学术研究表明，如果有更多的时间思考问题，像 o1 这样的小型模型可以大大胜过大型模型。

那么，政策制定者将人工智能监管措施与计算能力挂钩是否目光短浅呢？人工智能初创公司 Cohere 研究实验室负责人 Sara Hooker 表示，是的：

[o1] 指出了这种观点是多么不完整，使用模型大小作为风险的代理。它没有考虑到你可以通过推理或运行模型做的所有事情。对我来说，这是糟糕的科学与政策的结合，这些政策的重点不是我们现在在世界上看到的当前风险，而是未来的风险。

那么，这是否意味着立法者应该彻底废除人工智能法案，重新制定呢？不。许多法案都是很容易修改的，因为他们认为人工智能的发展会远远超出法案的制定时间。例如，加州的法案将赋予该州政府运营机构重新定义触发该法案安全要求的计算阈值的权力。

不可否认，棘手的部分是确定哪个指标可以代表风险。与人工智能监管的许多其他方面一样，随着美国乃至世界各地的法案即将通过，这是一个值得深思的问题。

消息

对 o1 的第一反应： Max 从人工智能研究人员、初创公司创始人和风险投资家那里获得了对 o1 的初步印象——并亲自测试了该模型。

奥特曼离开安全委员会： OpenAI 首席执行官萨姆·奥特曼 (Sam Altman) 辞去了这家初创公司负责审查 o1 等模型安全性的委员会的职务，很可能是因为人们对他不会公正行事的担忧。

Slack 变成代理中心：在其母公司 Salesforce 的年度 Dreamforce 会议上，Slack 宣布了新功能，包括 AI 生成的会议摘要以及与图像生成工具和 AI 驱动的网络搜索的集成。

谷歌开始标记 AI 图像：谷歌表示，它计划对谷歌搜索进行改进，以更清楚地显示结果中的哪些图像是由 AI 生成的，或由 AI 工具编辑的。

Mistral 推出免费套餐：法国人工智能初创公司 Mistral 推出了新的免费套餐，让开发人员可以使用该初创公司的人工智能模型进行微调和构建测试应用程序。

Snap 推出视频生成器：在周二举行的年度 Snap 合作伙伴峰会上，Snapchat 宣布将为创作者推出一款新的 AI 视频生成工具。该工具将允许选定的创作者根据文本提示生成 AI 视频，并且很快将根据图像提示生成 AI 视频。

英特尔签署重大芯片交易：英特尔表示，将与 AWS 共同开发一款 AI 芯片，采用英特尔的 18A 芯片制造工艺。两家公司将该交易描述为“多年、数十亿美元的框架”，可能涉及更多芯片设计。

奥普拉的人工智能特别节目：奥普拉·温弗瑞播出了一档关于人工智能的特别节目，嘉宾包括 OpenAI 的 Sam Altman、微软的比尔·盖茨、科技影响者马奎斯·布朗利以及现任 FBI 局长克里斯托弗·雷。

本周研究论文

我们知道人工智能具有说服力，但它能找出深陷阴谋论的人吗？当然，它自己做不到。但麻省理工学院和康奈尔大学的科斯特洛等人开发的新模型可以削弱人们对虚假阴谋论的信念，这种信念至少会持续几个月。

在实验中，他们让相信阴谋论的人（例如“9/11 是内部人员所为”）与聊天机器人交谈，聊天机器人温和、耐心、无休止地提供反证来反驳他们的观点。这些对话导致参与其中的人类在两个月后表示相关信念减少了 20%，至少就这些事情可以衡量的程度而言。以下是正在进行的对话之一的示例：

那些对爬行动物和深层国家阴谋论深信不疑的人不太可能咨询或相信这样的人工智能，但如果在关键时刻使用这种方法，比如一个人第一次涉足这些理论，可能会更有效。例如，如果一个青少年搜索“喷气燃料能熔化钢梁吗？”，他们可能会经历一个学习的时刻，而不是一个悲剧的时刻。

本周模型

这不是一个模型，但它与模型有关：微软的研究人员本周发布了一个名为 Eureka 的人工智能基准，旨在（用他们的话说）“以开放透明的方式扩大[模型]评估……”。

AI 基准比比皆是。那么 Eureka 有何不同？研究人员表示，对于 Eureka（实际上是现有基准的集合），他们选择的任务对于“即使是最强大的模型”来说也仍然具有挑战性。具体来说，Eureka 测试的是 AI 基准中经常被忽视的能力，比如视觉空间导航技能。

为了展示 Eureka 对模型的难度，研究人员在基准测试中测试了包括 Anthropic 的 Claude、OpenAI 的 GPT-4o 和 Meta 的 Llama 在内的系统。没有一个模型在 Eureka 的所有测试中都取得了好成绩，研究人员表示，这凸显了“持续创新”和“有针对性地改进”模型的重要性。

摸彩袋

加利福尼亚州通过了两项法律 AB 2602 和 AB 1836，限制使用人工智能数字复制品，这对专业演员来说是一次胜利。

该法案得到了美国演员工会（美国演员工会和电视和广播艺人工会）的支持，要求依赖演员数字复制品（例如克隆的声音或图像）的公司对复制品的预期用途给出“合理具体”的描述，并与演员的法律顾问或工会进行协商。该法案还要求娱乐业雇主在使用已故演员的数字复制品之前，必须征得其遗产的同意。

正如《好莱坞报道》在报道中指出的那样，这些法案将美国演员工会和电视和广播艺人工会在去年与制片厂和主要流媒体平台进行的为期 118 天的罢工中争取到的概念纳入法典。加利福尼亚州是继田纳西州之后第二个对数字演员肖像的使用施加限制的州；美国演员工会和电视和广播艺人工会也赞助了田纳西州的这项行动。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/ben-zhou-ren-gong-zhi-neng-openai-de-o1-wei-he-hui-gai-bian

AI Eureka GPT-4o LLaMA Meta o1 OpenAI 英特尔视频生成器谷歌

Like (0)

王浩然作者

0 0

YouTube Shorts 将整合谷歌的 AI 视频模型 Veo

Previous 2024年9月19日下午3:00

Apple Intelligence 将于 2025 年支持德语、意大利语、韩语、葡萄牙语和越南语

Next 2024年9月19日下午5:00

AI前沿

LLM新技术：控制CoT长度，优化推理，降低成本

一、引言在人工智能领域，大型语言模型（LLM）通过“链式思考”（Chain of Thought，简称CoT）进行推理已成为最新一代模型的关键特征。这种推理过程涉及将复杂问题分解…

王浩然
2025年3月17日
000
AI前沿

AI对抗终端攻击：安全领导者需知以保持领先

在当今的数字化时代，企业正面临着一场真实的人工智能军备竞赛。对手利用大型语言模型（LLMs）创建欺诈性机器人，自动化攻击手段，使得企业防不胜防。这些攻击者通过生成式AI创造无文件执…

王浩然
2025年2月23日
000
AI前沿

人工智能中的幻觉：葛兰素史克如何解决药物开发中的关键问题

生成式人工智能已成为许多行业的关键基础设施，医疗保健也不例外。然而，随着葛兰素史克等组织不断突破生成式人工智能所能实现的界限，它们面临着重大挑战——尤其是在可靠性方面。幻觉，即人工…

王浩然
2025年1月15日
000
AI前沿

Uber 正在组建一支零工队伍，为人工智能模型标记数据

Uber 正在扩大其零工劳动力队伍并创建一个新的类别：人工智能注释和数据标记。这家叫车公司已开始为一个名为 Scaled Solutions 的新 AI 和数据标签部门招聘合同工…

王浩然
2024年11月29日
000
AI前沿

丰田与 NTT 联手推进 33 亿美元 AI 移动出行项目

日本汽车制造商丰田正与电信巨头日本电报电话公司 (NTT) 合作开发使用人工智能预防事故的驾驶辅助系统。两人计划投资 33 亿美元打造一个全新的移动 AI 平台，该平台利用大量数…

王浩然
2024年11月7日
000
AI前沿

阿里巴巴的Qwen2.5-Max挑战美国科技巨头，重塑企业人工智能

阿里云今天发布了Qwen2.5-Max型号，这是中国在不到一周的时间内第二次在人工智能方面取得重大突破，这震动了美国科技市场，并加剧了人们对美国人工智能领导地位逐渐减弱的担忧。新…

王浩然
2025年1月29日
000
AI前沿

Gmail新增Gemini驱动的“添加到日历”按钮‌

近日，Gmail迎来了一项新功能的更新——一个由Gemini技术驱动的“添加到日历”按钮。这一功能的加入，旨在为用户提供更加便捷的日程管理体验。通过点击这个新按钮，用户能够轻松地…

王浩然
2025年3月12日
000
AI前沿

确保人工智能前沿：保护企业系统免受人工智能驱动的威胁

到 2025 年，针对身份的武器化人工智能攻击（看不见且通常恢复成本最高）将对企业网络安全构成最大威胁。大型语言模型 (LLM) 是恶意攻击者、网络犯罪集团和民族国家攻击团队的新…

王浩然
2024年11月18日
000
AI前沿

让董事会接受 GRC – 尤其是随着 AI 的采用不断增加

随着法规的增多和新技术的融合，治理、风险和合规 (GRC) 功能对于当今企业的健康、财务和安全而言正变得越来越重要。然而，GRC 需要支持才能很好地完成工作，而这需要自上而下的支持…

点点
2024年9月12日
000
AI前沿

英特尔推出新款 Core Ultra 处理器，AI 应用性能提升 2 至 3 倍

英特尔今天在CES 2025上发布了全新英特尔酷睿超极本 9 处理器，其 AI 应用的边缘性能比之前提升了两到三倍。英特尔酷睿 Ultra 9 和酷睿 i9 系列芯片此前的代号分…

王浩然
2025年1月7日
000
AI前沿

Stability AI 发布迄今为止最强大的图像生成模型

Stability AI宣布发布Stable Diffusion 3.5，标志着开源AI图像生成模型的一次飞跃。 Stability AI 的最新模型包括多种变体，旨在满足从业余爱…

点点
2024年10月24日
000
AI前沿

Upwork 产品副总裁 Dave Bottoms – 访谈系列

Dave Bottoms 领导 Upwork 的市场组织，这是一个全球团队，负责核心人才市场、搜索和发现、广告和货币化、核心移动体验以及新产品创新和分析。 Dave 为 Upwor…

点点
2024年10月7日
000
AI前沿

科技领袖对 DeepSeek 的快速崛起做出回应

如果你还没听说过，那么现在城里出现了一颗新的人工智能明星：DeepSeek，香港量化分析公司 High-Flyer Capital Management 的子公司，本周早些时候发布…

王浩然
2025年1月25日
000
AI前沿

大规模部署 AI：NVIDIA NIM 和 LangChain 如何彻底改变 AI 集成和性能

人工智能 (AI)已从一个未来概念转变为改变全球行业的强大力量。人工智能驱动的解决方案正在改变医疗保健、金融、制造和零售等行业的企业运营方式。它们不仅提高了效率和准确性，还增强了决…

点点
2024年9月25日
000
AI前沿

虚假拜登自动电话呼叫导致无线服务提供商被 FCC 罚款 100 万美元

这些电话使用人工智能模仿拜登的声音，告诉潜在选民在初选期间待在家里。

点点
2024年9月2日
000
AI前沿

让艺术世界更加触手可及

初创公司 NALA 最初是麻省理工学院的一个课堂项目，旨在将艺术品买家与艺术家直接匹配。在高价艺术品的世界里，画廊通常扮演着守门人的角色。他们精心挑选的策展过程是大城市的画廊经常…

王浩然
2025年1月27日
000
AI前沿

据报道，前 OpenAI 首席技术官 Mira Murati 正在为一家新的 AI 初创公司筹集资金

据路透社报道，上个月宣布离职的OpenAI 首席技术官米拉·穆拉蒂 (Mira Murati)正在为一家新的人工智能初创公司筹集风险投资资金。据报道，这家初创公司将专注于构建基于…

王浩然
2024年10月20日
000
AI前沿

ApertureData 使用多模式数据为企业提供 10 倍速度提升

数据是人工智能的圣杯。从敏捷的初创公司到全球企业集团，世界各地的组织都在投入数十亿美元来调动数据集，以打造高性能的人工智能应用程序和系统。但即使付出了这么多努力，现实情况是，访问…

王浩然
2024年10月15日
000
AI前沿

AI 股票惨败之际 DeepSeek 推出“Janus Pro 7B”视觉模型，引发对中国科技主导地位的新担忧

迅速发展的中国人工智能公司DeepSeek再次撼动了全球科技界。就在该公司前沿人工智能模型的快速崛起引发美国人工智能股票抛售之际，该公司推出了一款全新产品： Janus Pro …

王浩然
2025年1月28日
000
AI前沿

如何利用冷硬数据科学来利用人工智能

有时很难区分技术的现实与每天轰炸我们收件箱的炒作和营销信息。例如，在过去五年里，我们可能听到了太多关于元宇宙、区块链和虚拟现实的信息。目前，我们正处于一场关于被滥用的术语“人工智能…

点点
2024年10月1日
000

发表回复

Please Login to Comment

本周人工智能：OpenAI 的 o1 为何会改变人工智能规则游戏

消息

本周研究论文

本周模型

摸彩袋

相关推荐

发表回复

Share To :