对于 OpenAI 来说,这是动荡的一周,高管离职和重大融资进展频频,但这家初创公司又回到了正轨,试图说服开发人员在 2024 年 DevDay 上利用其 AI 模型构建工具。该公司周二宣布了几款新工具,包括其“实时 API”的公开测试版,用于构建具有低延迟、AI 生成的语音响应的应用程序。它不完全是 ChatGPT 的高级语音模式,但很接近。
OpenAI 首席产品官凯文·韦尔 (Kevin Weil) 在活动前的记者会上表示,首席技术官米拉·穆拉蒂 (Mira Murati) 和首席研究官鲍勃·麦格鲁 (Bob McGrew) 的离职不会影响公司的发展。
“首先我要说的是,鲍勃和米拉是出色的领导者。我从他们身上学到了很多东西,他们为我们取得今天的成就做出了巨大贡献,”韦尔说。“而且,我们不会放慢脚步。”
OpenAI 正在经历又一次高管层改组——这让人想起了去年 DevDay 之后的动荡——该公司正试图说服开发人员,它仍然是构建 AI 应用的最佳平台。领导者表示,这家初创公司拥有超过 300 万名开发人员使用其 AI 模型进行构建,但 OpenAI 所处的领域竞争日益激烈。
OpenAI 指出,过去两年来,它已将开发人员访问其 API 的成本降低了 99%,但这很可能是受到 Meta 和谷歌等竞争对手不断压低价格的压力。
OpenAI 的一项新功能名为 Realtime API,它让开发者有机会在其应用中构建近乎实时的语音转语音体验,并可以选择使用 OpenAI 提供的六种声音。这些声音与 ChatGPT 提供的声音不同,开发者不能使用第三方声音,以避免版权问题。(这款模糊地基于斯嘉丽·约翰逊的声音在任何地方都找不到。)
在简报会上,OpenAI 的开发者体验主管 Romain Huet 分享了一款使用 Realtime API 构建的旅行规划应用的演示。该应用允许用户与 AI 助手口头讨论即将到来的伦敦之旅,并获得低延迟响应。Realtime API 还可以访问许多工具,因此该应用能够在回答问题的同时在地图上标注餐厅位置。
在另一个环节,Huet 展示了 Realtime API 如何通过电话与真人交谈,询问活动订餐事宜。与谷歌臭名昭著的 Duo 不同,OpenAI 的 API 无法直接致电餐馆或商店;但是,它可以与 Twilio 等呼叫 API 集成来实现这一点。值得注意的是,OpenAI 并没有添加披露信息,以便其 AI 模型在这样的通话中自动识别自己,尽管这些 AI 生成的声音听起来非常逼真。目前,添加此披露信息似乎是开发人员的责任,这可能是加州新法律的要求。
作为 DevDay 公告的一部分,OpenAI 还在其 API 中引入了视觉微调功能,这将使开发人员能够使用图像和文本来微调他们的 GPT-4o 应用程序。理论上,这应该有助于开发人员提高 GPT-4o 在涉及视觉理解的任务中的表现。OpenAI 的产品 API 负责人 Olivier Godement 告诉 TechCrunch,开发人员将无法上传受版权保护的图像(例如唐老鸭的照片)、描绘暴力的图像或其他违反 OpenAI 安全政策的图像。
OpenAI 正在努力赶上其竞争对手在 AI 模型许可领域已经提供的功能。它的即时缓存功能类似于 Anthropic 几个月前推出的功能,允许开发人员在 API 调用之间缓存常用上下文,从而降低成本并改善延迟。OpenAI 表示,开发人员使用此功能可以节省 50%,而 Anthropic承诺提供 90% 的折扣。
最后,OpenAI 提供了模型蒸馏功能,让开发人员可以使用较大的 AI 模型(例如 o1-preview 和 GPT-4o)来微调较小的模型(例如 GPT-4o mini)。与运行较大的模型相比,运行较小的模型通常可以节省成本,但此功能应该可以让开发人员提高这些小型 AI 模型的性能。作为模型蒸馏的一部分,OpenAI 推出了一个 beta 评估工具,以便开发人员可以在 OpenAI 的 API 中衡量他们的微调性能。
DevDay 可能会因为未宣布的内容而引起更大的轰动——例如,去年 DevDay 期间没有宣布任何有关 GPT Store 的消息。据我们所知,OpenAI 一直在与一些最受欢迎的 GPT 创造者试行收入分成计划,但自那以后该公司没有宣布太多消息。
此外,OpenAI 表示今年 DevDay 期间不会发布任何新的 AI 模型。等待 OpenAI o1(不是预览版或迷你版)或该初创公司的视频生成模型 Sora 的开发人员将不得不再等一段时间。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/openai-de-devday-wei-ai-ying-yong-kai-fa-zhe-dai-lai-shi