ChatGPT 获得屏幕共享和实时视频分析功能,可与 Gemini 2 相媲美

ChatGPT 获得屏幕共享和实时视频分析功能,可与 Gemini 2 相媲美

OpenAI终于在其先进的语音模式中添加了期待已久的视频和屏幕共享功能,允许用户以不同的方式与聊天机器人进行交互。

目前,ChatGPT Teams、Plus 和 Pro 用户的 iOS 和 Android 移动应用均可使用这两项功能,并将于 1 月向 ChatGPT Enterprise 和 Edu 用户推出。不过,欧盟、瑞士、冰岛、挪威和列支敦士登的用户将无法使用高级语音模式。

OpenAI 于 5 月首次透露了该功能,当时该公司发布了 GPT-4o,并讨论了 ChatGPT 学习“观看”比赛并解释正在发生的事情。高级语音模式于 9 月向用户推出。

OpenAI 的视频模式感觉就像 Facetime 这样的视频通话,因为 ChatGPT 会实时响应用户在视频中展示的内容。它可以看到用户周围的事物,识别物体,甚至记住自我介绍的人。在 OpenAI 的“12 Days of Shipmas”活动的一部分中,ChatGPT 使用视频功能帮助冲泡咖啡。ChatGPT 看到了咖啡用具,指示何时放入过滤器并对结果进行评论。 

它也与谷歌最近宣布的 Project Astra非常相似,用户可以在其中打开视频聊天,Gemini 2.0 将回答有关它所看到内容的问题,例如识别在伦敦街头发现的雕塑。从很多方面来看,这些功能都是 Humane Pin 和Rabbit r1等 AI 设备宣传的更高级版本:让 AI 语音助手回答有关它在视频中看到的内容的问题。 

共享屏幕 

新的屏幕共享功能将 ChatGPT 从应用程序带入浏览器领域。 

对于屏幕共享,三点菜单允许用户退出 ChatGPT 应用。他们可以在手机上打开应用并询问 ChatGPT 所看到的内容。在演示中,OpenAI 研究人员触发了屏幕共享,然后打开了信息应用,请求 ChatGPT 帮助回复通过短信发送的照片。 

不过,高级语音模式下的屏幕共享功能与微软和谷歌最近发布的功能有相似之处。 

上周,微软发布了Copilot Vision 的预览版,Pro 订阅用户可在浏览网页时打开 Copilot 聊天。Copilot Vision 可查看商店网站上的照片,甚至可帮助玩地图猜谜游戏 Geoguessr。谷歌的 Project Astra 也能以同样的方式读取浏览器。 

谷歌和 OpenAI 都发布了手机屏幕共享 AI 聊天功能,以瞄准可能在旅途中更多地使用 ChatGPT 或 Gemini 的消费者群体。但这些类型的功能可能预示着企业与 AI 代理进行更多合作的一种方式,因为代理可以看到人们在屏幕上看到的内容。它可以成为使用计算机的模型的前身,例如Anthropic 的 Computer Use,其中 AI 模型不仅会查看屏幕,还会主动为用户打开标签和程序。 

呵呵呵呵,问圣诞老人一个问题 

为了增加趣味性,OpenAI 还在高级语音模式中推出了“圣诞老人模式”。新的预设声音听起来很像穿着红色西装的快乐老人。

与仅限于特定用户的新功能不同,“圣诞老人模式”现已向拥有移动应用程序、ChatGPT 网络版本以及 Windows 和 MacOS 应用程序高级语音模式访问权限的用户开放,有效期至 1 月初。 

不过,与圣诞老人的聊天不会保存在聊天记录中,也不会影响 ChatGPT 的记忆。 

甚至连 OpenAI 也感受到了圣诞气氛。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/chatgpt-huo-de-ping-mu-gong-xiang-he-shi-shi-shi-pin-fen-xi-2

Like (0)
王 浩然的头像王 浩然作者
Previous 6天前
Next 5天前

相关推荐

发表回复

Please Login to Comment