GPT-4o:OpenAI推出原生图像生成功能,惊艳用户

GPT-4o:OpenAI推出原生图像生成功能,惊艳用户

引言

OpenAI在2024年5月发布其首款“全能”或多模态模型GPT-4o以来,近一年的时间里,这款模型始终保持着强大的竞争力。而今,OpenAI再次为ChatGPT的Plus、Pro、Team及Free用户层级带来了惊喜——GPT-4o的原生多模态图像生成功能正式上线。据公司透露,该功能不久后也将面向Enterprise、Edu用户及通过应用程序编程接口(API)的用户开放。

GPT-4o的图像生成革新

与ChatGPT中此前可用的生成式AI图像模型DALL-E 3不同,GPT-4o的图像生成功能并非一个独立的模型。DALL-E 3作为经典的扩散变换器模型,通过从像素中去除噪声来根据文本提示重构图像。而GPT-4o的图像生成器则是与输出文本和代码的同一模型融为一体,OpenAI训练了整个模型以同时理解这些媒体形式。

这一变化带来了显著的优势。GPT-4o在解读用户提示并匹配相应图像方面更为精准,生成的图像也更加细致和逼真。用户可以使用自然语言提出具体的编辑和修改要求,模型会迅速在新的生成中予以实现。因此,GPT-4o的图像生成器不仅质量更高,还能生成更加栩栩如生的图像和精准的文本,已经赢得了用户的广泛赞誉,有用户甚至形容其质量“令人惊叹”。

GPT-4o的发展历程

OpenAI总裁格雷格·布罗克曼(Greg Brockman)早在2024年5月就曾预览过GPT-4o的这一原生功能。然而,出于某些至今仍未公开的原因,公司一直未将其推出,直到谷歌AI Studio的Gemini 2 Flash Experimental模型公开了类似功能后,OpenAI才决定跟进。

与往常一样,OpenAI并未透露GPT-4o图像生成功能所依赖的具体训练数据。但鉴于OpenAI及其他模型提供商的历史,这些数据很可能包括大量从网络上抓取的艺术品,其中一些可能涉及版权问题,这无疑会激怒背后的艺术家们。

GPT-4o的多功能性

OpenAI一直致力于将图像生成作为其AI模型的核心功能。GPT-4o的推出,使用户能够直接在ChatGPT中生成图像,并通过对话进行精炼,实时调整细节。此外,该模型还整合了OpenAI的视频生成平台Sora,进一步扩展了多模态功能。

在一份公告中,OpenAI确认了GPT-4o的图像生成功能旨在:

  • 允许用户在ChatGPT中描述图像,指定诸如宽高比、颜色方案(十六进制代码)或透明度等细节,GPT-4o将在一分钟内生成图像。

独立AI顾问艾莉·K·米勒(Allie K. Miller)表示,这是“文本生成领域的一大飞跃”,也是她所见过的“最佳”AI图像生成模型。

GPT-4o的应用与挑战

GPT-4o旨在使图像生成不仅美观,而且实用。其关键应用领域包括:

  • ……(此处可详细列举GPT-4o的应用领域,如设计、广告、娱乐等,由于篇幅限制,在此省略)

尽管GPT-4o取得了诸多进展,但仍面临一些已知挑战:

  • ……(此处可列举GPT-4o可能面临的挑战,如版权问题、图像生成准确性等,同样由于篇幅限制,在此省略)

OpenAI正在通过持续的模型优化来解决这些问题。同时,作为对负责任AI开发的承诺,所有GPT-4o生成的图像都包含C2PA元数据,以便用户验证其AI来源。OpenAI还建立了一个内部搜索工具,以帮助检测AI生成的图像,并实施了严格的保障措施来阻止有害内容并防止滥用。

结语

OpenAI首席执行官萨姆·奥特曼(Sam Altman)将此次发布称为“创意自由的新里程碑”,强调用户将能够创建广泛的视觉内容。随着AI生成的图像变得更加精确和易于访问,GPT-4o标志着文本到图像生成成为主流沟通、创意和生产力的重要一步。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/gpt4o-openai-tui-chu-yuan-sheng-tu-xiang-sheng-cheng-gong

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年3月27日
Next 2025年3月28日

相关推荐

发表回复

Please Login to Comment