一小时翻译整部《甄嬛传》,AI面试官发offer……在杭州看AI落地的1000种玩法

2024年9月19日开幕的阿里云云栖大会上,近300家涵盖算力、模型、应用的AI企业,和近1000种AI产品,构成了一幅全行业的活地图。

多模态和具身智能,两个今年最热的AI风口,在云栖占据绝对的C位——

一小时翻译整部《甄嬛传》,AI面试官发offer……在杭州看AI落地的1000种玩法

云栖大会“人工智能+”馆。

走进汇聚了近60家模型企业的“人工智能+”馆,能明显感受到,如果不加点音视频相关的多模态能力,光拼参数的大模型已经不够看了。

而具身智能,是“前沿应用馆”最“City”的存在。一进场馆,就能看到20多家机器人企业,携着或仿真人、或仿狗子的产品,给你来上一段取货、翻跟头、猛踹不倒的炫技表演。

不过,无论是多模态,还是具身智能,再高大上和先锋的科技,能在云栖引起围观的,只有“接地气”。

这届云栖,参观者中第一次出现了“义乌老板团”。面对同声传译、数字人主播和可一键生成商品图的应用,他们替用户提出了最为现实的问题:能帮我赚多少钱?

当红大模型独角兽月之暗面的展台,大概是“班味”最浓的一个。不少白领、IT都聚了过来,激辩字节的“豆包”和月暗的“Kimi”,哪个办公更好使。

在最具未来感的具身智能展台,被暴力踹踢而不倒的“小强”——逐际动力的双足机器人,引得不少路人围观。这款用于展示机器“小脑”研究成果的机器人,目前还待在实验室里,供力学研究。

一小时翻译整部《甄嬛传》,AI面试官发offer……在杭州看AI落地的1000种玩法

逐际动力双足机器人。

这也挡不住观众对此发出灵魂一问:

“推不倒,到底有啥用?”

多模态,模型的标配

通义千问:没有不想落地短视频的多模态应用

一进模型扎堆的“人工智能+”体验馆,很难不被“通义大模型”展区的AI太极写真生成体验区吸引。

一小时翻译整部《甄嬛传》,AI面试官发offer……在杭州看AI落地的1000种玩法

通义AI太极写真。

体验者只要比划对应的姿势,在镜头中与简笔画合上——几十秒后,一张太极写真就出炉了。

当然,图生图的AI写真功能,只是阿里云模态版图中的一小块。作为东道主,阿里不仅发布了最新的视频生成模型,还搬来了文生图、图生视频、图+音频生视频的多模态全家桶。

一小时翻译整部《甄嬛传》,AI面试官发offer……在杭州看AI落地的1000种玩法

全民舞王。

比如,在通义千问App内,阿里上线了10秒左右的短视频生成应用“全民舞王”。

用户只需上传人或宠物的照片,以及一段说话音频,就能在1-2分钟内生成舞蹈视频、对嘴唱歌视频,或者动态表情包。目前,这还是个免费的功能。

一小时翻译整部《甄嬛传》,AI面试官发offer……在杭州看AI落地的1000种玩法

人像动态视频生成技术EMO(Emote Portrait Alive)。

“全民舞王”的背后,是阿里巴巴智能计算研究所在2024年2月发布的人像动态视频生成技术EMO(Emote Portrait Alive)。仅需一张肖像照和一段音频,EMO就能让人物按照音频内容张嘴唱歌、说话。

据现场工作人员介绍,自2024年4月25日上线以来,“全民舞王”的使用人数已经突破了10w+。多数用户的使用方式是

“这太适合I人做短视频了吧!”有参观者感叹。

“没有不想落地短视频的多模态应用!”

智谱:视频拍到哪,作业讲到哪

让家长纷纷驻足的展台中,一定有智谱。

2024年8月29日,智谱将“类GPT-4o”的视频通话功能,搬上了自己的C端应用“智谱清言”。

这款融合了视频理解、语音对话能力的功能,就好比AI突然有了五感。用户可以用智谱清言学穿搭、识别物品,也可以把它当成赛博闺蜜。

当然,更适合中国人“活到老学到老”体质的玩法,就是AI教师。

对着作业打开摄像头,手机镜头拍到哪,智谱清言就能解答到哪。并且,智谱清言的讲解,质量甚至和真人教师有的一拼,不仅循循善诱,还有问答互动。

比如讲解“鸡兔同笼”,智谱清言不会直接给出答案,而是先引导孩子列出二元一次方程组。

一小时翻译整部《甄嬛传》,AI面试官发offer……在杭州看AI落地的1000种玩法

智谱清言视频通话功能。

孩子再也不怕难题,家长也解放了双手。

生数Vidu:给我一张剧照,我还你一段新海诚

同样是“清华系”出身的生数科技,展出了自研的视频生成模型Vidu。2024年4月发布时,Vidu因为性能优秀,还一度出圈,被称作“中国版Sora”。

但即便是OpenAI的Sora本尊,也很难解决视频的前后一致性问题。不难发现,大多AI视频中,每一帧的脸都不一样。

为了解决一致性难题,生数的解决办法是,给Vidu找个“模特”。

2024年9月11日生数科技发布的“主体参照”(Subject Consistency)功能,让Vidu根据给出的参考图,确定视频主体的形象和风格。

一小时翻译整部《甄嬛传》,AI面试官发offer……在杭州看AI落地的1000种玩法

“主体参照”(Subject Consistency)功能。

现场,作者上传了一张新海诚电影《铃芽户缔》的女主角“铃芽”的剧照,Vidu就根据铃芽的形象,生成了一段秋日公园视频。

VAST Tripo:3D生成也有Scaling Law

“我们有全球最大的3D数据库。”

这是我们在展区唯一听到过的带有“最”字的判断。这句话,来自3D生成领域的明星企业VAST。

国内不少人可能会觉得VAST面生,原因在于,这家由前MiniMax和商汤成员创立的公司,第一天就做了出海的生意。

据工作人员介绍,VAST在海外主打面向游戏、XR开发者的C端应用,在国内则主打B端应用,“并且我们在海外商业化不错”。

不少圈内人对VAST的3D生成模型Tripo的评价是:高性能,操作友好。根据输入的文字或者图片,Tripo仅8秒就能生成3D原型图,并且支持市面上所有的3D原型编辑软件,还能直接3D打印。

一小时翻译整部《甄嬛传》,AI面试官发offer……在杭州看AI落地的1000种玩法

Tripo现场3D打印。

一小时翻译整部《甄嬛传》,AI面试官发offer……在杭州看AI落地的1000种玩法

Tripo文字生成3D素材。

当下,3D生成模型的训练,也沿用堆参数的暴力美学Scaling Law。2024年初,VAST发布的Tripo 1.0,参数就达到了数十亿,在训练数据稀缺的3D模型中是相当庞大的存在。

提高参数,相应的也要增加模型的训练数据。

工作人员透露,在获取稀缺的高质量3D数据过程中,团队花了不少时间在“犄角旮旯”中获取数据。而在训练过程中,模型也用了不少AI合成3D数据。

就在2024年9月19日,VAST还发布了生成质量更好的Tripo 2.0,实现10秒⽣成形状⼏何、10秒⽣成纹理及PBR(一种模拟光与材质相互作用的渲染技术)。

音疯:AI玩音乐照样疯

2024年7月,网红秦新宇因整容失败发布的名为《还我妈生鼻》的魔性歌曲,突然冲上了微博热搜。

而这首歌的谱曲者,不是秦新宇,也不是专业音乐团队,而是一个上线不到两月的AI音乐生成平台“音疯”。

一小时翻译整部《甄嬛传》,AI面试官发offer……在杭州看AI落地的1000种玩法

音疯AI音乐体验区。

一小时翻译整部《甄嬛传》,AI面试官发offer……在杭州看AI落地的1000种玩法

音疯展台。

这款由昆仑万维推出的音乐制作平台,特点在:长。工作人员表示,音乐生成的难点在于保持前后一致性,一旦歌曲超过1分钟,前后的曲风很难保持一致。

因此,音疯的卖点在于,将AI音乐生成的时长拉到了4分钟,并且能够相对保持前后风格的一致性。用户只需要输入歌词,并且在曲库和人声库中选择喜欢的风格,就能生成一段歌曲。

当然,工作人员告诉作者,目前音疯使用最高频的场景,也是短视频:)。

HiDream.ai:为电商量身定制的AI生图

HiDream.ai(智象未来)的展台,驻足了一批批的义务商家。

这家由前京东探索研究院副院长梅涛成立的AIGC公司,基因里就带着“电商”两个字。虽然同样是图片生成,HiDream.ai的AIGC创作平台“秩象”,就像集布景、拍摄、后期于一身的商品图工作室。

HiDream.ai的AIGC创作平台“秩象”。

比如,商家只要输入商品图,就能灵活切换背景、模特。在为服装生成模特图的过程中,商家甚至能够选择模特姿势、性别、肤色、人种。

月之暗面:视频功能,Kimi怀胎中

人工智能+馆人气最旺的展馆,有Kimi的一席之地。

在一众把图片、音频、视频、3D等模态玩出花的模型中,仍然主打文本、表格和代码任务的Kimi就稍显朴素。

当然,这并不影响Kimi展台的人气——或者准确来说,是“班味”。

现场不乏有上班族,直接向工作人员询问文字转excel、文件生成报表、文书撰写的方法。甚至还有企业IT,直接来咨询Kimi API如何接入钉钉、企微和飞书。

一小时翻译整部《甄嬛传》,AI面试官发offer……在杭州看AI落地的1000种玩法

Kimi展台。

不过,这款打工神器,也免不了朝着更多模态迭代。工作人员对作者透露,Kimi的视频功能,已经在路上!

原创文章,作者:点点,如若转载,请注明出处:https://www.dian8dian.com/yi-xiao-shi-fan-yi-zheng-bu-zhen-huan-chuan-ai-mian-shi

Like (0)
点点的头像点点
Previous 2024年9月21日 下午8:00
Next 2024年9月21日 下午10:00

相关推荐

发表回复

Please Login to Comment