一小时翻译整部《甄嬛传》，AI面试官发offer……在杭州看AI落地的1000种玩法

点点 • 2024年9月21日下午9:00 • AI前沿 • 110 views

2024年9月19日开幕的阿里云云栖大会上，近300家涵盖算力、模型、应用的AI企业，和近1000种AI产品，构成了一幅全行业的活地图。

多模态和具身智能，两个今年最热的AI风口，在云栖占据绝对的C位——

一小时翻译整部《甄嬛传》，AI面试官发offer……在杭州看AI落地的1000种玩法

云栖大会“人工智能+”馆。

走进汇聚了近60家模型企业的“人工智能+”馆，能明显感受到，如果不加点音视频相关的多模态能力，光拼参数的大模型已经不够看了。

而具身智能，是“前沿应用馆”最“City”的存在。一进场馆，就能看到20多家机器人企业，携着或仿真人、或仿狗子的产品，给你来上一段取货、翻跟头、猛踹不倒的炫技表演。

不过，无论是多模态，还是具身智能，再高大上和先锋的科技，能在云栖引起围观的，只有“接地气”。

这届云栖，参观者中第一次出现了“义乌老板团”。面对同声传译、数字人主播和可一键生成商品图的应用，他们替用户提出了最为现实的问题：能帮我赚多少钱？

当红大模型独角兽月之暗面的展台，大概是“班味”最浓的一个。不少白领、IT都聚了过来，激辩字节的“豆包”和月暗的“Kimi”，哪个办公更好使。

在最具未来感的具身智能展台，被暴力踹踢而不倒的“小强”——逐际动力的双足机器人，引得不少路人围观。这款用于展示机器“小脑”研究成果的机器人，目前还待在实验室里，供力学研究。

逐际动力双足机器人。

这也挡不住观众对此发出灵魂一问：

“推不倒，到底有啥用？”

多模态，模型的标配

通义千问：没有不想落地短视频的多模态应用

一进模型扎堆的“人工智能+”体验馆，很难不被“通义大模型”展区的AI太极写真生成体验区吸引。

通义AI太极写真。

体验者只要比划对应的姿势，在镜头中与简笔画合上——几十秒后，一张太极写真就出炉了。

当然，图生图的AI写真功能，只是阿里云模态版图中的一小块。作为东道主，阿里不仅发布了最新的视频生成模型，还搬来了文生图、图生视频、图+音频生视频的多模态全家桶。

全民舞王。

比如，在通义千问App内，阿里上线了10秒左右的短视频生成应用“全民舞王”。

用户只需上传人或宠物的照片，以及一段说话音频，就能在1-2分钟内生成舞蹈视频、对嘴唱歌视频，或者动态表情包。目前，这还是个免费的功能。

人像动态视频生成技术EMO（Emote Portrait Alive）。

“全民舞王”的背后，是阿里巴巴智能计算研究所在2024年2月发布的人像动态视频生成技术EMO（Emote Portrait Alive）。仅需一张肖像照和一段音频，EMO就能让人物按照音频内容张嘴唱歌、说话。

据现场工作人员介绍，自2024年4月25日上线以来，“全民舞王”的使用人数已经突破了10w+。多数用户的使用方式是

“这太适合I人做短视频了吧！”有参观者感叹。

“没有不想落地短视频的多模态应用！”

智谱：视频拍到哪，作业讲到哪

让家长纷纷驻足的展台中，一定有智谱。

2024年8月29日，智谱将“类GPT-4o”的视频通话功能，搬上了自己的C端应用“智谱清言”。

这款融合了视频理解、语音对话能力的功能，就好比AI突然有了五感。用户可以用智谱清言学穿搭、识别物品，也可以把它当成赛博闺蜜。

当然，更适合中国人“活到老学到老”体质的玩法，就是AI教师。

对着作业打开摄像头，手机镜头拍到哪，智谱清言就能解答到哪。并且，智谱清言的讲解，质量甚至和真人教师有的一拼，不仅循循善诱，还有问答互动。

比如讲解“鸡兔同笼”，智谱清言不会直接给出答案，而是先引导孩子列出二元一次方程组。

智谱清言视频通话功能。

孩子再也不怕难题，家长也解放了双手。

生数Vidu：给我一张剧照，我还你一段新海诚

同样是“清华系”出身的生数科技，展出了自研的视频生成模型Vidu。2024年4月发布时，Vidu因为性能优秀，还一度出圈，被称作“中国版Sora”。

但即便是OpenAI的Sora本尊，也很难解决视频的前后一致性问题。不难发现，大多AI视频中，每一帧的脸都不一样。

为了解决一致性难题，生数的解决办法是，给Vidu找个“模特”。

2024年9月11日生数科技发布的“主体参照”（Subject Consistency）功能，让Vidu根据给出的参考图，确定视频主体的形象和风格。

“主体参照”（Subject Consistency）功能。

现场，作者上传了一张新海诚电影《铃芽户缔》的女主角“铃芽”的剧照，Vidu就根据铃芽的形象，生成了一段秋日公园视频。

VAST Tripo：3D生成也有Scaling Law

“我们有全球最大的3D数据库。”

这是我们在展区唯一听到过的带有“最”字的判断。这句话，来自3D生成领域的明星企业VAST。

国内不少人可能会觉得VAST面生，原因在于，这家由前MiniMax和商汤成员创立的公司，第一天就做了出海的生意。

据工作人员介绍，VAST在海外主打面向游戏、XR开发者的C端应用，在国内则主打B端应用，“并且我们在海外商业化不错”。

不少圈内人对VAST的3D生成模型Tripo的评价是：高性能，操作友好。根据输入的文字或者图片，Tripo仅8秒就能生成3D原型图，并且支持市面上所有的3D原型编辑软件，还能直接3D打印。

Tripo现场3D打印。

Tripo文字生成3D素材。

当下，3D生成模型的训练，也沿用堆参数的暴力美学Scaling Law。2024年初，VAST发布的Tripo 1.0，参数就达到了数十亿，在训练数据稀缺的3D模型中是相当庞大的存在。

提高参数，相应的也要增加模型的训练数据。

工作人员透露，在获取稀缺的高质量3D数据过程中，团队花了不少时间在“犄角旮旯”中获取数据。而在训练过程中，模型也用了不少AI合成3D数据。

就在2024年9月19日，VAST还发布了生成质量更好的Tripo 2.0，实现10秒⽣成形状⼏何、10秒⽣成纹理及PBR（一种模拟光与材质相互作用的渲染技术）。

音疯：AI玩音乐照样疯

2024年7月，网红秦新宇因整容失败发布的名为《还我妈生鼻》的魔性歌曲，突然冲上了微博热搜。

而这首歌的谱曲者，不是秦新宇，也不是专业音乐团队，而是一个上线不到两月的AI音乐生成平台“音疯”。

音疯AI音乐体验区。

音疯展台。

这款由昆仑万维推出的音乐制作平台，特点在：长。工作人员表示，音乐生成的难点在于保持前后一致性，一旦歌曲超过1分钟，前后的曲风很难保持一致。

因此，音疯的卖点在于，将AI音乐生成的时长拉到了4分钟，并且能够相对保持前后风格的一致性。用户只需要输入歌词，并且在曲库和人声库中选择喜欢的风格，就能生成一段歌曲。

当然，工作人员告诉作者，目前音疯使用最高频的场景，也是短视频：）。

HiDream.ai：为电商量身定制的AI生图

HiDream.ai（智象未来）的展台，驻足了一批批的义务商家。

这家由前京东探索研究院副院长梅涛成立的AIGC公司，基因里就带着“电商”两个字。虽然同样是图片生成，HiDream.ai的AIGC创作平台“秩象”，就像集布景、拍摄、后期于一身的商品图工作室。

HiDream.ai的AIGC创作平台“秩象”。

比如，商家只要输入商品图，就能灵活切换背景、模特。在为服装生成模特图的过程中，商家甚至能够选择模特姿势、性别、肤色、人种。

月之暗面：视频功能，Kimi怀胎中

人工智能+馆人气最旺的展馆，有Kimi的一席之地。

在一众把图片、音频、视频、3D等模态玩出花的模型中，仍然主打文本、表格和代码任务的Kimi就稍显朴素。

当然，这并不影响Kimi展台的人气——或者准确来说，是“班味”。

现场不乏有上班族，直接向工作人员询问文字转excel、文件生成报表、文书撰写的方法。甚至还有企业IT，直接来咨询Kimi API如何接入钉钉、企微和飞书。

Kimi展台。

不过，这款打工神器，也免不了朝着更多模态迭代。工作人员对作者透露，Kimi的视频功能，已经在路上！

原创文章，作者：点点，如若转载，请注明出处：https://www.dian8dian.com/yi-xiao-shi-fan-yi-zheng-bu-zhen-huan-chuan-ai-mian-shi

Like (0)

点点

0 0

AI大模型站在十字路口，持续突破or陷入低谷

Previous 2024年9月21日下午8:00

不只是炒菜，AI正在全面渗透餐饮

Next 2024年9月21日下午10:00

AI前沿

网络保险的新挑战：为什么AI驱动的攻击正在突破保险覆盖范围以及未来的应对之策

在当今时代，网络攻击对于现代企业而言可能是致命的，且成本极高。黑客利用AI技术，能够比以往任何时候都更快地利用漏洞。然而，标准的商业保险产品，如一般责任险或专业责任险（即错误与遗漏…

王浩然
2025年2月23日
000
AI前沿

谷歌地图将在印度显示人工智能点评摘要

谷歌正在印度地图上添加新的人工智能功能，包括人工智能摘要、搜索体验的能力和天气警报。该公司表示，地图应用将分析评论并显示地点摘要。该公司于周四在其年度 Google for In…

王浩然
2024年10月5日
000
AI前沿

随着行业升温，Perplexity AI 估值逼近 80 亿美元

据报道， Perplexity AI正在商讨获得约 5 亿美元的新融资，这是人工智能技术爆炸式增长的重要进展。这轮潜在投资可能会使这家人工智能搜索公司的估值飙升至 80 亿美元，较…

点点
2024年10月22日
000
AI前沿

人工智能正在帮助品牌避免与有争议的网红合作

对于希望以真实方式推出内容来推广产品和服务的品牌来说，与网红合作可能是一个不错的选择。这类合作可以显著提高品牌知名度和品牌情感，但也存在风险。社交媒体明星在最好的时候也是不可预测的…

点点
2024年10月26日
000
AI前沿

AWS 推出内联 Q Developer AI 编码助手，与微软的 Github Copilot 竞争

亚马逊网络服务 (AWS) 正在将其Amazon Q Developer AI 助手作为附加组件提供，开发人员可以在其集成开发环境 (IDE)（例如 Visual Studio C…

王浩然
2024年11月1日
000
AI前沿

特朗普撤销拜登人工智能政策，签署行政命令加强人工智能领导地位

随着任职第一周结束，唐纳德·特朗普总统签署了另一项有关人工智能的行政命令，因为人工智能仍然是首要任务。周四，特朗普签署了一项行政命令，取消拜登政府实施的人工智能政策，…

王浩然
2025年1月26日
000
AI前沿

微软如何防御每秒 7000 名密码攻击者

最近采访了微软安全、合规、身份、管理和隐私公司副总裁Vasu Jakkal ，以了解她对人工智能、机器学习 (ML)、生成式人工智能和新兴技术如何重新定义网络安全的见解。 Jakk…

王浩然
2024年12月6日
000
AI前沿

亚马逊网络服务 (AWS) re:Invent 2024 的重磅新闻

云计算领导者亚马逊网络服务 (AWS) 的2024 年年度 re:Invent 大会本周于内华达州拉斯维加斯举行，它有望成为该系列12 年前推出以来规模最大的一次大会。为什么？当…

王浩然
2024年12月5日
000
AI前沿

PIN AI 推出移动应用程序，让您可以在手机上创建自己的个性化、私人 DeepSeek 或 Llama 驱动的 AI 模型

通过《她》和其他众多科幻作品，我们很容易想象这样一个世界：每个人都有自己的个性化人工智能助手——它知道我们是谁、我们的职业、我们的爱好、我们的目标和激情、我们的好恶…&…

王浩然
2025年2月14日
000
AI前沿

OpenAI 雄心勃勃的增长战略伴随着巨大的财务风险

据 The Information最近的一份报告称， OpenAI的内部财务预测揭示了一项高风险战略，即将激进的收入目标与巨额预计损失相结合。该公司的计划凸显了快速发展的人工智能领…

点点
2024年10月11日
000
AI前沿

OmniOps 获 800 万美元融资，加速沙特阿拉伯的 AI 转型

OmniOps是一家总部位于沙特阿拉伯的 AI 基础设施技术提供商，由企业家Mohammed Altassan于 2024 年创立，目前已从GMS Capital Ventures…

王浩然
2024年12月27日
000
AI前沿

据报道，TikTok 的研究承认其对青少年产生了负面影响

据美国国家公共广播电台和肯塔基公共广播电台报道，法庭文件表明，TikTok 高管意识到该应用对青少年的潜在危害。本周早些时候， 14 名美国总检察长起诉 TikTok ，声称该应…

点点
2024年10月13日
000
AI前沿

Harness 如何“驾驭”代理 AI，通过自动数据收集和剧本来帮助改善企业事件响应

事件响应是应对系统中断和减速的过程，是 IT 运营的一个重要方面。这也是一项传统上涉及大量手动、耗时流程的活动。 Harness正致力于通过一项新的事件响应服务应对这一挑战。该技术…

王浩然
2025年1月23日
000
AI前沿

冷静一下：DeepSeek-R1 很棒，但 ChatGPT 的产品优势还远未结束

就在一周前——2025 年 1 月 20 日——中国人工智能初创公司 DeepSeek 发布了一个名为 R1 的新开源人工智能模型，该模型最初可能会被误认为是自OpenAI两年多前…

王浩然
2025年1月28日
000
AI前沿

模型太多，混乱不堪：OpenAI 承诺简化其产品线

OpenAI 计划“简化”其模型产品，即使它准备发布其最后一个非推理模型 GPT-4.5。对于一家科技公司来说，这是罕见的承认，其产品发布对客户来说没有足够的差异化。 OpenAI…

王浩然
2025年2月13日
000
AI前沿

Basil Faruqui，BMC Software：如何制定数据和 AI 战略

BMC Software 的解决方案营销总监 Basil Faruqui 讨论了 DataOps、数据编排的重要性以及 AI 在优化复杂工作流自动化以实现业务成功方面的作用。 BM…

点点
2024年9月28日
000
AI前沿

超大型开源 AI DeepSeek-V3 发布时表现超越 Llama 和 Qwen

中国人工智能初创公司 DeepSeek 以其创新的开源技术挑战领先的人工智能供应商而闻名，今天发布了一种新的超大模型：DeepSeek-V3。根据该公司的许可协议，新模型可通过H…

王浩然
2024年12月28日
000
AI前沿

英国将推出“汉弗莱”公务员助理及其他人工智能计划以减少官僚主义

英国政府宣布了一项大规模投资人工智能的计划，一周后，政府公布了该计划在公共部门的具体实施细节。计划包括：人工智能助手加快公共服务；跨部门数据共享；一套新的人工智能工具——以英国老电…

王浩然
2025年1月21日
000
AI前沿

DeepSeek 的新 AI 模型似乎是迄今为止最好的“公开”挑战者之一

中国的一个实验室创建了迄今为止最强大的“开放式”人工智能模型之一。该模型DeepSeek V3由人工智能公司 DeepSeek 开发，并于周三根据宽松的许可证发布，允许开发人员下…

王浩然
2024年12月28日
000
AI前沿

aiOla 推出开源AI 音频转录模型，可实时隐藏敏感信息

希望使用人工智能模型来转录高管、员工和客户的音频（特别是人类语音）的企业可能会对人工智能程序监听和记录敏感信息的想法持谨慎态度。然而，以色列音频 AI 初创公司aiOla有一个新…

王浩然
2024年11月23日
000