2024 年计算机视觉文献趋势的个人看法

王浩然 • 2024年12月26日下午3:00 • AI前沿 • 79 views

大约五年来，我一直在 Arxiv 和其他地方持续关注计算机视觉 (CV) 和图像合成研究领域，因此趋势会随着时间的推移而变得明显，并且每年都会朝着新的方向转变。

因此，随着 2024 年即将结束，我认为有必要看看计算机视觉和模式识别部分 Arxiv 提交中的一些新特征或不断发展的特征。这些观察虽然是通过数百小时的场景研究得出的，但严格来说只是轶事。

东亚持续崛起

到 2023 年底，我注意到“语音合成”类别中的大多数文献都来自中国和东亚其他地区。到 2024 年底，我不得不（根据轶事）观察到，这现在也适用于图像和视频合成研究领域。

这并不意味着中国和邻近国家一定总是能产出最好的成果（事实上，有一些证据表明情况相反）；也没有考虑到在中国（与西方一样）一些最有趣和最强大的新兴系统很可能是专有的，并且被排除在研究文献之外。

但它确实表明，从数量上看，东亚在这方面胜过西方。其价值取决于你对爱迪生式坚持的可行性的信任程度，而这种坚持在面对棘手的障碍时通常被证明是无效的。

生成式人工智能中存在许多这样的障碍，而且很难知道哪些可以通过解决现有架构来解决，哪些需要从零开始重新考虑。

尽管来自东亚的研究人员似乎正在撰写更多的计算机视觉论文，但我注意到“弗兰肯斯坦”式项目的频率有所增加 – 这些项目融合了先前的作品，同时增加了有限的架构新颖性（或可能只是不同类型的数据）。

今年，东亚（主要是中国或与中国合作的）的参赛作品数量大幅增加，似乎是受配额驱动而非择优录取，这大大提高了已经超额报名的领域的信噪比。

与此同时，2024 年更多东亚报纸也引起了我的关注和钦佩。所以，如果这完全是一场数字游戏，那么它不算失败——但也不便宜。

提交量不断增加

2024 年，所有来源国的论文数量均明显增加。

最受欢迎的出版日全年都在变化；目前是星期二，在“高峰”时期（5 月至 8 月和 10 月至 12 月，即会议季和“年度配额截止日期”季节），一天提交计算机视觉和模式识别部分的文章数量通常约为 300-350 篇。

除了我自己的经验之外，Arxiv 本身报告了2024 年 10 月的提交数量创下了历史新高，共有 6000 份新提交，而计算机视觉部分是仅次于机器学习的提交数量第二多的部分。

然而，由于 Arxiv 上的机器学习部分通常被用作“附加”或聚合的超类别，因此计算机视觉和模式识别实际上是提交次数最多的 Arxiv 类别。

Arxiv自己的统计数据确实将计算机科学描述为投稿中的明显领先者：

斯坦福大学的2024 年人工智能指数虽然尚未报告最新的统计数据，但也强调了近年来围绕机器学习的学术论文提交数量的显著增加：

扩散>网状框架激增

对我来说出现的另一个明显趋势是，有关利用潜在扩散模型(LDM) 作为基于网格的“传统” CGI 模型生成器的论文数量大量增加。

此类型的项目包括腾讯的InstantMesh3D、3Dtopia、Diffusion ²、V3D、MVEdit和GIMDiffusion以及众多类似产品。

这一新兴研究方向可被视为对生成系统（如扩散模型）持续难以解决的问题的一种默认，仅在两年前，扩散模型就被吹捧为扩散>网格模型目前正在寻求填充的所有系统的潜在替代品；将扩散降为三十多年前技术和工作流程中的一种工具。

Stability.ai 是开源稳定扩散模型的创始人，刚刚发布了Stable Zero123，该模型可以使用神经辐射场(NeRF) 对 AI 生成图像的解释作为桥梁，创建一个明确的、基于网格的 CGI 模型，该模型可用于 Unity 等 CGI 领域、视频游戏、增强现实以及需要明确 3D 坐标的其他平台，而不是连续函数的隐式（隐藏）坐标。

3D 语义

生成式 AI 空间区分了视觉和生成系统的 2D 和 3D 系统实现。例如，面部标志框架虽然在所有情况下都表示3D 对象（面部），但并不一定都计算可寻址的 3D 坐标。

流行的FANAlign 系统在 2017 年的深度伪造架构（以及其它架构）中被广泛使用，它可以适应这两种方法：

因此，正如“deepfake”已成为一个含糊其辞且被劫持的术语一样，“3D”同样也已成为计算机视觉研究中的一个令人困惑的术语。

对于消费者来说，它通常表示立体媒体（例如观众必须佩戴特殊眼镜的电影）；对于视觉效果从业者和建模者来说，它提供了 2D 艺术品（例如概念草图）和可以在 Maya 或 Cinema4D 等“3D 程序”中操作的基于网格的模型之间的区别。

但在计算机视觉中，它仅仅意味着笛卡尔坐标系存在于模型的潜在空间中的某个地方——并不一定能被用户寻址或直接操纵；至少，在没有第三方解释性基于 CGI 的系统（如3DMM或FLAME）的情况下是这样的。

因此，扩散>3D的概念是不精确的；不仅可以使用任何类型的图像（包括真实照片）作为输入来生成生成 CGI 模型，而且不太明确的术语“网格”更为合适。

然而，在大多数新兴项目中，需要使用扩散将源照片解释为网格，这加剧了歧义。因此，更好的描述可能是image – to-mesh，而image>diffusion>mesh是更准确的描述。

但在董事会会议上，或在旨在吸引投资者的宣传稿中，这很难实现。

建筑僵局的证据

即使与 2023 年相比，过去 12 个月的论文也表现出对消除基于扩散的发电的严格实际限制的日益强烈的渴望。

关键的障碍仍然是生成叙事和时间一致的视频，并保持人物和物体的一致外观——不仅在不同的视频片段中，而且甚至在单个生成的视频片段的短暂运行时间内。

基于扩散的合成的最后一个划时代创新是2022 年LoRA 的问世。虽然 Flux 等新系统已经改进了一些异常问题，例如稳定扩散以前无法在生成的图像中重现文本内容，并且整体图像质量有所提高，但我在 2024 年研究的大多数论文基本上只是在盘子上移动食物。

这些僵局以前也发生过，比如生成对抗网络 (GAN) 和神经辐射场 (NeRF)，它们都未能发挥其明显的初始潜力——而且它们都在更传统的系统中得到越来越多的利用（例如 Stable Zero 123 中使用 NeRF，见上文）。这似乎也发生在扩散模型中。

高斯溅射研究枢纽

2023 年底，似乎光栅化方法3D Gaussian Splatting (3DGS) 即将突然超越基于自动编码器的人体图像合成挑战系统（例如面部模拟和重建，以及身份转移），该方法于 20 世纪 90 年代初首次亮相，成为一种医学成像技术。

2023 年的 ASH 论文承诺实现全身 3DGS 人类，而高斯化身则提供了大幅改进的细节（与自动编码器和其他竞争方法相比），以及令人印象深刻的交叉重现。

然而，今年 3DGS 人体合成方面的突破性进展相对较少；大多数解决该问题的论文要么是上述工作的衍生，要么未能超越其能力。

相反，3DGS 的重点是改进其基本架构的可行性，从而导致了大量提供改进的 3DGS 外部环境的论文。在Gaussian Splatting SLAM、Splat-SLAM、Gaussian-SLAM、DROID-Splat等项目中，人们特别关注同步定位和地图构建 ( SLAM ) 3DGS 方法。

那些确实试图继续或扩展基于 splat 的人体合成的项目包括MIGS、GEM、EVA、OccFusion、FAGhead、HumanSplat、GGHead、HGM和Topo4D。虽然还有其他项目，但这些项目都没有达到 2023 年末出现的论文的最初影响。

测试样本的“韦恩斯坦时代”正在（缓慢）衰落

东南亚（尤其是中国）的研究通常采用一些难以在评论文章中重新发表的测试示例，因为它们采用的材料有些“辛辣”。

这是否是因为该地区的研究科学家希望他们的研究成果能引起人们的关注，这一点尚有争议；但在过去 18 个月中，越来越多围绕生成式人工智能（图像和/或视频）的论文默认在项目示例中使用年轻且衣着暴露的女性和女孩。这种近乎 NSFW 的例子包括UniAnimate、ControlNext，甚至非常“枯燥”的论文，例如Fréchet Video Motion Distance (FVMD) 的《评估运动一致性》。

这符合围绕潜在扩散模型 (LDM) 的 subreddits 和其他社区的总体趋势，其中规则 34 仍然非常明显。

名人对决

这种不恰当的例子与人们日益增长的认识相重叠，即人工智能流程不应任意利用名人相似性——特别是在那些不加批判地使用有吸引力的名人（通常是女性）的例子并将其置于可疑背景中的研究中。

其中一个例子就是AnyDressing，除了以非常年轻的动漫风格的女性角色为特色外，它还大量使用经典名人的身份，例如玛丽莲梦露，以及当今名人，例如安妮海瑟薇（她曾直言不讳地谴责这种使用方式）。

在西方报纸上，这种特殊做法在整个 2024 年都明显下降，主要是由于 FAANG 和其他高级研究机构（如 OpenAI）的大量发布。这些大型企业参与者意识到未来可能引发诉讼，因此似乎越来越不愿意代表即使是虚构的逼真人物。

尽管他们正在创建的系统（例如Imagen和Veo2）显然能够实现这样的输出，但西方生成式人工智能项目的例子现在趋向于“可爱”、迪士尼化和极其“安全”的图像和视频。

洗脸

在西方的简历文献中，这种不诚实的方法在定制系统中尤为明显——这些方法能够在多个示例中创建特定人的一致相似性（例如，像 LoRA 和较老的DreamBooth）。

示例包括正交视觉嵌入、LoRA-Composer、Google 的InstructBooth等等。

然而，“可爱示例”的兴起也出现在其他 CV 和综合研究领域中，例如Comp4D、V3D、DesignEdit、UniEdit、FaceChain （在其GitHub 页面上承认了更现实的用户期望）和DPG-T2I等项目。

家庭用户使用相对普通的硬件即可轻松创建此类系统（例如LoRA），这导致civit.ai 域和社区中免费下载的名人模型激增。通过Stable Diffusion和Flux等架构的开源，这种非法使用仍然可能。

尽管通常可以突破生成式文本转图像 (T2I) 和文本转视频 (T2V) 系统的安全功能来生成平台使用条款禁止的材料，但最佳系统（如 RunwayML 和 Sora）的受限功能与性能卓越的系统（如Stable Video Diffusion、CogVideo和Hunyuan的本地部署）的无限功能之间的差距并没有像许多人认为的那样真正缩小。

相反，这些专有系统和开源系统都面临着变得同样无用的威胁：昂贵且超大规模的 T2V 系统可能由于担心诉讼而变得过于受限，而随着更严格的法规出台，开源系统缺乏许可基础设施和数据集监督可能会将它们完全排除在市场之外。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/2024-nian-ji-suan-ji-shi-jue-wen-xian-qu-shi-de-ge-ren-kan

3Dtopia Arxiv CGI 模型 Diffusion GIMDiffusion InstantMesh3D LDM MVEdit V3D 潜在扩散模型

Like (0)

王浩然作者

0 0

了解影子人工智能及其对您的业务的影响

Previous 2024年12月26日

人工智能训练研究货币化：风险与最佳实践

Next 2024年12月26日

AI前沿

GPT-4o 如何保护你的身份免受人工智能生成的深度伪造攻击

2024 年，深度伪造事件激增，预计今年将增加 60% 或更多，全球案件将达到15 万起或更多。这使得人工智能驱动的深度伪造攻击成为当今增长最快的对抗性人工智能类型。德勤预测，到 …

王浩然
2024年10月6日
000
AI前沿

微软正致力于打造适用于Copilot的3D游戏体验‌

近期，有迹象表明微软正着手开发一款专为Copilot设计的3D游戏体验。这一举措不仅彰显了微软在游戏领域的持续探索与创新，也预示着AI与游戏技术的深度融合将迎来新的发展阶段。据悉…

王浩然
2025年3月12日
000
AI前沿

亚马逊首席执行官安迪·贾西暗示将推出“代理” Alexa

亚马逊首席执行官安迪·贾西 (Andy Jassy) 周四暗示，该公司的 Alexa 助手将推出改进的“代理”版本，可以代表用户采取行动。 “我认为下一代的这些助手和生成式人工智能…

王浩然
2024年11月2日
000
AI前沿

美国运通如何利用AI提升效率：IT问题升级减少40%，旅行援助提升85%‌

美国运通（American Express）作为一家拥有约8万名员工的大型跨国公司，日常运营中难免会遇到各种IT问题。无论是员工无法连接WiFi，还是笔记本电脑出现故障，这些问题都…

王浩然
2天前
000
AI前沿

Apple推出优先通知功能，苹果智能服务拓展至欧盟‌

在科技创新的浪潮中，Apple始终以其前瞻性的视野和卓越的技术实力引领行业发展。近日，Apple宣布了一项重要更新——在欧盟地区推出优先通知功能，作为其智能服务扩展的一部分。这一举…

王浩然
4天前
000
AI前沿

FrodoBots 和 YGG 携手地球探测挑战赛，共同开发游戏化人工智能和机器人技术

FrodoBots和Yield Guild Games联手通过地球探测器挑战赛活动将人工智能和机器人研究游戏化。总部位于新加坡的 FrodoBots 多年来一直在研究机器人技术。它…

王浩然
2024年9月17日
000
AI前沿

miRoncol 推出突破性血液检测技术，可检测 12 种以上早期癌症

在癌症检测领域取得重大进展的背景下，医疗技术初创公司miRoncol完成了一项突破性血液检测的概念验证研究，该检测能够在早期检测出多种类型的癌症。这项创新检测利用了尖端技术，包括微…

点点
2024年10月16日
000
AI前沿

陷入困境的初创公司 Humane 将 Ai Pin 的价格下调 200 美元

Humane 周三宣布其旗舰产品Ai Pin降价 200 美元。据报道，这家由两位前苹果高管创立的湾区初创公司一直在努力销售这款 4 月份以 700 美元价格推出的产品。 Huma…

王浩然
2024年10月25日
000
AI前沿

活体细胞计算机：超越硅的人工智能和计算新前沿

几十年来，生物系统以其处理复杂信息、适应、学习和实时做出复杂决策的卓越能力吸引了计算机科学家。这些自然系统启发了神经网络和进化算法等强大模型的发展，这些模型已经改变了医学、金融、人…

点点
2024年9月6日
000
AI前沿

OpenAI 扩展 Realtime API，提供新声音，并为开发人员降低价格

OpenAI今天更新了其 Realtime API，目前处于测试阶段。此更新为其平台添加了用于语音转语音应用程序的新声音，并降低了与缓存提示相关的成本。 Realtime API…

王浩然
2024年10月31日
000
AI前沿

为什么人工智能开发人员对 Claude 3.5 的计算机使用功能赞不绝口

Anthropic 刚刚发布了 Claude 3.5，这是其 LLM 系列的一个功能强大的新版本。虽然这个模型带来了改进的推理和编码技能，但真正令人兴奋的是围绕一项名为“计算机使用…

点点
2024年11月5日
000
AI前沿

从意图到执行：微软如何将大型语言模型转变为行动导向型人工智能

大型语言模型 (LLM)改变了我们处理自然语言处理的方式。它们可以回答问题、编写代码和进行对话。然而，它们在处理实际任务时却力不从心。例如，LLM 可以指导您购买夹克，但不能为您下…

王浩然
2025年1月12日
000
AI前沿

谷歌Gemini：现在您可以从iPhone锁屏与之对话‌

谷歌近日宣布了一项令人兴奋的新功能——用户现在可以直接从iPhone的锁屏界面与谷歌Gemini进行语音交互。这一创新功能极大地提升了用户与智能助手的互动体验，使得信息获取和服务调…

王浩然
2025年3月5日
000
AI前沿

包容性治理：生成式人工智能如何让公共服务惠及所有人

尽管公共部门随着技术进步而不断发展，但其核心目标始终不变：确保所有公民，无论其社会经济地位、身体能力或地理位置如何，都能平等地获得公共服务。这一目标通常被称为包容性治理，它促使该部…

点点
2024年9月4日
000
AI前沿

思科警告：微调使大型语言模型成为威胁向量‌

随着人工智能技术的飞速发展，大型语言模型（LLMs）在金融、医疗、法律等众多领域展现出了巨大的潜力。然而，思科公司最近发布的一份报告却揭示了这些模型在微调过程中可能带来的巨大安全风…

王浩然
15小时前
000
AI前沿

人工智能治理差距：95% 的公司尚未实施框架

强有力的治理对于减轻人工智能风险和维护负责任的系统至关重要，但大多数公司尚未实施框架。该报告由Prove AI委托Zogby Analytics进行，调查了来自美国、英国和德国大…

点点
2024年10月18日
000
AI前沿

亚马逊推出了一款视频生成器——但仅用于广告

与其竞争对手谷歌一样，亚马逊也推出了一款人工智能视频生成器——但目前它仅面向广告商，而且功能有些有限。今天，在 Accelerate 大会上，亚马逊推出了视频生成器，经过一定程度…

王浩然
2024年9月21日
000
AI前沿

Midjourney 现已向所有人免费开放

Midjourney 首席执行官 David Holz周三通过 Discord宣布，AI 图像生成器最终将通过其网站向所有用户开放，而不仅仅是付费用户。这款文本转图片生成器于 2…

点点
2024年9月2日
000
AI前沿

Pinterest 向广告商推出用于产品图像的 genAI 工具

图片灵感和购物网站Pinterest是最新一家向广告商推出生成式 AI 产品的科技公司，此前谷歌、亚马逊等公司也采取了类似举措。在周二的Pinterest Presents广告商活…

王浩然
2024年10月2日
000
AI前沿

Adobe全新AI代理：为您的客户打造个性化网站

重写与翻译内容 Adobe全新AI代理：为您的客户打造个性化网站在数字化转型的浪潮中，企业正不断探索如何通过创新技术提升客户体验。Adobe，这家在创意软件和数字体验领域享有盛誉…

王浩然
2025年3月20日
000