大约五年来,我一直在 Arxiv 和其他地方持续关注计算机视觉 (CV) 和图像合成研究领域,因此趋势会随着时间的推移而变得明显,并且每年都会朝着新的方向转变。
因此,随着 2024 年即将结束,我认为有必要看看计算机视觉和模式识别部分 Arxiv 提交中的一些新特征或不断发展的特征。这些观察虽然是通过数百小时的场景研究得出的,但严格来说只是轶事。
东亚持续崛起
到 2023 年底,我注意到“语音合成”类别中的大多数文献都来自中国和东亚其他地区。到 2024 年底,我不得不(根据轶事)观察到,这现在也适用于图像和视频合成研究领域。
这并不意味着中国和邻近国家一定总是能产出最好的成果(事实上,有一些证据表明情况相反);也没有考虑到在中国(与西方一样)一些最有趣和最强大的新兴系统很可能是专有的,并且被排除在研究文献之外。
但它确实表明,从数量上看,东亚在这方面胜过西方。其价值取决于你对爱迪生式坚持的可行性的信任程度,而这种坚持在面对棘手的障碍时通常被证明是无效的。
生成式人工智能中存在许多这样的障碍,而且很难知道哪些可以通过解决现有架构来解决,哪些需要从零开始重新考虑。
尽管来自东亚的研究人员似乎正在撰写更多的计算机视觉论文,但我注意到“弗兰肯斯坦”式项目的频率有所增加 – 这些项目融合了先前的作品,同时增加了有限的架构新颖性(或可能只是不同类型的数据)。
今年,东亚(主要是中国或与中国合作的)的参赛作品数量大幅增加,似乎是受配额驱动而非择优录取,这大大提高了已经超额报名的领域的信噪比。
与此同时,2024 年更多东亚报纸也引起了我的关注和钦佩。所以,如果这完全是一场数字游戏,那么它不算失败——但也不便宜。
提交量不断增加
2024 年,所有来源国的论文数量均明显增加。
最受欢迎的出版日全年都在变化;目前是星期二,在“高峰”时期(5 月至 8 月和 10 月至 12 月,即会议季和“年度配额截止日期”季节),一天提交计算机视觉和模式识别部分的文章数量通常约为 300-350 篇。
除了我自己的经验之外,Arxiv 本身报告了2024 年 10 月的提交数量创下了历史新高,共有 6000 份新提交,而计算机视觉部分是仅次于机器学习的提交数量第二多的部分。
然而,由于 Arxiv 上的机器学习部分通常被用作“附加”或聚合的超类别,因此计算机视觉和模式识别实际上是提交次数最多的 Arxiv 类别。
Arxiv自己的统计数据确实将计算机科学描述为投稿中的明显领先者:
斯坦福大学的2024 年人工智能指数虽然尚未报告最新的统计数据,但也强调了近年来围绕机器学习的学术论文提交数量的显著增加:
扩散>网状框架激增
对我来说出现的另一个明显趋势是,有关利用潜在扩散模型(LDM) 作为基于网格的“传统” CGI 模型生成器的论文数量大量增加。
此类型的项目包括腾讯的InstantMesh3D、3Dtopia、Diffusion 2、V3D、MVEdit和GIMDiffusion以及众多类似产品。
这一新兴研究方向可被视为对生成系统(如扩散模型)持续难以解决的问题的一种默认,仅在两年前,扩散模型就被吹捧为扩散>网格模型目前正在寻求填充的所有系统的潜在替代品;将扩散降为三十多年前技术和工作流程中的一种工具。
Stability.ai 是开源稳定扩散模型的创始人,刚刚发布了Stable Zero123,该模型可以使用 神经辐射场(NeRF) 对 AI 生成图像的解释作为桥梁,创建一个明确的、基于网格的 CGI 模型,该模型可用于 Unity 等 CGI 领域、视频游戏、增强现实以及需要明确 3D 坐标的其他平台,而不是连续函数的隐式(隐藏)坐标。
3D 语义
生成式 AI 空间区分了视觉和生成系统的 2D 和 3D 系统实现。例如,面部标志框架虽然在所有情况下都表示3D 对象(面部),但并不一定都计算可寻址的 3D 坐标。
流行的FANAlign 系统在 2017 年的深度伪造架构(以及其它架构)中被广泛使用,它可以适应这两种方法:
因此,正如“deepfake”已成为一个含糊其辞且被劫持的术语一样,“3D”同样也已成为计算机视觉研究中的一个令人困惑的术语。
对于消费者来说,它通常表示立体媒体(例如观众必须佩戴特殊眼镜的电影);对于视觉效果从业者和建模者来说,它提供了 2D 艺术品(例如概念草图)和可以在 Maya 或 Cinema4D 等“3D 程序”中操作的基于网格的模型之间的区别。
但在计算机视觉中,它仅仅意味着笛卡尔坐标系存在于模型的潜在空间中的某个地方——并不一定能被用户寻址或直接操纵;至少,在没有第三方解释性基于 CGI 的系统(如3DMM或FLAME)的情况下是这样的。
因此,扩散>3D的概念是不精确的;不仅可以使用任何类型的图像(包括真实照片)作为输入来生成生成 CGI 模型,而且不太明确的术语“网格”更为合适。
然而,在大多数新兴项目中,需要使用扩散将源照片解释为网格,这加剧了歧义。因此,更好的描述可能是image – to-mesh,而image>diffusion>mesh是更准确的描述。
但在董事会会议上,或在旨在吸引投资者的宣传稿中,这很难实现。
建筑僵局的证据
即使与 2023 年相比,过去 12 个月的论文也表现出对消除基于扩散的发电的严格实际限制的日益强烈的渴望。
关键的障碍仍然是生成叙事和时间一致的视频,并保持人物和物体的一致外观——不仅在不同的视频片段中,而且甚至在单个生成的视频片段的短暂运行时间内。
基于扩散的合成的最后一个划时代创新是2022 年LoRA 的问世。虽然 Flux 等新系统已经改进了一些异常问题,例如稳定扩散以前无法在生成的图像中重现文本内容,并且整体图像质量有所提高,但我在 2024 年研究的大多数论文基本上只是在盘子上移动食物。
这些僵局以前也发生过,比如生成对抗网络 (GAN) 和神经辐射场 (NeRF),它们都未能发挥其明显的初始潜力——而且它们都在更传统的系统中得到越来越多的利用(例如 Stable Zero 123 中使用 NeRF,见上文)。这似乎也发生在扩散模型中。
高斯溅射研究枢纽
2023 年底,似乎光栅化方法3D Gaussian Splatting (3DGS) 即将突然超越基于自动编码器的人体图像合成挑战系统(例如面部模拟和重建,以及身份转移),该方法于 20 世纪 90 年代初首次亮相,成为一种医学成像技术。
2023 年的 ASH 论文承诺实现全身 3DGS 人类,而高斯化身则提供了大幅改进的细节(与自动编码器和其他竞争方法相比),以及令人印象深刻的交叉重现。
然而,今年 3DGS 人体合成方面的突破性进展相对较少;大多数解决该问题的论文要么是上述工作的衍生,要么未能超越其能力。
相反,3DGS 的重点是改进其基本架构的可行性,从而导致了大量提供改进的 3DGS 外部环境的论文。在Gaussian Splatting SLAM、Splat-SLAM、Gaussian-SLAM、DROID-Splat等项目中,人们特别关注同步定位和地图构建 ( SLAM ) 3DGS 方法。
那些确实试图继续或扩展基于 splat 的人体合成的项目包括MIGS、GEM、EVA、OccFusion、FAGhead、HumanSplat、GGHead、HGM和Topo4D。虽然还有其他项目,但这些项目都没有达到 2023 年末出现的论文的最初影响。
测试样本的“韦恩斯坦时代”正在(缓慢)衰落
东南亚(尤其是中国)的研究通常采用一些难以在评论文章中重新发表的测试示例,因为它们采用的材料有些“辛辣”。
这是否是因为该地区的研究科学家希望他们的研究成果能引起人们的关注,这一点尚有争议;但在过去 18 个月中,越来越多围绕生成式人工智能(图像和/或视频)的论文默认在项目示例中使用年轻且衣着暴露的女性和女孩。这种近乎 NSFW 的例子包括UniAnimate、ControlNext,甚至非常“枯燥”的论文,例如Fréchet Video Motion Distance (FVMD) 的《评估运动一致性》。
这符合围绕潜在扩散模型 (LDM) 的 subreddits 和其他社区的总体趋势,其中规则 34 仍然非常明显。
名人对决
这种不恰当的例子与人们日益增长的认识相重叠,即人工智能流程不应任意利用名人相似性——特别是在那些不加批判地使用有吸引力的名人(通常是女性)的例子并将其置于可疑背景中的研究中。
其中一个例子就是AnyDressing,除了以非常年轻的动漫风格的女性角色为特色外,它还大量使用经典名人的身份,例如玛丽莲梦露,以及当今名人,例如安妮海瑟薇(她曾直言不讳地谴责这种使用方式)。
在西方报纸上,这种特殊做法在整个 2024 年都明显下降,主要是由于 FAANG 和其他高级研究机构(如 OpenAI)的大量发布。这些大型企业参与者意识到未来可能引发诉讼,因此似乎越来越不愿意代表即使是虚构的逼真人物。
尽管他们正在创建的系统(例如Imagen和Veo2)显然能够实现这样的输出,但西方生成式人工智能项目的例子现在趋向于“可爱”、迪士尼化和极其“安全”的图像和视频。
洗脸
在西方的简历文献中,这种不诚实的方法在定制系统中尤为明显——这些方法能够在多个示例中创建特定人的一致相似性(例如,像 LoRA 和较老的DreamBooth)。
示例包括正交视觉嵌入、LoRA-Composer、Google 的InstructBooth等等。
然而,“可爱示例”的兴起也出现在其他 CV 和综合研究领域中,例如Comp4D、V3D、DesignEdit、UniEdit、FaceChain (在其GitHub 页面上承认了更现实的用户期望)和DPG-T2I等项目。
家庭用户使用相对普通的硬件即可轻松创建此类系统(例如LoRA),这导致civit.ai 域和社区中免费下载的名人模型激增。通过Stable Diffusion和Flux等架构的开源,这种非法使用仍然可能。
尽管通常可以突破生成式文本转图像 (T2I) 和文本转视频 (T2V) 系统的安全功能来生成平台使用条款禁止的材料,但最佳系统(如 RunwayML 和 Sora)的受限功能与性能卓越的系统(如Stable Video Diffusion、CogVideo和Hunyuan的本地部署)的无限功能之间的差距并没有像许多人认为的那样真正缩小。
相反,这些专有系统和开源系统都面临着变得同样无用的威胁:昂贵且超大规模的 T2V 系统可能由于担心诉讼而变得过于受限,而随着更严格的法规出台,开源系统缺乏许可基础设施和数据集监督可能会将它们完全排除在市场之外。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/2024-nian-ji-suan-ji-shi-jue-wen-xian-qu-shi-de-ge-ren-kan