
Hugging Face在人工智能领域取得了令人瞩目的突破,推出了可以在智能手机等小型设备上运行的视觉语言模型,其性能优于需要庞大数据中心的前代模型。
该公司的新款SmolVLM-256M 模型仅需要不到 1GB 的 GPU 内存,其性能却超过了17 个月前推出的Idefics 80B 模型,后者的系统规模是后者的 300 倍。尺寸的大幅缩小和性能的提升标志着人工智能实际部署的分水岭。
Hugging Face 机器学习研究工程师 Andrés Marafioti 在接受专访时表示: “当我们在 2023 年 8 月发布 Idefics 80B 时,我们是第一家开源视频语言模型的公司。通过实现 300 倍尺寸缩小并提高性能,SmolVLM 标志着视觉语言模型的突破。”

在日常设备上运行的小型 AI 模型
对于那些苦苦挣扎于实施 AI 系统所花费的巨额计算成本的企业来说,这一进步来得正是时候。新的 SmolVLM 模型(提供256M和500M参数大小)能够以以前同类模型无法达到的速度处理图像并理解视觉内容。
最小版本每秒处理 16 个示例,同时仅使用 15GB RAM,批处理大小为 64,这对于希望处理大量视觉数据的企业来说特别有吸引力。“对于每月处理 100 万张图像的中型公司来说,这意味着每年可节省大量计算成本,”Marafioti 表示。“减少内存占用意味着企业可以部署在更便宜的云实例上,从而降低基础设施成本。”
这一进展已引起主要科技公司的关注。IBM 已与 Hugging Face 合作,将 256M 模型集成到其文档处理软件Docling中。Marafioti 表示:“虽然 IBM 确实拥有大量计算资源,但使用像这样的小型模型可以让他们以极低的成本高效处理数百万份文档。”

Hugging Face 如何在不影响性能的情况下减小模型尺寸
效率提升源自视觉处理和语言组件的技术创新。团队从 400M 参数视觉编码器切换到 93M 参数版本,并实施了更激进的标记压缩技术。这些变化在保持高性能的同时,大幅降低了计算要求。
对于初创公司和小型企业来说,这些发展可能具有变革性。“初创公司现在可以在几周内(而不是几个月)推出复杂的计算机视觉产品,而基础设施成本在几个月前还高得令人望而却步,”Marafioti 说道。
其影响不仅限于节省成本,还支持全新的应用。这些模型通过ColiPali为高级文档搜索功能提供支持,ColiPali 是一种从文档档案中创建可搜索数据库的算法。Marafioti 解释说:“它们的性能与 10 倍大小的模型非常接近,同时显著提高了数据库的创建和搜索速度,使所有类型的企业首次能够进行企业范围的可视化搜索。”

为什么小型人工智能模型是人工智能发展的未来
这一突破挑战了关于模型大小和能力之间关系的传统观点。虽然许多研究人员认为,大型模型对于高级视觉语言任务是必要的,但 SmolVLM 表明,更小、更高效的架构也可以实现类似的结果。5 亿参数版本在关键基准测试中实现了 2.2 亿参数版本的 90% 的性能。
Marafioti 认为这些结果并非表明效率停滞,而是表明潜力尚未开发:“直到今天,标准都是从 2B 参数开始发布 VLM;我们认为较小的模型没有用。我们正在证明,事实上,1/10 大小的模型对企业非常有用。”
这一发展是在人们对人工智能对环境的影响和计算成本的担忧日益加剧的背景下出现的。通过大幅减少视觉语言人工智能所需的资源,Hugging Face 的创新可以帮助解决这两个问题,同时让更广泛的组织能够使用先进的人工智能功能。
这些模型都是开源的,延续了 Hugging Face 扩大 AI 技术使用范围的传统。这种可访问性,加上模型的效率,可以加速从医疗保健到零售等行业对视觉语言 AI 的采用,而这些行业的处理成本此前一直高得令人望而却步。
在这个长期以来认为规模越大越好的领域,Hugging Face 的成就表明了一种新的范式:人工智能的未来可能不在于运行在遥远数据中心的越来越大的模型,而在于运行在我们设备上的灵活、高效的系统。随着该行业努力解决规模和可持续性问题,这些较小的模型可能代表着迄今为止最大的突破。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/hugging-face-jiang-ai-shi-jue-mo-xing-suo-xiao-zhi-shou-ji