Hugging Face 将 AI 视觉模型缩小至手机友好尺寸，大幅降低计算成本

王浩然 • 2025年1月25日下午6:00 • AI前沿 • 57 views

Hugging Face在人工智能领域取得了令人瞩目的突破，推出了可以在智能手机等小型设备上运行的视觉语言模型，其性能优于需要庞大数据中心的前代模型。

该公司的新款SmolVLM-256M 模型仅需要不到 1GB 的 GPU 内存，其性能却超过了17 个月前推出的Idefics 80B 模型，后者的系统规模是后者的 300 倍。尺寸的大幅缩小和性能的提升标志着人工智能实际部署的分水岭。

Hugging Face 机器学习研究工程师 Andrés Marafioti 在接受专访时表示： “当我们在 2023 年 8 月发布 Idefics 80B 时，我们是第一家开源视频语言模型的公司。通过实现 300 倍尺寸缩小并提高性能，SmolVLM 标志着视觉语言模型的突破。”

在日常设备上运行的小型 AI 模型

对于那些苦苦挣扎于实施 AI 系统所花费的巨额计算成本的企业来说，这一进步来得正是时候。新的 SmolVLM 模型（提供256M和500M参数大小）能够以以前同类模型无法达到的速度处理图像并理解视觉内容。

最小版本每秒处理 16 个示例，同时仅使用 15GB RAM，批处理大小为 64，这对于希望处理大量视觉数据的企业来说特别有吸引力。“对于每月处理 100 万张图像的中型公司来说，这意味着每年可节省大量计算成本，”Marafioti 表示。“减少内存占用意味着企业可以部署在更便宜的云实例上，从而降低基础设施成本。”

这一进展已引起主要科技公司的关注。IBM 已与 Hugging Face 合作，将 256M 模型集成到其文档处理软件Docling中。Marafioti 表示：“虽然 IBM 确实拥有大量计算资源，但使用像这样的小型模型可以让他们以极低的成本高效处理数百万份文档。”

Hugging Face 如何在不影响性能的情况下减小模型尺寸

效率提升源自视觉处理和语言组件的技术创新。团队从 400M 参数视觉编码器切换到 93M 参数版本，并实施了更激进的标记压缩技术。这些变化在保持高性能的同时，大幅降低了计算要求。

对于初创公司和小型企业来说，这些发展可能具有变革性。“初创公司现在可以在几周内（而不是几个月）推出复杂的计算机视觉产品，而基础设施成本在几个月前还高得令人望而却步，”Marafioti 说道。

其影响不仅限于节省成本，还支持全新的应用。这些模型通过ColiPali为高级文档搜索功能提供支持，ColiPali 是一种从文档档案中创建可搜索数据库的算法。Marafioti 解释说：“它们的性能与 10 倍大小的模型非常接近，同时显著提高了数据库的创建和搜索速度，使所有类型的企业首次能够进行企业范围的可视化搜索。”

为什么小型人工智能模型是人工智能发展的未来

这一突破挑战了关于模型大小和能力之间关系的传统观点。虽然许多研究人员认为，大型模型对于高级视觉语言任务是必要的，但 SmolVLM 表明，更小、更高效的架构也可以实现类似的结果。5 亿参数版本在关键基准测试中实现了 2.2 亿参数版本的 90% 的性能。

Marafioti 认为这些结果并非表明效率停滞，而是表明潜力尚未开发：“直到今天，标准都是从 2B 参数开始发布 VLM；我们认为较小的模型没有用。我们正在证明，事实上，1/10 大小的模型对企业非常有用。”

这一发展是在人们对人工智能对环境的影响和计算成本的担忧日益加剧的背景下出现的。通过大幅减少视觉语言人工智能所需的资源，Hugging Face 的创新可以帮助解决这两个问题，同时让更广泛的组织能够使用先进的人工智能功能。

这些模型都是开源的，延续了 Hugging Face 扩大 AI 技术使用范围的传统。这种可访问性，加上模型的效率，可以加速从医疗保健到零售等行业对视觉语言 AI 的采用，而这些行业的处理成本此前一直高得令人望而却步。

在这个长期以来认为规模越大越好的领域，Hugging Face 的成就表明了一种新的范式：人工智能的未来可能不在于运行在遥远数据中心的越来越大的模型，而在于运行在我们设备上的灵活、高效的系统。随着该行业努力解决规模和可持续性问题，这些较小的模型可能代表着迄今为止最大的突破。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/hugging-face-jiang-ai-shi-jue-mo-xing-suo-xiao-zhi-shou-ji

Hugging Face SmolVLM-256M

Like (0)

王浩然作者

0 0

无需再训练：Sakana 的新 AI 模型改变了机器学习的方式

Previous 2025年1月25日

认识 OpenAI 的 Operator，这是一个人工智能代理，它使用网络为你预订晚餐、订票、编制购物清单等

Next 2025年1月25日

AI前沿

Nvidia 刚刚推出了一款新 AI 模型，击败了 OpenAI 的 GPT-4——没有大的发布，只有巨大的成果

英伟达周二悄然发布了一种新的人工智能模型，其表现优于行业领导者OpenAI和Anthropic 的产品，标志着该公司人工智能战略的重大转变，并可能重塑该领域的竞争格局。该模型名为…

王浩然
2024年10月18日
000
AI前沿

又热闹了，OpenAI的加强版“Her”正式开放，压过了Gemini的“生产级”大升级

今天真是AI圈久违了的热闹一天啊！昨天刚被奥特曼发的那篇AI小作文搞得一头雾水，现在他这波操作的意图就呼之欲出了。奥特曼想临门狙击的正是宿敌Google，更确切地说，是Goog…

点点
2024年9月25日
000
AI前沿

Pig API：为您的 AI 代理提供虚拟桌面以自动化 Windows 应用程序

在不断发展的人工智能领域，企业面临着将现代解决方案与传统系统集成的挑战，而这些系统往往缺乏无缝集成所需的应用程序编程接口 (API)。约 66%的组织继续依赖传统应用程序进行核心运…

王浩然
2025年2月4日
000
AI前沿

沃尔沃携手Nvidia，未来车型搭载AI芯片引领智能驾驶

沃尔沃新款 EX90 SUV 将采用 Nvidia 的 Orin 片上系统，为先进的人工智能驱动安全和自动驾驶铺平道路

点点
2024年9月7日
000
AI前沿

得益于“负责任的”人工智能，经典圣诞歌曲获得西班牙语改编授权

自 1958 年发行以来的几十年里，布伦达·李 (Brenda Lee) 的摇滚风格歌曲《Rockin’ Around the Christmas Tree》已成为有史…

王浩然
2024年10月26日
000
AI前沿

Couchbase 推出全新 Capella AI 服务，让企业 AI 更贴近数据

数据库平台开发商Couchbase正在寻求帮助解决企业 AI 部署中日益常见的问题。即如何以尽可能快速和安全的方式让数据更接近 AI。最终目标是使构建和部署企业 AI 变得更简单、…

王浩然
2024年12月3日
000
AI前沿

开源模型上下文协议（MCP）重大更新：AI互操作性迈入新纪元

重写并翻译的文章内容 ‌开源模型上下文协议（MCP）重大更新：AI互操作性迈入新纪元‌ 在人工智能领域，一项旨在提升AI代理与工具、数据及接口间无缝交互能力的开源标准——模型上下文…

王浩然
2025年3月29日
000
AI前沿

Gensparks的Super Agent：通用人工智能代理竞赛中的新星‌

在人工智能领域，通用型代理的竞争格局正日益激烈且充满野心。近日，总部位于帕洛阿尔托的初创公司Genspark推出了其名为Super Agent的快速自主系统。该系统旨在跨多个领域处…

王浩然
12 mins ago
000
AI前沿

OpenAI 将在新加坡、巴黎、布鲁塞尔开设办事处，促进全球扩张

OpenAI在 X 上的一篇文章中表示，作为公司全球扩张战略的一部分，除了现有的旧金山、伦敦、都柏林和东京办事处外，还将在纽约、西雅图、巴黎、布鲁塞尔和新加坡等多个城市开设新办事处…

王浩然
2024年10月10日
000
AI前沿

美洲杯利用人工智能让电视观众看到风

通过电视观看第 37 届美洲杯帆船赛的球迷将首次能够观察到这项运动中一个至关重要但却看不见的部分，此前只有水手们自己才能辨别：风。跨国咨询公司凯捷和美洲杯媒体联手创建了 Wind…

点点
2024年9月11日
000
AI前沿

为 GPU 成本波动的动荡时代做好准备

图形芯片（GPU）是人工智能革命的引擎，为聊天机器人和其他人工智能应用所依赖的大型语言模型（LLM）提供动力。由于这些芯片的价格在未来几年可能会大幅波动，许多企业将需要首次学习如何…

王浩然
2024年9月9日
000
AI前沿

据消息人士称，Grok 的图像生成器 Black Forest Labs 正在以 10 亿美元的估值融资 1 亿美元

尽管 OpenAI 正在寻求另一轮巨额融资，但它并没有抢走所有风口：构建有前景的基础模型的 AI 初创公司仍然可以打开大门和支票簿。多位消息人士告诉我们，Black Forest …

王浩然
2024年9月21日
000
AI前沿

超越Transformer：NVIDIA的MambaVision旨在为企业解锁更快、更便宜的计算机视觉

引言‌ 在人工智能（AI）的广阔领域中，计算机视觉一直是推动技术进步和应用创新的关键力量。然而，传统的基于Transformer的计算机视觉模型虽然性能卓越，但计算成本高昂，限制了…

王浩然
2025年3月26日
000
AI前沿

OpenAI o1比博士还“聪明”，全球11位AI大咖怎么看？

据国外媒体报道，美国当地时间周四，OpenAI推出了名为OpenAI o1的新人工智能模型，这也是其首个具有“推理”能力的大模型，它能通过类似人类的推理过程来逐步分析问题，直至得出…

点点
2024年9月13日
000
AI前沿

xAI 以每月价值 25 美元的 API 积分吸引开发者，并支持 OpenAI、Anthropic SDK

我们已经知道这一点有一段时间了，但现在我们可以确定的是：生成式人工智能竞赛对于开发人员来说就像对于最终用户来说一样是一场竞赛。举个例子：今天，埃隆·马斯克的 xAI（社交网络 X…

王浩然
2024年11月6日
000
AI前沿

Cosmos 研究所启动资助计划和 AI 实验室

宇宙研究所(Cosmos Institute ) 是一家非营利性机构，其创始研究员包括 Anthropic 联合创始人杰克·克拉克 (Jack Clark) 和前国防部技术专家布伦…

王浩然
2024年9月5日
000
AI前沿

Anthropic 的计算机使用模式在新研究中显示出优势和局限性

自从Anthropic于 10 月为 Claude发布了“计算机使用”功能以来，人们对人工智能代理在被赋予模仿人类互动的能力后能做什么感到非常兴奋。新加坡国立大学Show Lab的…

王浩然
2024年11月24日
000
AI前沿

Pryon CEO Igor Jablokov访谈：揭秘AI企业巨头的崛起之路

Igor Jablokov，这个名字在AI界可谓是响当当。作为Pryon的掌舵人，他以其独特的视野和卓越的领导力，带领公司在竞争激烈的AI市场中脱颖而出。

点点
2024年9月7日
000
AI前沿

“Studio Ghibli” 风格 AI 图像趋势席卷 OpenAI 新 GPT-4o 功能，导致免费版上线延迟

在人工智能界，一股新的潮流正悄然兴起，它以Studio Ghibli的AI图像为灵感，迅速席卷了整个行业，甚至对OpenAI新推出的GPT-4o功能产生了不小的影响，导致其免费层级…

王浩然
2025年3月29日
000
AI前沿

GenAI 面临数据过载的问题，因此公司应该专注于更小、更具体的目标

数据管理公司DataStax董事长兼首席执行官切特·卡普尔 (Chet Kapoor)表示：“没有数据就没有人工智能，没有非结构化数据就没有人工智能，没有大规模非结构化数据就没有人…

王浩然
2024年11月4日
000