开源 AI 平台提供商H2O.ai今天宣布了两种新的视觉语言模型,旨在改进文档分析和光学字符识别 (OCR) 任务。这两个模型名为H2OVL Mississippi-2B和H2OVL-Mississippi-0.8B,与各大科技公司推出的更大规模模型相比,它们表现出了相当强的性能,有可能为处理文档密集型工作流程的企业提供更高效的解决方案。
大卫与歌利亚:H2O.ai 的微型模型如何战胜科技巨头
H2OVL Mississippi-0.8B 模型仅具有 8 亿个参数,但在OCRBench 文本识别任务中却超越了所有其他模型,包括那些具有数十亿个参数的模型。与此同时,具有 20 亿个参数的 H2OVL Mississippi-2B 模型在一系列视觉语言基准测试中表现出色。
H2O.ai 首席执行官兼创始人 Sri Ambati 在接受 VentureBeat 独家采访时表示:“我们将 H2OVL Mississippi 模型设计为一种高性能且经济高效的解决方案,为企业带来 AI 驱动的 OCR、视觉理解和文档 AI。”“通过将先进的多模式 AI 与效率相结合,H2OVL Mississippi 为各行各业提供了精确、可扩展的文档 AI 解决方案。”
这些模型的发布标志着 H2O.ai 让 AI 技术更易于获取的战略迈出了重要一步。通过在流行的机器学习模型共享平台Hugging Face 上免费提供这些模型,H2O.ai 允许开发人员和企业根据特定文档 AI 需求修改和调整这些模型。
效率与效益的结合:文档处理的新方法
Ambati 强调了小型专业模型的经济优势。“我们对生成式预训练转换器的方法源于我们对 Document AI 的深度投资,我们与客户合作从企业文档中提取含义,”他说。“这些模型可以在任何地方运行,占用空间小,高效且可持续,允许以极低的成本对特定领域的图像和文档进行微调。”
这一消息发布之际,各企业正寻求更高效的方法来处理和提取大量文档中的信息。传统的 OCR 和文档分析方法通常难以处理质量较差的扫描件、难以识别的笔迹或经过大量修改的文档。H2O.ai 的新模型旨在解决这些问题,同时为大型语言模型提供一种资源效率更高的替代方案,因为大型语言模型对于特定的文档相关任务来说可能过于繁琐。
行业分析师指出,H2O.ai 的做法可能会颠覆目前由科技巨头主导的格局。通过专注于更小、更专业的模型,H2O.ai 可能能够占领重视效率和成本效益的企业市场的很大一部分。
开源和企业级:H2O.ai 的 AI 应用战略
“在 H2O.ai,让人工智能触手可及不仅仅是一个想法,而是一个运动,”Ambati 告诉 VentureBeat。“通过发布一系列可以轻松微调以适应特定任务的小型基础模型,我们正在扩大创建和使用人工智能的可能性。”
H2O.ai 已从Commonwealth Bank、Nvidia、高盛和富国银行等投资者那里筹集了 2.56 亿美元。该公司的开源方法和对实用、企业级 AI 解决方案的关注帮助它建立了一个由 20,000 多个组织和超过一半的财富 500 强公司作为客户的社区。
随着企业继续努力应对数字化转型以及从非结构化数据中提取价值的需求,H2O.ai 的新视觉语言模型可以为那些希望实施文档 AI 解决方案而无需大型模型的计算开销的人提供一个引人注目的选择。真正的考验将在实际应用中,但 H2O.ai 使用小得多的模型展示的竞争性能表明了企业 AI 未来的光明方向。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/xiao-er-qiang-da-h2o-ai-de-xin-ai-mo-xing-zai-wen-dang-fen