克服人工智能基础设施部署障碍的 5 种方法

王浩然 • 2024年11月1日下午12:00 • AI前沿 • 84 views

如今，企业面临着利用人工智能作为竞争优势的巨大压力，但我们仍处于早期阶段。只有约40% 的大型企业在其业务中积极部署人工智能，但障碍使另外 40% 的企业处于探索和实验阶段。尽管人们对人工智能有着浓厚的兴趣，但38% 的 IT 专业人士承认，缺乏技术基础设施是人工智能成功的主要障碍。

为什么这么多组织在实施人工智能的竞赛中落后？《哈佛商业评论》估计，失败率高达 80% ——大约是其他企业 IT 项目失败率的两倍。阻碍成功部署人工智能的最大障碍之一是人工智能技能和专业知识有限。事实上，10 个组织中有 9 个缺乏 IT 技能，这暴露了人工智能系统设计、部署和持续集群管理方面的执行差距。83% 的组织承认，由于缺乏必要的洞察力、软件工具和专业知识，即使在系统部署后也无法充分利用他们的 GPU 和人工智能硬件。

企鹅解决方案公司人工智能系统产品管理高级总监乔纳森·哈 (Jonathan Ha) 表示，管理人工智能基础设施是一个全新的领域，需要采用与传统 IT 基础设施截然不同的方法。

Ha 表示：“针对特定用例和工作负载调整成本、性能、数据和运营模式，首先要有一个可靠的、智能管理的 AI 基础设施。在建立这个基础之前，你不可能也不会从概念验证转向大规模生产。”

以下是构建 AI 架构时最常见的五个挑战以及企业如何应对和克服这些挑战。

挑战 1：IT 组织尚未做好迎接 AI 的准备

IT 拥有数十年的工具、流程和经验，可在 CPU 级别监控和管理通用和高性能计算 (HPC) 工作负载。然而，当今的 AI 基础设施需要显著增强监控和管理能力。随着高性能 GPU、高性能互连、低延迟网络结构甚至液冷基础设施等新技术的加入，IT 组织面临着构建监控和管理这些 AI 集群的专业知识的挑战，尤其是大规模集群。

设计计算和存储集群架构、构建网络拓扑，然后对其进行调整以获得 AI 工作负载的最佳性能，所有这些都需要专业技能、经验和专业知识。

解决方案：投资人工智能基础设施专业知识

许多组织都带着一种虚假的自信来应对这一挑战，认为他们广泛的 IT 基础设施专业知识使他们具备了取得成功的知识和诀窍。不幸的是，这通常意味着他们很难让基础设施正常运行，或无法实现他们期望的结果。人工智能战略的成功取决于最初做出的决策：用例、项目设计、硬件需求、成本等等。这需要在设计、部署和管理当今人工智能基础设施方面拥有实用、最新的经验。

不幸的是，人工智能的爆炸式增长远远超过了人才库的扩张速度，因此很难找到这种专业知识。在如此紧张的市场中，无论是通过培训现有员工、外部招聘还是选择合适的人工智能基础设施合作伙伴，找到合适的人才都至关重要。

挑战 2：满足当前和未来的需求

甚至在设计系统之前，组织就需要规划他们的 AI 用例、模型和数据集，以确定所需 AI 基础设施的规模。重要的是要考虑模型参数、支持的用户和性能需求等因素，同时还要预测随着 AI 的采用不断增长，这些需求将如何增长和变化。与此同时，组织还必须考虑快速增长的数据需求和不断发展的技术格局。在管理极其复杂的 AI 架构时，组织如何保持敏捷、轻松扩展并提供预期的性能、安全性和稳定性？

解决方案：从头开始规划

首先，组织应制定全面的 AI 路线图，确定 AI 旅程每个阶段所需的资源及其部署时间表。例如，从数据中心开始设计至关重要，因为其电源和冷却能力将决定 AI 集群的可行性和未来的可扩展性。其次是选择和集成经过验证的模块化架构，这些架构可以轻松配置以满足不断变化的计算需求，同时提供高可用性和性能，即使工作负载和用例随时间而变化。

挑战3：数据管理和治理变得更加重要

人工智能依赖于整个管道中大型数据集的有效管理。数据安全可能成为一项挑战，确保数据干净、准确、无偏见，以及符合内部和外部合规性规定是一项持续的风险和持续的责任。

“在人工智能计划中，每一条数据都变得有价值，但一旦从组织的孤岛中释放出来，它也更容易受到攻击。此外，偏见往往会悄悄出现，这是在训练人工智能模型时通过标记和贴标签引入的，”Ha 说。“建立适当的流程、控制和治理，以安全和公平的方式使用数据，这是必须优先考虑的事情。”

解决方案：设置护栏

在接触数据并开始 AI 计划之前，领导者必须花时间了解潜在的陷阱，包括泄漏、数据滥用和数据错误分类以及偏见。然后，他们应该建立流程和工具来保护所有位置的数据。此外，重要的是要规划哪些角色获得哪种访问权限，并保持警惕，跟踪和监控该活动。

挑战4：管理人工智能基础设施需要采用新方法

网络配置错误、节点故障或 GPU 丢失可能会中断运营，导致新产品发布延迟或阻碍关键见解的发现。由于架构的复杂性和对熟练人才的需求，解决这些挑战非常困难。管理最佳集群设计和智能集群管理需要专业知识。此外，在整个流程中不断调整和完善模型对于成功至关重要。

解决方案：采用新的运营策略

要让 AI 计划保持正轨并不断优化，需要实施 AIOps 方法，该方法将大数据、分析和机器学习结合到一个自动化和智能的 IT 平台中。这可确保对 AI 管道的所有方面具有完全的可视性和控制力。它可以自动对组织数据进行分类和集成，识别应用程序性能和可用性问题，诊断根本原因，然后解决这些问题，以最大限度地减少速度减慢和短缺。通过这样做，它可以发现优化工作负载和提高效率的方法。

挑战 5：投资回报率取决于可用性和性能

人工智能是一项要求高、成本高昂的工作，无法承受低效的系统或不必要的停机时间——然而，许多组织每天都在努力应对。例如，最近的一篇 Meta 论文详细介绍了该公司训练其 Llama 3 模型的经验，该模型在集群中拥有 16,000 个 GPU。不幸的是，集群每三个小时就会发生一次与 GPU 相关的故障。当你同时执行并行工作负载时，这可能会导致延迟、作业重启，甚至不正确的结果和成果。

“我们从客户和其他大型 AI 基础设施提供商那里听说，在任何时候，他们的 AI 集群可能只有 30% 到 70% 的 GPU 节点可用，”Ha 说道。“如果您只有 70% 的 GPU 节点可用，并且系统仅实现了 70% 的目标性能，那么您只能实现 AI 基础设施投资潜在价值的 49%。51% 的价值损失将对您的投资回报率产生重大负面影响。”

解决方案：自动化是关键

Ha 表示，能够监控、管理和创建自动化和预测故障的流程是降低大量风险的最佳方法。当 Meta 实施自动化工具和流程时，他们发现一次训练运行中出现了 400 多次中断，除了三次中断外，其余所有中断都自动处理，无需人工干预，也不必暂停工作。

他说：“这就是拥有超过 20 亿工时管理这些大型 AI 集群经验的秘诀——拥有工具、洞察力和自动化流程来保持它们正常运行。”

展望并启动人工智能战略

启动人工智能战略需要时间、精力和大量的专业技能和理解。应对和应对这些挑战，同时跟上竞争对手推出自己的计划的步伐，风险越来越大，尤其是在使用快速发展的技术时。哈说，有办法加强和保护人工智能计划。

“挑战不仅仅在于复杂性，甚至技能组合，”他说，“而是在于让你的组织随着技术的发展而发展。”

为了确保 AI 计划取得成功，组织必须紧跟最新技术进步，并培养精通 AI 的内部文化。通过利用 AIOps 和 MLOps 的功能，这些组织可以将 AI 无缝集成到各个团队和领域的工作流程中。为了不断优化 AI 模型，打破部门孤岛并促进协作至关重要。在与 AI 专家合作的支持下，实验、迭代和从成功和失败中学习的文化是长期 AI 战略成功的基础。

对于成功的人工智能计划来说，最重要的建议是什么？

“对合适的工具、合作伙伴和专业知识进行坚实的投资，”Ha 说道。“人工智能是一项艰巨的任务，但从一开始就开发基础和这些能力有助于您获得投资回报和更快的价值实现时间，大大降低业务风险并提供您在市场上取得成功所需的竞争优势。”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/ke-fu-ren-gong-zhi-neng-ji-chu-she-shi-bu-shu-zhang-ai-de-5

AI 基础设施 HPC IT 技能 Llama 3 Meta 人工智能高性能 GPU 高性能计算

Like (0)

王浩然作者

0 0

AWS 推出内联 Q Developer AI 编码助手，与微软的 Github Copilot 竞争

Previous 2024年11月1日

AMD 报告创纪录的收入但第四季度预测令人失望

Next 2024年11月1日

AI前沿

波士顿动力公司与丰田研究院合作开发人形机器人

合作伙伴关系利用大型行为模型和波士顿动力 Atlas 机器人推进人形机器人研究

点点
2024年10月22日
000
AI前沿

自主移动机器人如何改变零售客户体验

目前，零售业AI的市场规模预估约为90亿美元，预计到2029年将达到400亿美元。在零售食品行业盛会GroceryTech 2024上，CEO和CIO们谈到了对AI的日益关注，同时…

点点
2024年9月17日
000
AI前沿

埃隆·马斯克的 xAI 搬进了 OpenAI 的旧总部

旧金山的 Mission 区并不以公司办公室而闻名，但它现在是两家全球资金最雄厚的人工智能初创公司的所在地。据《旧金山商业时报》报道，埃隆马斯克的人工智能初创公司 xAI 最近搬…

王浩然
2024年10月4日
000
AI前沿

病毒式传播的 AI 图片如何帮助一家墨西哥初创公司获得阿迪达斯的重要合同

有人在某处证明人工智能可以为工匠创造就业机会，而不是取代他们

点点
2024年9月8日
000
AI前沿

苹果收购照片编辑应用程序 Pixelmator

Pixelmator周五宣布将被苹果收购。这家图像编辑平台并未透露被苹果收购后公司的发展前景，但表示其 Pixelmator Pro、Pixelmator for iOS 和 Ph…

王浩然
2024年11月2日
000
AI前沿

Apple Intelligence 的真正威力将在第三方应用中展现出来

Apple Intelligence 是 iPhone 制造商在 iOS 18 中推出的一套新的 AI 功能，它为应用程序的新使用方式奠定了基础。如今，过时的 App Store…

王浩然
2024年9月11日
000
AI前沿

2025年及以后AI的三大预测‌

近年来，人工智能（AI）的飞速发展令人叹为观止。从协助发现可能拯救生命的药物疗法，到推动自动驾驶汽车技术的革新，AI正深刻影响着我们的日常生活。作为AI的乐观拥趸，我坚信AI将继续…

王浩然
2025年3月14日
000
AI前沿

人工智能视觉搜索登陆 iPhone

该公司在周一的 Apple Event 2024 上宣布，视觉搜索即将登陆 iPhone，由苹果的 AI 功能套件 Apple Intelligence 提供支持。相机控制是iP…

王浩然
2024年9月10日
000
AI前沿

蒂姆·库克的其他工作

今年 5 月，苹果首席执行官蒂姆·库克 (Tim Cook) 在一次活动上发布最新款 iPad 时，穿了一双定制的、独一无二的耐克运动鞋，鞋上的装饰针脚上印有“Made on iP…

王浩然
2024年10月23日
000
AI前沿

研究发现法学硕士可以识别自己的错误

大型语言模型 (LLM) 的一个众所周知的问题是它们倾向于生成不正确或无意义的输出，通常被称为“幻觉”。虽然许多研究都集中于从用户的角度分析这些错误，但由以色列理工学院、谷歌研究院…

王浩然
2024年11月1日
000
AI前沿

据报道，Perplexity 正寻求以 80 亿美元的估值进行融资

据《华尔街日报》报道，人工智能搜索引擎 Perplexity 正在进行融资谈判，希望以 80 亿美元的估值筹集约 5 亿美元。如果按照这些条款达成交易，Perplexity 的估…

王浩然
2024年10月21日
000
AI前沿

OpenAI 推出具有图像上传和分析功能的完整 o1 模型，并首次推出 ChatGPT Pro

OpenAI 已正式推出其o1 模型，该模型已从预览版过渡到 ChatGPT 平台的核心功能。现在，它还可以分析图像——这是一项非常有用的功能升级，因为它使用户能够上传照片并让 A…

王浩然
2024年12月6日
000
AI前沿

量子媒体与娱乐营销总监 Skip Levens – 访谈系列

Skip Levens是 Quantum 的产品负责人和 AI 策略师，Quantum 是 AI 和非结构化数据数据管理解决方案领域的领导者。他目前负责推动 Quantum 端到端…

点点
2024年10月16日
000
AI前沿

Throne 的厕所摄像头可以拍摄你的便便

Throne是一家位于奥斯汀的健康初创公司。它销售一种相机。它夹在马桶边上。它会拍下你的便便。该系统目前处于测试阶段，利用人工智能检查你的便便，以确定肠道健康和补水情况。事实证明…

点点
2024年10月21日
000
AI前沿

周三亚马逊Alexa活动前瞻‌

在科技日新月异的今天，智能助手已成为我们生活中不可或缺的一部分。亚马逊的Alexa作为智能助手的佼佼者，其每一次更新都备受瞩目。本文将为您揭秘周三即将举行的亚马逊Alexa活动，带…

王浩然
2025年2月27日
000
AI前沿

2024 年无法实现的人工智能智能手机

过去一年，我报道了美国每款主要手机的发布，每款手机都在大声宣告同一件事：人工智能已经到来，我们的手机就是你们期待已久的人工智能手机。每款手机都赢得了热烈掌声和利好消息。但当我拿到这…

王浩然
2024年12月28日
000
AI前沿

我们的大脑是矢量数据库——这就是为什么它在使用人工智能时很有帮助

2014 年，谷歌的一项突破彻底改变了机器理解语言的方式：自我注意力模型。这项创新使人工智能能够将单词视为数学向量（捕捉思想之间关系的精确数字表示），从而掌握人类交流中的上下文和含…

王浩然
2024年11月20日
000
AI前沿

美国人担心人工智能会随着 Deepfakes 的兴起而干扰选举

超过一半的受访者曾使用人工智能制作虚假图像或视频

点点
2024年10月23日
000
AI前沿

高通推出用于个人电脑、汽车、智能家居和企业的人工智能芯片

高通在2025 年消费电子展 (CES 2025)上发布了针对个人电脑、汽车、智能家居和企业的人工智能技术和合作。在拉斯维加斯举行的大型科技贸易展上，高通技术公司展示了如何利用其…

王浩然
2025年1月7日
000
AI前沿

OpenAI已开始组建其机器人团队

OpenAI 以其人工智能模型而闻名，迄今为止，这些模型主要存在于云服务器、其网站以及适用于 PC 和移动设备的应用程序中。不过，该公司的雄心并不局限于软件领域：今天在 X 上，…

王浩然
2025年1月11日
000