如今,企业面临着利用人工智能作为竞争优势的巨大压力,但我们仍处于早期阶段。只有约40% 的大型企业在其业务中积极部署人工智能,但障碍使另外 40% 的企业处于探索和实验阶段。尽管人们对人工智能有着浓厚的兴趣,但38% 的 IT 专业人士承认,缺乏技术基础设施是人工智能成功的主要障碍。
为什么这么多组织在实施人工智能的竞赛中落后?《哈佛商业评论》估计,失败率高达 80% ——大约是其他企业 IT 项目失败率的两倍。阻碍成功部署人工智能的最大障碍之一是人工智能技能和专业知识有限。事实上,10 个组织中有 9 个缺乏 IT 技能,这暴露了人工智能系统设计、部署和持续集群管理方面的执行差距。83% 的组织承认,由于缺乏必要的洞察力、软件工具和专业知识,即使在系统部署后也无法充分利用他们的 GPU 和人工智能硬件。
企鹅解决方案公司人工智能系统产品管理高级总监乔纳森·哈 (Jonathan Ha) 表示,管理人工智能基础设施是一个全新的领域,需要采用与传统 IT 基础设施截然不同的方法。
Ha 表示:“针对特定用例和工作负载调整成本、性能、数据和运营模式,首先要有一个可靠的、智能管理的 AI 基础设施。在建立这个基础之前,你不可能也不会从概念验证转向大规模生产。”
以下是构建 AI 架构时最常见的五个挑战以及企业如何应对和克服这些挑战。
挑战 1:IT 组织尚未做好迎接 AI 的准备
IT 拥有数十年的工具、流程和经验,可在 CPU 级别监控和管理通用和高性能计算 (HPC) 工作负载。然而,当今的 AI 基础设施需要显著增强监控和管理能力。随着高性能 GPU、高性能互连、低延迟网络结构甚至液冷基础设施等新技术的加入,IT 组织面临着构建监控和管理这些 AI 集群的专业知识的挑战,尤其是大规模集群。
设计计算和存储集群架构、构建网络拓扑,然后对其进行调整以获得 AI 工作负载的最佳性能,所有这些都需要专业技能、经验和专业知识。
解决方案:投资人工智能基础设施专业知识
许多组织都带着一种虚假的自信来应对这一挑战,认为他们广泛的 IT 基础设施专业知识使他们具备了取得成功的知识和诀窍。不幸的是,这通常意味着他们很难让基础设施正常运行,或无法实现他们期望的结果。人工智能战略的成功取决于最初做出的决策:用例、项目设计、硬件需求、成本等等。这需要在设计、部署和管理当今人工智能基础设施方面拥有实用、最新的经验。
不幸的是,人工智能的爆炸式增长远远超过了人才库的扩张速度,因此很难找到这种专业知识。在如此紧张的市场中,无论是通过培训现有员工、外部招聘还是选择合适的人工智能基础设施合作伙伴,找到合适的人才都至关重要。
挑战 2:满足当前和未来的需求
甚至在设计系统之前,组织就需要规划他们的 AI 用例、模型和数据集,以确定所需 AI 基础设施的规模。重要的是要考虑模型参数、支持的用户和性能需求等因素,同时还要预测随着 AI 的采用不断增长,这些需求将如何增长和变化。与此同时,组织还必须考虑快速增长的数据需求和不断发展的技术格局。在管理极其复杂的 AI 架构时,组织如何保持敏捷、轻松扩展并提供预期的性能、安全性和稳定性?
解决方案:从头开始规划
首先,组织应制定全面的 AI 路线图,确定 AI 旅程每个阶段所需的资源及其部署时间表。例如,从数据中心开始设计至关重要,因为其电源和冷却能力将决定 AI 集群的可行性和未来的可扩展性。其次是选择和集成经过验证的模块化架构,这些架构可以轻松配置以满足不断变化的计算需求,同时提供高可用性和性能,即使工作负载和用例随时间而变化。
挑战3:数据管理和治理变得更加重要
人工智能依赖于整个管道中大型数据集的有效管理。数据安全可能成为一项挑战,确保数据干净、准确、无偏见,以及符合内部和外部合规性规定是一项持续的风险和持续的责任。
“在人工智能计划中,每一条数据都变得有价值,但一旦从组织的孤岛中释放出来,它也更容易受到攻击。此外,偏见往往会悄悄出现,这是在训练人工智能模型时通过标记和贴标签引入的,”Ha 说。“建立适当的流程、控制和治理,以安全和公平的方式使用数据,这是必须优先考虑的事情。”
解决方案:设置护栏
在接触数据并开始 AI 计划之前,领导者必须花时间了解潜在的陷阱,包括泄漏、数据滥用和数据错误分类以及偏见。然后,他们应该建立流程和工具来保护所有位置的数据。此外,重要的是要规划哪些角色获得哪种访问权限,并保持警惕,跟踪和监控该活动。
挑战4:管理人工智能基础设施需要采用新方法
网络配置错误、节点故障或 GPU 丢失可能会中断运营,导致新产品发布延迟或阻碍关键见解的发现。由于架构的复杂性和对熟练人才的需求,解决这些挑战非常困难。管理最佳集群设计和智能集群管理需要专业知识。此外,在整个流程中不断调整和完善模型对于成功至关重要。
解决方案:采用新的运营策略
要让 AI 计划保持正轨并不断优化,需要实施 AIOps 方法,该方法将大数据、分析和机器学习结合到一个自动化和智能的 IT 平台中。这可确保对 AI 管道的所有方面具有完全的可视性和控制力。它可以自动对组织数据进行分类和集成,识别应用程序性能和可用性问题,诊断根本原因,然后解决这些问题,以最大限度地减少速度减慢和短缺。通过这样做,它可以发现优化工作负载和提高效率的方法。
挑战 5:投资回报率取决于可用性和性能
人工智能是一项要求高、成本高昂的工作,无法承受低效的系统或不必要的停机时间——然而,许多组织每天都在努力应对。例如,最近的一篇 Meta 论文详细介绍了该公司训练其 Llama 3 模型的经验,该模型在集群中拥有 16,000 个 GPU。不幸的是,集群每三个小时就会发生一次与 GPU 相关的故障。当你同时执行并行工作负载时,这可能会导致延迟、作业重启,甚至不正确的结果和成果。
“我们从客户和其他大型 AI 基础设施提供商那里听说,在任何时候,他们的 AI 集群可能只有 30% 到 70% 的 GPU 节点可用,”Ha 说道。“如果您只有 70% 的 GPU 节点可用,并且系统仅实现了 70% 的目标性能,那么您只能实现 AI 基础设施投资潜在价值的 49%。51% 的价值损失将对您的投资回报率产生重大负面影响。”
解决方案:自动化是关键
Ha 表示,能够监控、管理和创建自动化和预测故障的流程是降低大量风险的最佳方法。当 Meta 实施自动化工具和流程时,他们发现一次训练运行中出现了 400 多次中断,除了三次中断外,其余所有中断都自动处理,无需人工干预,也不必暂停工作。
他说:“这就是拥有超过 20 亿工时管理这些大型 AI 集群经验的秘诀——拥有工具、洞察力和自动化流程来保持它们正常运行。”
展望并启动人工智能战略
启动人工智能战略需要时间、精力和大量的专业技能和理解。应对和应对这些挑战,同时跟上竞争对手推出自己的计划的步伐,风险越来越大,尤其是在使用快速发展的技术时。哈说,有办法加强和保护人工智能计划。
“挑战不仅仅在于复杂性,甚至技能组合,”他说,“而是在于让你的组织随着技术的发展而发展。”
为了确保 AI 计划取得成功,组织必须紧跟最新技术进步,并培养精通 AI 的内部文化。通过利用 AIOps 和 MLOps 的功能,这些组织可以将 AI 无缝集成到各个团队和领域的工作流程中。为了不断优化 AI 模型,打破部门孤岛并促进协作至关重要。在与 AI 专家合作的支持下,实验、迭代和从成功和失败中学习的文化是长期 AI 战略成功的基础。
对于成功的人工智能计划来说,最重要的建议是什么?
“对合适的工具、合作伙伴和专业知识进行坚实的投资,”Ha 说道。“人工智能是一项艰巨的任务,但从一开始就开发基础和这些能力有助于您获得投资回报和更快的价值实现时间,大大降低业务风险并提供您在市场上取得成功所需的竞争优势。”
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ke-fu-ren-gong-zhi-neng-ji-chu-she-shi-bu-shu-zhang-ai-de-5