
事件响应是应对系统中断和减速的过程,是 IT 运营的一个重要方面。这也是一项传统上涉及大量手动、耗时流程的活动。
Harness正致力于通过一项新的事件响应服务应对这一挑战。该技术目前作为公司同名平台上的一个模块进入早期试用阶段。Harness 于 2017 年成立,最初专注于 DevOps 的持续集成/持续交付 (CI/CD) 自动化。此后几年,该公司已扩展为一个拥有多个模块的软件交付平台。2024 年秋季,Harness 进军agentic AI,最初是为了帮助支持软件开发。
现在,该公司正在扩展相同的核心代理 AI 基础以用于事件响应。新解决方案还受益于最初由开发工作流供应商Transposit 开发的许可功能。Transposit联合创始人 Tina Huang 及其团队的许多成员于 2024 年 9 月加入 Harness。
Harness Incident Response 的目标是加快事件的平均解决时间 (MTTR)。
“当你思考 DevOps 平台迄今为止的发展时,你会发现它主要是为了帮助你构建这些部署,”黄仁勋说。“我认为,接下来最自然的思考就是,‘在部署投入生产后,我该如何掌控它们?’”
Harness 如何利用代理 AI 实现自主事件响应
Harness 事件响应模块的核心是该公司的 AI 代理架构,于 2024 年 9 月首次推出。
Harness 首席执行官兼联合创始人 Jyoti Bansal 解释说,其 AI 代理旨在提供自主协助,而不仅仅是向工程师发出事件警报。传统的事件响应技术使用一种称为剧本的方法。IT 团队通常与站点可靠性工程师 (SRE) 合作,定义剧本,列出从不同类型的服务中断中恢复的分步流程。
代理 AI 代理不仅仅依赖于预定义的剧本,还可以建议采取行动、识别潜在的根本原因,甚至动态创建新的剧本。
班萨尔说:“代理工作流程正在建议应该采取的行动。”
黄解释说,人工智能代理执行多个步骤,这对于帮助组织更快地应对事件至关重要。班萨尔解释说,甚至在剧本运行之前,就需要进行一定程度的分类。例如,一般分类可以确定哪些服务受到影响,或者确定也会受到事件影响的上游和下游依赖关系。
Harness 的系统拥有能够感知并接入多个系统的代理,可以自动收集信息,包括来自 Slack 频道的信息和讨论。这些信息可以帮助其他代理向人类发出警报并提供自主协助。
虽然该系统自动化程度很高,但黄强调,人类仍然参与其中。但人类不必在收到问题警报后再弄清楚是否有应对方案,如果有,又该如何操作,系统会推荐补救措施,人类只需批准即可。
事件响应需要的不仅仅是技术
Harness 事件响应模块可以自行运行,这意味着组织不需要运行任何其他 Harness 模块。
然而,Bansal 预计,组合产品可能会带来好处,因为该产品可以与 DevOps 或混沌工程等多种其他工作流程集成。混沌工程是向应用程序注入意外变量和事件以查看其响应的过程。自 2022 年以来,Harness 平台就已包含混沌工程模块。
黄解释说,作为事件响应平台的一部分,组织可以与混沌工程模块一起运行“消防演习”来测试不同的场景。
“事故发生的频率很低,而且往往是由于你没有及早发现某些事情而导致的不幸结果,”黄说。“我们希望能够采取一种非常积极主动的事故响应方法。”
企业如何从代理 AI 驱动的事件响应中获益
Harness 使用事件响应模块的一家客户是Tyler Technologies,该公司为公共部门开发软件。
该公司一直在使用 Harness 平台进行持续部署、云成本管理和功能标志开发。Tyler Technologies 首席技术官 Jeff Green 解释说,增加事件响应功能可以帮助解决面临的一个关键挑战。
“我们的主要挑战是真正整合所有运营数据、指标和流程,然后将它们关联到单一的统一方法来管理事件并自动响应它们,”他说。“我们的产品组合包括 100 多种基于不同技术的产品,使用各种各样的 devops 工具和平台。”
事件响应功能将补充 Tyler Technologies 已经与 Harness 合作开展的现有业务。例如,能够将部署与事件关联起来,或将功能标志与事件关联起来。
“我们认为,产品中融入的人工智能功能将帮助我们进行根本原因分析、找到缓解或解决事件的方法以及预防事件,从而节省大量时间,”Green 表示。“如今,这些工作大部分都是由人类从多个来源提取数据、搜索日志和应用程序性能监控 (APM) 数据并寻找模式来完成的,而所有这些任务都是人工智能更适合做的。”
代理 AI 对事件响应的投资回报率
另一位评估事件响应模块的 Harness 客户是InStride的高级 DevOps 工程师 Omar Alwattar 。
Alwattar表示,他的公司一直在使用 Harness Continuous Delivery 模块。他指出,在事件响应方面,他的组织面临两个关键挑战:预防性监控和根本原因识别。他说,新的 Harness 事件响应工具对他的公司很有吸引力,因为它将有助于更快地识别问题并自动提出修复建议。
“就投资回报率而言,最显著的影响是减少停机时间,因为它直接影响 SLA 遵守情况和客户满意度,”Alwattar 说道。“此外,通过自动化事件响应的各个方面,我们的 11 人 DevOps 团队可以更加专注于战略项目和创新,而不是不断进行故障排除。”
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/harness-ru-he-jia-yu-dai-li-ai-tong-guo-zi-dong-shu-ju-shou