网络攻击每年都越来越频繁,数据泄露的成本也越来越高。无论公司是在开发过程中保护其 AI 系统,还是使用其算法来改善其安全状况,他们都必须减轻网络安全风险。联合学习或许可以同时做到这两点。
什么是联邦学习?
联邦学习是一种人工智能开发方法,其中多方分别训练单个模型。每方都从中央云服务器下载当前的主要算法。他们在本地服务器上独立训练配置,完成后上传。这样,他们可以远程共享数据,而无需暴露原始数据或模型参数。
集中式算法会衡量从各个训练配置中收到的样本数量,然后汇总这些样本以创建单一全局模型。所有信息都保留在每个参与者的本地服务器或设备上 — 集中式存储库会衡量更新,而不是处理原始数据。
联邦学习的受欢迎程度正在迅速提高,因为它解决了常见的与开发相关的安全问题。它还因其性能优势而备受追捧。研究表明,这种技术可以将图像分类模型的准确率提高高达 20% ——这是一个显着的提升。
横向联邦学习
联邦学习有两种类型。传统选择是水平联邦学习。在这种方法中,数据被划分到各个设备中。数据集共享特征空间,但具有不同的样本。这使得边缘节点能够协作训练机器学习 (ML) 模型而无需共享信息。
垂直联邦学习
在垂直联邦学习中,情况正好相反——特征不同,但样本相同。特征在参与者之间垂直分布,每个参与者都拥有同一组实体的不同属性。由于只有一方可以访问完整的样本标签集,因此这种方法可以保护隐私。
联邦学习如何加强网络安全
传统开发容易出现安全漏洞。尽管算法必须具有广泛的相关数据集才能保持准确性,但涉及多个部门或供应商会为威胁行为者创造机会。他们可以利用缺乏可见性和广泛的攻击面来注入偏见、进行及时工程或泄露敏感的训练数据。
当算法被部署在网络安全角色中时,其性能会影响组织的安全态势。研究表明,在处理新数据时,模型准确性可能会突然下降。尽管人工智能系统可能看起来很准确,但它们在其他地方测试时可能会失败,因为它们学会了走捷径来产生令人信服的结果。
由于人工智能无法批判性思考或真正考虑背景,其准确性会随着时间的推移而降低。尽管机器学习模型在吸收新信息时不断发展,但如果其决策技能基于捷径,其性能就会停滞不前。这就是联邦学习的用武之地。
通过分散更新训练集中式模型的其他显著优势包括隐私和安全。由于每个参与者都是独立工作的,因此没有人需要共享专有或敏感信息来推进训练。此外,数据传输越少,中间人攻击 (MITM) 的风险就越低。
所有更新都经过加密,以实现安全聚合。多方计算将它们隐藏在各种加密方案后面,从而降低违规或 MITM 攻击的可能性。这样做可以增强协作,同时最大限度地降低风险,最终改善安全态势。
联邦学习的一个被忽视的优势是速度。与集中式学习相比,它的延迟要低得多。由于训练是在本地而不是在中央服务器上进行的,因此该算法可以更快地检测、分类和应对威胁。最小的延迟和快速的数据传输使网络安全专业人员能够轻松处理不良行为者。
网络安全专业人员的注意事项
在利用这种训练技术之前,人工智能工程师和网络安全团队应该考虑几个技术、安全和操作因素。
资源使用情况
人工智能开发成本高昂。构建自己的模型的团队预计前期投入在500 万至 2 亿美元之间,每年维护费用高达 500 万美元。即使成本分摊到多方,财务投入也是巨大的。企业领导者应该考虑云计算和边缘计算成本。
联邦学习也需要大量计算,这可能会带来带宽、存储空间或计算限制。虽然云可以实现按需扩展,但如果网络安全团队不小心,就会面临供应商锁定的风险。战略性硬件和供应商选择至关重要。
参与者信任
虽然分散训练是安全的,但它缺乏透明度,因此存在故意偏见和恶意注入的问题。在集中算法汇总模型更新之前,共识机制对于批准模型更新至关重要。这样,他们可以在不牺牲机密性或泄露敏感信息的情况下最大限度地降低威胁风险。
训练数据安全
虽然这种机器学习训练技术可以改善公司的安全状况,但 100% 安全是不存在的。在云端开发模型存在内部威胁、人为错误和数据丢失的风险。冗余是关键。团队应创建备份以防止中断,并在必要时回滚更新。
决策者应该重新审视其训练数据集的来源。在 ML 社区中,大量借用数据集的情况很普遍,这引发了人们对模型错位的担忧。在 Papers With Code 上,超过50% 的任务社区至少在 57.8% 的时间里使用借用的数据集。此外,50% 的数据集仅来自 12 所大学。
联邦学习在网络安全中的应用
一旦主要算法汇总并权衡参与者的更新,就可以将其重新共享给它所训练的任何应用程序。网络安全团队可以用它来检测威胁。这样做的好处是双重的——威胁行为者只能猜测,因为他们无法轻易窃取数据,而专业人士可以汇集见解,获得高度准确的输出。
联合学习非常适合威胁分类或入侵指标检测等相关应用。人工智能的庞大数据集和广泛的训练构建了其知识库,汇集了广泛的专业知识。网络安全专业人员可以使用该模型作为统一的防御机制来保护广泛的攻击面。
随着概念的发展或变量变得不再重要,ML 模型(尤其是那些进行预测的模型)很容易随着时间的推移而发生变化。借助联合学习,团队可以定期使用各种特征或数据样本更新其模型,从而获得更准确、更及时的洞察。
利用联邦学习实现网络安全
无论公司是想保护其训练数据集还是利用 AI 进行威胁检测,他们都应该考虑使用联合学习。只要他们战略性地应对潜在的内部威胁或违规风险,这种技术就可以提高准确性和性能并增强其安全态势。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/lian-bang-xue-xi-ru-he-yi-ji-wei-shen-me-zeng-qiang-wang