该法学硕士框架首次尝试对 Big AI 是否遵守《欧盟人工智能法案》进行基准测试

该法学硕士框架首次尝试对 Big AI 是否遵守《欧盟人工智能法案》进行基准测试

当大多数国家的立法者仍在讨论如何为人工智能设置护栏时,欧盟已经走在了前面,并于今年早些时候通过了基于风险的人工智能应用监管框架。

该法律于 8 月生效,尽管泛欧盟人工智能治理制度的全部细节仍在制定中——例如,行为准则正在制定中。但是,在未来的几个月和几年里,该法律的分层规定将开始适用于人工智能应用程序和模型制造商,因此合规倒计时已经开始。

评估人工智能模型是否以及如何履行其法律义务是下一个挑战。大型语言模型 (LLM) 和其他所谓的基础或通用人工智能将支撑大多数人工智能应用。因此,将评估工作重点放在人工智能堆栈的这一层似乎很重要。

进一步发展的是LatticeFlow AI,它是苏黎世联邦理工学院衍生出来的一家公司,专注于人工智能风险管理和合规性。

周三,欧盟发布了对《欧盟人工智能法案》的首个技术解释,这意味着它试图将监管要求映射到技术要求上,同时还推出了一个借鉴这项工作的开源 LLM 验证框架——它称之为Compl-AI(“compl-ai”……看看他们做了什么!)。

据 LatticeFlow 报道,人工智能模型评估计划(他们也称之为“第一个面向法规的 LLM 基准测试套件”)是瑞士联邦理工学院和保加利亚计算机科学、人工智能和技术研究所 (INSAIT) 长期合作的成果。

AI 模型制作者可以使用 Compl-AI 网站请求评估他们的技术是否符合欧盟 AI 法案的要求。

LatticeFlow 还发布了几个主流 LLM 的模型评估,例如 Meta 的 Llama 模型和 OpenAIGPT 的不同版本/大小,以及Big AI 的欧盟 AI 法案合规排行榜。

后者根据法律要求对 Anthropic、Google、OpenAI、Meta 和 Mistral 等模型的表现进行排名——从 0(即不符合)到 1(完全符合)。

如果缺少数据或模型制作者未提供该功能,则其他评估将被标记为 N/A。(注:在撰写本文时,也记录了一些负分,但我们被告知这是由于 Hugging Face 界面存在错误造成的。)

LatticeFlow 的框架根据 27 个基准来评估 LLM 的响应,例如“良性文本的有害完成”、“有偏见的答案”、“遵循有害的指令”、“真实性”和“常识推理”,这些只是它用于评估的几个基准类别。因此,每个模型在每一列中都会获得一定范围的分数(否则为 N/A)。

人工智能合规性好坏参半

那么主要的 LLM 表现如何呢?没有整体模型得分。因此,表现会根据评估的具体内容而有所不同——但在各种基准测试中,有一些明显的高点和低点。

例如,所有模型在不遵循有害指令方面都表现强劲;并且在不产生偏见答案方面全面表现相对较强 – 而推理和常识得分则参差不齐。

在其他方面,该框架用来衡量公平性的推荐一致性在所有模型中都表现得特别差——没有一个模型的得分高于中途水平(大多数模型的得分远低于中途水平)。

其他领域,例如训练数据的适用性和水印的可靠性和稳健性,由于很多结果被标记为 N/A,似乎基本上没有得到评估。

LatticeFlow 确实指出,在某些领域,模型的合规性更难评估,例如版权和隐私等热点问题。因此,它并不假装自己知道所有答案。

在一篇详细介绍该框架工作的论文中,参与该项目的科学家强调,他们评估的大多数小型模型(≤13B 个参数)“在技术稳健性和安全性方面得分较低”。

他们还发现“几乎所有被检验的模型都在努力实现高度的多样性、非歧视性和公平性。”

“我们认为,这些缺陷主要是由于模型提供商过于注重提高模型能力,而忽略了《欧盟人工智能法案》监管要求所强调的其他重要方面,”他们补充道,并表示,随着合规期限的临近,法学硕士将被迫将注意力转移到值得关注的领域——“从而实现法学硕士更加均衡的发展”。

鉴于目前还没有人确切知道遵守欧盟人工智能法案需要什么,LatticeFlow 的框架必然是一个正在进行的工作。它也只是对如何将法律的要求转化为可供基准测试和比较的技术成果的一种解释。但这是一个有趣的开始,需要持续努力探索强大的自动化技术,并试图引导其开发人员走向更安全的实用性。

“该框架是朝着全面合规性为中心评估欧盟人工智能法案迈出的第一步——但其设计方式是,随着法案的更新和各工作组取得进展,该框架可以轻松更新,以便与时俱进,”LatticeFlow 首席执行官 Petar Tsankov 告诉记者。“欧盟委员会支持这一点。我们希望社区和行业继续开发该框架,以打造一个全面而全面的人工智能法案评估平台。”

总结迄今为止的主要结论,Tsankov 表示,很明显,AI 模型“主要针对能力而非合规性进行了优化”。他还指出了“明显的性能差距”——指出一些高能力模型在合规性方面可以与较弱的模型相提并论。

Tsankov 表示,网络攻击恢复力(在模型层面)和公平性是特别令人关注的领域,许多模型在前者方面的得分低于 50%。

他说:“虽然 Anthropic 和 OpenAI 已成功调整其(封闭)模型以防止越狱和提示注入,但 Mistral 等开源供应商却不太重视这一点。”

由于“大多数模型”在公平性基准上的表现同样糟糕,他建议这应该成为未来工作的重点。

关于在版权和隐私等领域对法学硕士绩效进行基准测试的挑战,Tsankov 解释道:“对于版权而言,挑战在于当前的基准测试仅检查版权书籍。这种方法有两个主要限制:(i) 它不考虑涉及除这些特定书籍之外的材料的潜在版权侵权行为,以及 (ii) 它依赖于量化模型记忆,这是出了名的困难。 

“对于隐私而言,挑战是类似的:基准仅试图确定模型是否记住了特定的个人信息。”

LatticeFlow 热切希望更广泛的人工智能研究社区能够采用和改进免费开源框架。

苏黎世联邦理工学院教授、INSAIT 创始人兼科学主任 Martin Vechev 也参与了这项工作,他在一份声明中表示:“我们邀请人工智能研究人员、开发者和监管者加入我们,共同推进这一不断发展的项目。我们鼓励其他研究团体和从业者通过完善《人工智能法案》规划、增加新基准和扩展这一开源框架做出贡献。”

“该方法还可以扩展到根据欧盟人工智能法案以外的未来监管法案评估人工智能模型,使其成为跨不同司法管辖区的组织的宝贵工具。”

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/gai-fa-xue-shuo-shi-kuang-jia-shou-ci-chang-shi-dui-big-ai

Like (0)
王 浩然的头像王 浩然作者
Previous 2024年10月17日
Next 2024年10月17日

相关推荐

发表回复

Please Login to Comment