开源AI辩论:为什么选择性透明度构成严重威胁‌

开源AI辩论:为什么选择性透明度构成严重威胁‌

在当今科技巨头纷纷宣称其AI产品开源的时代,“开源”这一曾经的内行术语已跃然成为公众视野中的热门词汇。然而,在这个AI技术发展的关键时期,任何公司的失误都可能让公众对AI的信任度倒退十年甚至更久。在此背景下,开放性和透明度的概念被随意甚至不诚实地使用,以建立信任。同时,随着新白宫政府采取对科技监管更为放手的态度,创新与监管之间的界限已变得泾渭分明,预测如果“错误”的一方占据上风,将带来灾难性的后果。然而,存在一条经过验证的第三条道路,它植根于开放性和透明度的原则之中,真正的开源协作能够加速创新,同时促使行业开发出无偏见、合乎伦理且对社会有益的技术。

开源协作的力量

简而言之,开源软件以免费提供的源代码为特征,这些代码可以被查看、修改、剖析、采纳和分享,用于商业和非商业目的。历史上,开源软件如Linux、Apache、MySQL和PHP等对互联网的兴起起到了至关重要的作用。如今,通过民主化AI模型、数据、参数和开源AI工具的访问,社区可以再次加速创新,而不是不断地重复造轮子。这正是IBM最近对2400名IT决策者进行的一项研究所揭示的,研究发现,人们对使用开源AI工具来推动投资回报率(ROI)的兴趣日益增长。

在决定AI的ROI时,快速开发和创新位居榜首,但研究还证实,采用开放解决方案可能与更高的财务可行性相关。开源AI不仅有利于短期内的少数公司获利,更鼓励跨行业和领域的多样化、定制化应用的创建,这些领域可能原本没有资源来开发专有模型。

透明度的重要性

开源的透明度允许对AI系统的行为和伦理进行独立审查和审计。当我们利用公众的兴趣和动力时,他们能够发现问题和错误,正如在LAION 5B数据集事件中那样。在该事件中,公众找出了数据集中隐藏的超过1000个包含已验证儿童色情虐待材料的URL,这些数据为Stable Diffusion和Midjourney等生成式AI模型提供了燃料,这些模型是许多在线视频生成工具和应用的基础。如果LAION 5B数据集是封闭的,如OpenAI的Sora或Google的Gemini那样,后果可能会更加严重。

选择性透明度的危险

虽然源代码本身相对容易共享,但AI系统远比软件复杂。它们依赖于系统源代码、模型参数、数据集、超参数、训练源代码、随机数生成和软件框架,所有这些组件必须协同工作才能使AI系统正常运行。在AI安全成为关注焦点的背景下,声称某项发布是开源或开放源代码已成为常态。然而,为了准确无误,创新者必须分享AI系统的所有组成部分,以便其他参与者能够全面了解、分析和评估其属性,最终复制、修改和扩展其功能。

例如,Meta宣称Llama 3.1 405B是“第一个前沿级别的开源AI模型”,但只公开了系统的预训练参数(或权重)和一些软件。虽然这允许用户随意下载和使用模型,但源代码和数据集等关键组件仍然封闭,这在Meta宣布将注入AI机器人配置文件到网络中,同时停止对内容进行准确性审核的背景下变得更加令人担忧。

拥抱挑战

随着自动驾驶汽车在主要城市上路,AI系统在手术室中辅助外科医生,我们正处于让这项技术掌控更多领域的起点。前景广阔,但潜在的错误风险也同样巨大。因此,我们需要建立新的衡量标准来评估AI的可信度。尽管斯坦福大学的Anka Reuel及其同事最近尝试为评估模型性能的AI基准测试建立新框架,但行业和公众所依赖的审查实践仍不够充分。基准测试未能考虑到学习系统核心的数据集在不断变化,以及适当指标因用例而异的事实。此外,该领域仍然缺乏丰富的数学语言来描述当代AI的能力和局限性。

通过分享整个AI系统以实现开放性和透明度,而不是依赖不足的审查和空谈流行语,我们可以促进更大的协作,并培育出安全、伦理上可接受的AI创新。尽管真正的开源AI为实现这些目标提供了一个经过验证的框架,但行业中缺乏透明度的问题令人担忧。如果没有科技公司的大胆领导和合作来进行自我管理,这一信息鸿沟可能会损害公众对AI的信任和接受度。

拥抱开放性、透明度和开源不仅仅是一种强大的商业模式,更是选择一种惠及所有人的AI未来,而不是仅仅惠及少数人。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/kai-yuan-ai-bian-lun-wei-shen-me-xuan-ze-xing-tou-ming-du

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年3月24日
Next 2025年3月24日

相关推荐

发表回复

Please Login to Comment