人工智能不断从新的经验中学习,不会忘记过去

人工智能不断从新的经验中学习,不会忘记过去

我们的大脑在不断学习。那家新开的三明治熟食店很棒。那家加油站?以后最好别去那里。

此类记忆会重新连接大脑中支持新学习的区域。在睡眠期间,前一天的记忆会被转移到大脑的其他部位进行长期存储,从而释放脑细胞以应对第二天的新体验。换句话说,大脑可以不断吸收我们的日常生活,而不会失去对之前记忆的访问权。

人工智能则不然。GPT-4 和其他风靡全球的大型语言和多模态模型都是使用深度学习构建的,深度学习是一类松散地模仿大脑的算法。问题是什么?阿尔伯塔大学的 Shibhansh Dohare 博士最近告诉《自然》杂志: “采用标准算法的深度学习系统会逐渐失去学习能力。”

原因在于它们的设置和训练方式。深度学习依赖于多个相互连接的人工神经元网络。将数据(例如,大量在线资源,如博客、新闻文章以及 YouTube 和 Reddit 评论)输入算法会改变这些连接的强度,这样人工智能最终就会“学习”数据中的模式,并利用这些模式生成雄辩的回应。

但这些系统基本上是冻结在时间里的大脑。解决一项新任务有时需要进行一轮全新的训练和学习,这会抹去之前的内容,花费数百万美元。对于 ChatGPT 和其他 AI 工具来说,这意味着它们会随着时间的推移变得越来越过时。

本周,Dohare 和同事找到了解决这个问题的方法。关键是在完成任务后选择性地重置一些人工神经元,但不会大幅改变整个网络——有点像我们睡觉时大脑中发生的情况。

当使用持续视觉学习任务进行测试时(例如区分猫和房屋或区分停车标志和校车),配备选择性重置的深度学习算法可以轻松在 5,000 项不同任务中保持高精度。相比之下,标准算法则迅速恶化,其成功率最终下降到大约相当于掷硬币的水平。

谷歌 DeepMind 的克莱尔·莱尔博士和拉兹万·帕斯卡努博士写道,这种被称为持续反向传播的策略是“解决持续学习问题的一系列庞大且快速发展的方法中的首批方法之一”,但他们并未参与这项研究。

机器思维

深度学习是训练人工智能最流行的方法之一。这些算法受到大脑的启发,具有多层人工神经元,这些神经元相互连接形成人工神经网络。

随着算法的学习,一些连接会加强,而另一些连接则会减弱。这个过程称为可塑性,它模仿大脑的学习方式,并优化人工神经网络,以便它们能够为问题提供最佳答案。

但深度学习算法不像大脑那么灵活。一旦训练完成,它们的权重就会固定不变。学习新任务会重新配置现有网络中的权重——在此过程中,人工智能会“忘记”以前的经验。对于识别图像或处理语言等典型用途来说,这通常不是问题(但它们无法动态适应新数据)。但在训练和使用更复杂的算法时,这就会非常成问题——例如,那些像人类一样学习和响应环境的算法。

用一个经典的游戏例子来说,“一个神经网络可以被训练来在视频游戏《Pong》上获得满分,但是如果训练同一个网络去玩《太空侵略者》,那么它在《Pong》上的表现就会大大下降”,Lyle 和 Pascanu 写道。

这个问题被恰当地称为灾难性遗忘,计算机科学家多年来一直在与它作斗争。一个简单的解决方案是将过去的事情一笔勾销,然后使用新旧数据的组合从头开始重新训练人工智能以完成新任务。虽然它可以恢复人工智能的能力,但核选项也会抹去所有以前的知识。虽然这种策略对于较小的人工智能模型是可行的,但对于大型人工智能模型(例如那些为大型语言模型提供支持的模型)来说并不实用。

备份

这项新研究增加了深度学习的一个基本机制,即反向传播过程。简而言之,反向传播为人工神经网络提供反馈。根据输出与正确答案的接近程度,反向传播会调整算法的内部连接,直到它学会手头的任务。然而,随着不断学习,神经网络会迅速失去可塑性,无法再学习。

在这里,研究小组利用 1959 年的一个理论迈出了解决这个问题的第一步,这个理论有一个令人印象深刻的名字——“塞尔福里奇的混乱”。这个理论描述了我们如何连续处理视觉信息,并对图像识别和其他领域的人工智能产生了重大影响。

该团队使用ImageNet(一个包含数百万张用于 AI 训练的图像的经典存储库)确定,标准深度学习模型在面对数千个连续任务时会逐渐失去可塑性。这些任务对于人类来说非常简单,例如区分猫和房屋,或区分停车标志和校车。

按照这一标准,任何性能下降都意味着人工智能正在逐渐丧失其学习能力。在早期的测试中,深度学习算法的准确率高达 88%。但到了第 2,000 个任务时,它们就失去了可塑性,性能下降到接近或低于基线。

更新后的算法表现更加出色。

它仍然使用反向传播,但略有不同。在每个周期的学习过程中,一小部分人工神经元会被清除。为了防止破坏整个网络,只有使用较少的人工神经元才会被重置。升级后,该算法可以处理多达 5,000 个不同的图像识别任务,准确率超过 90%。

在另一个概念验证中,研究团队使用该算法驱动一个模拟蚂蚁的机器人穿越多种地形,以观察它能够多快学习和根据反馈进行调整。

通过连续反向传播,模拟生物可以轻松地在摩擦力可变的电子游戏道路上导航,例如在沙地、人行道和岩石上徒步旅行。由新算法驱动的机器人至少前进了 5000 万步。而由标准算法驱动的机器人崩溃得更早,性能下降到零的时间提前了约 30%。

这项研究是解决深度学习可塑性问题的最新研究。

先前的一项研究发现,所谓的休眠神经元(不再响应来自其网络的信号的神经元)会使人工智能变得更加僵化,而在训练过程中重新配置它们可以提高性能。但莱尔和帕斯卡努写道,这并不是全部。人工智能网络无法再学习也可能是由于网络交互破坏了人工智能的学习方式。科学家们对这一现象的了解还只是皮毛。

与此同时,就实际用途而言,当谈到人工智能时,“你希望它们与时俱进,”多哈雷说。持续学习不仅仅是为了区分猫和房子。它还可以帮助自动驾驶汽车在不断变化的天气或照明条件下更好地在新街道上行驶——特别是在微环境地区,雾可能会迅速转变为明亮的阳光。

解决这个问题“提供了一个令人兴奋的机会”,它可以让人工智能在学习新信息的同时保留过去的知识,并像我们人类一样灵活地适应不断变化的世界。莱尔和帕斯卡努写道:“这些能力对于开发真正自适应的人工智能系统至关重要,这些系统可以无限期地继续训练,应对世界的变化并学习新的技能和能力。”

原创文章,作者:点点,如若转载,请注明出处:https://www.dian8dian.com/ren-gong-zhi-neng-bu-duan-cong-xin-de-jing-yan-zhong-xue-xi

Like (0)
点点的头像点点
Previous 2024年9月3日 下午6:00
Next 2024年9月4日 上午8:00

相关推荐

发表回复

Please Login to Comment