DeepMind如何重塑机器人

在征服了围棋和蛋白质折叠之后,该公司转向了一个真的困难的问题

14分钟读数
垂直
一个机器人将多个物品抛向空中的图像。
埃德蒙·德哈罗
DarkGray

网上亚博A已经深入我们的生活,尽管你可能很难举出明显的例子。在无数其他的幕后工作中,神经网络为我们的虚拟助手提供动力,提供网上购物建议,识别我们快照中的人,审查我们的银行交易以寻找欺诈证据,转录我们的语音信息,以及清除仇恨的社交媒体帖子。这些应用程序的共同之处在于,它们涉及在一个受约束的、可预测的环境中学习和操作。

但是,将人工智能更牢固地嵌入我们的努力和企业,是一个巨大的挑战。为了达到下一个水平,研究人员正试图融合人工智能和机器人技术,创造一种智能,可以在混乱、不可预测和无情的现实世界中做出决策和控制身体。这是一个潜在的革命性目标,已经引起了地球上一些最强大的技术研究机构的注意。“我想说,机器人作为一个领域可能比计算机视觉落后10年,”他说Raia哈德机器人技术主管DeepMind谷歌在伦敦的人工智能合作伙伴。(这两家公司都是Alphabet的子公司。)

这篇文章是我们人工智能特别报道的一部分。”人工智能大清算.”

即使对于谷歌在美国,挑战令人生畏。有些问题很难解决,但很简单:对于大多数机器人应用来说,很难收集到推动其他人工智能领域进步的庞大数据集。但有些问题更为深刻,与人工智能领域长期存在的难题有关。比如,你如何在不忘记旧任务的情况下学习新任务?你如何创造一个人工智能,让它可以把它在新任务中学到的技能应用到它以前掌握的任务中?

成功将意味着向新的应用类别开放人工智能。我们最热切希望人工智能做的许多事情——驾驶汽车和卡车、在养老院工作、灾后清理、做基本家务、建造房屋、播种、培育和收割庄稼——只有比我们现在拥有的机器人更复杂、更多功能的机器人才能完成。

除了打开潜在的巨大市场之外,这项工作还直接关系到一些非常重要的问题,不仅对机器人技术,而且对所有人工智能研究,甚至对我们对自身智能的理解都具有深远的意义。

让我们从首先是平淡的问题。一个神经网络只取决于用来训练它的数据的质量和数量。大量数据集的可用性是人工智能最近取得成功的关键:图像识别软件是在数百万张标记图像上进行训练的。AlphaGo它在古老的围棋游戏中击败了一位特级大师,它是在一个包含数十万人对弈的数据集上进行训练的,并在模拟中对自己进行了数百万次对弈。

然而,要训练一个机器人,无法获得如此庞大的数据集。哈德赛尔指出:“这是个问题。你可以在几分钟内模拟数千个围棋游戏,在数百个cpu上并行运行。但如果一个机器人拿起一个杯子需要3秒,那么每个机器人每分钟只能做20次。更重要的是,如果你的图像识别系统把前一百万张图像弄错了,这可能也没什么关系。但如果你的双足机器人在尝试走路的前1000次摔倒,那么你的机器人就会严重受损,甚至更糟。

现实世界数据的问题——至少目前是无法克服的。但这并没有阻止DeepMind竭尽所能地收集数据,机器人在实验室里不停地旋转。在整个领域,机器人研究人员正试图通过一种名为“模拟到现实”的技术来解决这种数据缺乏的问题。

位于旧金山的实验室OpenAI最近在训练一只机械手解决魔方时利用了这一策略。研究人员构建了一个包含立方体和机械手虚拟模型的虚拟环境,并训练人工智能在模拟中运行机械手。然后他们将人工智能安装在真正的机械手上,并给它一个真正的魔方。他们的模拟到真实的程序使物理机器人解决了物理难题。

哈德塞尔说,尽管取得了这样的成功,但这项技术仍有很大的局限性。他指出,人工智能研究员和机器人专家罗德尼•布鲁克斯他喜欢说模拟游戏“注定会成功”。’”问题在于,模拟太过完美,与现实世界的复杂性相去甚远。哈德塞尔说:“想象一下,在模拟中,两只机械手试图把一部手机组装在一起。如果你允许他们尝试数百万次,他们最终可能会发现,把所有的碎片都抛向空中完全适当的力度,用完全适当的旋转,他们可以在几秒钟内制造出手机:这些碎片精确地落在机器人想要的地方,制造出一部手机。这可能在完全可预测的模拟环境中起作用,但在复杂、混乱的现实中却永远不起作用。目前,研究人员不得不满足于这些不完美的拟像。“你可以人为地添加噪音和随机性,”哈德塞尔解释道,“但目前还没有一种模拟技术足以真正重现现实的一小部分。”

灾难性遗忘:当人工智能学习一项新任务时,它有一种不幸的倾向,即忘记所有旧的任务。

还有更多深刻的问题。哈德赛尔最感兴趣的是灾难性的忘记:当人工智能学习一项新任务时,它有一种不幸的倾向,即忘记所有旧的任务。

问题不在于缺乏数据存储。这是大多数现代人工智能学习的固有方式。深度学习是当今最常见的人工智能类别,它基于神经网络,这种神经网络使用类似神经元的计算节yabo2016网上亚博A点,这些节点分层排列,通过类似突触的连接连接在一起。

在执行任务之前,例如将图像分类为猫或狗,神经网络必须经过训练。第一层节点接收猫或狗的输入图像。节点检测图像的各种特征,要么开火,要么保持沉默,将这些输入传递给第二层节点。如果前一层的输入足够高,每一层中的每个节点都会触发。可以有很多这样的层,在最后,最后一层将给出一个结论:“猫”或“狗”。

每个连接都有不同的“权重”。例如,节点A和节点B可能都将它们的输出提供给节点C。根据它们的信号,C可能会触发,也可能不会。然而,a - c连接的权重可能是3,B-C连接的权重可能是5。在这种情况下,B对c有更大的影响力。举个过于简单的例子,如果图像中的生物有锋利的牙齿,A可能会开枪,而如果生物有长鼻子,B可能会开枪。因为鼻子的长度比牙齿的锋利更有助于区分狗和猫,所以C更关注B而不是A。

每个节点都有一个阈值,超过该阈值将向其自己的下游连接发送信号。假设C的阈值是7。那么如果只有A开火,它会保持安静;如果只有B开火,它会保持安静;但如果A和B同时开火,它们给C的信号加起来会达到8,C也会开火,影响下一层。

这一切和培训有什么关系?任何学习方案都必须能够区分正确和不正确的反应,并相应地改进自己。如果一个神经网络看到一张狗的图片,它输出“狗”,那么触发的连接就会加强;那些没有这样做的人将被削弱。如果它不正确地输出“cat”,则会发生相反的情况:触发的连接将被削弱;那些没有这样做的国家将得到加强。

神经网络的信息图,用于确定图像是猫还是狗。训练神经网络来区分一张照片是猫还是狗,使用了网络中的部分节点和连接(左边红色部分所示)。使用一种称为弹性权重巩固的技术,该网络可以接受不同任务的训练,区分汽车和公共汽车的图像。来自原始任务的键连接被“冻结”,新的连接被建立(右边蓝色部分)。冻结连接的一小部分(否则将用于第二个任务)不可用[紫色,右侧图]。这会略微降低第二个任务的性能。

但是想象一下,你用你的狗和猫分类神经网络,现在开始训练它来区分公共汽车和汽车。它之前的所有训练都将无用。首先,它对车辆图像的响应输出是随机的。但在经过训练后,它会重新衡量它的关系,并逐渐变得有效。它最终将能够非常准确地对公共汽车和轿车进行分类。不过,在这一点上,如果你给它看一张狗的照片,所有的节点都将被重新加权,它将“忘记”之前学过的所有东西。

这是灾难性的遗忘,这也是编程具有类似人类灵活智能的神经网络如此困难的很大一部分原因。“我们的一个经典例子是训练一个特工玩游戏发出难闻的气味哈德赛尔说。她说,你可以让它玩,这样它就能以20比0赢得每一场与电脑的比赛;但如果你稍微改变一下权重,比如训练它突破吃豆人,然后表演就会噗的一声!-从悬崖上掉下去。”突然之间,它每次都会损失20比0。

这一弱点不仅对旨在成功完成多个不同任务的机器构成了重大障碍,而且对任何旨在适应周围环境变化、必要时学习新策略的人工智能系统也构成了重大障碍。

有很多方法围绕这个问题。一个显而易见的方法就是简单地将每种技能隔离开来。在一个任务上训练你的神经网络,将网络的权重保存到数据存储中,然后在一个新任务上训练它,将这些权重保存在其他地方。然后,系统只需要在一开始就识别挑战的类型,并应用适当的权重集。

但这种策略是有限的。首先,它是不可扩展的。如果你想要制造一个能够在广泛的环境中完成许多任务的机器人,你就必须对它进行每一种环境的训练。如果环境是非结构化的,你甚至无法提前知道其中一些任务是什么。另一个问题是,这种策略不会让机器人把它在解决任务A时获得的技能转移到任务b上。这种转移知识的能力是人类学习的一个重要标志。

Hadsell的首选方法是"弹性重量加固“其要点是,在学习一项任务后,神经网络将评估神经元节点之间的突触状连接中哪些对该任务最重要,并部分冻结它们的权重。“人数会相对较少,”她说。“5%吧。”然后保护这些权重,使它们更难改变,而其他节点可以照常学习。现在,当你发出难闻的气味-玩AI学会玩吃豆人这些神经元与发出难闻的气味将保持在原地,并继续做得足够好吗发出难闻的气味.它可能不会以20比0的比分继续获胜,但可能以18比2的比分获胜。

Raia Hadsell图片。

机器人手握魔方的图像。Raia Hadsell(上)在伦敦的DeepMind领导着一个机器人专家团队。在OpenAI,研究人员通过模拟训练一只机械手(上图)来解决魔方。上图:DeepMind;底部:OpenAI

然而,这有一个明显的副作用。每次你的神经网络学习一项任务,就会有更多的神经元变得无弹性。如果发出难闻的气味修复一些神经元突破哈德塞尔解释道:“最终,随着你的代理不断学习雅达利游戏,它会变得越来越固定,越来越不具有可塑性。”

这与人类的学习大致相似。当我们年轻的时候,我们非常擅长学习新事物。随着年龄的增长,我们在所学的东西上做得更好,但发现学习新技能更难。

哈德塞尔说:“婴儿开始时的联系要紧密得多,但却要弱得多。”“随着时间的推移,这些联系变得稀疏但更强。它让你拥有记忆,但也限制了你的学习。”她推测,这样的事情可能有助于解释为什么很小的孩子没有记忆:“我们的大脑结构根本不支持记忆。”在一个非常小的孩子身上,“一切都被灾难性地遗忘了,因为一切都是相连的,没有什么是被保护的。”

哈德塞尔认为,弹性丧失问题是可以解决的。自2018年以来,她一直与DeepMind团队合作,研究一项名为“进步和压缩“它涉及结合机器学习中三个相对较新的思想:渐进式神经网络、知识蒸馏和弹性权重巩固,如上所述。

渐进式神经网络是避免灾难性遗忘的直接方法。不是用一个神经网络训练一个任务,然后再训练另一个任务,而是用一个神经网络训练一个任务,比如,突破.然后,当它完成训练时,它会冻结它的连接,将神经网络移动到存储中,并创建一个新的神经网络来训练一个新任务,比如,吃豆人.它对每个早期任务的知识都被冻结在原地,所以不能被遗忘。当每个新的神经网络被创建时,它会从之前训练的游戏中获得连接,因此它可以将技能从旧的任务转移到新的任务中。但是,哈德塞尔说,它有一个问题:它不能以另一种方式传递知识技能到老。“如果我回去玩突破再说一次,我并没有从这款新游戏中学到任何东西。”“没有反向转移。”

这是由英裔加拿大计算机科学家发明的知识蒸馏杰弗里•辛顿进来了。它包括将许多不同的神经网络训练成一个任务,并将它们压缩成一个单一的网络,平均它们的预测。所以,你没有很多神经网络,每个神经网络都在一个单独的游戏上进行训练,你只有两个:一个学习每个新游戏,称为“活动列”,另一个包含从以前的游戏中学习的所有知识,被平均出来,称为“知识库”。首先对活动列进行新任务(“进度”阶段)的训练,然后将其连接添加到知识库,并提取(“压缩”阶段)。这有助于将两个网络描绘成字面上的两列。哈塞尔做到了,她一边说,一边把它们画在白板上。

如果你想要制造一个能够在广泛的环境中完成许多任务的机器人,你就必须对它进行每一种环境的训练。

问题是,通过使用知识蒸馏将许多独立的神经网络整合在一起,你又带来了灾难性遗忘的问题。您将改变连接的所有权重,并使您之前的训练变得无用。为了解决这个问题,Hadsell添加了弹性权重整合:每当活动列将其对特定任务的学习转移到知识库时,它都会部分冻结对该特定任务最重要的节点。

通过拥有两个神经网络,Hadsell的系统避免了弹性权重巩固的主要问题,即所有连接最终都会冻结。知识库可以大到你想要的程度,所以几个冻结的节点无关紧要。但是活动列本身可以小得多,而较小的神经网络可以比较大的神经网络更快更有效地学习。因此,哈德塞尔说,“进步-压缩”模型将允许人工智能系统将技能从旧任务转移到新任务,从新任务转移到旧任务,而不会灾难性地忘记或无法学习任何新东西。

其他研究人员正在使用不同的策略来解决灾难性遗忘问题;有六种左右的研究途径。参议员泰德他是美国国防高级研究计划局的项目经理。美国国防部高级研究计划局),他领导的团队正在使用一种最有前途的技术,即“内部回放”。“这是模仿大脑如何运作的理论,”参议员解释说,“尤其是睡眠在保存记忆中的作用。”

该理论认为,人类的大脑在清醒和睡眠时都在回放白天的记忆:它以与有相应经历时相似的模式重新激活神经元。这种重新激活有助于稳定模式,这意味着它们不会那么容易被覆盖。内部重放也有类似的作用。在学习任务之间,神经网络重新创建连接和权重的模式,松散地模仿人类神经活动的清醒-睡眠周期。这项技术已被证实相当有效的避免灾难性的遗忘。

有很多在将人工智能安全地带入我们的日常生活中,还有其他需要克服的障碍。“我们在符号、数据驱动的人工智能方面取得了巨大进展,”他说Thrishantha纳纳亚卡拉他在伦敦帝国理工学院(Imperial College London)研究机器人。“但在接触方面,我们惨败了。我们没有一个可以放心安全地抱着仓鼠的机器人。我们不能让机器人在老人或孩子身边。”

纳纳亚卡拉指出,使动物能够处理世界的大部分“处理”并不发生在大脑中,而是发生在身体的其他地方。例如,人类耳道的形状可以分离出声波,本质上是“实时执行傅立叶级数”。否则,这一过程将不得不在大脑中进行,以宝贵的几微秒为代价。他说:“如果当你听到一些东西时,它们已经不存在了,那么你就没有融入环境。”但目前大多数机器人都依赖cpu来处理所有输入,他认为在取得实质性进展之前,必须克服这一限制。

你知道猫永远也学不了语言,我不介意。

他的同事佩Kormushev他说另一个问题是本体感觉,也就是机器人对自身身体的感觉。机器人本身的大小和形状的模型是由人类直接编程的。问题是,当它拿起一个沉重的物体时,它没有办法更新自己的形象。当我们拿起锤子时,我们调整了对身体形状和重量的心理模型,这让我们把锤子当作身体的延伸。“这听起来很荒谬,但它们(机器人)无法更新它们的运动学模型,”他说。他指出,新生婴儿会做出随机的动作,这不仅是对世界的反馈,也是对自己身体的反馈。他认为类似的技术也适用于机器人。

在牛津大学,英格玛·波斯纳正在研究机器人版的"元认知"人类的思维通常被建模为有两个主要的“系统”——系统1,它的反应迅速而直观,比如当我们接住一个球或回答诸如“这两个方块哪个是蓝色的?”系统2的反应更慢,更费力。当我们学习一项新任务或回答一个更难的数学问题时,它就会发挥作用。波斯纳建造了功能等效系统在人工智能。在他看来,机器人要么是过度自信,要么是不自信,它们需要知道自己什么时候不知道。“我们的大脑中有一些东西会检查我们对世界的反应。有一点是说不要相信你的直觉反应,”他说。

对于大多数研究人员来说,包括哈德塞尔和她在DeepMind的同事,长期目标是“一般”智能。然而,哈德塞尔关于通用人工智能的想法并不是通常的人工智能,它可以执行人类所能执行的所有智力任务,甚至更多。她说,激励她工作的“从来都不是建立超级智能的想法”。“更重要的是:我们如何提出一般方法来开发解决特定问题的智力?”例如,猫的智力是一般的,因为它永远不会遇到一些让它停滞不前或失败的新问题。“我发现动物的智力水平,包括世界上令人难以置信的敏捷性,融合不同的感官模式,真的很吸引人。你知道猫永远也学不了语言,我对此没有意见。”

哈德塞尔希望构建能够学习和处理特定领域内各种问题的算法和机器人。例如,一个打算在核事故后进行清理的机器人,可能有一些相当高的目标——“使该地区安全”——并能够将其划分为更小的子目标,比如找到放射性物质并安全地移除它们。

我忍不住要问关于意识。一些人工智能研究人员,包括哈德塞尔在DeepMind的同事莫里沙他们怀疑,如果机器没有某种意识,就不可能构建一个具有真正通用智能的实体人工智能。哈德赛尔本人,尽管有宗教哲学的背景,却有一种坚定的实践方法。

“我对意识的看法相当简单,”她说。对她来说,意识意味着一种跳出“现在”这个狭窄时刻思考的能力——用记忆回忆过去,用想象力想象未来。我们人类在这方面做得很好。其他生物则不太一样:猫的时间跨度似乎比我们小,对未来的规划也少。虫子,更少。她不愿在意识和其他哲学思想的难题上喋喋不休。事实上,大多数机器人专家似乎都想避免这种情况。Kormushev将其比作“潜艇会游泳吗?”争论毫无意义。只要他们按我说的做,我们就不必用这个问题来折磨自己。”

一个机器人把一个星形的钉子推到一个盒子的洞里。把一个星形的钉子塞进一个星形的洞里看起来很简单,但对于DeepMind的一个机器人来说,这是一个小小的胜利。DeepMind

在DeepMind机器人实验室,很容易看出为什么这类问题不是重点。机器人捡起积木的努力表明,我们还不必担心与人工意识有关的哲学问题。

然而,当我在实验室里走动时,我发现自己在为其中一个人加油。一只红色的机械臂正试图像一个蹒跚学步的孩子那样,摇摇晃晃地捡起一块星形的砖,然后把它插入一个星形的孔中。在第二次尝试时,它让砖块对齐,并即将将其放入槽中。我发现自己大喊“加油,小伙子!”哈德赛尔扬起了眉毛。然后,它成功地将砖块放置到位。

至少完成了一项任务。现在,它只需要在学习游戏的同时坚持这种策略“乒乓”游戏。

本文发表在2021年10月的出版物上,题为“如何训练一个多功能机器人”。

特别报告:人工智能大清算

读下一个:深度学习的工作原理

或者看看完整的报告浏览更多关于人工智能未来的文章。

对话(8)
永乐吴 2021年10月8日
INDV

机器人需要神经网络才能像人类一样学习,人工智能应该存储在不同的环境中,使其能够在广泛的环境中完成许多任务。网上亚博Ayabo2016yabo2016网上亚博A人工智能需要一个巨大的数据库来支持它的存储,人工智能才能像一个美丽的地方一样发展

221900203 wuyongle

张Xiaocheng 2021年10月8日
INDV

这篇文章生动地展示了人工智能面临的主要问题:c灾难性遗忘,在接受新任务后,他们可能会忘记旧的任务。作者介绍了近年来的一些研究成果和应对方法。为了让人工智能适应真实环境,在不同的条件下训练它们是至关重要的。尽管人工智能发展迅速,但仍有许多问题有待解决,我们不能过于信任它。但我相信随着人工智能领域的投资不断增加,我们可以完美地解决这个问题,让人工智能变得越来越好,更有效地服务于我们的生活。

永乐吴 2021年10月8日
INDV

机器人需要神经网络才能像人类一样学习,人工智能应该存储在不同的环境中,使其能够在广泛的环境中完成许多任务。网上亚博Ayabo2016yabo2016网上亚博A人工智能需要一个巨大的数据库来支持它的存储,人工智能才能像一个美丽的地方一样发展

221900203吴永乐

3种方法帮助NASA的全电动飞机起飞

N3-X计划于2040年推出,最多可搭载300名乘客

3分钟读取
一架飞机在云层中飞行的插图

美国宇航局提出的全电动N3-X飞机载客量将是目前电动飞机的10倍。

美国国家航空航天局

这篇文章是我们独家报道的一部分IEEE期刊手表系列与IEEE Xplore合作。

全电动飞机的竞争正在进行中,一些早期设计正在成为头条新闻。在过去的九月,一个原型Eviation爱丽丝完成了8分钟的首飞,以及更多的型号等Heart Aerospace的ES-30,预计将在未来几年内首次亮相。然而,到目前为止,所有这些型号的设计都只能搭载30名或更少的乘客,而且飞行距离很短。

例如,Eviation Alice只能让两名机组人员和九名乘客在200米的距离上飞行463公里ES-30的全电动型号虽然设计最多可搭载30名乘客,但其航程仅为200公里。为了真正降低温室气体排放,缓解气候变化的影响,需要更大的全电动飞机。值得注意的是,大型飞机的温室气体排放占航空业温室气体排放的75%以上,考虑到历史上航空旅行每年增长4%至5%,这些排放可能会随着时间的推移而恶化。

继续阅读↓ 显示更少

权力与道路在哪里相遇

无与伦比的速度和动态范围使R&S NRP90S功率传感器成为所有汽车雷达应用的完美解决方案

1分钟读取
三种型号的NRP90S(N)二极管功率传感器。

新型R&S NRP90S(N)二极管功率传感器,功率测量高达亚博排列五投注网站90 GHz。

罗德与施瓦茨公司

罗德与施瓦茨公司目前,该公司正在将二极管功率传感器的最大可测量频率提高到90 GHz亚博排列五投注网站,高于目前可用的任何其他二极管传感器。二极管技术可以实现非常快速和准确的功率测量,从一个紧凑和轻便的便携式仪器具有最高的灵敏度。

R&S NRP90S(N)功率传感器亚博排列五投注网站均为通用功率测量装置的生产、校准、开发和研究。目前,5G、汽车雷达和卫星通信应用中67 GHz以上的所有频率(包括整个E波段)都可以实现高速功率测量。

继续阅读↓ 显示更少
Baidu