为什么我们要建造一个神经形态机器人来玩桌上足球
与常规的人工智能不同,大脑激发的电路需要真实世界的测试
为了过去大约25年来,我们这些试图在硅中模拟大脑工作的人拥有一个年度研讨会在那些夏天的几周里,你经常会发现参与者们在酒吧里放松新谢里丹酒店在小镇的主要街道上。早在大多数人的记忆中,酒吧里屋就有一张桌上足球桌。在研讨会的几周内,你通常会发现它周围有一群神经形态工程师们参与了一场持续多年的友好竞争。因此,有人将建造一个神经形态机器人桌上足球桌几乎是一个定局。
那个人就是我。
事实证明,这个想法不仅仅是简单的乐趣。毕竟,我们为什么要玩桌上足球这样的竞技游戏呢?我们被它们吸引是出于社交原因,但我们也喜欢学习机制和提高我们的表现。游戏是我们提高手眼协调、跟踪和预测能力以及战略思维的方式。这些都是我们希望机器人具备的技能。
上图:神经形态机器人桌上足球诞生于在特柳赖德的新谢里丹酒店玩耍的神经形态工程师。下图:在两次前往Telluride神经形态认知工程研讨会时,我们的机器人桌上足球已经被大量使用。西悉尼大学
人类总是着迷于让机器玩我们的游戏。早在18世纪晚期,人们就开始使用机械土耳其骗局它(虚构的)在国际象棋中击败人类的能力让观众着迷和惊讶。但1997年IBM的深蓝是真的。现在,这样的胜利几乎是经常发生的,DeepMind的人工智能系统首次在比赛中击败了人类冠军围棋棋类游戏,然后在电子游戏上取得了胜利星际争霸2.(当你读完这篇文章时,AI可能已经征服了另一款你最喜欢的游戏。)
这些计算的壮举是一个系统能力的很好的衡量标准。但是他们在一些重要的方面有不足。机器人需要在一个充满噪音、不规则和不断变化的环境的真实世界中运行。围棋严格的规则和受限的环境永远不会带来这样的挑战。现实世界的游戏,当然是桌上足球,也可能是弹球,也许能更好地衡量我们是否在努力追赶人类大脑的力量。
为什么我们有兴趣学习生物学的计算和传感秘密吗?坦率地说,这是因为它们比今天的计算技术要优越得多,而现在的计算技术似乎正在迅速达到极限。商品传感器产生的数据亚博排列五投注网站太多,计算机无法理解,而这些计算机试图理解这些数据又消耗了太多的能量。在感知和感知世界方面,生物学超越了我们所有的技术,生物有机体的能量效率、可靠性、健壮性和适应性都要高几个数量级。
我在西悉尼大学神经形态系统国际中心(ICNS)的同事André van Schaik,给出了一个很好的例子:不起眼的蚊子。它的大脑只有大约200000个神经元但它的飞行控制和避障能力远超我们所制造的任何产品。接下来,考虑蜻蜓,它可以捕捉一只飞行中的蚊子.它的神经元数量大约是蚊子的5倍,每天消耗的能量大约相当于30只蚊子的能量,大约相当于几粒糖。
神经形态技术如何应用于感知的一个最直接的例子是视觉,这恰好是我的专长。当涉及到构建需要看到世界的设备时,几乎总是使用带有CMOS成像仪的相机。这些相机是如此的商品,以至于人们很容易忘记一张图片(计算机视觉研究人员称之为帧)并不是感知视觉世界的唯一方式。
相机是用来捕捉足以欺骗我们视觉系统的场景的。我们真的不知道视觉系统使用什么特征或信息来理解场景,所以相机只是尽可能多地捕捉信息。这种方法适用于拍摄静态照片,但不适用于在太空中跟踪物体。例如,想象一下试图跟踪一个物体——例如一个桌上足球——它移动得非常快,以至于在两帧之间的33毫秒内完全离开了图像的边缘。当然,你可以使用帧率翻倍的相机,但这意味着你现在需要整理两倍的数据来跟踪一个物体。
生物眼睛的工作原理不同。生物学中没有框架,而且眼睛和大脑之间的神经太少,无法传输完整的图像。神经形态视觉传感器亚博排列五投注网站从眼睛的光感受器的工作方式中汲取灵感;他们仍然使用镜头将世界投射到硅芯片上的像素网格上,但有趣的是这些像素对信息的处理。
神经形态传感器(也称为基于事件的成像仪)中的像素只报告亚博排列五投注网站照明的变化,并且只报告变化发生的瞬间。当它们面前没有任何变化时,它们不会产生任何数据。这种方法大大减少了这些摄像头产生的数据量,这意味着需要存储、传输和处理的数据更少。因此,这些成像仪在相机本身和之后需要进行的所有计算中都使用更少的能量。
用神经形态传感器跟踪球应该很容易,在弹球机这个微不足道的例子中,显然是这样。
创业公司Prophesee而且IniVation市场上已经有基于事件的图像器品牌。这些传感器甚至已经进亚博排列五投注网站入了太空:来自ICNS的神经形态相机将从轨道上发现卫星和太空垃圾,最近在国际空间站上安装了另一种传感器,用于检测短暂的大气现象,例如精灵.
神经形态研究人员还研究了我们的其他感官。他们已经开发了硅耳蜗为了模拟听力,tactomorphic传亚博排列五投注网站感器去探索触摸,甚至一个硅的鼻子识别气味和气体。除了感知,神经形态工程还试图理解大脑处理和存储信息的基本方式。事实上,神经形态工程的起源在于试图构建电子神经元,以更好地理解大脑中真正的神经元是如何运作的。
神经形态传感器和受大脑启发亚博排列五投注网站的算法处理它们产生的数据,允许专门为在某些任务上高效执行而构建的专门系统。然而,很难知道这些传感器何时捕捉到正确的信息,或者我们的算法何时正常工作。亚博排列五投注网站这就是基准测试需要发挥作用的地方。
为了帮助理解为什么我们需要桌上足球作为神经形态的基准,以一个基于事件的成像器如何处理今天的深度学习人工智能一直在处理的基准为例,MNIST数据库。MNIST(改良国家标准与技术研究所的缩写)就像“你好,世界!机器视觉。它的数据集包含数千张手写数字的低分辨率图像,为图像识别神经网络的工作情况提供了基准。
像生物眼睛一样,基于事件的摄像机只记录场景的变化。这大大减少了跟踪球所需的数据。格雷戈里·科恩
基于事件的成像仪可以在每个MNIST数字在它前面闪烁时立即看到它。对于这样一个传感器继续看到静态数字,要么相机必须移动,要么数字必须移动,并且以一种可控的方式。眼睛也有类似的行为:它们的注意力从一个点移动到另一个点,直到大脑理解它所看到的东西。
创建像MNIST这样适合神经形态系统测试的数据集并不是一件简单的事情,事实是它们并不是很有用。将运动与成像联系起来的过程是如此动态,以至于除了最受限制的任务之外,任何事情都有相当大的可能性。那么,我们如何确定神经形态系统是否在工作,我们如何将它们与其他方法进行比较?
当然,也有交互式模拟基准。例如,在自动驾驶模拟中,汽车传感器提供给算法的视图会随着汽车位置的变化而变化。亚博排列五投注网站但这些模拟也存在问题。最重要的是控制模拟和控制物理系统之间的对比。
模拟系统和现实系统之间的主要区别在于现实世界中噪声的数量和性质。对于大多数人工智能系统来说,有噪声的数据是一个大问题。但我们有理由相信,神经形态系统在噪音中茁壮成长,甚至可能需要噪音。这并不像看起来那么奇怪。我们自己的运动感和身体位置实际上是通过一定数量的噪音增强的。试图减轻神经形态系统中的噪声,无论是通过额外的处理,还是通过设计更接近我们理想模拟的真实系统,都可能阻碍了我们的发展。
因此,我们需要推动神经形态系统向前发展的是嵌入在现实世界中的物理基准。
让我们从简单的弹球游戏。这实际上是一个非常好的基准测试问题的选择,因为游戏是如此简单。游戏只有两个输出,每个鳍手对应一个输出,游戏主要围绕计时展开。物理系统的现实是无情的,你不能简单地暂停或减慢球的运动来让算法跟上。最重要的是,弹球游戏有一个分数,并且有一个明确的目标来最大化这个分数。所以无论哪个系统在弹球游戏中得分最高,都无疑是更好的机器人弹球算法。
弹珠是一种简单的神经形态系统测试。事实上,它是如此简单,以至于我们建立了一个由两个人工神经元组成的系统,可以同时控制三个球。格雷戈里·科恩
我们也可以通过稍微调整游戏而让问题变得更加困难。例如,我们可以同时添加多个球,甚至是在弹球桌上表现不同的诱饵球或材料球。这允许我们包含更广泛的任务,如跟踪、检测、分割和识别球,同时仍将分数作为成功的最终指标。
ICNS用一个机器人弹球机做了一个演示,它可以把三个球放在桌子上,效果和人类玩家差不多。令人惊讶的是,与常见的基于深度学习的系统中发现的数十万或数百万人工神经元不同,这个微小的神经形态大脑仅使用两个人工神经元就能解释和处理来自基于事件的成像仪的输入。
弹球很棒,但我的团队认为,需要一项更复杂、更艰巨的任务来进一步推动神经形态研究界的发展。我们还喜欢在新谢里丹酒店的酒吧里玩桌上足球。
桌上足球对机器人来说似乎是一种简单的游戏:所有的动作都在二维空间中进行,只需要8个马达就能控制桌子上的所有小图形。但这比看起来要难得多。
多年来,人们曾尝试过制造机器人桌上足球桌,并取得了不同程度的成功,但都没有使用神经形态传感器和算法。亚博排列五投注网站以前的机器人系统经常需要修改游戏以使机器人获得优势。例如,杨百翰大学建造的桌上足球桌利用颜色分段跟踪算法,并要求球是桌面上唯一的绿色物体。的机器人桌上足球瑞士洛桑(EPFL)的École Polytechnique Fédérale de Lausanne (EPFL)令人印象深刻,但它极大地简化了任务,用透明塑料片取代了足球桌的底部,并让摄像机向上看,因此总是能提供一个无障碍的足球视野。
我们的方法旨在重新创造与人类玩家体验相同的输入。摄像头向下看桌子,给它一个类似于人类所看到的阻碍视图。我们用的是标准的球,不是有特殊标记或颜色的球。
我们构建机器人桌上足球桌的方法旨在重新创建与人类玩家体验相同的输入。
我们的机器人桌上足球到目前为止,他已经两次从澳大利亚到科罗拉多州的山区。连续三周,新神经形态工程师团队兴致勃勃地研究这个问题,接受挑战,为表格编程以获得最高分数。研究结果凸显了这项任务的难度以及传统人工智能方法的不足。
首先,用神经形态传感器跟踪球应该很容易,在弹球机这个微不足道的例子中,显然是这样。然而,桌上足球是一种更具动态的游戏,特别是当有人类玩家参与时。每个人类玩家都有不同的策略,他们的动作并不总是合乎逻辑的,甚至是必要的。
尝试使用非神经形态的解决方案,如深度学习,导致了一些有趣的教训。首先,深度学习神经网络的处理方式(通常在gpu上)显然不适合这类任务。gpu对批量图像的处理效果最好,而不是一次处理一帧图像。这是一个问题,因为我们不关心球过去在哪里,我们甚至不关心球现在在哪里;我们真正关心的是它接下来会在哪里。所以深度学习解决方案处理了很多不必要的信息。
其次,我们发现深度学习方法对问题中的微小变化非常敏感。相机的轻微晃动,球员将球台拉向不同的方向导致球台倾斜,甚至是照明条件的变化,都会导致深度学习球台的优雅表现崩溃。很可能我们可以增加训练的数量来处理所有这些小偏差——有一整个领域的研究致力于建立对这类事情有弹性的网络——但这将需要更多更多的游戏。
我们最新的方法着眼于更简单、更快的神经形态网络。这些算法处理来自摄像机的每个事件(在神经形态计算中也称为“峰值”),并使用它们更新对球位置的估计。
这些网络使用16个18 x 18像素的小型模式识别网络,而不是深度学习的巨大神经元层,因此在游戏的任何时候,只有364像素被考虑。这使得他们非常快速和准确。快速是至关重要的,因为事件驱动算法需要跟上相机产生的时间敏感数据。每个事件只需要进行一些简单的小计算。虽然这个系统对有经验的球员没有太大的威胁,但我们的网络跟踪已经改进到可以相当可靠地拦截球的程度。然而,进球仍然是一项正在进行的工作。
顶部:每个电机都有自己的控制器。下:工作台控制系统监督电机控制器并执行其他任务。格雷戈里·科恩
从原理上讲,深度学习可以执行类似的操作,但它需要查看整个图像,并且它会对网络的每一层执行数量级以上的计算。这不仅比我们的系统使用的数据多得多,而且还有效地将事件驱动的输出转换回帧。
目前,我们的算法是从记录的基于事件的数据离线训练。它使用一种遗传算法——一种朝着最优解决方案进化的算法——来了解球的样子,并对它的下一个位置做出良好的估计。算法学习如何从数据本身识别球,而不是通过我们的任何编码。它还从球的实际运动方式中学习,而不是我们自己对它的期望。这两点都很重要,因为我们对球的好模型的先入之见与那些工作良好的模型相差甚远。我们还发现,我们对球的运动的模拟和预期是严重错误的。
我们的下一步是将我们的学习从离线训练转移到实时在线学习,允许网络在游戏进行时不断学习和适应。除此之外,这可能有助于提高系统对它所训练的特定表的敏感性。
这些事件驱动算法是使用所谓的基于spike的神经形态硬件设计的算法的中间步骤。这些受大脑启发的处理器,比如英特尔的Loihi和BrainChipAkida,将信息编码为峰值的时间,并且与基于事件的传感器非常适合。亚博排列五投注网站一旦我们有了稳定的基于峰值的算法,我们就能更快地进行改进。
希望我们不是唯一做出这些改进的人。在设计机器人桌上足球时,我们专注于降低成本,并使整个项目开源。幸运的是,其他神经形态研究小组将看到拥有自己的机器人基准的足够价值。如果没有,他们就能找到我们和我们的桌上足球碲,今年晚些时候.
本文以“Gooaall!!”为题发表在2022年3月的印刷版上。