2011年,马克·安德森,安德森·霍洛维茨风险投资公司的普通合伙人,在《华尔街日报》上发表了一篇有影响力的文章《华尔街日报》题为“为什么软件正在吞噬世界十年后的今天,它是深度学习它正在吞噬整个世界。
深度学习,也就是有许多隐藏层的人工神经网络,经常用解决现实问题的方法让我们惊叹。它在越来越多的领域都在这样做,包括自然语言处理、欺诈检测、图像识别和自动驾驶。事实上,这些神经网络每天都在变得越来越好。
但这些进步在计算资源和能源消耗方面付出了巨大的代价。因此,工程师和计算机科学家正在付出巨大努力,寻找更有效地训练和运行深度神经网络的方法也就不足为奇了。
今年,一项雄心勃勃的新策略即将崭露头角,即使用光子而不是电子来执行许多所需的数学计算。特别是有一家公司,Lightmatter该公司将于今年晚些时候开始销售一款用光计算的神经网络加速器芯片。这将是火星原型芯片的改进,该公司展示了在去年8月的虚拟Hot Chips会议上。
虽然用于深度学习的商用光学加速器的开发是一项了不起的成就,但光计算的总体思想并不新鲜。工程师定期采取这种策略在20世纪60年代和70年代,电子数字计算机太弱,无法执行处理合成孔径雷达数据所需的复杂计算。所以他们在模拟领域处理数据,使用光。
即插即用:Lightmatter的原型板使用普通PCI总线。照片:Lightmatter
由于摩尔定律(Moore’s Law)在数字电子技术方面的进步,光计算从未真正流行起来,尽管光作为数据通信的载体占据了优势。但这一切可能即将改变:摩尔定律可能已经接近尾声,而深度学习的计算需求正在爆炸式增长。
处理这个问题的方法并不多。当然,深度学习研究人员可能会开发出更有效的算法,但很难想象这些收获会足够多。Lightmatter首席执行官尼古拉斯•哈里斯(Nicholas Harris)说:“我向你挑战,把一群理论家关在一个房间里,让他们每18个月提出一个更好的算法。”这就是为什么他和他的同事们决心“开发一种不依赖晶体管的新计算技术”。
那么它依赖于什么呢?
光物质芯片的基本组件是一个马赫曾德耳干涉仪。这种光学装置是由路德维希·马赫和路德维希·曾德尔在19世纪90年代联合发明的。但直到最近,这种光学器件才被小型化到可以将大量光学器件集成到一块芯片上,并用于执行神经网络计算中涉及的矩阵乘法。
克伦伯格曼,电气工程教授和光波研究实验室纽约哥伦比亚大学的教授解释说,这些壮举之所以成为可能,是因为集成光子学制造生态系统的成熟,需要制造用于通信的光子芯片。她说:“30年前你在长凳上做的事情,现在他们可以把一切都放在芯片上。”
光管:光物质使用集成Mach-Zehnder干涉仪,部分模拟在这里。Gif: Lightmatter
处理光携带的模拟信号可以大幅降低能源成本,提高计算速度,但精度无法与数字领域相比。“我们有一个8位等效系统,”哈里斯说。这就限制了他公司的芯片只能进行神经网络推理计算,即在网络经过训练后进行的计算。哈里斯和他的同事们希望他们的技术有一天也能应用于神经网络的训练,但训练要求的精度比他们的光学处理器现在能提供的更高。
在寻求利用光进行神经网络计算方面,光物质并不是唯一的。其他类似的创业公司包括理解计算,LightIntelligence,LightOn,发光的,Optalysis。其中之一“夜光”(Luminous)希望将光学计算应用于尖峰神经网络,该网络利用了大脑神经元处理信息的方式——也许可以解释为什么人类大脑可以做一些了不起的事情只用十几瓦。
夜光公司希望开发实用的系统在2022年到2025年之间。所以我们还得等上几年,看看它的方法会有什么结果。但许多人对前景感到兴奋,包括比尔·盖茨(Bill Gates)公司的知名投资者。
但很明显,用于人工智能系统的计算资源无法以目前的速度保持增长,每三到四个月翻一番。工程师们现在热衷于利用集成光子学来解决这一挑战,这是一种新的计算机器,与传统的电子芯片有很大的不同,但现在已经可以实际制造。伯格曼自豪地说:“我们有能力制造出过去只能想象的设备。”
本文发表在2021年1月的印刷版上,题为“光速下的深度学习”。