训练许多现代人工智能工具背后的大型神经网络需要真正的计算能力:例如,OpenAI最先进的语言模型GPT-3,需要惊人的亿亿亿亿次操作火车,计算时间成本约为500万美元。工程师们认为他们已经找到了一种方法,通过使用一种不同的数字表示方式来减轻负担。

早在2017年,约翰Gustafson,然后共同委任于A*STAR计算资源中心新加坡国立大学,还有艾萨克Yonemoto他后来在星际机器人和电脑公司开发了一种表示数字的新方法.这些数字被称为假定数(posits),是对目前使用的标准浮点算术处理器的改进。

现在,一组研究人员在马德里康普顿斯大学开发了第一个处理器核心在硬件中实现假定标准,并表明,与使用标准浮点数计算相比,一个基本计算任务的精度提高了多达四个数量级。他们在上周的IEEE计算机算术研讨会

“如今,摩尔定律似乎开始消退,”David Mallasén Quintana说,他是美国科学院的研究生研究员ArTeCS集团在马德里。“所以,我们需要找到一些其他方法,让同样的机器获得更高的性能。其中一种方法就是改变我们对实数的编码方式和表示方式。”

Complutense团队并不是唯一一个挑战数字表现极限的团队。就在上周,英伟达、Arm和英特尔达成了一项协议规范在机器学习应用程序中使用8位浮点数而不是通常的32位或16位浮点数。使用更小、更不精确的格式可以提高效率和内存使用,但以计算精度为代价。

实数不能在硬件中完美地表示出来,因为实数有无限多。为了适合指定的位数,许多实数必须四舍五入。假设的优势来自于它们所代表的数字沿着数轴精确分布的方式。在数轴的中间,1和-1附近,有比浮点数更多的位置表示。在边缘,当出现较大的负数和正数时,假设精度比浮点数下降得更优雅。

古斯塔夫森说:“这更符合计算中数字的自然分布。”“这是正确的动态范围,在你需要更高精度的地方,它是正确的精度。在浮点运算中,有很多位模式,从来没有人用过。这就是浪费。”

由于在它们的表示中有一个额外的组件,假定在1和-1附近实现了这种改进的准确性。浮点数由三部分组成:一个符号位(0表示正,1表示负),几个“尾数”(分数)位(表示小数点的二进制版本后面的数),以及定义指数(2)的剩余位经验值).

浮点数表示:符号、指数和分数位。置位数表示:符号、区域、指数和分数位。浮点数和假定的精度图:浮点数的精度急剧增加,然后在其动态范围内保持平稳。当指数趋近于零时,位置精度逐渐增长,并在浮点数以上达到峰值,然后在正数时逐渐衰减。这张图显示了浮点数表示法(上)和位置表示法(中)的组成部分。精度比较表明,当指数接近0时,假定具有优势。马德里康普顿斯大学/IEEE

假定保留了浮点数的所有组成部分,但增加了一个额外的“政权”部分,即一个指数的指数。这种机制的美妙之处在于它可以在比特长度上有所变化。对于较小的数字,它可以只需要两个比特,为尾数留下更高的精度。这使得在1和-1附近的最佳位置的假设具有更高的准确性。

深度神经网络通常使用被称为权重的归一化参数,这使它们成为从假设的优势中受益的完美候选者。很多神经网络计算是由乘法累加运算组成的。每次执行这样的计算时,每个求和都必须重新截断,导致精度损失。利用假定,一种叫做quire的特殊寄存器可以有效地进行累积步骤,以减少精度损失。但是今天的硬件实现了浮点数,到目前为止,在软件中使用假定的计算收益在很大程度上被格式之间转换的损失所掩盖。

通过在现场可编程门阵列(FPGA)中合成的新硬件实现,Complutense团队能够将使用32位浮点数和32位假定并排进行的计算进行比较。他们通过将其与使用更精确但计算成本更高的64位浮点格式的结果进行比较来评估其准确性。假设表明,矩阵乘法(神经网络训练中固有的一系列乘法累积)的准确性有了惊人的四个数量级的提高。他们还发现,精度的提高并不是以计算时间为代价的,只是芯片面积和功耗有所增加。

虽然数字精度的提高是不可否认的,但这将如何影响像GPT-3这样的大型人工智能的训练仍有待观察。

Mallasén说:“假设可能会加速训练,因为在训练过程中你不会丢失那么多信息,但这些都是我们不知道的事情。有些人已经在软件上进行了尝试,但现在我们也想在硬件上进行尝试。”

其他团队正在研究他们自己的硬件实现,以促进posit的使用。“这正是我所希望的;它被疯狂地采用了,”古斯塔夫森说。“职位编号格式火了起来,有几十个团体,包括公司和大学,都在使用它。”

本文发表在2022年12月的印刷版上,题为“一种新型数字改善了人工智能的数学”。

对话(2)
加勒特的苹果 2022年10月18日
LS

祝贺你。您重新发现了在电话t载波中使用了半个多世纪的Mu-law(和a -law)编码。当时我还在《IEEE学报》上写了一篇类似的短文,我称之为“对数线性编码”。

约翰Gustafson 2022年9月26日

技术细节请访问posithub.org或https://www.youtube.com/watch?v=aP0Y1uAA-2Y

人工智能会窃取潜艇的隐身能力吗?

更好的探测将使海洋变得透明——也许还会导致相互毁灭

11分钟读取
一张潜艇在水中的照片,在部分多云的天空下。

弗吉尼亚级快速攻击潜艇维吉尼亚州将于2010年穿越地中海。当时,只要潜水,它就能消失。

美国海军

潜艇的价值主要是因为他们隐藏的能力。核战争中,核潜艇能够在第一次导弹袭击中存活下来,从而能够在第二次打击中发射导弹作为回应,这是所谓“相互保证毁灭”威慑战略的关键。因此,任何可能使海洋变得有效透明的新技术,都可能破坏世界和平,使潜伏的潜艇变得微不足道。近一个世纪以来,海军工程师们一直在努力研发速度更快、噪音更小的潜艇。但他们也同样努力推进一系列雷达、声纳和其他旨在探测、瞄准和消灭敌方潜艇的技术。

随着20世纪60年代早期核动力潜艇的出现,这种平衡似乎发生了转变。在2015年战略与预算评估中心的一项研究中,布莱恩·克拉克哈德逊研究所的一位海军专家指出,这些船只长时间保持在水下的能力使它们“雷达和主动声纳几乎不可能发现“但即使是这些隐形的潜艇也会产生细微的、非常低频的噪音,从很远的地方就能被探测到声水听器阵列网络安装在海底的。

继续阅读↓ 显示更少
{“imageShortcodeIds”(“30133857”):}
Baidu