如果说计算机擅长什么,那一定是数学。因此,令人惊讶的是,经过多年的努力,顶尖的机器学习研究人员最近在教计算机数学方面取得了突破。

在过去的一年里,来自加州大学伯克利分校、OpenAI和谷歌的研究人员在向儿童教授基本数学概念方面取得了进展自然语言生成模型-算法,例如GPT-2/3而且GPT-Neo.然而,直到最近,语言模型还经常不能解决简单的文字问题,比如“爱丽丝比鲍勃多五个球,鲍勃给查理四个球后有两个球。”爱丽丝有几个球?”

“当我们说计算机非常擅长数学时,它们非常擅长非常具体的事情,”他说家伙Gur-Ari他是谷歌的机器学习专家。计算机擅长算术运算——输入数字,计算就像小孩子玩的游戏。但在正式结构之外,计算机就很困难了。

“我认为有这样一种观念,即人类做数学时有一些严格的推理系统,知道一些东西和不知道一些东西之间有明显的区别。”
-伊森·戴尔,谷歌

解决文字问题,或者“定量推理的问题很棘手,因为它需要许多其他问题不需要的健壮性和严谨性。如果这个过程中的任何一个步骤出错,答案也会是错误的。OpenAI的机器学习专家维尼特•科萨拉朱(Vineet Kosaraju)表示:“当非常大的数相乘时……它们会忘记在某个地方进位,结果就差了1。”语言模型犯下的其他错误就不那么人性化了,比如把10误解为1和0,而不是10。

“我们研究数学是因为我们发现它本身非常有趣,”他说卡尔·科布他是OpenAI的机器学习专家。但正如古尔-阿里所说,如果它擅长数学,“它可能也擅长解决许多其他有用的问题。”

随着机器学习模型在更大的数据样本上进行训练,它们往往会变得更健壮,出错更少。但在定量推理方面,扩大规模似乎也就到此为止了;研究人员意识到,语言模型所犯的错误似乎需要一种更有针对性的方法。

去年,加州大学伯克利分校和OpenAI的两个不同的研究团队发布了两个数据集,数学而且GSM8K,分别包含几何、代数、微积分预备等数以千计的数学问题。“我们基本上是想看看这是不是数据集的问题,”该研究所的研究员史蒂文·巴萨特(Steven Basart)说人工智能安全中心他从事数学研究。众所周知,语言模型不擅长解决文字问题——但它们到底有多糟糕?它们能通过引入更好的格式、更大的数据集来解决吗?数学小组发现,对于顶级语言模型来说,定量推理是多么具有挑战性,得分不到7%。(一名人类研究生的得分为40%,而一名奥林匹克数学冠军的得分为90%。)

针对GSM8K问题的模型达到了大约20%的准确率,而GSM8K问题具有更简单的小学级问题。OpenAI的研究人员使用了两种主要技术:微调和验证。在微调过程中,研究人员采用一个预先训练好的语言模型,该模型包含了不相关的信息(维基百科关于zambonis的文章,词典中“gusto”的词条,等等),然后向模型展示,发条橙风格,只有相关的信息(数学问题)。另一方面,验证更像是一个回顾会议。科布说:“这个模型可以看到很多自己错误的例子,这真的很有价值。”

当时,OpenAI预测一个模型需要在100倍以上的数据上进行训练,才能在GSM8K上达到80%的准确率。但在6月,谷歌的Minerva宣布78%的准确率以最小的比例向上。科布说:“这超出了我们预期的任何趋势。”Basart表示同意。“这是令人震惊的。我原以为会花更长的时间,”他说。

Minerva使用谷歌自己的语言模型,路径语言模型(PaLM),它是对来自arXiv在线预印本服务器和其他资源格式化的数学。另外两个策略帮助了密涅瓦。在“思维链提示”中,密涅瓦被要求将更大的问题分解成更容易接受的部分。该模型还使用了多数投票——而不是被要求回答一个问题,而是被要求解决100次问题。在这些答案中,密涅瓦选择了最常见的答案。

这些新策略的收益是巨大的。Minerva在MATH上的准确率高达50%,在GSM8K和MMLU上的准确率接近80%,MMLU是一套更通用的STEM问题,包括化学和生物学。当“密涅瓦”被要求重新做一个随机抽样的稍微调整的问题时,它表现得一样好,这表明它的能力不仅仅来自记忆。

关于数学,密涅瓦知道什么——或者不知道什么——是比较模糊的。与带有内置结构的证明助手不同,Minerva和其他语言模型没有正式的结构。他们可以有奇怪的,混乱的推理,但仍然得到正确的答案。随着数字越来越大,语言模型的准确性就会下降,而这在计算机上是永远不会发生的ti - 84

“它到底有多聪明?科布问。尽管像Minerva这样的模型可能会得到与人类相同的答案,但它们所遵循的实际过程可能截然不同。另一方面,对于任何被要求“展示你的作品”的人类学生来说,思维链提示是熟悉的。

“我认为有这样一种观念,即人类做数学时有一些僵化的推理系统——知道一些东西和不知道一些东西之间有明显的区别,”他说伊桑代尔他是谷歌的机器学习专家。但人类给出的答案不一致,会犯错,也不能应用核心概念。在机器学习的前沿,边界是模糊的。

2022年10月14日更新:这个故事的前一个版本在上下文中间接提到了DALL-E/DALL-E 2艺术生成AI大型语言生成模型被用来处理数学应用题。当然,DALL-E和DALL-E 2都不是大型语言生成模型。(在数学应用题研究中没有研究过。)所以为了避免混淆,对它的引用被删去了。

本文发表在2022年12月的出版物上,题为“机器学习重新思考科学思维”。

对话(1)
R沃特金斯 2022年10月27日

电脑是擅长数学。他们擅长算术。算术应用题和数学的实际概念都不是“自然语言”的一部分。难道没有人注意到,这些东西很难教那些识字的学童吗?忘记将这些整合到自然语言模型中,而是专门为它们构建语言模型,并行运行它们,并遵循最能理解问题的语言模型。

人工智能会窃取潜艇的隐身能力吗?

更好的探测将使海洋变得透明——也许还会导致相互毁灭

11分钟读取
一张潜艇在水中的照片,在部分多云的天空下。

弗吉尼亚级快速攻击潜艇维吉尼亚州将于2010年穿越地中海。当时,只要潜水,它就能消失。

美国海军

潜艇的价值主要是因为他们隐藏的能力。核战争中,核潜艇能够在第一次导弹袭击中存活下来,从而能够在第二次打击中发射导弹作为回应,这是所谓“相互保证毁灭”威慑战略的关键。因此,任何可能使海洋变得有效透明的新技术,都可能破坏世界和平,使潜伏的潜艇变得微不足道。近一个世纪以来,海军工程师们一直在努力研发速度更快、噪音更小的潜艇。但他们也同样努力推进一系列雷达、声纳和其他旨在探测、瞄准和消灭敌方潜艇的技术。

随着20世纪60年代早期核动力潜艇的出现,这种平衡似乎发生了转变。在2015年战略与预算评估中心的一项研究中,布莱恩·克拉克哈德逊研究所的一位海军专家指出,这些船只长时间保持在水下的能力使它们“雷达和主动声纳几乎不可能发现“但即使是这些隐形的潜艇也会产生细微的、非常低频的噪音,从很远的地方就能被探测到声水听器阵列网络安装在海底的。

继续阅读↓ 显示更少
{“imageShortcodeIds”(“30133857”):}
Baidu