人工智能语言模型正在努力“获得”数学- IEEE频谱亚博真人yabo.at

亚博真人yabo.at
          
          对于技术内部人士
主题
         航空航天
         2020年亚博论坛

         2020年亚博收网行动

         2021亚博最新

         2021欧洲杯亚博

         能源
         2020欧洲杯亚博

         188亚博

         半导体
         亚博排列五投注网站
         电信
         运输
        
部分
          特性
          新闻
          的意见
          职业生涯
          DIY
          大局
          工程资源
         
更多的
          专题报告
          集合
          讲解员
          播客
          视频
          时事通讯
          顶级编程语言
          机器人导
         
IEEE会员
          最新一期
          杂志存档
          该研究所
          TI存档
         
IEEE会员
          最新一期
          杂志存档
          该研究所
          TI存档
         
亚博真人yabo.at
          关于我们
          联系我们
          转载及权限
          广告
         
遵循IEEE频亚博真人yabo.at谱
           
支持IEEE频谱亚博真人yabo.at
          亚博真人yabo.at是IEEE的旗舰出版物，IEEE是世界上最大的致力于工程和应用科学的专业组织。我们的文章、播客和信息图表向读者介绍技术、工程和科学的发展。

          加入IEEE
         
          订阅
         
               对IEEE
               联系与支持
               可访问性
               不歧视政策
               条款
               IEEE隐私政策
              
              ©版权所有IEEE 2022作为一个非盈利组织，IEEE是世界上最大的技术专业组织，致力于推动技术造福人类。

如果说计算机擅长什么，那一定是数学。因此，令人惊讶的是，经过多年的努力，顶尖的机器学习研究人员最近在教计算机数学方面取得了突破。

在过去的一年里，来自加州大学伯克利分校、OpenAI和谷歌的研究人员在向儿童教授基本数学概念方面取得了进展自然语言生成模型-算法，例如GPT-2/3而且GPT-Neo．然而，直到最近，语言模型还经常不能解决简单的文字问题，比如“爱丽丝比鲍勃多五个球，鲍勃给查理四个球后有两个球。”爱丽丝有几个球?”

“当我们说计算机非常擅长数学时，它们非常擅长非常具体的事情，”他说家伙Gur-Ari他是谷歌的机器学习专家。计算机擅长算术运算——输入数字，计算就像小孩子玩的游戏。但在正式结构之外，计算机就很困难了。

“我认为有这样一种观念，即人类做数学时有一些严格的推理系统，知道一些东西和不知道一些东西之间有明显的区别。”
-伊森·戴尔，谷歌

解决文字问题，或者“定量推理的问题很棘手，因为它需要许多其他问题不需要的健壮性和严谨性。如果这个过程中的任何一个步骤出错，答案也会是错误的。OpenAI的机器学习专家维尼特•科萨拉朱(Vineet Kosaraju)表示:“当非常大的数相乘时……它们会忘记在某个地方进位，结果就差了1。”语言模型犯下的其他错误就不那么人性化了，比如把10误解为1和0，而不是10。

“我们研究数学是因为我们发现它本身非常有趣，”他说卡尔·科布他是OpenAI的机器学习专家。但正如古尔-阿里所说，如果它擅长数学，“它可能也擅长解决许多其他有用的问题。”

随着机器学习模型在更大的数据样本上进行训练，它们往往会变得更健壮，出错更少。但在定量推理方面，扩大规模似乎也就到此为止了;研究人员意识到，语言模型所犯的错误似乎需要一种更有针对性的方法。

去年，加州大学伯克利分校和OpenAI的两个不同的研究团队发布了两个数据集，数学而且GSM8K，分别包含几何、代数、微积分预备等数以千计的数学问题。“我们基本上是想看看这是不是数据集的问题，”该研究所的研究员史蒂文·巴萨特(Steven Basart)说人工智能安全中心他从事数学研究。众所周知，语言模型不擅长解决文字问题——但它们到底有多糟糕?它们能通过引入更好的格式、更大的数据集来解决吗?数学小组发现，对于顶级语言模型来说，定量推理是多么具有挑战性，得分不到7%。(一名人类研究生的得分为40%，而一名奥林匹克数学冠军的得分为90%。)

针对GSM8K问题的模型达到了大约20%的准确率，而GSM8K问题具有更简单的小学级问题。OpenAI的研究人员使用了两种主要技术:微调和验证。在微调过程中，研究人员采用一个预先训练好的语言模型，该模型包含了不相关的信息(维基百科关于zambonis的文章，词典中“gusto”的词条，等等)，然后向模型展示，发条橙风格，只有相关的信息(数学问题)。另一方面，验证更像是一个回顾会议。科布说:“这个模型可以看到很多自己错误的例子，这真的很有价值。”

当时，OpenAI预测一个模型需要在100倍以上的数据上进行训练，才能在GSM8K上达到80%的准确率。但在6月，谷歌的Minerva宣布78%的准确率以最小的比例向上。科布说:“这超出了我们预期的任何趋势。”Basart表示同意。“这是令人震惊的。我原以为会花更长的时间，”他说。

Minerva使用谷歌自己的语言模型，路径语言模型(PaLM)，它是对来自arXiv在线预印本服务器和其他资源格式化的数学。另外两个策略帮助了密涅瓦。在“思维链提示”中，密涅瓦被要求将更大的问题分解成更容易接受的部分。该模型还使用了多数投票——而不是被要求回答一个问题，而是被要求解决100次问题。在这些答案中，密涅瓦选择了最常见的答案。

这些新策略的收益是巨大的。Minerva在MATH上的准确率高达50%，在GSM8K和MMLU上的准确率接近80%，MMLU是一套更通用的STEM问题，包括化学和生物学。当“密涅瓦”被要求重新做一个随机抽样的稍微调整的问题时，它表现得一样好，这表明它的能力不仅仅来自记忆。

关于数学，密涅瓦知道什么——或者不知道什么——是比较模糊的。与带有内置结构的证明助手不同，Minerva和其他语言模型没有正式的结构。他们可以有奇怪的，混乱的推理，但仍然得到正确的答案。随着数字越来越大，语言模型的准确性就会下降，而这在计算机上是永远不会发生的ti - 84．

“它到底有多聪明?科布问。尽管像Minerva这样的模型可能会得到与人类相同的答案，但它们所遵循的实际过程可能截然不同。另一方面，对于任何被要求“展示你的作品”的人类学生来说，思维链提示是熟悉的。

“我认为有这样一种观念，即人类做数学时有一些僵化的推理系统——知道一些东西和不知道一些东西之间有明显的区别，”他说伊桑代尔他是谷歌的机器学习专家。但人类给出的答案不一致，会犯错，也不能应用核心概念。在机器学习的前沿，边界是模糊的。

2022年10月14日更新:这个故事的前一个版本在上下文中间接提到了DALL-E/DALL-E 2艺术生成AI大型语言生成模型被用来处理数学应用题。当然，DALL-E和DALL-E 2都不是大型语言生成模型。(在数学应用题研究中没有研究过。)所以为了避免混淆，对它的引用被删去了。

本文发表在2022年12月的出版物上，题为“机器学习重新思考科学思维”。

从你的网站文章

网络上的相关文章

大型语言模型机器学习网上亚博A 数学

对话(1)

R沃特金斯 2022年10月27日

米

电脑是不擅长数学。他们擅长算术。算术应用题和数学的实际概念都不是“自然语言”的一部分。难道没有人注意到，这些东西很难教那些识字的学童吗?忘记将这些整合到自然语言模型中，而是专门为它们构建语言模型，并行运行它们，并遵循最能理解问题的语言模型。

主题

部分

更多的

IEEE会员

IEEE会员

亚博真人yabo.at

遵循IEEE频亚博真人yabo.at谱

支持IEEE频谱亚博真人yabo.at

人工智能语言模型正在努力“获得”数学

这能告诉我们什么吗?

电动汽车转型解释:地方政策塑造全球竞争

这些光学门提供电子通道

IEEE荣誉工程师

有关的故事

你好，chatgpt -请解释一下!

新的人工智能将计算机图形速度提高了5倍

睡眠可以防止人工智能灾难性遗忘

人工智能会窃取潜艇的隐身能力吗?

更好的探测将使海洋变得透明——也许还会导致相互毁灭

我们有了找到潜艇的新方法

yabo2016网上亚博A人工智能配合其他子探测技术

核威慑取决于潜艇的隐藏能力

主题

部分

更多的

IEEE会员

IEEE会员

亚博真人yabo.at

遵循IEEE频亚博真人yabo.at谱

支持IEEE频谱亚博真人yabo.at

通过创建账户享受更多免费内容和福利

保存文章以供以后阅读需要一个IEEE Spectrum帐户亚博真人yabo.at

研究所的内容仅供会员使用

下载完整的PDF刊物是IEEE会员的独家权利

访问光谱的数字版本是IEEE会员的独家

以下主题是IEEE成员的独家特性

在文章中添加回复需要IEEE Spectrum帐户亚博真人yabo.at

创建一个帐户以访问更多内容和功能亚博真人yabo.at包括保存文章以供以后阅读，下载Spectrum Collections，以及参与与读者和编辑的对话。有关更多独家内容和功能，请考虑加入IEEE．

加入世界上最大的致力于工程和应用科学的专业组织，并获得Spectrum的所有文章、档案、PDF下载和其他福利。了解更多→

访问成千上万的文章-完全免费

创建一个帐户，并获得独家内容和功能:保存文章，下载收藏，而且与科技业内人士交谈——全部免费!为了获得充分的使用权和福利，加入IEEE作为付费会员。

这能告诉我们什么吗?

有关的故事

更好的探测将使海洋变得透明——也许还会导致相互毁灭

我们有了找到潜艇的新方法

yabo2016网上亚博A人工智能配合其他子探测技术

核威慑取决于潜艇的隐藏能力