机器学习联盟MLCommons英特尔上周发布了最新的一组基准测试结果,让人们得以一窥新旧芯片的能力,因为它们在最小的系统上执行轻量级AI,并在服务器和超级计算机规模上训练神经网络。基准测试见证了新芯片的首次亮相英特尔而且英伟达除了软件改进带来的速度提升之外,人们还预测,在新芯片首次亮相后的几年里,新软件将在加快速度方面发挥作用。


培训服务器

训练人工智能一直是一个驱动数十亿美元投资的问题,而且似乎正在获得回报。“几年前,我们谈论的是几天或几周内训练这些网络,现在我们谈论的是几分钟,”他说戴夫出来他是英伟达(Nvidia)产品营销总监。

MLPerf训练套件中有8个基准测试,但这里我只展示了两张图像分类和自然语言处理的结果,因为尽管它们没有给出完整的图像,但它们说明了正在发生的事情。并非每家公司每次都能公布基准业绩;在过去,系统来自百度谷歌Graphcore,Qualcomm都做过记号,但这些都不在最近的名单上。有些公司的目标是训练最大的神经网络,比如大脑而且SambaNova这些人从未参与过。

关于我所展示的结果的另一个注意事项——它们是不完整的。为了尽量不引人注目,我只列出了每种配置中最快的系统。在主要的“封闭式”竞赛中已经有四个类别:云计算(不言自明)、内部部署(你可以马上购买并在内部安装的系统)、预览(你可以很快购买但不是现在)和研发(有趣但奇怪,所以我把它们排除在外)。然后,我列出了每种配置的每种类别的最快训练结果——计算机中加速器的数量。如果你想看完整的列表,在MLCommons网站

随便看一眼就会发现,机器学习训练在很大程度上仍是英伟达的地盘。它可以带来超级计算机规模的gpu,在短短几秒钟内解决训练问题。它的A100 gpu目前已经在MLPerf榜单上占据了几次迭代,它为微软的Azure云人工智能产品以及戴尔、惠普和富士通等合作伙伴的大大小小的系统提供了支持。但即便是在A100这帮人之间,也存在着真正的竞争,尤其是在戴尔和惠普之间。

但也许更重要的是Azure的地位。在图像分类方面,云系统基本上可以与最好的A100本地计算机相媲美。这些结果强化了微软的观点,即租用云资源与自己购买云资源一样好。这个案子可能很快就会变得更加有力。本周英伟达和微软宣布进行多年合作Nvidia即将推出的GPU, theH100在蔚蓝的云中。

这是H100训练能力的首次亮相。Nivida的Dave Salvator强调了在新芯片问世后的几年里,技术的进步很大程度上要归功于软件的改进。在每个芯片的基础上,A100提供了2.5倍于今天的平均性能第一次运行MLPerf基准测试在2020年。与A100的首发成绩相比,H100的速度是A100的6.7倍。但与使用当今软件的A100相比,增益仅为2.6倍。

在某种程度上,对于MLPerf基准测试来说,H100似乎有点过于强大,在几分钟内使用A100所需的一小部分硬件就完成了大部分测试。事实上,它是为了更大的事情。Salvator说:“H100是我们针对最先进模型的解决方案,在这些模型中,我们可以获得数百万甚至数十亿的超参数。”

Salvator表示,很大一部分收益来自H100的“变压器发动机”。本质上,它是在可能的情况下聪明地使用低精度(高效但不准确)计算。该方案是专门为称为变压器的神经网络设计的,其中自然语言处理基准伯特是一个例子。变形金刚正在为许多其他机器学习任务工作。“基于变压器的网络对人工智能来说确实是革命性的,”Salvator说。“这是一个可怕的双关语。”

内存是各种人工智能的瓶颈,但在BERT和其他变压器模型中尤其受到限制。这种神经网络依赖于一种叫做“注意力”的特性。你可以把它想象成一个语言处理器一次能识别多少个单词。它不能很好地扩展,很大程度上是因为它导致写入系统内存的工作量大幅增加。今年早些时候朦胧的研究(这个名字克里斯再保险的)在Azure云系统上部署了一种算法,使微软的最佳训练时间减少了10%。在这一轮中,Azure和Hazy Research合作演示了一种名为Flash Attention的算法。

图像分类表和自然语言处理表都显示了英特尔的竞争地位。该公司公布了年度业绩Habana Gaudi2第二代人工智能加速器,以及Sapphire Rapids Xeon CPU,后者将在未来几个月上市。对于后者,该公司试图证明,你可以在没有GPU的情况下进行大量的机器学习训练。

在对象识别方面,32个cpu的设置远远落后于基于云计算的微软Azure系统(只有4个gpu),但它仍然在不到一个半小时的时间内完成,在自然语言处理方面,它几乎与Azure系统相当。事实上,这些训练都没有超过90分钟,即使是在更普通的只有cpu的计算机上。

“这是为那些培训是工作量的一部分的客户准备的,但事实并非如此英特尔高级总监兼人工智能产品经理乔丹•普拉纳(Jordan Plawner)表示。英特尔的理由是,如果客户每周只进行一次再培训,那么无论这项工作需要30分钟还是5分钟,对于他们来说都不太重要,他们不需要在一周剩余的时间里花费在GPU加速器上。

Habana Gaudi2是一个不同的故事。从这个角度来看,它在某些测试中表现良好。在图像分类方面,八芯片系统降落的时间只比八芯片H100晚几分钟。但在自然语言处理任务上,H100的差距要大得多,尽管它仍然以微弱优势击败了同等大小、增强了雾霾研究的A100系统。

“我们还没有完成高迪2,”哈瓦那的埃坦·梅迪纳说。和其他人一样,哈瓦那希望通过在神经网络的某些层上战略性地使用低精度计算来加速学习。该芯片具有8位浮点运算能力,但到目前为止,该公司在用于MLPerf训练的芯片上所采用的最小精度是bfloat 16


超级计算机培训

MLCommons在训练服务器的同时,也发布了训练高性能计算机(超级计算机和其他大型系统)的结果。HPC基准测试还没有建立,参与者也较少,但它们仍然提供了机器学习在超级计算领域是如何完成的以及目标是什么。有三个基准:CosmoFlow从宇宙学图像数据中估计物理量;DeepCAM在气候模拟数据中发现飓风和大气河流;OpenCatalyst预测分子构型的能级。

有两种方法可以在这些基准上测量系统。一种是在超级计算机上运行同一神经网络的多个实例,另一种是在单个问题实例上投入大量资源,看看需要多长时间。下面的表格是后者,并且仅适用于CosmoFlow,因为它更容易阅读。(同样,你可以在MLCommons网站上查看整个计划。)

CosmoFlow的结果显示,四台超级计算机由多种不同类型的CPU架构和两种类型的GPU驱动。四款中有三款是由英伟达的图形处理器加速的,但Fugaku世界上第二强大的计算机该公司只使用了自己定制的处理器富士通A64FX。

MLPerf HPC基准测试仅在前一周发布超级计算2022年,在达拉斯举行的超级计算机500强新排名会议是两场会议之一。

超级计算人工智能的单独基准也已经开发出来。它没有训练特定的神经网络,而是“使用利用现代硬件的新颖的混合精度算法来解决线性方程系统”。虽然两个基准测试的结果不一致,但两者之间有重叠HPL-MxP列表CosmoFlow的结果包括:英伟达的Selene,日本理化研究所的Fugaku和德国的JUWELS。


微型ML系统

MLPerf的最新成果是一套基准测试,旨在测试微控制器和其他小型芯片的速度和能源效率,这些芯片执行神经网络,做一些事情,比如发现关键字和其他低功耗、始终在线的任务。MLPerf被称为“微小”(MLPerf Tiny),它太新了,无法在数据中出现真正的趋势。但到目前为止公布的结果显示了几个突出的问题。这里的表格显示了每种处理器的最快“视觉唤醒词”结果,并显示了这一点Syntiant而且Greenwave技术在竞争中占有优势。

对话(0)

为什么函数式编程应该是软件开发的未来

这很难学习,但是您的代码将产生更少令人讨厌的意外

11分钟读取
垂直
一盘用代码做成的意大利面
Shira Inbar
DarkBlue1

你期望人生中最长、最昂贵的阶段一个软件产品的周期是系统的初始开发,当所有这些伟大的功能都是第一次想象,然后创建。事实上,最难的部分出现在后面的维护阶段。这时程序员就会为他们在开发过程中走的捷径付出代价。

那么,他们为什么要走捷径呢?也许他们没有意识到自己在偷工减料。只有当他们的代码被大量用户部署和使用时,隐藏的缺陷才会暴露出来。也许开发人员太匆忙了。推向市场的时间压力几乎保证了他们的软件会包含更多的bug。

继续阅读↓ 显示更少
{“imageShortcodeIds”(“31996907”):}
Baidu