几乎从那一刻起大脑系统宣布了一款基于有史以来最大的单个计算机芯片的计算机,这家硅谷初创公司宣布打算制造一款更重的处理器。今天,该公司宣布其下一代芯片,晶圆规模引擎2 (WSE 2),将在3中可用理查德·道金斯这个季度。WSE 2在物理上和它的前任一样大,但它在数量上大大增加了,嗯,一切。我们的目标是领先于机器学习中使用的日益庞大的神经网络。
硬件工程副总裁Dhiraj Malik在一份声明中说:“在人工智能计算领域,大芯片是王道,因为它们处理信息更快,在更短的时间内得到答案,而时间是人工智能进步的敌人。”
Cerebras一直致力于将机器学习问题的逻辑解决方案发挥到极致。安德鲁·费尔德曼(Andrew Feldman)在2015年联合创立该公司时,训练神经网络需要很长时间。最大的瓶颈是数据必须在处理器和外部DRAM存储器之间来回传输,消耗了时间和能量。的发明者原始晶圆级引擎他们认为,解决方案是让芯片足够大,可以在其人工智能处理器核心旁边存储所需的所有数据。随着用于自然语言处理、图像识别和其他任务的巨大网络即将出现,你需要一个非常大的芯片。有多大?越大越好,这意味着整个硅片的大小(去掉圆位),或46225平方毫米。
WSE 2 |
华沙证交所 |
英伟达A100 |
|
大小 |
46225毫米2 |
46225毫米2 |
826毫米2 |
晶体管 |
2.6万亿年 |
1.2万亿年 |
542亿年 |
核 |
850000年 |
400000年 |
7344年 |
片上存储器 |
40 g |
18 GB |
40个字节 |
内存带宽 |
20 pb /秒 |
9 PB /秒 |
155 GB / s |
织物的带宽 |
220 petabits / s |
100 Pb / s |
600字节/秒 |
制造过程 |
7海里 |
16纳米 |
7海里 |
晶圆尺寸是从WSE到新版本WSE 2唯一没有改变的数据之一,你可以在上面的表格中看到。(为了与更传统的人工智能处理器进行比较,Cerebras使用了英伟达(Nvidia)的处理器AI-chart超过A100.)
是什么让它发生的?
最明显和最重要的驱动因素是从台积电的16-nanometer制造过程——到WSE诞生时已经有5年多的历史了——到大型铸造厂7-nm过程,跨越了10纳米工艺。这样的跳跃基本上是晶体管密度的两倍。据介绍,流程的改变还将导致大约40%的速度提高和60%的功耗降低台积电对其技术的描述.
费尔德曼说:“当你改变节点时,总会遇到物理设计上的挑战。“所有事情都与几何有关。这真的很困难,但我们有台积电这个非凡的合作伙伴。”
仅仅是向7nm的转变就意味着一个巨大的改进,但据费尔德曼称,该公司还对其人工智能核心的微架构进行了改进。他不愿透露细节,但表示经过一年多与客户的合作,Cerebras已经吸取了一些经验教训,并将其融入到新的核心中。
这就引出了推动WSE和WSE 2之间变化的下一个因素——客户。虽然它在推出WSE时有一些(当时都没有公开),但现在它有了更长的列表,也有了更多的服务经验。客户名单上有大量的科学计算:
客户 |
使用 |
阿贡国家实验室 |
癌症治疗学、COVID-19研究、重力波检测、材料科学和材料发现 |
爱丁堡并行计算中心 |
自然语言处理、基因组学、COVID-19研究 |
葛兰素史克公司 |
药物发现,多语言研究综合 |
劳伦斯利弗莫尔国家实验室 |
整合到拉森,8th最强大的超级计算机;用于融合模拟、创伤性脑损伤研究、认知模拟 |
匹兹堡超级计算机中心 |
一个名为“新皮层”的新型研究超级计算机的组成部分 |
重工业、制药、生物技术、军事和情报部门的其他无名人士 |
我们可能永远不会知道 |
最后,公司规模大幅扩大。亚博真人yabo.at2019年去了Cerebras,当时它在森尼维尔有一座小建筑。费尔德曼说:“这个团队的规模基本上翻了一番。该公司目前在硅谷、圣地亚哥、多伦多和东京等地拥有约300名工程师其网站上列出了十多个空缺职位.
什么变化不大?
由于相当明显的原因,芯片本身的大小没有改变。300毫米仍然是量产晶圆的最大尺寸,因此芯片的外部尺寸不能改变。尽管拥有两倍的人工智能核心,但WSE-2在肉眼看来就像WSE。它仍然被分成7 × 12的矩形网格,但这只是芯片制造过程中的一个人工制品。
承载WSE 2的计算机系统称为CS-2,实际上也没有太大变化。费尔德曼说:“我们能够推进物理设计的重要部分。
图片来源:大脑系统
CS-2仍然占据标准机架的三分之一,消耗约20千瓦,依赖于闭环液冷系统,并有一些相当大的冷却风扇。在为最初的WSE开发主机系统时,热量一直是最大的问题之一。该芯片需要大约2万安培的电流,电流来自晶圆上的玻璃纤维电路板上的100万个铜接头。在热膨胀晶圆和电路板的同时,保持所有这些都保持一致意味着发明新材料,并花费了一年多的时间进行开发。费尔德曼说,虽然CS-2需要一些新的工程设计,但它不需要大规模的发明。(所有的事情都没有改变,我们对大脑的CS-1进行了深入研究还是很相关的。它详细介绍了为了让那台电脑活起来而必须发明的许多东西。)
另一个遗留问题是CS-2如何使用所有这些数十万个核心来训练神经网络。该软件允许用户使用标准框架编写他们的机器学习模型,如PyTorch而且TensorFlow.然后,它的编译器将WSE-2的不同大小、物理上连续的部分用于指定神经网络的不同层。它通过解决一个“地点和路线”优化问题来实现这一点,该问题确保所有层都以大致相同的速度完成工作,因此信息可以在网络中流动而不会停滞。费尔德曼说,Cerebras必须确保“软件足够强大,不仅可以编译40万个内核,而且可以编译85万个内核……在大2-2.3倍的东西上进行放置和路由。”
本文以“Supersize AI”为题发表在2021年7月的印刷版上。