Andrew Ng: Unbiggen AI

这位人工智能先驱表示,现在是时候为重大问题提供智能规模的“以数据为中心”的解决方案了

10分钟读取
2019年10月30日,吴恩达在纽约布鲁克林出席“数据的力量:比你想象的更早”全球科技大会。

吴恩达(Andrew Ng)参与了基于大量数据训练的大规模深度学习模型的兴起,但现在他正在鼓吹小数据解决方案。

凯特·丁利/彭博社/盖蒂图片社

Andrew Ng有很强的街头信誉在人工yabo2016网上亚博A智能领域。在2000年代后期,他与他的学生一起率先使用图形处理单元(gpu)来训练深度学习模型斯坦福大学,共同创办谷歌大脑2011年,他担任了三年的首席科学家百度在那里,他帮助组建了这家中国科技巨头的人工智能团队。因此,当他说他已经确定了人工智能的下一个重大转变时,人们会听他的。网上亚博Ayabo2016他就是这么说的亚博真人yabo.at在一个独家问答中。


吴恩达目前的工作重点是他的公司着陆人工智能该公司建立了一个名为LandingLens的平台,帮助制造商利用计算机视觉改善视觉检测。他也成为了他所谓的基督教的福音传道者以数据为中心的AI运动他说,这可以为人工智能中的大问题提供“小数据”解决方案,包括模型效率、准确性和偏差。

吴恩达谈……

在过去十年左右的时间里,深度学习的巨大进步是由处理越来越多数据的越来越大的模型所推动的。有些人认为这是不可持续的发展轨道.你同意不能这样下去吗?

Andrew Ng:这是个大问题。我们已经在NLP[自然语言处理]中看到了基础模型。我对NLP模型变得更大感到兴奋,也对在计算机视觉中构建基础模型的潜力感到兴奋。我认为视频中还有很多信号有待开发:与标记化文本相比,由于计算带宽和处理视频的成本,我们还无法为视频构建基础模型。所以我认为这个扩大深度学习算法的引擎,已经运行了大约15年了,仍然有动力。话虽如此,它只适用于某些问题,还有一组其他问题需要小数据解决方案。

当你说你想要一个计算机视觉的基础模型时,你的意思是什么?

吴:这个术语是由珀西梁而且我在斯坦福大学的一些朋友参考在非常大的数据集上训练的非常大的模型,可以针对特定的应用进行调整。例如,GPT-3是[NLP]基础模型的一个例子。作为开发机器学习应用程序的新范式,基础模型提供了很多希望,但在确保它们合理公平和无偏见方面也存在挑战,特别是如果我们中的许多人将在它们之上进行构建。

为视频构建基础模型需要发生什么?

吴:我认为这是一个可扩展性问题。处理大量视频图像所需的计算能力是非常重要的,我认为这就是为什么基础模型首先出现在NLP中。许多研究人员正在研究这方面的工作,我认为我们已经看到了计算机视觉中开发这种模型的早期迹象。但我有信心,如果半导体制造商给我们10倍的处理器能力,我们可以很容易地找到10倍的视频来构建这样的视觉模型。

话虽如此,在过去十年中,深度学习主要发生在面向消费者的公司,这些公司拥有庞大的用户基础,有时是数十亿用户,因此有非常大的数据集。尽管这种机器学习的模式在消费软件领域带来了巨大的经济价值,但我发现这种规模化的方法并不适用于其他行业。

回到顶部

听你这么说很有趣,因为你早期的工作是在一家拥有数百万用户的面向消费者的公司。

吴:十多年前,当我提议开始谷歌大脑项目使用谷歌的计算基础设施来构建非常大的神经网络,这是一个有争议的步骤。一位非常资深的人把我拉到一边,警告我,创办谷歌Brain会对我的职业生涯不利。我想他觉得行动不能只是扩大规模,而我应该专注于架构创新。

“在许多行业,庞大的数据集根本不存在,我认为重点必须从大数据转移到好数据。有50个精心设计的例子就足以向神经网络解释你想让它学习什么。”
——andrew Ng (Landing AI首席执行官兼创始人

我记得当我和我的学生发表了第一本NeurIPS提倡使用的研讨会论文CUDA这是一个在gpu上处理的平台,用于深度学习——AI的另一位高级人员让我坐下来,对我说:“CUDA编程真的很复杂。作为一种编程范式,这似乎工作量太大了。”我确实说服了他;我没有说服另一个人。

我想他们现在都相信了。

吴:我想是的。

在过去的一年里,当我与人们谈论以数据为中心的人工智能运动时,我总是回想起10或15年前我与人们谈论深度学习和可扩展性时的情景。在过去的一年里,我一直听到“这里没有什么新东西”和“这似乎是错误的方向”。

回到顶部

你如何定义以数据为中心的人工智能,为什么你认为它是一种运动?

吴:以数据为中心的人工智能是系统地设计成功构建人工智能系统所需的数据的学科。对于人工智能系统,你必须用代码实现一些算法,比如神经网络,然后在你的数据集上训练它。过去十年的主流范式是下载数据集,同时专注于改进代码。由于这种范式,在过去的十年里,深度学习网络有了显著的改进,对于许多应用程序来说,代码(神经网络架构)基本上已经解决了问题。因此,对于许多实际应用来说,现在更有效的方法是保持神经网络架构固定,而是寻找改进数据的方法。

当我开始谈论这个问题的时候,有很多练习者举手说:“是的,我们已经做了20年了。”现在是时候把一些人凭直觉做的事情变成一个系统的工程学科了。

以数据为中心的人工智能运动远远不止一家公司或一群研究人员。我和我的合作者组织了一个NeurIPS以数据为中心的人工智能研讨会,我很高兴有这么多的作者和主持人出席。

您经常谈到只有少量数据可处理的公司或机构。以数据为中心的人工智能如何帮助他们?

吴:你听过很多关于用数百万张图像构建的视觉系统——我曾经用3.5亿张图像构建了一个人脸识别系统。为数以亿计的图像构建的架构不能只使用50个图像。但事实证明,如果你有50个非常好的例子,你就可以构建一些有价值的东西,比如缺陷检查系统。在许多行业,庞大的数据集根本不存在,我认为重点必须从大数据转移到好数据。有50个精心设计的例子就足以向神经网络解释你想让它学习什么。

当你谈到只用50张图像训练一个模型时,这真的意味着你是在使用一个在非常大的数据集上训练的现有模型并对其进行微调吗?或者你的意思是一个全新的模型,它被设计成只从这个小数据集中学习?

吴:让我来描述一下Landing AI是做什么的。在为厂家做目测时,我们经常使用自己的口味RetinaNet.这是一个预训练的模型。话虽如此,预训练只是拼图的一小部分。更大的难题是提供工具,使制造商能够选择正确的图像集(用于微调),并以一致的方式标记它们。我们已经看到了一个跨越视觉、NLP和语音的非常实际的问题,即使是人类注释人员也无法就适当的标签达成一致。对于大数据应用,常见的反应是:如果数据有噪声,那就让我们获取大量数据,算法会对其平均。但是如果你能开发出一种工具来标记数据不一致的地方,并给你一种非常有针对性的方法来提高数据的一致性,这将是获得高性能系统的一种更有效的方法。

“收集更多数据通常是有帮助的,但如果你试图为所有事情收集更多数据,那可能是一项非常昂贵的活动。”
安德鲁Ng

例如,如果你有10,000张图片,其中30张图片属于一个类别,而这30张图片的标签不一致,我们要做的一件事就是构建工具,让你注意到不一致的数据子集。所以你可以非常快速地重新标记这些图像,使其更加一致,这将导致性能的提高。

这种对高质量数据的关注是否有助于解决数据集的偏见?如果你能在培训前更多地整理数据?

吴:的确如此。许多研究人员指出,偏差数据是导致偏差系统的众多因素之一。已经有许多经过深思熟虑的努力来设计这些数据。在NeurIPS研讨会上,奥尔加Russakovsky在这方面做了很好的演讲。在主要的NeurIPS会议上,我也非常喜欢玛丽·格雷的演讲,其中提到了以数据为中心的人工智能是解决方案的一部分,而不是整个解决方案。新的工具,比如数据集的数据表这似乎也是谜团的重要组成部分。

以数据为中心的人工智能为我们提供的强大工具之一是设计数据子集的能力。想象一下,训练一个机器学习系统,发现它对大多数数据集的性能都是可以的,但它的性能只对一部分数据有偏差。如果你试图改变整个神经网络架构来提高一个子集的性能,这是相当困难的。但如果你能设计数据的子集,你就能以更有针对性的方式解决问题。

你所说的数据工程,具体指的是什么?

吴:在人工智能中,数据清理很重要,但数据清理的方式通常是手工的。在计算机视觉中,人们可以通过图像来可视化图像Jupyter笔记本也许能发现问题,也许能解决问题。但让我感到兴奋的是,这些工具可以让你拥有一个非常大的数据集,这些工具可以快速有效地将你的注意力吸引到数据的子集,比如说,标签是嘈杂的。或者快速地将您的注意力集中到100个类中的一个类上,它将有利于您收集更多的数据。收集更多的数据通常是有帮助的,但如果您试图为所有事情收集更多的数据,这可能是一项非常昂贵的活动。

例如,我曾经发现,当背景中有汽车噪音时,语音识别系统的表现很差。知道这一点后,我可以在有汽车噪音的背景下收集更多数据,而不是试图为所有东西收集更多数据,那样既昂贵又缓慢。

回到顶部

那么使用合成数据呢?这通常是一个很好的解决方案吗?

吴:我认为合成数据是以数据为中心的人工智能工具箱中的重要工具。在NeurIPS研讨会上,生命Anandkumar做了一个关于合成数据的很棒的演讲。我认为合成数据的重要用途不仅仅是为学习算法增加数据集的预处理步骤。我希望看到更多的工具让开发人员将合成数据生成作为迭代机器学习开发闭环的一部分。

你的意思是合成数据可以让你在更多的数据集上尝试模型吗?

吴:不是真的。举个例子。假设您正在尝试检测智能手机外壳的缺陷。智能手机有许多不同类型的缺陷。可能是划痕,凹痕,坑痕,材料变色,其他类型的瑕疵。如果你训练模型,然后通过误差分析发现它总体表现良好,但在坑痕上表现不佳,那么合成数据生成可以让你以更有针对性的方式解决问题。您可以为坑痕类别生成更多数据。

“在消费软件互联网中,我们可以训练少数机器学习模型来服务10亿用户。在制造业,你可能有10,000个制造商建立10,000个定制的人工智能模型。”
安德鲁Ng

合成数据生成是一个非常强大的工具,但我通常会先尝试许多更简单的工具。比如数据增强,提高标签一致性,或者只是要求工厂收集更多数据。

回到顶部

为了让这些问题更具体,你能给我举个例子吗?当一家公司靠近时着陆人工智能说它在视觉检查方面有问题,你如何安装它们并朝着部署方向工作?

吴:当客户找到我们时,我们通常会就他们的检查问题进行对话,并查看一些图像,以验证该问题用计算机视觉是可行的。假设是这样,我们让他们把数据上传到LandingLens平台。我们经常建议他们以数据为中心的人工智能的方法,并帮助他们标记数据。

人工智能登陆的重点之一是让制造企业自己完成机器学习工作。我们的大量工作是确保软件快速且易于使用。通过机器学习开发的迭代过程,我们为客户提供建议,比如如何在平台上训练模型,何时以及如何改进数据标注,从而提高模型的性能。我们的培训和软件通过将训练过的模型部署到工厂的边缘设备全程支持他们。

你如何应对不断变化的需求?如果产品变化或工厂照明条件变化,模型能跟上吗?

吴:它因制造商而异。在许多情况下都存在数据漂移。但有一些制造商已经在同一条生产线上运行了20年,几乎没有变化,所以他们不期望在未来五年内发生变化。这些稳定的环境让事情变得更容易。对于其他制造商,我们提供工具,在出现重大数据漂移问题时进行标记。我发现授权制造客户纠正数据、再培训和更新模型非常重要。因为如果有什么变化,现在是美国的凌晨3点,我希望他们能够立即调整他们的学习算法来维持运营。

在消费软件互联网中,我们可以训练少量的机器学习模型来服务10亿用户。在制造业,你可能有10,000个制造商建立10,000个定制的人工智能模型。挑战在于,如何在不雇佣1万名机器学习专家的情况下做到这一点?

所以你的意思是,为了扩大规模,你必须让客户做大量的培训和其他工作。

吴:是的,完全正确!这是人工智能行业普遍存在的问题,而不仅仅是制造业。看看医疗保健。每家医院都有自己的电子健康记录格式略有不同。每个医院如何训练自己的定制人工智能模型?期望每家医院的IT人员都能发明新的神经网络架构是不现实的。摆脱这种困境的唯一方法是构建工具,通过为客户提供设计数据和表达其领域知识的工具,使他们能够构建自己的模型。这就是Landing AI在计算机视觉领域所执行的,而AI领域需要其他团队在其他领域执行这一点。

关于你正在做的工作或以数据为中心的人工智能运动,你认为还有什么事情对人们来说很重要吗?

吴:在过去十年里,人工智能领域最大的转变是向深度学习的转变。我认为,在这个十年里,最大的转变很可能是以数据为中心的人工智能。随着当今神经网络架构的成熟,我认为对于许多实际应用来说,瓶颈将是我们能否有效地获得开发良好系统所需的数据。以数据为中心的人工智能运动在整个社区中具有巨大的能量和势头。我希望更多的研究人员和开发人员能够参与进来并致力于此。

回到顶部

本文以“Andrew Ng, AI Minimalist”为题发表在2022年4月的印刷版上.”

对话(8)
Manuel Moog 2022年4月19日
INDV

嗨,有没有可能为BERT提供微调培训的额外信息,比如给定文本序列的哪一部分应该给予更多的“关注”?所以BERT可以更有效地学习,而不仅仅是使用它自己的注意力机制?

Rokon扎曼 2022年3月21日
INDV

尽管有可能性和进步,为什么许多人工智能创新在最后一英里停留?值得注意的例子是自动驾驶汽车。这是否意味着人工智能科学基础相当薄弱?

1回复
汤姆渴望 2022年3月1日
INDV

让人工智能尝试生成最少的输入图像集来训练神经网络,使其接近在大量图像数据集上训练的神经网络,这将是很有趣的。

它可能会对手动或自动选择快速训练的“好”示例的属性产生一些见解?

也许人们可以更进一步,训练神经网络从新数据集中快速选择最小训练集?

3种方法帮助NASA的全电动飞机起飞

N3-X计划于2040年推出,最多可搭载300名乘客

3分钟读取
一架飞机在云层中飞行的插图

美国宇航局提出的全电动N3-X飞机载客量将是目前电动飞机的10倍。

美国国家航空航天局

这篇文章是我们独家报道的一部分IEEE期刊手表系列与IEEE Xplore合作。

全电动飞机的竞争正在进行中,一些早期设计正在成为头条新闻。在过去的九月,一个原型Eviation爱丽丝完成了8分钟的首飞,以及更多的型号等Heart Aerospace的ES-30,预计将在未来几年内首次亮相。然而,到目前为止,所有这些型号的设计都只能搭载30名或更少的乘客,而且飞行距离很短。

例如,Eviation Alice只能让两名机组人员和九名乘客在200米的距离上飞行463公里ES-30的全电动型号虽然设计最多可搭载30名乘客,但其航程仅为200公里。为了真正降低温室气体排放,缓解气候变化的影响,需要更大的全电动飞机。值得注意的是,大型飞机的温室气体排放占航空业温室气体排放的75%以上,考虑到历史上航空旅行每年增长4%至5%,这些排放可能会随着时间的推移而恶化。

继续阅读↓ 显示更少

利用数据科学和人工智能打击野生动物贩运

纽约大学坦顿分校的朱莉安娜·弗莱雷(Juliana Freire)领导着一个团队,旨在利用数据科学打击贩卖人口和珍稀动物的犯罪分子

5分钟读取
一只五颜六色的鹦鹉被关进了监狱

野生动物走私有了一个意想不到的新敌人:计算机科学、数据科学和机器学习。

在上面

这篇文章是由纽约大学坦顿工程学院

野生动物走私是一个利润丰厚的市场。虽然很难确切地说出它带来了多少钱,但美国政府估计每年有数十亿美元。动物及其器官的交易就像枪支或毒品一样——通过复杂的供应商、经销商和买家网络进行交易,这些人在他们身后留下了一条血腥的道路。破坏是不言自明的;物种灭绝,环境恶化,无辜的人受害。

继续阅读↓ 显示更少
{“imageShortcodeIds”:[]}
Baidu