机器学习大师迈克尔·乔丹谈大数据和其他巨大工程成果的错觉

大数据的无用之物和大脑芯片只是我们真正犯错的两件事

16分钟读取
IEEE Fellow, Michael I. Jordan的图片说明。
图片说明:Randi Klett
紫色的

过度地采用大数据很可能会导致灾难性的后果,就像全国范围内桥梁垮塌一样。硬件设计人员创建基于人脑的芯片从事一项基于信仰的事业,结果可能是徒劳无功。尽管最近有相反的说法,但我们对计算机视觉的了解并不比艾萨克·牛顿(Isaac Newton)坐在苹果树下时对物理学的了解更深入。

这听起来像是一个在IEEE会议上违反安全规定的疯子的胡言乱语。事实上,这些意见属于IEEE会员迈克尔·乔丹陈柏宏,加州大学伯克利分校特聘教授。Jordan是世界上最受尊敬的机器学习权威之一,也是该领域的敏锐观察者。他的简历需要自己的庞大数据库,他在该领域的地位是如此之高,以至于他被选中为2013年国家研究委员会报告撰写介绍。”海量数据分析前沿旧金山作家李·戈麦斯采访过他亚博真人yabo.at2014年10月3日。

为什么我们在谈论计算时应该停止使用大脑隐喻

亚博真人yabo.at我从你的文章中推断出,你认为有很多关于深度学习、大数据、计算机视觉等的错误信息。迈克尔·乔丹:嗯,在所有的学术话题上都有很多错误的信息。媒体正在尽最大努力寻找人们愿意阅读的话题。有时候,这些会超出成就本身的范围。特别是在深度学习的主题上,它很大程度上是对神经网络的重新定义,可以追溯到20世纪80年代。它们实际上可以追溯到20世纪60年代;似乎每隔20年就会有一波新的浪潮涉及到他们。在当前的浪潮中,主要的成功故事是卷积神经网络,但这个想法已经在上一波浪潮中出现了。前一波的问题之一,不幸的是,这一波仍然存在,人们继续推断它背后涉及神经科学的东西,深度学习是利用对大脑如何处理信息、学习、决策或处理大量数据的理解。这显然是错误的。

光谱作为一名媒体人,我对你刚才所说的持反对意见,因为学术界经常渴望人们写关于他们的故事。

迈克尔·乔丹:是的,这是合伙关系。

光谱在我的印象中,当计算机科学领域的人描述大脑如何工作时,他们所做的都是可怕的还原主义陈述,而这些陈述你永远不会从神经科学家那里听到。你称这些为大脑的“卡通模型”。

迈克尔·乔丹:我不想给人们贴上标签,说所有的计算机科学家都是这样工作的,或者所有的神经科学家都是另一种工作方式。但对于神经科学来说,确实需要几十年甚至几百年的时间来理解深层原理。在神经科学的最底层也有进展。但对于更高层次的认知问题——我们如何感知、如何记忆、如何行动——我们不知道神经元如何存储信息、如何计算、规则是什么、算法是什么、表征是什么等等。因此,我们还没有处在一个可以利用对大脑的理解来指导我们构建智能系统的时代。

光谱除了批评大脑的卡通模型之外,你实际上还进一步批评了“神经现实主义”的整个思想——相信仅仅因为某个特定的硬件或软件系统具有大脑的某些假定特征,它就会更聪明。你怎么看计算机科学家说,例如,“我的系统是类似大脑的,因为它是大规模并行的。”

迈克尔·乔丹:这些都是比喻,很有用。流和管道是来自各种回路的隐喻。我认为在20世纪80年代早期,计算机科学被顺序架构所主导,被冯·诺依曼的存储程序的范式所主导,因此,有必要尝试打破这种模式。所以人们寻找高度平行的大脑的隐喻。这很有用。但随着主题的发展,神经现实主义并没有带来大部分的进展。深度学习最成功的算法是基于一种叫做反向传播的技术。你有这些处理单元的层,你从层的末端得到一个输出,然后你把一个信号向后传播通过层来改变所有的参数。很明显,大脑不会做这样的事情。这绝对是远离神经现实主义的一步,但它导致了重大进展。 But people tend to lump that particular success story together with all the other attempts to build brainlike systems that haven't been nearly as successful.

光谱关于神经现实主义的失败,你提出的另一个观点是,神经网络没有什么是非常神经的。

迈克尔·乔丹:深度学习系统中没有峰值。没有树突。它们有大脑没有的双向信号。我们不知道神经元是如何学习的。它实际上只是负责学习的突触权重的一个小变化吗?这就是这些人工神经网络正在做的事情。在大脑中,我们几乎不知道学习是如何发生的。

光谱我一直读到工程师们在描述他们的新芯片设计时,在我看来是不可思议的语言滥用。他们谈论芯片上的“神经元”或“突触”。但这是不可能的;神经元是一个活的、会呼吸的细胞,其复杂性令人难以置信。工程师们不是在挪用生物学的语言来描述与生物系统的复杂性相差甚远的结构吗?

迈克尔·乔丹:这里我要小心一点。我认为区分这个词的两个方面很重要神经目前正在使用。其中之一是深度学习。在这里,每个“神经元”实际上是一个卡通。它是线性加权和,经过非线性函数。电气工程专业的人都能认出这种非线性系统。将其称为神经元显然充其量只是一种速记。这真的是一部动画片。统计学中有一种叫做逻辑回归的方法可以追溯到20世纪50年代,它与神经元没有任何关系,但它是完全相同的一小块结构。第二个领域涉及到你所描述的内容,目标是更接近真实大脑的模拟,或者至少是真实神经回路的简化模型,如果我理解正确的话。但我看到的问题是,这项研究并没有结合对这个系统在算法上可能做什么的理解。 It's not coupled with a learning system that takes in data and solves problems, like in vision. It's really just a piece of architecture with the hope that someday people will discover algorithms that are useful for it. And there's no clear reason that hope should be borne out. It is based, I believe, on faith, that if you build something like the brain, that it will become clear what it can do.

光谱如果可以,你会宣布禁止使用大脑生物学作为计算模型吗?

迈克尔·乔丹:不。你应该从任何能得到灵感的地方获得灵感。正如我之前提到的,回到20世纪80年代,这样说实际上是有帮助的,“让我们摆脱顺序的,冯·诺依曼范式,更多地考虑高度并行的系统。”但在当前这个时代,很明显,大脑正在进行的详细处理并没有通知算法过程,我认为用大脑来宣称我们已经取得了什么是不合适的。我们不知道大脑是如何处理视觉信息的。

回到顶部

我们关于机器视觉的模糊愿景

光谱你用过这个词炒作在谈到视觉系统的研究。最近似乎有一种流行的故事,关于计算机如何解决视力问题,计算机已经变得和人的视力一样好。你觉得这是真的吗?

迈克尔·乔丹:人类能够处理混乱的场景。他们能够处理大量的分类。他们可以处理关于场景的推论:“如果我坐在那上面呢?”“如果我把一个东西放在另一个东西上面呢?”这些远远超出了当今机器的能力。深度学习擅长于某些类型的图像分类。“这个场景里有什么东西?”但是计算视觉的问题是巨大的。这就像说当苹果从树上掉下来的时候,我们就理解了所有的物理。是的,我们对力和加速度有了更多的了解。 That was important. In vision, we now have a tool that solves a certain class of problems. But to say it solves all problems is foolish.

光谱与人类所能解决的总体问题相比,我们现在能够解决的视觉问题有多大?

迈克尔·乔丹:人脸识别在美国,这个问题可以解决已经有一段时间了。除了脸,你还可以谈论其他类别的物体:“场景中有一个杯子。”“场景里有一只狗。”但谈论同一场景中的多种不同物体以及它们之间的关系,或者人或机器人如何与该场景互动,仍然是一个难题。还有很多很多难题远未解决。

光谱即使在面部识别方面,我的印象是,它仍然只有在你一开始就有非常清晰的图像时才能起作用。

迈克尔·乔丹:这又是一个工程问题。随着时间的推移,你会发现情况会越来越好。但这种关于“革命”的说法有些言过其实了。

回到顶部

为什么大数据可能是一个大失败

光谱现在我们来谈谈大数据你的讲话贯穿了一个主题,那就是我们目前对它的痴迷有某种傻瓜的黄金元素。例如,你预测社会将经历大数据项目产生的假阳性的流行。

迈克尔·乔丹:当你拥有大量的数据时,你对假设的胃口往往会变得更大。如果它的增长速度快于数据的统计强度,那么你的许多推论很可能是错误的。它们很可能是白噪音。

光谱所以如何?

迈克尔·乔丹:在一个经典的数据库中,你可能有几千人。你可以把这些看作数据库的行。这些列是这些人的特征:他们的年龄,身高,体重,收入等等。现在,这些列的组合的数量随着列的数量呈指数增长。因此,如果您有很多很多列——我们在现代数据库中就是这样做的——您将为每个人获得数以百万计的属性。现在,如果我开始允许自己观察这些特征的所有组合——如果你住在北京,你骑自行车上班,你从事某种工作,你到了一定年龄,你患某种疾病或喜欢我的广告的概率是多少?现在我得到了数百万个属性的组合,这种组合的数量是指数级的;它的大小等于宇宙中原子的数量。这些是我愿意考虑的假设。对于任何特定的数据库,我将找到一些列的组合,它们可以完美地预测任何结果,仅仅是偶然的。 If I just look at all the people who have a heart attack and compare them to all the people that don't have a heart attack, and I'm looking for combinations of the columns that predict heart attacks, I will find all kinds of spurious combinations of columns, because there are huge numbers of them. So it's like having billions of monkeys typing. One of them will write Shakespeare.

光谱你认为大数据的这一方面目前没有得到充分的重视吗?

迈克尔·乔丹:肯定。

光谱人们对大数据有哪些承诺,但你认为他们无法实现?

迈克尔·乔丹:我认为数据分析可以在一定的质量水平上提供推论。但我们必须清楚什么质量水平。我们所有的预测都必须有误差条。这是目前大多数机器学习文献所缺少的东西。

光谱如果从事数据工作的人不听从你的建议,会发生什么?

迈克尔·乔丹:我喜欢用架桥的比喻。如果我没有原则,在没有任何实际科学的情况下,我建了成千上万座桥,很多桥会倒塌,大灾难就会发生。同样,如果人们使用数据和他们可以用数据做出的推论,而不考虑误差条,不考虑异质性,不考虑噪声数据,不考虑抽样模式,不考虑所有你作为工程师和统计学家必须认真考虑的事情,那么你就会做出很多预测,而且很有可能偶尔会解决一些真正有趣的问题。但你偶尔也会做出灾难性的错误决定。你不会事先知道其中的区别。你只会产生这些结果,并抱着最好的希望。这就是我们目前的情况。很多人都在做东西,希望它们能起作用,有时它们真的会起作用。在某种意义上,这并没有什么错;这是探索性的。 But society as a whole can't tolerate that; we can't just hope that these things work. Eventually, we have to give real guarantees. Civil engineers eventually learned to build bridges that were guaranteed to stand up. So with big data, it will take decades, I suspect, to get a real engineering approach, so that you can say with some assurance that you are giving out reasonable answers and are quantifying the likelihood of errors.

光谱我们目前有提供这些错误条的工具吗?

迈克尔·乔丹:我们只是把工程科学组装起来。我们有许多想法来自于数百年的统计学和计算机科学。我们正在努力将它们组合在一起,使它们具有可扩展性。在过去的30年里,出现了很多控制所谓的家庭错误的想法,我有很多假设,想知道我的错误率。但其中许多还没有经过计算研究。从数学和工程学上来讲,要解决所有这些问题都很困难,而且需要时间。不是一两年。这需要几十年的时间才能恢复正常。我们还在学习如何做好大数据。

光谱当你读到关于大数据和医疗保健的文章时,每三篇文章中就有一篇是关于我们几乎可以自动获得的惊人临床见解的,仅仅是通过从每个人那里收集数据,尤其是在云端。

迈克尔·乔丹:你不能对此完全持怀疑态度,也不能完全乐观。它介于两者之间。但如果你列出所有来自数据分析的假设,其中有一部分是有用的。你只是不知道是哪个分数。所以,如果你只吃一些,比如,如果你吃燕麦麸,你就不会得胃癌或其他疾病,因为数据似乎表明,你有一定的机会获得幸运。数据将提供一些支持。但除非你真的在做全面的工程统计分析,以提供一些误差条并量化误差,否则这就是赌博。这比没有数据的赌博要好。那是纯粹的轮盘赌。这有点像轮盘赌。

光谱如果我们继续按照你所描述的轨迹发展,大数据领域将会面临什么样的不利后果?

迈克尔·乔丹:最主要的将是“大数据的冬天”。泡沫过后,当人们进行投资,许多公司在没有提供认真分析的情况下过度承诺时,泡沫就会破裂。很快,在两到五年的时间里,人们会说:“整个大数据的事情来了又去。它死了。这是错误的。”我预测到。这是在这些周期中发生的事情,因为有太多的炒作,也就是说,这些断言不是基于对真正问题的理解,也不是基于解决问题需要几十年的理解,不是基于我们将稳步取得进展,而是基于我们在技术进步上没有重大飞跃的理解。然后会有一段时间很难获得资源来进行数据分析。这一领域将继续向前发展,因为它是真实的,也是需要的。但这种反弹将损害大量重要项目。

回到顶部

他会用10亿美元做什么

光谱考虑到在广告上花费的金钱,提供广告背后的科学似乎仍然非常原始。我有一个爱好,就是搜索Kickstarter上那些愚蠢项目的信息,主要是为了看看它们有多荒谬,结果几个月来我一直收到同一家公司的广告。

迈克尔·乔丹:这是一个光谱。这取决于一个系统是如何设计的,以及我们讨论的是什么领域。在某些狭窄的领域,它可能非常好,而在非常广泛的领域,语义要模糊得多,它可能非常差。我个人喜欢亚马逊的推荐系统书和音乐是非常非常好的。这是因为他们有大量的数据,而这个领域是相当有限的。对于衬衫或鞋子这样的领域,它在语义上更模糊,它们的数据更少,所以它更差。还有很多问题,但是构建这些系统的人正在努力工作。我们现在讨论的是语义学和人类偏好。如果我买了一台冰箱,这并不表示我对冰箱感兴趣。我已经买了我的冰箱,我可能不太可能仍然对它们感兴趣。然而,如果我买了一首泰勒·斯威夫特的歌,我更有可能买更多她的歌。这与歌手、产品和物品的特定语义有关。为了在广泛的人类兴趣范围内得到正确的答案,需要大量的数据和大量的工程。

光谱你说过,如果你有10亿美元的无限制拨款,你会致力于自然语言处理。你会做谷歌没有谷歌翻译做什么?

迈克尔·乔丹:我确信谷歌正在做我想做的一切。但我不认为谷歌翻译是唯一的语言问题,它涉及到机器翻译。另一个好的语言问题的例子是问答,比如“加州第二大不靠近河流的城市是哪个?”如果我目前在谷歌中输入这句话,我不太可能得到有用的响应。

光谱所以你是说,至少就自然语言而言,只要10亿美元,你就可以解决广义知识的问题,最终得到人工智能的大卷饼:像人一样思考的机器?

迈克尔·乔丹:所以你会想要分割出一个较小的问题,它不是所有的问题,但它仍然可以让你取得进展。这就是我们在研究中所做的。我可以取一个特定的定义域。事实上,我们在地理课上学过问答。这将使我能够专注于特定类型的关系和特定类型的数据,但不是世界上的所有事情。

光谱因此,为了在问答方面取得进步,你是否需要将它们限制在特定的领域?迈克尔·乔丹:这是一个关于你能取得多大进步的经验问题。它与这些领域中有多少数据可用有关。你可以付给人们多少钱让他们开始写下他们对这些领域的了解。你有多少标签。

光谱令人失望的是,即使有10亿美元,我们仍然可能最终得到一个不通用的系统,但它只适用于一个领域。

迈克尔·乔丹:这就是这些技术发展的典型方式。我们之前讨论过视觉。最早的视觉系统是面部识别系统。这是定义域。但这就是我们开始看到一些早期进展的地方,并且有一种感觉,事情可能会成功。与说话类似,最早的进展是在单个独立的单词上。然后慢慢地,它开始变成你可以说出整个句子。总是这样的进步,从一些限制的东西到越来越不限制的东西。

光谱为什么我们甚至需要更好的问题回答?谷歌还不够好吗?

迈克尔·乔丹:谷歌有一个非常强大的自然语言小组正在研究这个问题,因为他们意识到他们在某些类型的查询上非常糟糕。例如,使用单词不是。人类想要使用这个词不是。例如,“给我一个不靠河的城市。”在目前的谷歌搜索引擎中,这并没有得到很好的处理。

回到顶部

如何不谈论奇点

光谱现在来谈谈其他话题,如果你和硅谷的人聊天,他们对你说,“乔丹教授,我非常相信奇点,你对他们的看法会上升还是下降?

迈克尔·乔丹:幸运的是,我从未遇到过这样的人。

光谱哦,得了吧。

迈克尔·乔丹:我真的不知道。我生活在一个工程师和数学家的知识外壳里。

光谱但如果你真的遇到这样的人,你会怎么做?

迈克尔·乔丹:我会摘下我的学术帽子,我就会像一个人一样思考几十年后会发生什么,我会很开心,就像我读科幻小说一样。这对我的学术研究没有任何帮助。

光谱好吧,但我知道你的学术成就,你怎么看?

迈克尔·乔丹:我的理解是,这不是一门学科。相反,它部分是关于社会如何变化,个人如何变化的哲学,部分是文学,就像科幻小说一样,思考技术变革的后果。但据我所知,它们不会产生算法思想,因为我从未见过它们,告诉我们如何取得技术进步。

回到顶部

比起P = NP

光谱你能猜一下P = NP吗?你在乎吗?

迈克尔·乔丹:我不太担心多项式和指数的区别。我更感兴趣的是低次多项式线性时间,线性空间。P对NP是关于算法的多项式分类,这意味着它们是可控制的指数分类,这意味着它们不是。我想大多数人都会同意P不等于NP。作为数学的一部分,了解它是非常有趣的。但这并不是一个明确的区别。有许多指数时间算法,部分是因为现代计算机的发展,在某些特定的领域仍然可行。而且,对于最大的问题,多项式是不够的。多项式只是意味着它以一定的超线性速度增长,就像二次或三次。但它确实需要线性增长。 So if you get five more data points, you need five more amounts of processing. Or even sublinearly, like logarithmic. As I get 100 new data points, it grows by two; if I get 1,000, it grows by three. That's the ideal. Those are the kinds of algorithms we have to focus on. And that is very far away from the P versus NP issue. It's a very important and interesting intellectual question, but it doesn't inform that much about what we work on.

光谱同样的问题量子计算

迈克尔·乔丹:我对所有这些学术上的东西都很好奇。这是真实的。这很有趣。这对我的研究领域没有什么影响。

回到顶部

图灵测试到底意味着什么

光谱机器会通过测试吗图灵测试在你有生之年?

迈克尔·乔丹:我认为你会慢慢积累能力,包括在语音、视觉和自然语言等领域。可能永远不会有一个时刻,我们想说,“现在有一个新的智能实体在宇宙中。”我认为像谷歌这样的系统已经提供了一定程度的人工智能。网上亚博Ayabo2016

光谱它们肯定是有用的,但它们永远不会与人类相混淆。

迈克尔·乔丹:不,他们不会。我不认为大多数人都认为图灵测试是一个非常明确的界限。相反,当我们看到智能时,我们都知道它,它慢慢地出现在我们周围的所有设备中。它不需要体现在一个单一的实体中。我只是注意到我周围的基础设施变得更智能了。我们所有人都一直在注意到这一点。

光谱当你说“聪明”的时候,你只是把它当作“有用”的同义词吗?

迈克尔·乔丹:是的。我们这一代人感到惊讶的是,计算机在某些方面能够识别我们的需求、愿望和欲望,我们的孩子就不会感到惊讶了,我们孩子的孩子就更不会感到惊讶了。我们只是假设我们周围的环境是有适应性的;这是预测;这是健壮的。这将包括用自然语言与环境交互的能力。在某种程度上,你会惊讶地发现自己能够与周围的环境进行自然的对话。现在我们可以在非常有限的领域内做到这一点。例如,我们可以访问自己的银行账户。他们非常非常原始。 But as time goes on, we will see those things get more subtle, more robust, more broad. As some point, we'll say, “Wow, that's very different when I was a kid." The Turing test has helped get the field started, but in the end, it will be sort of like Groundhog Day—a media event, but something that's not really important.

回到顶部

对话(0)

3种方法帮助NASA的全电动飞机起飞

N3-X计划于2040年推出,最多可搭载300名乘客

3分钟读取
一架飞机在云层中飞行的插图

美国宇航局提出的全电动N3-X飞机载客量将是目前电动飞机的10倍。

美国国家航空航天局

这篇文章是我们独家报道的一部分IEEE期刊手表系列与IEEE Xplore合作。

全电动飞机的竞争正在进行中,一些早期设计正在成为头条新闻。在过去的九月,一个原型Eviation爱丽丝完成了8分钟的首飞,以及更多的型号等Heart Aerospace的ES-30,预计将在未来几年内首次亮相。然而,到目前为止,所有这些型号的设计都只能搭载30名或更少的乘客,而且飞行距离很短。

例如,Eviation Alice只能让两名机组人员和九名乘客在200米的距离上飞行463公里ES-30的全电动型号虽然设计最多可搭载30名乘客,但其航程仅为200公里。为了真正降低温室气体排放,缓解气候变化的影响,需要更大的全电动飞机。值得注意的是,大型飞机的温室气体排放占航空业温室气体排放的75%以上,考虑到历史上航空旅行每年增长4%至5%,这些排放可能会随着时间的推移而恶化。

继续阅读↓ 显示更少

利用数据科学和人工智能打击野生动物贩运

纽约大学坦顿分校的朱莉安娜·弗莱雷(Juliana Freire)领导着一个团队,旨在利用数据科学打击贩卖人口和珍稀动物的犯罪分子

5分钟读取
一只五颜六色的鹦鹉被关进了监狱

野生动物走私有了一个意想不到的新敌人:计算机科学、数据科学和机器学习。

在上面

这篇文章是由纽约大学坦顿工程学院

野生动物走私是一个利润丰厚的市场。虽然很难确切地说出它带来了多少钱,但美国政府估计每年有数十亿美元。动物及其器官的交易就像枪支或毒品一样——通过复杂的供应商、经销商和买家网络进行交易,这些人在他们身后留下了一条血腥的道路。破坏是不言自明的;物种灭绝,环境恶化,无辜的人受害。

继续阅读↓ 显示更少
{“imageShortcodeIds”:[]}
Baidu