你好,我是史蒂文樱桃亚博真人yabo.atIEEE光谱的播客,修复未来。
罕见疾病,罕见。在两个不相关的方面。根据定义,他们的疾病折磨少于200000人。但是,因为世界上的大企业,特别是大型制药公司,没有足够的困扰,也就是说,它不是有足够的利润来打扰,罕见疾病很少工作,更不用说治愈。
例如,hypertryptophanemia出现罕见的病症,可能是由于体内异常的能力处理氨基酸,色氨酸。罕见的如何?我不知道。谷歌搜索没有产生这个问题的答案。事实上,这是罕见的,谷歌没有自动完成这个词甚至15的19个字母输入。
矛盾的是,大数据有可能改变这种情况。因为200000是,毕竟,很多数据点。但它提出了自己的问题。没有一个巨大的200000数据点。第一个挑战是聚合所有潜在的数据。大挑战是包含大量的数据,不是漂亮均匀,可接合,用数据库。它深埋在PubMed的文章和专利申请文件。
深度学习可以帮助研究人员把这些数据的文档。至少,这是创业的策略毗耶娑。来解释它是毗耶娑的CEO和创始人,克里斯托弗小结。
克里斯,欢迎来到播客。
克里斯小结非常感谢。很高兴来到这里。
史蒂文樱桃:克里斯,如果我理解正确的话,使用毗耶娑,数据科学家或其他研究人员可以构建一种传统的行和列数据库的still-somewhat-manual过程大大加快你的软件。是这样吗?
Chris小结:这是正确的。科学的一大挑战,我们有今天如此多的信息,我们现在生成最初的设计对人类阅读一个接一个。然而现在我们生成数万或数十万这些类型的数据元素每一天,一整天。当然,我指的是诸如科学论文、PDF文档。所有这些事情最初是为人类设计的阅读。但是现在基本上是不可能阅读所有的科学文献的发表。所以我们需要更好的工具。这就是深度学习。深度学习真的很擅长分析的信息,获取信息,然后您可以使用更结构化的形式,就像一个数据库。
史蒂文樱桃:所以专门为hypertryptophanemia如何工作,我曾经在我的网站上的介绍,因为它是一个例子。
Chris小结:好吧,如果你仔细想想,你有这个,我们叫它干草堆的数据,然后你想发现针,这是罕见的在这种情况下,与这种罕见的疾病。的方式,这是我们培养对语言本身的学习算法,我们可以训练这些深学习算法在许多不同的语言,所以我们可以在法国找到有关此特定疾病的信息,德语,英语,汉语,日语,所有在同一时间。随着这些算法学习如何读语言在所有的文件,我们给他们访问,他们也能够识别这些特定条件。当他们这样做,我们就能问这些算法自然语言这样的问题这一特定疾病的影响是什么?这个疾病的流行是什么?有什么好的治疗这种疾病吗?,该算法也能够找到这些答案没有我们告诉它如何找到这些答案。所以的组合能够在第一时间找到信息,然后对问题寻找答案是一个非常强大的方式进行科学和从这样的信息中提取信息,以前的机器很难分析。
史蒂文樱桃:这只是一个更广泛的方面。事实上,毗耶娑开发主要退出你所说的黑暗的数据。你说花太多时间数据科学家和研究人员找到他们所需要的数据。黑暗是什么数据?
Chris小结:黑暗的数据或孤立的数据两种方式指的是这样一个事实,大多数组织知道,当他们试图做出业务决策或研究决定,他们知道,他们使它在一个非常小的比例的,他们应该获得的所有信息。这是一个组合的所有外部内容的发布,把每一天,一整天,以及所有的内部数据,每个组织都有访问权。所以这两个的组合形式的数据,有效的组织不使用所有主要是黑暗的定义数据。此外,我们知道,绝大多数的暗非结构化的数据。
史蒂文樱桃:你在辉瑞工作在你第一次启动,虽然你所谓Pfizerpedia开发。看起来像早期尝试找到黑暗数据在这个企业的水平。
Chris小结:是的,现在回去的方法。Pfizerpedia是一个非常有趣的项目。你知道,辉瑞,像许多其他组织一样,有这黑暗的数据的挑战。我下载一个MediaWiki实例,相同类型的运行维基百科的软件,它安装在Linux计算机上在我的桌子上,打开它,我们在一年之内,你知道,我们从零到20000的用户系统。还是在电脑上在我的桌子上,我不小心把电源板每隔一段时间,整个系统将消亡,使人快乐。
但是,但是是的,Pfizerpedia是一个真正伟大的早期例子如何组织非常兴奋来更好地利用数据和信息在他们的组织。这是一个合作项目。这是一个项目,该项目允许人们分享信息在组织内的规模在一个安全的方式。和所有这些对我来说是真正有价值的知识在组织想做内部更好地使用他们的数据。
史蒂文樱桃:你公司的口号之一,至少在Twitter和之前你提到这个,是“构建干草堆,找到针。”
Chris小结:这口号来自这样一个事实,当我们开始,我们出去,告诉人们对深入学习算法本身,主要的东西可以帮助找到针。一次又一次,我们听到的是,“太棒了,但我们仍然找不到数据。”In other words, they were referring to the dark data problem.
我们意识到,我们还建立了一个全新类型的架构集成数据称为数据结构。Layar面料,我们的解决方案数据,正在建设整个时间我们告诉人们关于深度学习,因为我们需要一个更好的运行算法的基础。Layar我们意识到的是,这些数据结构架构,算法本身一样重要。的口号,这就是为什么我们说,你们知道,构建干草堆,即。使用数据结构,将你所有的数据联系在一起,然后你可以找到针。,使用深度学习算法驱动这些类型的见解从干草堆。
史蒂文樱桃:法律案件中有一个过程,特别是诉讼,涉及到一个非常乏味的过程的发现和提取信息有时巨大质量的数据根据法律规定,另一方必须提供。它包括诸如寻找一个牵连语句在三年内所有的公司的电子邮件,但是这“发现”,正如它的名字,是另一个你的用例。这是假设还是有客户已经这样做吗?
Chris小结:不,这绝对是一个真正的用例与客户已经做这种类型的工作。这是另一个很好的例子,正如你所指出的,有太多的文件读入一个合理的时间表。事实上,我认为在很多情况下,只有数百人带进房间,鉴于很多咖啡阅读这些文件。顺便说一下,这种活动是发生在的地方。成千上万,通常,PDF文档被发送给团队的人刚读他们获取信息的地方,许多不同类型的垂直,许多不同类型的活动。
深入学习算法给我们一个工具来做得更好的提取从那些大型文档数据集。例如,我们有一个客户是谁运行这些手工提取练习,它需要几个月。现在同样的锻炼方法可能需要几毫秒的时间。这节省了时间独自…它不仅是一个巨大的时间效率,但也允许他们完全重新思考自己的商业模式,他们是如何做他们的业务,他们在做什么和他们的数据。是的,这些都是非常现实的用例。在毗耶娑,我们兴奋的应用这些技术在生命科学和卫生保健领域,而且在其他垂直像法律一样,像fintech,像制造业。
史蒂文樱桃:一本新书,没有工人工作指出,microwork-the与亚马逊的开始工作土耳其机器人,但现在还不是最大的microwork aggregator-microwork通常包括乏味的工作清理数据,例如,标签图片和视频。我们将有一个秀,那本书的作者在几周内,但与此同时,克里斯,这是公平地说,毗耶娑还将一些microwork自动化?
Chris小结:有情况下,为深入学习算法构建类似的训练集涉及microwork,这是一个有价值的地方microwork适用于深度学习用例。不过,我认为,与此同时,有些地方人们认为你需要更多的数据比实际需要以深入学习算法。和语言模型是一个很好的例子。因为这些语言模型所有语言训练,他们有足够的数据来训练,这两件事。Layar一样,这就意味着这些系统的几小时内,准备执行的各种任务,我所描述的。和两个,这意味着在这些深度学习Layar模型运行在Layar可以执行microtasks你谈到的类型。
我认为,同样重要的是要注意,这些只是工具。他们的新工具。他们很酷的工具包中的工具,但他们仍然被人类所使用的工具。所以,例如,我们构建应用程序的顶部Layar允许人类策展人进去,确保算法的发现是正确的,让那些人类更新模型是发现。然后从这种积极学习内容管理模型。这真的是一个非常有趣的小说的技术在玩,让人类来增加他们的工作活动和做更高层次的价值,更具战略性工作,而使用这些新工具来做更多的平凡的工作类型,此前只可能与人类。
史蒂文樱桃:我们用数据科学家克里斯托弗小结。当我们回来的时候,我们会讨论一些数据分析工具和发现他made-milestones在十几岁时就开始为他的旅程。
固定未来的支持COMSOL的制造商COMSOL多重物理量仿真软件。这样的公司的制造技术中心革新添加剂制造的设计部分,首先从COMSOL构建仿真应用程序模型,允许他们与不同的团队分享他们的分析和探索新的制造机会与自己的客户。了解更多关于仿真应用程序和在comsol.com/blog/apps找到这个和其他的案例研究。
我们回我的客人Christopher小结的创始人兼首席执行官毗耶娑分析,提供人工智能工具和应用程序的数据。
克里斯,我之前提到过你有一个你在辉瑞工作后启动。告诉我们一些关于Entagen。
Chris小结:是的,Entagen是一个公司,我公司成立于2008年,我们跑了五年,然后它最终在2013年收购汤森路透(Thomson Reuters)。Entagen是第一遍在试图构建数据集成基础设施的组织。所以,在很多方面,同样的想法,我一直努力在我的职业生涯中,我实际上也在数据集成在约翰霍普金斯大学研究生院。我建立了一个系统被称为龙,集成数据叫做微阵列数据分析。所以我一直对这个问题思考了很长时间。我不知道为什么,但是它对我来说很有趣。一个Entagen也参与数据集成技术的发展,也主要是为生命科学和卫生保健领域。
Entagen,我们所做的是使用一种特定的数据格式称为RDF为了数据集成。这种方法的好处是,有很多标准和方式的结构化类型的集成能力。不利的一面是,它是一个更脆弱的丰富的信息,我们已经在今天文件之类的东西。所以你很难从所有这些丰富的信息文档转换为RDF的有用的东西。所以毗耶娑我们试图做的是重新考虑我们可以做集成,而无需使用数据格式(如RDF在中间。
史蒂文樱桃:我很高兴你提到龙,这是一个在线数据库引用数组基因的缩写。我明白,人们仍在使用龙。你的博士,约翰霍普金斯涉及使用数据研究机制,在神经层面,铅中毒。
Chris小结:所以导致模仿体内的钙。那里是一个很有趣的背景故事,与这一事实,你知道的,哺乳动物系统进化,铅在环境中不存在,对吗?所以哺乳动物systems-proteins example-didn不需要发展的能力区分和铅钙因为领导不在环境。然后突然人类开始挖掘直通地面,我们有一个问题,对吗?
特别是蛋白质在体内,他们很多人所谓的钙结合域,这些绑定域知道如何结合钙和结果,在身体像做重要的事情,例如,控制大脑突触囊泡释放,这真的是我们的大脑是如何运作的。铅能进入大脑,模仿这些钙结合域和钙引起异常蛋白质的活动。所以我有在做这种类型的研究在蛋白质的水平,但是我们也研究与钙结合蛋白相关的基因的表达。这就是龙变得有用。
史蒂文樱桃:克里斯,你的工作总是数据角度,但总是在生物医学方向倾斜。它看起来像它开始在高中和你西屋科学竞赛提交。
Chris小结:西屋的改变了我的生活。这是一个很好的机会进行生物医学研究,然后通过整个过程奖。西屋前,实际上在生活中我的初恋是鲨鱼,鲨鱼和我一直爱,一直着迷于他们,最近变得更加再次参与保护鲨鱼,保护海洋生态系统。这也是一个区域附近,亲爱的我的心。所以你是对的。科学一直是爱我的生活,当然在我职业生涯的一个线程。
史蒂文樱桃:毗耶娑的名称来自于印度教神话中,具体来说,《摩诃婆罗多》,这是一个巨大的史诗20或30倍的时间比《伊利亚特》和《奥德赛》,只有一点比他们从公元前第三或第四世纪年轻的印度神话和现代数据分析之间的联系?
Chris小结:噢,是的,这是一个很好的问题。所以我在印度生活了四年的男孩,所以我长大读《摩诃婆罗多》作为一本漫画书,我试图想出一个公司的名字。我想,“哇,“甲骨文”很酷的名字,啊,像这样一个人的。”And so I was looking around for the idea of gurus and knowledge compilers and came across the name Vyasa and just loved it. Because of my connection with India and because毗耶娑编译是一个大师,他的知识,把知识放在一起,我爱的想法,活动的知识编译的毗耶娑会怎么处理深度学习算法。所以有个人参考,但也指知识编译的活动。
史蒂文樱桃:克里斯,自动化似乎更与我到印度神湿婆。湿婆”这一名称的意思是“吉祥之一”,但他通常被认为是毁灭者。是义不容辞的那些使用深度学习开发工具吉祥,你似乎一直在做的,你的整个职业生涯。谢谢你的这些创新可以他们总是吉祥,和谢谢你今天加入我们。
Chris小结:非常感谢。感谢你,感谢你把播客在一起,这是美妙的参与。
史蒂文樱桃:你很受欢迎。
我们已经与克里斯托弗溥敦说话,创始人和毗耶娑,深度学习工具制造商减轻负担和单调的数据采集。
解决未来是由COMSOL数学建模软件厂商的长期支持者亚博真人yabo.at作为一种连接和与工程师沟通。
亚博真人yabo.at的会员杂志是电气和电子工程师协会,一个专业组织,致力于推进技术,造福人类。
这次采访记录2021年10月12日,在音频处理通过缩放、无畏和编辑。我们的主题音乐是乍得克劳奇。我想感谢布朗尼克提出这个话题。
你可以订阅解决未来无论你得到你的播客,或者听谱网站上,你也会找到我们所有事件的记录。我们欢迎你的反馈在网络上或在社交媒体中,在您最喜爱的应用程序和你的等级我们。
为解决未来,我史蒂文樱桃。