深度学习可以把音乐会体验带回家

一个世纪以来对真正逼真的声音制作的追求终于得到了回报

12分钟读取
垂直
图像包含仪器、左右张开的双手等多个方面。
斯图亚特·布拉德福德
蓝色的

现在记录下来了声音已经无处不在,我们几乎不去想它。从我们的智能手机、智能音箱、电视、收音机、光盘播放器和汽车音响系统,它是我们生活中持久而令人愉快的存在。2017年,民意调查公司的一项调查尼尔森大约90%的美国人经常听音乐,平均每周听32小时。

在这种自由流动的快乐背后,是巨大的产业,它们将技术应用于以最大可能的真实感再现声音的长期目标。从19世纪80年代爱迪生的留声机和喇叭扬声器开始,一代又一代追求这一理想的工程师发明和开发了无数的技术:三极管真空管、动态扬声器、磁性留声机卡带、几十种不同拓扑结构的固态放大电路、静电扬声器、光盘、立体声和环绕声。在过去的五十年里,数字技术,就像音频压缩而且流媒体,已经改变了音乐产业。

然而,即使是现在,经过150年的发展,我们从高端音响系统中听到的声音也远远比不上我们在现场音乐表演中听到的声音。在这种情况下,我们处于自然声场中,可以很容易地感知到不同乐器的声音来自不同的位置,即使声场中有多种乐器的混合声音纵横交错。人们花大价钱去听现场音乐是有原因的:现场音乐更令人愉快、更令人兴奋,而且能产生更大的情感影响。

想要自己听作者的3D Soundstage音频,拿起耳机前往3 dsoundstage.com/ieee

今天,研究人员、公司和企业家,包括我们自己,终于接近于真正重现自然声场的录制音频。这一群体包括大公司,如苹果和索尼,以及小公司,如有创意的。Netflix最近披露了与森海塞尔合作在此基础上,该网络开始使用一种新的系统,Ambeo 2通道空间音频,以提高诸如“陌生的东西和《巫师》。

现在至少有六种不同的方法来制作高度逼真的音频。我们使用术语“soundstage”来区分我们的作品与其他音频格式,如空间音频或沉浸式音频。与普通立体声相比,它们可以代表具有更多空间效果的声音,但它们通常不包括再现真正令人信服的声场所需的详细声源位置线索。

我们相信声台是音乐录制和复制的未来。但是,在这样一场彻底的革命发生之前,必须克服一个巨大的障碍:方便而廉价地转换现有的无数小时的录音,无论它们是单声道、立体声还是多声道环绕声(5.1、7.1等等)。没人知道到底有多少首歌被录制了下来,但根据娱乐元数据公司Gracenote的数据,超过2亿现在在地球上可以听到录制的歌曲。考虑到一首歌的平均时长约为3分钟,这相当于1100年的音乐。

测量头部相关传递函数

为了为听众提供高度的空间真实感,您需要精确地绘制听众独特的头型、耳朵和鼻腔如何影响他或她听到声音的细节。这是通过确定听者头部相关的传递函数来完成的,这是通过从各种角度播放声音,并记录用户头部在每个位置对声音的影响来完成的。

图像的人体假人在地板上的音频设备。

彼得•李

图像的人体假人与标签显示音频的过程。

克里斯Philpot

这是一个很多的音乐。任何推广一种新的音频格式的尝试,无论多么有希望,都注定要失败,除非它包括一种技术,使我们能够像现在享受立体声音乐一样轻松方便地收听所有现有的音频——在家里、在海滩上、在火车上或在汽车上。

我们已经开发了这样一种技术。我们称之为系统3 d巡查允许在智能手机、普通或智能扬声器、耳机、耳机、笔记本电脑、电视、条形音箱和车辆的音台上播放音乐。它不仅可以将单声道和立体声录音转换为声场,还允许未经特殊培训的听众使用图形用户界面根据自己的喜好重新配置声场。例如,听众可以指定每种乐器和声源的位置,并调整每种乐器和声源的音量——例如,与乐器伴奏相比,改变人声的相对音量。该系统通过利用人工智能(AI)、虚拟现实和数字信号处理(稍后会详细介绍yabo2016网上亚博A)来实现这一点。

令人信服地再创造比如说,用两个小扬声器(比如耳机里的那种)演奏弦乐四重奏,需要高超的技术技巧。为了理解这是如何做到的,让我们从我们感知声音的方式开始。

当声音传到你的耳朵时,你头部的独特特征——物理形状,你外耳和内耳的形状,甚至你鼻腔的形状——都会改变原始声音的音谱。此外,从声源到你的两只耳朵的到达时间也有非常细微的差异。通过这种光谱变化和时间差,你的大脑就能感知到声源的位置。光谱变化和时间差可以用数学模型表示为头部相关传递函数。在你头部周围的三维空间中,每个点都有一对hrtf,一个用于左耳,另一个用于右耳。

因此,给定一段音频,我们可以使用一对hrtf来处理该音频,一个用于右耳,一个用于左耳。为了重新创造最初的体验,我们需要考虑声源相对于录制它们的麦克风的位置。如果我们将经过处理的音频回放,例如通过一副耳机,听者将听到带有原始线索的音频,并感知到声音来自最初录制声音的方向。

如果我们没有原始的位置信息,我们可以简单地为各个声源分配位置,并获得本质上相同的体验。听众不太可能注意到表演者位置的微小变化——实际上,他们可能更喜欢自己的配置。

即使是现在,经过150年的发展,我们从高端音响系统中听到的声音也远远比不上我们亲临现场听音乐表演时听到的声音。

有很多商业应用程序使用电火花冲激S为使用耳机和耳机的听众创建空间声音。苹果就是一个例子Spatialize立体声。这项技术将hrtf应用于回放音频,这样你就可以感知到空间音效——比普通立体声更真实的更深的声场。苹果公司还提供了头部追踪器版本,它使用iPhone和AirPods上的传感器来跟踪你耳朵里的AirPo亚博排列五投注网站ds和iPhone之间的相对方向。然后它应用与你的iPhone方向相关的hrtf来生成空间声音,这样你就能感觉到声音来自你的iPhone。这不是我们所说的声音舞台音频,因为乐器的声音仍然混合在一起。你无法察觉,例如,小提琴手在中提琴手的左边。

然而,苹果公司确实有一款产品试图提供录音棚音频:苹果空间音频。在我们看来,这是对普通音响的重大改进,但仍有一些困难。第一,它包含了杜比大气压杜比实验室(Dolby Laboratories)开发的环绕立体声技术。Spatial Audio应用一组hrtf为耳机和耳机创建空间音频。然而,杜比全景声(Dolby Atmos)的使用意味着所有现有的立体声音乐都必须为这项技术重新录制。重新录制数以百万计的单声道和立体声唱片基本上是不可能的。Spatial Audio的另一个问题是,它只能支持耳机或耳机,而不能支持扬声器,所以对于那些倾向于在家里和车里听音乐的人来说,它没有任何好处。

那么如何我们的系统实现逼真的音效?我们从使用机器学习将音频分割成多个独立音轨的软件,每个音轨代表一种乐器或歌手或一组乐器或歌手。这种分离过程被称为上混。没有受过特殊训练的制作人甚至听众都可以将多个音轨重新组合,重新创造并个性化所需的声场。

考虑一首由吉他、贝斯、鼓和人声组成的四重奏歌曲。听众可以决定在哪里“定位”表演者,并可以根据他或她的个人喜好调整每个人的音量。使用触摸屏,监听器可以虚拟地安排声源位置和监听器在声场中的位置,以实现令人愉悦的配置。图形用户界面显示一个表示舞台的形状,舞台上覆盖着表示声源的图标——人声、鼓、贝斯、吉他等等。在中间有一个头部图标,指示侦听器的位置。听众可以触摸和拖动头部图标来根据自己的喜好改变声场。

将头部图标移近鼓可以使鼓的声音更加突出。如果听众将头部图标移动到代表乐器或歌手的图标上,则听众将听到该表演者的独奏。关键是,通过允许听众重新配置声场,3D Soundstage为音乐的享受增加了新的维度(如果你原谅这个双关语的话)。

转换后的声音舞台音频可以有两个声道,如果它是通过耳机或普通的左右声道系统听到的话。如果它注定要在多扬声器系统上播放,它也可以是多通道的。在后一种情况下,声场可以由两个、四个或更多扬声器创建。在重新创建的声场中,不同声源的数量甚至可以大于扬声器的数量。

音频分类

显示多种音频类型和音频类型示例的图表图像。

对于寻求高度空间真实感的听众,现在可以通过扬声器或耳机享受各种音频格式和系统。在低端,普通的单声道和立体声录音提供了最低限度的空间感知体验。在中音域,多声道录音,如5.1和7.1环绕声,提供了更高层次的空间真实感。在最高层次上,音频系统从录音中单独的乐器音轨开始,并使用音频技术和工具(如与头部相关的传递函数)将它们重新组合,以提供高度逼真的空间体验。

这种多渠道方法不应与普通方法混淆5.1和7.1环绕声。它们通常有5到7个独立的频道,每个频道都有一个扬声器,外加一个低音炮(“.1”)。多个扬声器创造的声场比标准的双扬声器立体声设置更令人身临其境,但它们仍然达不到真正的录音棚录音所能达到的真实感。当通过这样的多声道设置播放时,我们的3D Soundstage录音可以绕过5.1、7.1或任何其他特殊音频格式,包括多声道音频压缩标准。

再来谈谈这些标准。为了更好地处理改善环绕立体声和沉浸式音频应用的数据,最近制定了新的标准。其中包括用于沉浸式空间音频的MPEG-H 3D音频标准,以及空间音频对象编码(SAOC)。这些新标准继承了各种多声道音频格式及其相应的编码算法,如几十年前开发的杜比数字AC-3和DTS。

在制定新标准时,专家们必须考虑许多不同的需求和所需的特性。人们想要与音乐互动,例如通过改变不同乐器组的相对音量。他们想要通过不同的网络,通过不同的扬声器配置来播放不同类型的多媒体。SAOC在设计时考虑到了这些功能,允许音频文件有效地存储和传输,同时保留了听者根据个人口味调整混合的可能性。

然而,要做到这一点,它依赖于各种标准化的编码技术。为了创建文件,SAOC使用编码器。编码器的输入是包含音轨的数据文件;每个音轨都是一个文件,代表一个或多个乐器。编码器本质上是使用标准化技术压缩数据文件。在播放过程中,音频系统中的解码器对文件进行解码,然后通过数模转换器将其转换回多通道模拟声音信号。

我们的3D Soundstage技术绕过了这一点。我们使用单声道、立体声或多声道音频数据文件作为输入。我们将这些文件或数据流分离成多个独立声源的声道,然后根据听者的首选配置将这些声道转换为双声道或多声道输出,以驱动耳机或多个扬声器。我们使用人工智能技术来避免多轨重录、编码和解码。

事实上,有一个在创建3D Soundstage系统时,我们面临的最大技术挑战是编写机器学习软件,将传统的单声道、立体声或多声道录音实时分离(或混合)成多个独立的音轨。该软件运行在一个神经网络。我们在2012年开发了这种音乐分离方法,并在授予的专利中描述了它2022而且2015(美国的专利号是11240621 B2而且9131305 B2).

听众可以决定在哪里“定位”表演者,并可以根据他或她的个人喜好调整每个人的音量。

一个典型的课程有两个组成部分:培训和混合。在训练过程中,大量的混合歌曲及其孤立的乐器和声乐曲目分别被用作神经网络的输入和目标输出。训练使用机器学习来优化神经网络参数,使神经网络的输出-孤立的乐器和声音数据的单个轨迹的集合与目标输出匹配。

神经网络是非常松散地模仿大脑的。它有一个节点输入层,代表生物神经元,然后是许多中间层,称为“隐藏层”。最后,在隐藏层之后有一个输出层,最终的结果在这里出现。在我们的系统中,输入节点的数据是混合音轨的数据。当这些数据通过隐藏节点层时,每个节点执行计算,产生加权值的和。然后对这个和进行非线性数学运算。这个计算决定了是否以及如何将来自该节点的音频数据传递到下一层的节点。

有几十个这样的层。随着音频数据从一层传到另一层,各个乐器逐渐彼此分离。最后,在输出层中,每个分离的音轨输出在输出层的节点上。

这就是我的想法。当神经网络被训练时,输出可能会偏离目标。它可能不是一个孤立的乐器音轨——例如,它可能包含两种乐器的音频元素。在这种情况下,用于确定数据如何从隐藏节点传递到隐藏节点的加权方案中的个别权重被调整,并再次运行训练。这种迭代训练和调整一直进行下去,直到输出与目标输出或多或少地完美匹配为止。

与机器学习的任何训练数据集一样,可用的训练样本数量越多,最终的训练就越有效。在我们的例子中,我们需要成千上万首歌曲和它们各自的乐器曲目来进行训练;因此,总的训练音乐数据集以数千小时计。

神经网络训练完成后,给定一首混合声音的歌曲作为输入,系统使用训练时建立的系统在神经网络中运行,输出多个分离的曲目。

用神经网络分解音频

图中描述了一个神经网络被用来将一段音频分离成它的组成轨道。

3D Soundstage依靠在神经网络上运行的深度学习软件,将一段音乐分成它的组成曲目。随着数字音乐文件通过连续的节点层,音轨逐渐分离。最后,在输出节点上释放每个隔离轨道。

分离后录制到它的组成曲目,下一步是将它们混音成录音棚录音。这是由一个声场信号处理器完成的。这个声场处理器执行复杂的计算功能,以生成驱动扬声器和产生声场音频的输出信号。发电机的输入包括隔离的音轨、扬声器的物理位置以及在重新创建的声场中侦听器和声源的所需位置。声场处理器的输出是多声道信号,每个声道一个,用于驱动多个扬声器。

声场可以在物理空间中,如果它是由扬声器产生的,也可以在虚拟空间中,如果它是由耳机或耳机产生的。声场处理器内执行的功能基于计算声学和心理声学,它考虑了所需声场中的声波传播和干扰,以及针对听众和所需声场的hrtf。

例如,如果监听器将使用耳机,生成器将根据所需声源位置的配置选择一组hrtf,然后使用所选的hrtf来过滤隔离的声源轨道。最后,声场处理器将所有HRTF输出结合起来,为耳机生成左右音轨。如果要在扬声器上播放音乐,至少需要两个扬声器,但扬声器越多,声场越好。重建声场中的声源数量可以大于或小于扬声器的数量。

我们在2020年为iPhone发布了第一款录音棚应用。它允许听者实时配置、收听和保存声场音乐——处理过程不会造成明显的时间延迟。这个应用叫做3 d重逢它可以将听者个人音乐库、云甚至流媒体音乐中的立体声音乐实时转换为音台。(对于卡拉ok,该应用程序可以删除人声,或输出任何孤立的乐器。)

今年早些时候,我们开通了一个门户网站,3 dsoundstage.com它提供了3D Musica应用程序的所有功能,还提供了一个应用程序编程接口(API),使流媒体音乐提供商甚至任何流行Web浏览器的用户都可以使用这些功能。现在任何人都可以在任何设备上听音乐。

当声音传到你的耳朵时,你头部的独特特征——物理形状,你外耳和内耳的形状,甚至你鼻腔的形状——都会改变原始声音的音谱。

我们还为车辆和家庭音频系统和设备开发了3D Soundstage软件的独立版本,可以使用两个、四个或更多扬声器重新创建3D声场。除了音乐播放,我们还对视频会议中的这项技术寄予厚望。我们中的许多人都有过参加视频会议的疲惫经历,我们很难清楚地听到其他参与者的声音,或者搞不清谁在说话。通过soundstage,可以对音频进行配置,以便每个人都能从虚拟房间的不同位置听到。或者,“位置”可以简单地根据人在Zoom和其他视频会议应用程序典型的网格中的位置来分配。至少对一些人来说,视频会议不会那么疲劳,讲话也会更容易理解。

就像音频从单声道到立体声,再从立体声到环绕立体声和空间立体声,现在它开始向声舞台移动。在早期,发烧友通过保真度来评估声音系统,保真度是基于带宽、谐波失真,数据分辨率,响应时间,无损或有损数据压缩,以及其他与信号相关的因素。现在,摄影棚可以作为声音保真度的另一个维度——而且,我们敢说,是最基本的一个维度。对于人耳来说,声场的影响,其空间线索和扣人心弦的即时性,比保真度的增量提高要重要得多。这个非凡的特性提供了以前即使是最富有的发烧友也无法体验到的功能。

技术已经推动了音频行业的前几次革命,现在它正在发起另一场革命。yabo2016网上亚博A人工智能、虚拟现实和数字信号处理正在利用心理声学,为音频爱好者提供他们从未拥有过的能力。与此同时,这些技术为唱片公司和艺术家提供了新的工具,为旧唱片注入了新的生命,为创作开辟了新的途径。令人信服地重现音乐厅声音的百年目标终于实现了。

本文发表在2022年10月的印刷版上,标题为“音频如何回归最佳状态”。

{“imageShortcodeIds”:[]}
对话(6)
J特里 2022年11月29日
LM

把这项技术应用到助听器上怎么样……把单个扬声器分开。

奥斯卡·电邮 2022年10月23日
LM

在他们的网站上提交了三个古典音乐的文件,我得到了以下结果:

-两架钢琴的录音把两架钢琴都放在左边的频道。

管风琴的录音把所有声音都放在左声道。

一个唱诗班和管弦乐队的录音把管弦乐队放在左边的频道,而唱诗班在右边。

我原以为这三个案子的声场会扩大。

杰罗姆Krinock 2022年10月9日

由于苹果在App Store和Mac App Store中不可思议的搜索算法,我在两个商店的搜索栏中输入“3D Musica”都没有找到“3D Musica”。但当我点击上面文章中的链接时,我找到了它。

3种方法帮助NASA的全电动飞机起飞

N3-X计划于2040年推出,最多可搭载300名乘客

3分钟读取
一架飞机在云层中飞行的插图

美国宇航局提出的全电动N3-X飞机载客量将是目前电动飞机的10倍。

美国国家航空航天局

这篇文章是我们独家报道的一部分IEEE期刊手表系列与IEEE Xplore合作。

全电动飞机的竞争正在进行中,一些早期设计正在成为头条新闻。在过去的九月,一个原型Eviation爱丽丝完成了8分钟的首飞,以及更多的型号等Heart Aerospace的ES-30,预计将在未来几年内首次亮相。然而,到目前为止,所有这些型号的设计都只能搭载30名或更少的乘客,而且飞行距离很短。

例如,Eviation Alice只能让两名机组人员和九名乘客在200米的距离上飞行463公里ES-30的全电动型号虽然设计最多可搭载30名乘客,但其航程仅为200公里。为了真正降低温室气体排放,缓解气候变化的影响,需要更大的全电动飞机。值得注意的是,大型飞机的温室气体排放占航空业温室气体排放的75%以上,考虑到历史上航空旅行每年增长4%至5%,这些排放可能会随着时间的推移而恶化。

继续阅读↓ 显示更少

构建智能家居安全的未来

工程师必须发明新技术来增强安全产品的能力

4分钟读取
一名工程师在显微镜下研究一个小电路,另一名工程师在旁边看着

在这篇文章中,SimpliSafe的软件工程副总裁讨论了他的团队如何通过增强技术来创造一个更安全的未来。

SimpliSafe

这篇文章是由SimpliSafe

几乎不可能找到一个家庭没有安装至少一个联网的智能家居设备。从视频门铃到机器人吸尘器、自动照明和语音助手,智能家居技术已经进入消费者的家庭,而且没有迹象表明它会很快消失。事实上,根据一项研究根据咨询公司Parks Associates的调查,智能家居设备的使用率在过去两年中增长了64%以上,23%的家庭拥有3台或更多的智能家居设备。这对于提供安全性的设备来说尤其如此38%的美国人拥有家庭安全产品。这一比例很可能会增加,因为十分之七的购房者声称,安全和保障是他们寻找智能家居的主要原因,仅次于方便一份报告去年由Security.org发布。

随着对智能家居安全需求的增长,为数百万客户提供安全产品和服务的工程师们应该继续试验可以提高整体安全性和可访问性的新技术。在SimpliSafe该公司总部位于马萨诸塞州波士顿,是一家屡获殊荣的家庭安全公司。,正是对行业领先的保护的追求,推动着整个组织不断创新。

在这篇文章中,SimpliSafe软件工程副总裁Nate Wilfert讨论了他的团队每天都在解决的复杂难题——比如将人工智能(AI)技术应用到摄像头中,构建负载平衡解决方案来处理服务器流量——以推进公司的使命,使每个家庭都安全,并推动整个家庭安全行业的发展。网上亚博Ayabo2016

继续阅读↓ 显示更少
Baidu