一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种音频处理方法以及电子设备与流程

2022-05-18 00:13:09 来源:中国专利 TAG:


1.本技术涉及终端技术领域,尤其涉及一种音频处理方法以及电子设备。


背景技术:

2.目前的电子设备通常具有音频播放功能,在播放音频时通过不同声道输出有差异的音频信号,用以提高用户所听到的音频的空间感。例如,利用耳机连接电子设备时,通过耳机的左声道和右声道输出有差异的音频,通过增加音频播放在水平面内环绕,提升用户听到的音频的空间感。
3.然而,目前通过耳机播放声音时,用户仅能感受到左声道和右声道的音频在水平方向上存在差异,而在高度上没有差异。因此,目前通过耳机播放音频时,声音的空间感较差。


技术实现要素:

4.为了解决以上问题,本技术提供了一种音频处理方法以及电子设备,用以提升音频播放时的空间感。
5.第一方面,本技术提供了一种音频处理方法,该方法包括:首先确定各音频对象对应的位置参数,该位置参数至少包括用于表征音频对象相对于听者的仰角的参数,每个音频对象对应一个音源;然后根据左声道原始音频中各音频对象的音频、右声道原始音频中各音频对象的音频,以及各音频对象对应的位置参数,确定各音频对象的左声道目标音频,以及各音频对象的右声道目标音频;最后将各左声道目标音频叠加以获得左声道输出音频,并将各右声道目标音频叠加以获得右声道输出音频。
6.采用本技术实施例的技术方案,为每个音频对象设置用于表征所述音频对象相对于听者的仰角的参数,以增加每个音频对象的音频在高度方向的位置信息。由于每个音频对象的音频具有高度方向的信息,音频播放时听者不仅能够感受到每个音频对象相对于听者的高度信息,还能够感受到不同音频对象之间的高度差异,从而提高音频播放时的空间感。
7.在一种可能的实现方式中,根据左声道原始音频中各音频对象的音频、右声道原始音频中各音频对象的音频,以及各音频对象对应的位置参数,确定各音频对象的左声道目标音频,以及各音频对象的右声道目标音频,具体包括:提取左声道原始音频中各音频对象的音频以得到左声道单对象音频,以及提取右声道原始音频中各音频对象的音频以得到右声道单对象音频;根据各左声道单对象音频以及各右声道单对象音频,合成各音频对象的单声道信号;根据各音频对象的单声道信号,以及各音频对象对应的位置参数,确定各音频对象的左声道目标音频,以及各音频对象的右声道目标音频。
8.在一种可能的实现方式中,提取左声道原始音频中各音频对象的音频得到左声道单对象音频,以及提取右声道原始音频中各音频对象的音频得到右声道单对象音频,具体
包括:首先提取左声道原始音频中不同类型的音频对象的音频得到左声道单类型音频,以及提取右声道原始音频中不同类型的音频对象的音频得到右声道单类型音频;然后提取左声道单类型音频中各音频对象的音频得到左声道单对象音频,以及提取右声道单类型音频中各音频对象的音频得到右声道单对象音频。
9.在一种可能的实现方式中,左声道单对象音频和右声道单对象音频分别有n个,n为正整数,根据各左声道单对象音频以及各右声道单对象音频,合成各音频对象的单声道信号,具体包括:确定第i个左声道单对象音频和第j个右声道单对象音频的相关度,其中,i=1,2,

,n,j=1,2,

,n,第i个左声道单对象音频和第j个右声道单对象音频的相关度用于确定第i个左声道单对象音频和第j个右声道单对象音频是否对应于同一个音频对象;当第i个左声道单对象音频和第j个右声道单对象音频的相关度大于预设的相关度阈值时,将第i个左声道单对象音频和第j个右声道单对象音频合成为一个音频对象单声道信号。
10.在一种可能的实现方式中,在根据左声道原始音频中各音频对象的音频、右声道原始音频中各音频对象的音频,以及各音频对象对应的位置参数,确定各音频对象的左声道目标音频,以及各音频对象的右声道目标音频之前,还包括:获取原始音频;分别提取原始音频中左声道的音频和右声道的音频,得到左声道原始音频和右声道原始音频。
11.在一种可能的实现方式中,当提取左声道原始音频中不同类型的音频对象的音频得到左声道单类型音频并得到左声道第一背景声,以及提取右声道原始音频中不同类型的音频对象的音频得到右声道单类型音频并得到右声道第一背景声时,将各左声道目标音频叠加以获得左声道输出音频,并将各右声道目标音频叠加以获得右声道输出音频,具体包括:叠加各左声道目标音频和左声道输出背景声以获得左声道输出音频,以及叠加各右声道目标音频和右声道输出背景声以获得右声道输出音频;其中,左声道输出背景声包括左声道第一背景声,右声道输出背景声包括右声道第一背景声。
12.左声道原始音频中可能存在除了各左声道单类型音频之外的音频,例如当音频不具有能够区别于其他类型的音频对象的特征时,该音频可以被看作是左声道第一背景声;或者,当音频的幅度过小时(也即能量过小时),该音频可以被看作是左声道第一背景声等;对于右声道第一背景声同理。
13.获得左声道输出音频叠加左声道背景声,能够较为真实地还原左声道原始音频中的声音;对于获得右声道输出音频同理。
14.在一种可能的实现方式中,当提取左声道原始音频中不同类型的音频对象的音频得到左声道单类型音频并得到左声道第一背景声,以及提取右声道原始音频中不同类型的音频对象的音频得到右声道单类型音频并得到右声道第一背景声,提取左声道单类型音频中各音频对象的音频得到左声道单对象音频并得到左声道第二背景声,以及提取右声道单类型音频中各音频对象的音频得到右声道单对象音频并得到右声道第二背景声时,左声道输出背景声还包括左声道第二背景声,右声道输出背景声还包括右声道第二背景声。
15.对于左声道第一背景声和右声道第一背景声的说明同上。
16.左声道单类型音频中可能存在除了各左声道单对象音频之外的音频,例如当音频不具有能够区别于其他音频对象的特征时,该音频可以被看作是左声道第二背景声;或者,当音频的幅度过小时(也即能量过小时),该音频可以被看作是左声道第二背景声等;对于右声道第二背景声同理。
17.获得左声道输出音频叠加左声道第一背景声和左声道第二背景声,能够较为真实地还原左声道原始音频中的声音;对于获得右声道输出音频同理。
18.在一种可能的实现方式中,当提取左声道单类型音频中各音频对象的音频得到左声道单对象音频并得到左声道第二背景声,以及提取右声道单类型音频中各音频对象的音频得到右声道单对象音频并得到右声道第二背景声时,将各左声道目标音频叠加以获得左声道输出音频,并将各右声道目标音频叠加以获得右声道输出音频,具体包括:叠加各左声道目标音频和左声道输出背景声以获得左声道输出音频,以及叠加各右声道目标音频和右声道输出背景声以获得右声道输出音频;其中,左声道输出背景声包括左声道第二背景声,右声道输出背景声包括右声道第二背景声。
19.对于左声道第二背景声和右声道第二背景声的说明同上。
20.获得左声道输出音频叠加左声道第二背景声,能够较为真实地还原左声道原始音频中的声音;对于获得右声道输出音频同理。
21.在一种可能的实现方式中,位置参数还包括以下中的至少一项:用于表征音频对象相对于听者的水平方位角的参数,或,用于表征音频对象相对于听者的距离的参数。
22.用于表征音频对象相对于听者的水平方位角的参数,能够提供每个音频对象在平行于水平面的方向相对于听者的位置信息,使得在音频播放时听者感受到音频对象在平行于水平面的方向的位置。具体地,音频播放时听者不仅能够感受到每个音频对象相对于听者的水平方位信息,还能够感受到不同音频对象之间的水平方位差异,从而进一步提高音频播放时的空间感。
23.用于表征音频对象相对于听者的距离的参数,能够提供每个音频对象相对于听者的距离信息,使得在音频播放时听者感受到音频对象与听者的远近关系。具体地,音频播放时听者不仅能够感受到每个音频对象相对于听者的远近关系,还能够感受到不同音频对象和听者的距离差异,从而进一步提高音频播放时的空间感。
24.在一种可能的实现方式中,当位置参数还包括用于表征音频对象相对于听者的水平方位角的参数,以及用于表征音频对象相对于听者的距离的参数时,根据各音频对象的单声道信号,以及各音频对象对应的位置参数,确定各音频对象的左声道目标音频,以及各音频对象的右声道目标音频,具体包括:基于各音频对象对应的位置参数,分别确定各音频对象对应的头相关传递函数hrtf;利用各音频对象对应的hrtf分别处理各音频对象的单声道信号,得到各音频对象的左声道目标音频,以及各音频对象的右声道目标音频。
25.利用头相关传递函数hrtf处理各音频对象的单声道信号得到各音频对象的左声道目标音频和右声道目标音频,具有较高的准确性。也即,能够较为准确地得到具有对应位
置参数的音频,使得在音频播放时,听者听到的声音具有较为符合位置参数表征的位置关系。
26.第二方面,本技术提供了一种电子设备,该电子设备包括处理器和存储器,其中,存储器存储有代码,处理器用于调用存储器中存储的代码,执行如上述任一的音频处理方法。
27.采用本技术实施例的技术方案,为每个音频对象设置用于表征所述音频对象相对于听者的仰角的参数,以增加每个音频对象的音频在高度方向的位置信息。由于每个音频对象的音频具有高度方向的信息,音频播放时听者不仅能够感受到每个音频对象相对于听者的高度信息,还能够感受到不同音频对象之间的高度差异,从而提高音频播放时的空间感。
附图说明
28.图1a为本技术实施例提供的电子设备的硬件结构示意图;图1b为本技术实施例提供的手机的结构示意图;图2为本技术实施例提供的音频处理方法的流程图;图3为本技术另一实施例提供的音频处理方法的流程图;图4a为本技术实施例提供的3d音频播放app主界面的示意图;图4b为本技术实施例提供的3d音频播放app歌曲选定界面的示意图;图5a为本技术实施例提供的提取左声道原始音频中不同类型的音频对象的音频的示意图;图5b为本技术另一实施例提供的提取左声道原始音频中不同类型的音频对象的音频的示意图;图6a为本技术实施例提供的提取左声道单类型音频中不同音频对象的音频的示意图;图6b为本技术另一实施例提供的提取左声道单类型音频中不同音频对象的音频的示意图;图7a为本技术实施例提供的音频对象的水平方位角的示意图;图7b为左右声道能量和水平方位角的对应关系的示意图;图8为本技术实施例提供的音频对象的仰角和距离的示意图;图9a为本技术实施例提供的3d音频对象分析及设定界面的示意图;图9b为本技术实施例提供的3d音频对象分析及设定另一界面的示意图;图9c为本技术实施例提供的3d音频k歌界面的示意图;图10a为本技术实施例提供的利用头相关传递函数hrtf得到音频对象的单声道目标音频的示意图;图10b为本技术实施例提供的得到单声道目标音频的示意图;图10c为本技术另一实施例提供的得到单声道目标音频的示意图;图11为本技术实施例提供的得到单声道输出音频的示意图。
具体实施方式
29.在本技术实施例中,“示例性的”或者“例如”等词用于表示作示例、例证或说明。本技术实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
30.本技术说明中的“第一”、“第二”等用词仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。
31.在本技术中,除非另有明确的规定和限定,术语“连接”应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或成一体;可以是直接连接,也可以通过中间媒介间接连接。
32.本技术的实施方式部分使用的术语仅用于对本技术的具体实施例进行解释,而非旨在限定本技术,下面将结合附图对本技术的实施例进行详细描述。
33.为了便于理解本技术实施例提供的技术方案,下面对本技术实施例常见的术语进行介绍。
34.循环神经网络(recurrent neural network,rnn)是一种用于处理序列数据的神经网络。相比一般的神经网络来说,他能够处理序列变化的数据。比如某个单词的意思会因为上文提到的内容不同而有不同的含义,rnn就能够很好地解决这类问题。
35.长短期记忆(long short-term memory, lstm)是一种特殊的rnn,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的rnn,lstm能够在更长的序列中有更好的表现。
36.以下对本技术实施中的电子设备的结构进行说明。
37.请参见图1a,图1a为本技术实施例提供的电子设备的硬件结构示意图。
38.如图1a所示,电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,usb)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170a,受话器170b,麦克风170c,耳机接口170d,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,sim)卡接口195等。其中传感器模块180可以包括压力传感器180a,陀螺仪传感器180b,气压传感器180c,磁传感器180d,加速度传感器180e,距离传感器180f,接近光传感器180g,指纹传感器180h,温度传感器180j,触摸传感器180k,环境光传感器180l,骨传导传感器180m等。
39.可以理解的是,本发明实施例示意的结构并不构成对电子设备100的具体限定。在本技术另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
40.处理器110可以包括一个或多个处理单元,例如:处理器110可以包括中央处理器(central processing unit, cpu)、应用处理器(application processor,ap),调制解调处理器,图形处理器(graphics processing unit,gpu),图像信号处理器(image signal processor,isp),控制器,视频编解码器,数字信号处理器(digital signal processor,dsp),基带处理器,和/或神经网络处理器(neural-network processing unit,npu)等。其
中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
41.npu为神经网络(neural-network,nn)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过npu可以实现电子设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
42.电子设备100通过gpu,显示屏194,以及应用处理器等实现显示功能。gpu为图像处理的微处理器,连接显示屏194和应用处理器。gpu用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个gpu,其执行程序指令以生成或改变显示信息。
43.显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,lcd),有机发光二极管(organic light-emitting diode,oled),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的,amoled),柔性发光二极管(flex light-emitting diode,fled),miniled,microled,micro-oled,量子点发光二极管(quantum dot light emitting diodes,qled)等。在一些实施例中,电子设备100可以包括1个或n个显示屏194,n为大于1的正整数。
44.电子设备100可以通过音频模块170,扬声器170a,受话器170b,麦克风170c,耳机接口170d,以及应用处理器等实现音频功能。例如音乐播放,录音等。
45.音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
46.扬声器170a,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170a收听音乐,或收听免提通话。
47.受话器170b,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时,可以通过将受话器170b靠近人耳接听语音。
48.麦克风170c,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170c发声,将声音信号输入到麦克风170c。电子设备100可以设置至少一个麦克风170c。在另一些实施例中,电子设备100可以设置两个麦克风170c,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170c,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
49.耳机接口170d用于连接有线耳机。耳机接口170d可以是usb接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,omtp)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the usa,ctia)标准接口。
50.触摸传感器180k,也称“触控器件”。触摸传感器180k可以设置于显示屏194,由触摸传感器180k与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180k用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触
摸传感器180k也可以设置于电子设备100的表面,与显示屏194所处的位置不同。
51.本技术实施例不具体限定电子设备的类型,电子设备可以为使用手机、笔记本电脑、可穿戴电子设备(例如智能手表)、平板电脑、增强现实(augmented reality, ar)设备、虚拟现实(virtual reality, vr)设备等。
52.请参见图1b,图1b为本技术实施例提供的手机的结构示意图。
53.图1b示出了本技术实施例提供的手机的xoy面,例如图中示出的xoy面可以为手机的正面。
54.目前的电子设备,例如手机通常具有音频播放功能,用户利用耳机连接电子设备播放音频的场景越来越常见。通常在播放音频时,通过不同声道输出有差异的音频信号,用以提高用户所听到的音频的空间感。例如,通过耳机的左声道和右声道输出有差异的音频,通过增加音频播放在水平面内环绕,提升用户听到的音频的空间感。
55.然而,目前通过耳机播放声音时,用户仅能感受到左声道和右声道的音频在水平方向上存在差异,而在高度上没有差异。因此,用户通过耳机播放音频时,声音的空间感较差。
56.采用本技术实施例的技术方案,根据原始的立体声音频,提取得到各个音频对象的音频,每个音频对象对应一个音源;为每个音频对象设置用于表征所述音频对象相对于听者的仰角的参数,以增加每个音频对象的音频在高度方向的位置信息;并根据每个音频对象的左声道音频、右声道音频和位置参数,确定每个音频对象的左声道目标音频和声道目标音频;最后叠加每个音频对象的左声道目标音频得到左声道输出音频,叠加每个音频对象的右声道目标音频得到右声道输出音频。由于每个音频对象的音频具有高度方向的信息,听者不仅能够感受到每个音频对象相对于听者的高度信息,还能够感受到不同音频对象之间的高度差异,从而提高音频播放时的空间感。
57.请参见图2,图2为本技术实施例提供的音频处理方法的流程图。
58.如图2所示,本技术的音频处理方法包括s101-s103。
59.s101、确定各音频对象对应的位置参数,位置参数至少包括用于表征音频对象相对于听者的仰角的参数。
60.每个音频对象对应一个音源。
61.音频对象指的是在原始音频中产生不同声音的音源。
62.每个音频对象对应一个音源。
63.例如,原始音频中包括两个人声、一个鼓声,以及一个琴声。此时,得到的音频对象包括:两个人、一只鼓,以及一架琴。
64.音频对象的数量可以是一个或多个。
65.音频对象的音频,例如人声、鼓声、贝斯声、鸟叫声、飞机声等。
66.由不同类型的音源所产生的音频,通常具有不同的特征。例如,人声和鼓声具有不同的特征。
67.音频对象的类型也可以是一个或者多个。
68.例如,音频对象包括两个人、一只鼓,以及一架琴,音频对象的类型包括人、鼓和琴。
69.由于这里的音频对象是对原始音频进行分析和处理得到的,可能和真实的音源有
所区别。因此,音频对象也可以理解为虚拟的音源。这里虚拟的音源和实际产生原始音频的音源,可能是相同的,也可能是存在差异的。
70.每个音频均对应有自己的位置参数。
71.听者也可以称为听音者,也即播放音频时听见该音频的人或物。
72.本技术实施例的音频处理方法,用以提高音频播放时的空间感,也即提高听者听见处理后的音频,声音的空间感提高。
73.位置参数用于提供音频对象相对于听者的位置信息。
74.仰角用于提供在垂直于水平面方向上,音频对象相对于听者的高度信息。
75.s102、根据左声道原始音频中各音频对象的音频、右声道原始音频中各音频对象的音频,以及各音频对象对应的位置参数,确定各音频对象的左声道目标音频,以及各音频对象的右声道目标音频。
76.左声道原始音频指的是原始音频中的左声道的音频,右声道原始音频指的是原始音频中的右声道的音频。
77.原始音频指的是利用本技术实施例的音频处理方法进行处理的音频。
78.原始音频可能包含多个音频对象。
79.左声道原始音频中各音频对象的音频,指的是在原始音频的左声道的音频中每个音频对象的音频;右声道原始音频中各音频对象的音频,指的是在原始音频的右声道的音频中每个音频对象的音频。
80.每个音频对象均对应有自己的左声道目标音频和右声道目标音频。
81.对于一个音频对象来说,左声道目标音频和右声道目标音频,是根据左声道原始音频中该音频对象的音频、右声道原始音频中该音频对象的音频,以及该音频对象的位置参数确定的。
82.对于一个音频对象来说,该音频对象的左声道目标音频和右声道目标音频包含该音频对象相对于听者的高度信息。因此,当听者听见该音频对象的音频时,能够感受到该音频对象相对于听者的高度信息,提高音频播放时的空间感。
83.s103、将各左声道目标音频叠加以获得左声道输出音频,并将各右声道目标音频叠加以获得右声道输出音频。
84.由于原始音频可能包含多个音频对象,将各个音频对象的左声道目标音频叠加得到最终输出的左声道的音频,将各个音频对象的右声道目标音频叠加得到最终输出的右声道的音频。
85.每个音频对象的目标音频叠加后,听者不仅能够感受到每个音频对象相对于听者的高度信息,还能够感受到不同音频对象之间的高度差异,从而提高音频播放时的空间感。
86.采用本技术实施例的技术方案,根据原始的立体声音频,提取得到各个音频对象的音频,每个音频对象对应一个音源;为每个音频对象设置用于表征所述音频对象相对于听者的仰角的参数,以增加每个音频对象的音频在高度方向的位置信息;并根据每个音频对象的左声道音频、右声道音频和位置参数,确定每个音频对象的左声道目标音频和声道目标音频;最后叠加每个音频对象的左声道目标音频得到左声道输出音频,叠加每个音频对象的右声道目标音频得到右声道输出音频。由于每个音频对象的音频具有高度方向的信息,听者不仅能够感受到每个音频对象相对于听者的高度信息,还能够感受到不同音频对
象之间的高度差异,从而提高音频播放时的空间感。
87.下面结合具体的实现方式进行说明。
88.请参阅图3,图3为本技术另一实施例提供的音频处理方法的流程图。
89.如图3所示,本技术的音频处理方法包括s201-s210。
90.s201、获取原始音频,原始音频包括左声道原始音频和右声道原始音频。
91.原始音频指的是待处理的立体声音频数据。
92.立体声音频数据通常包括多个声道的音频。
93.原始音频至少包括左声道原始音频和右声道原始音频;左声道原始音频也即原始音频的左声道的音频,右声道原始音频也即原始音频的右声道的音频。
94.在一种可能的实现方式中,原始音频的格式可以为脉冲编码调制(pulse code modulation,pcm)格式,也即原始音频可以为pcm音频数据。
95.pcm音频数据是未经压缩的音频采样数据裸流,它是由模拟信号经过采样、量化、编码转换成的标准数字音频数据。
96.本实施例对原始音频的来源不作限定。例如,原始音频的来源可以包括:mp3格式的音频文件,mp4格式的音视频文件等。原始音频可以是由音频文件、音视频文件经过解码得到的。
97.在一种可能的实现方式中,在获取原始音频之前,响应于目标音源获取指令,获取目标音源。目标音源获取指令可以是由用户发出的。目标音源为上述原始音频的来源。目标音源为立体声音源。
98.在一些可能的情况中,原始音频还包括除了左声道原始音频和右声道原始音频之外的音频。此时,相邻两个声道的音频均按照本实施例中左声道原始音频和右声道原始音频的处理方式进行处理,然后按照各声道的关系转换从而得到最终的输出。具体的原理和本实施例类似,本实施例不再赘述。
99.本技术实施例还提供一种3d(3-dimension)音频播放应用程序,本技术实施例提供的音频处理方法可以应用于该3d音频播放应用程序。
100.本技术实施例中的3d音频播放应用程序,可以是安装于电子设备上的应用程序,例如,可以是电子设备系统自带的应用程序,也可以是应用程序商城等第三方提供的应用程序,还可以是其他方式/途径获取的应用程序。
101.本技术实施例以电子设备为手机为例,对3d音频播放应用程序(3d音频播放app)可能的界面进行说明。
102.请参见图4a,图4a为本技术实施例提供的3d音频播放app主界面的示意图。
103.如图4a所示,在主界面中,包括目标音源显示框401,目标音源显示框401中至少显示有目标音源的名称,目标音源为根据用户的目标音源获取指令确定的立体声音源。
104.目标音源显示框401中还可以显示有目标音源的格式类型。
105.本技术实施例以目标音源为歌曲为例进行说明。
106.例如,如图4a所示,目标音源显示框401中显示有“歌曲1.flac”,其中,“歌曲1”为目标音源的名称,“.flac”为目标音源的格式类型。
107.如图4a所示,目标音源显示框401中还可以显示有“歌曲文件”等字样,用以提供目标音源更多的信息。
108.在主界面中还可以包括多个虚拟操作按钮。
109.例如,如图4a所示,在主界面中还包括以下几个虚拟按钮:更换歌曲虚拟按钮402、3d音频对象分析及设定虚拟按钮403、3d音频播放虚拟按钮404、3d音频k歌虚拟按钮405。
110.进一步地,以黑色显示用户在当前界面能够操作的虚拟操作按钮,以灰色显示用户在当前界面不能操作的虚拟操作按钮。
111.对于音频对象的解释和说明会在s202中进行。
112.如图4a所示,更换歌曲虚拟按钮402和音频对象分析及设定虚拟按钮403以黑色显示,3d音频播放虚拟按钮404和3d音频k歌虚拟按钮405以灰色显示。
113.在一些可能的情况中,在主界面中还包括用以实现其他功能的虚拟按钮,如图4a示出的主界面中下方的虚拟按钮:用于返回上一级界面的返回虚拟按钮406、跳转至电子设备桌面的桌面按钮407、主界面虚拟按钮408等。
114.在一些可能的情况中,用户可以点击更换歌曲虚拟按钮402,主界面跳转至歌曲选定界面,在歌曲选定界面选择需要进行处理的立体声音源。
115.在一些可能的情况中,在歌曲选定界面中,显示有可供用户选择的立体声音源的名称,或者显示立体声音的其他一种或多种信息,例如格式类型、歌曲的歌手名等。
116.请参见图4b,图4b为本技术实施例提供的3d音频播放app歌曲选定界面的示意图。
117.如图4b所示,在歌曲选定界面中,“歌曲1.flac-歌手1”指示该立体声音源的名称为“歌曲1”,类型为“.flac”,歌曲的歌手为“歌手1”。
118.图4b中“歌曲2.mp3-歌手2”“歌曲3.acc-歌手3”“歌曲4-歌手4”与上述说明类似。
119.在一些可能的情况中,用户的目标音源获取指令为:用户在歌曲选定界面点击立体声音源的名称所在的区域。
120.也即,响应于用户在歌曲选定界面点击立体声音源的名称所在的区域,获取目标音源,该名称对应的立体声音源即为目标音源。
121.在一些可能的情况中,本技术实施例提供的音频处理方法还可以应用于应用程序的插件等,用以增加电子设备其他应用程序的功能。
122.s202、分别提取左声道原始音频和右声道原始音频中不同类型的音频对象的音频,得到左声道单类型音频和右声道单类型音频。
123.原始音频包括左声道原始音频和右声道原始音频,分别对左声道原始音频和右声道原始音频进行处理。
124.对左声道原始音频进行提取,得到左声道单类型音频;对右声道原始音频进行提取,得到右声道单类型音频。
125.不同类型的音频对象的音频,指的是音频是属于不同类型的音频对象的。
126.对左声道原始音频进行提取和对右声道原始音频进行提取的过程类似,下面以对左声道原始音频进行提取为例进行说明,对右声道原始音频进行提取的过程不再赘述。
127.提取左声道原始音频中不同音频对象类型的音频,得到左声道单类型音频。
128.左声道原始音频指的是原始音频中的左声道的音频数据。
129.左声道原始音频中不同音频对象类型的音频,指的是左声道原始音频中不同类型的音频对象的音频。
130.左声道单类型音频,指的是音频对象只有一种类型的音频数据。在左声道单类型
音频中,可以包括一个音频对象的音频,也可以包括多个音频对象的音频。
131.例如,根据左声道原始音频得到左声道单类型音频的数量为两个,分别为左声道的人声和左声道的鼓声;其中,左声道的人声的音源的类型为人,左声道的鼓声的音源的类型为鼓。左声道的人声可以包括第一人声和第二人声,左声道的鼓声可以包括第一鼓声。
132.以下为本技术实施例提供的提取左声道原始音频中不同类型的音频对象的音频,得到左声道单类型音频的实现方式。
133.提取所述右声道原始音频中不同类型的所述音频对象的音频得到右声道单类型音频的原理类似,这里不再赘述。
134.请参见图5a,图5a为本技术实施例提供的提取左声道原始音频中不同类型的音频对象的音频的示意图。
135.如图5a所示,左声道原始音频的时域信号,经过时频变换后变换为左声道原始音频的频域信号。
136.在一些可能的实现方式中,时频变换可以采用傅里叶变换(fourier transform,ft)、快速傅里叶变换 (fast fourier transform,fft)、离散余弦变换 (discrete cosine transform,dct)、改进离散余弦变换 (modified discrete cosine transform,mdct)等。
137.之后将转换得到的左声道原始音频的频域信号输入至第一网络,得到不同类型的音频对象的掩码,例如人声掩码、鼓声掩码或者其他对象掩码。
138.第一网络是经过预训练得到的,能够对输入的音频的频域信号进行处理,得到多种不同类型音频对象的掩码,例如人声掩码、鼓声掩码等,可能还包括其他音频对象的掩码。
139.然后,将得到的不同类型音频对象的掩码,分别和时域变换后得到的频域信号进行相乘,得到不同类型音频对象的频谱;再将不同类型的音频对象的频谱进行反频域变换,得到不同类型的音频对象的时域信号(左声道单类型音频的时域信号,也称左声道单类型音频)。
140.例如,以人声为例,将人声掩码和时域变换后得到的频域信号相乘,得到人声频谱,再将人声频谱进行反频域变换得到人声的时域信号。
141.如图5a所示,得到的左声道单类型音频的频域信号包括:人声频谱、鼓声频谱等,可能还包括其他音频对象的频谱。
142.人声频谱经过反时频变换的处理得到人声的时域信号,鼓声频谱经过反时频变换的处理得到鼓声的时域信号,其他音频对象频谱经过反时频变换的处理得到其他音频对象的时域信号。
143.上述第一网络可以为神经网络(neural networks,nn网络)。
144.在一种可能的实现方式中,第一网络可以为以下的任意一种:长短期记忆(long short-term memory,lstm)、卷积神经网络(convolutional neural networks,cnn)、卷积循环网络(convolutional recurrent networks,crn)和u-net。
145.第一网络还可以是其他类型的网络。
146.上面说明了将左声道原始音频的时域信号转变为左声道原始音频的频域信号,并对左声道原始音频的频域信号进行处理和分析,从而得到不同类型的音频对象的音频(左声道单类型音频)。
147.在一种可能的实现方式中,还可以直接利用左声道原始音频的时域信号,得到不同类型的音频对象的音频(左声道单类型音频)。
148.以下为本技术实施例提供的提取左声道原始音频中不同类型的音频对象的音频,得到左声道单类型音频的另一种实现方式。
149.请参见图5b,图5b为本技术另一实施例提供的提取左声道原始音频中不同类型的音频对象的音频的示意图。
150.如图5b所示,输入左声道原始音频的时域信号至第二网络,提取单个类型的音频对象的音频,得到不同类型的音频对象的音频的时域信号。
151.第二网络包括编码网络、分离网络和解码网络。
152.左声道原始音频的时域信号输入至编码网络得到编码后的信号。
153.在一种可能的实现方式中,编码网络可以为神经网络。
154.之后将编码后的信号输入至分离网络,得到掩码矩阵;然后将编码后的信号和掩码矩阵进行相乘,并将相乘的音频信号输入至解码网络进行解码,得到不同类型的音频对象的音频的时域信号(左声道单类型音频)。
155.如图5b所示,得到的左声道单类型音频包括:人声的时域信号,鼓声的时域信号和其他音频对象的时域信号。
156.除了上述本技术实施例提供的实现方式,还可以通过其他的实现方式得到左声道单类型音频,或者将多种方案集合以得到左声道单类型音频,本技术实施例对此不作限定。
157.上面对得到左声道单类型音频进行了说明,得到右声道单类型音频的原理类似,这里不再赘述。
158.在一种可能的实现方式中,在提取得到左声道单类型音频和右声道单类型音频的时候,还可能会得到左声道第一背景声和右声道第一背景声。
159.如图5a所示,当对原始单声道音频的时域信号进行处理,除了得到人声的时域信号和鼓声的时域信号之外,还可能会得到左声道第一背景声。
160.左声道第一背景声可以理解为原始单声道音频的时域信号中,除人声的时域信号和鼓声的时域信号之外的音频信号。
161.对于图5b示出的方法以及其他方法同理,也有可能会得到左声道第一背景声。
162.得到右声道第一背景声的原理同理,这里不再赘述。
163.在一种可能的实现方式中,在得到左声道单类型音频和右声道单类型音频后,还可以分别对左声道单类型音频和右声道单类型音频进行筛选。
164.下面以对左声道单类型音频进行筛选为例进行说明,对右声道单类型音频进行筛选同理,这里不再赘述。
165.具体地,根据各个左声道单类型音频的能量大小,对得到的左声道单类型音频进行筛选。
166.在本技术实施例的说明中,如果没有特殊声明,音频的能量指的是音频信号幅度的大小,单位为分贝(db)。
167.确定各个左声道单类型音频的能量;当某个左声道单类型音频的能量小于预设的能量阈值时,删除该左声道单类型音频,并将该左声道单类型音频添加至左声道第一背景声中。
168.此时,左声道单类型音频的数量减少一个。
169.对于不同类型的音频对象,上述预设的能量阈值可以是相同的,也可以是不同的。
170.例如,经过图5a所示的处理过程,得到左声道单类型音频包括:人声、鼓声和琴声。利用上述预设的能量阈值,例如第一能量阈值,对上述得到的左声道单类型音频进行筛选。
171.具体地,确定每个左声道单类型音频的能量:人声的能量、鼓声的能量和琴声的能量,并分别和上述第一能量阈值进行比较。
172.当人声的能量和鼓声的能量均大于或等于上述第一能量阈值,琴声的能量小于上述第一能量阈值时,得到的左声道单类型音频包括人声和鼓声,不包括鼓声。
173.又例如,还可以利用第一能量阈值对人声这一单类型音频进行筛选,利用第二能量阈值对鼓声这一单类型音频进行筛选,利用第三能量阈值对琴声一单类型音频进行筛选。其中,第一能量阈值、第二能量阈值和第三能量阈值各不相同。当人声的能量大于或等于第一能量阈值、鼓声的能量大于或等于第二能量阈值且琴声的能量小于第三能量阈值时,得到的左声道单类型音频包括人声和鼓声,不包括鼓声。
174.对右声道单类型音频进行筛选得到右声道第一背景声,和对左声道单类型音频进行筛选得到左声道第一背景声的原理类似,这里不再赘述。
175.经过以上的处理过程,得到左声道单类型音频、左声道第一背景声、右声道单类型音频,以及右声道第一背景声。
176.s203、分别提取左声道单类型音频和右声道单类型音频中不同音频对象的音频,得到左声道单对象音频和右声道单对象音频。
177.每个单类型的对象音频的音频中,可以提取得到一个或多个音频对象的音频,本技术实施例对根据每个单类型的对象音频的音频得到的单音频对象的音频的数量不作具体限定。
178.s202得到的是单类型音频,单个类型的音频对象可以包括一个或多个音频对象。
179.下面以提取左声道单类型音频中不同音频对象的音频,得到左声道单对象音频为例进行说明。
180.提取右声道单类型音频中不同音频对象的音频,得到右声道单对象音频的原理和左声道的类似,这里不再赘述。
181.左声道单类型音频指的是单个类型的音频对象的数据,单个类型的音频对象可能包括一个或者多个音频对象。因此,分离每个左声道单类型音频可以得到一个或多个音频对象的音频。
182.例如,左声道单类型音频包括:人声、鼓声和琴声。
183.对人声进行分离得到第一人声和第二人声;对人声进行分离得到第一鼓声;对琴声进行分离得到第一琴声和第二琴声。
184.以下为本技术实施例提供的提取左声道单类型音频中不同音频对象的音频的几种实现方式。
185.提取右声道单类型音频中不同音频对象的音频的原理类似,这里不再赘述。
186.在一种可能的实现方式中,基于神经网络得到左声道单对象音频。
187.请参见图6a,图6a为本技术实施例提供的提取左声道单类型音频中不同音频对象的音频的示意图。
188.如图6a所示,例如,对于类型为“人”的音频对象,左声道单类型音频可以看作是多人声混合的音频。
189.首先,对左声道单类型音频进行语音特征提取,得到语音特征。
190.在一些可能的实现方式中,语音特征提取可以采用的方式包括:快速傅里叶变换fft、梅尔谱、改进离散余弦变换mdct(modified discrete cosine transform)等。
191.然后,将得到的语音特征输入至第三网络,得到每一帧音频帧的人声向量,每一帧音频帧的人声向量可以包括多个人声向量。
192.第三网络是经过预训练得到的。
193.对每一帧音频帧的人声向量进行聚类,确定每一帧音频帧中每个人声的人声向量,并根据同一个人声的人声向量,生成每个人声的特征掩码,例如第一人声掩码和第二人声掩码,可能还包括其他人声掩码。
194.对每一帧音频帧的人声向量进行聚类,预设最大的人声个数n。
195.之后将特征提取得到的语音特征分别和每个人声的特征掩码相乘(也即语音重建的过程),并将相乘的结果进行反时频变换,得到每个人声的时域信号。
196.在一些可能的实现方式中,最大的人声个数n可以是根据原始音频的描述信息得到的。例如,原始音频为一首歌曲,原始音频的描述信息可能会包括该歌曲的演唱者的个数。
197.最大的人声个数n还可以是预设的默认值n,例如设定n等于3。
198.在一些可能的实现方式中,基于非负矩阵分解得到左声道单对象音频。
199.请参见图6b,图6b为本技术另一实施例提供的提取左声道单类型音频中不同音频对象的音频的示意图。
200.如图6b所示,例如,对于类型为“人”的音频对象,左声道单类型音频可以看作是多人声混合的音频。
201.左声道单类型音频的时域信号,经过时频变换后变换为左声道单类型音频的频域信号。
202.利用非负矩阵分解nmf算法对左声道单类型音频的频域信号进行处理,得到特征矩阵和权重矩阵。
203.对特征矩阵和权重矩阵进行滤波分解处理,得到每个人声的频域信号,并对每个人声的频域信号进行反时频转换,得到每个人声的时域信号。
204.在一种可能的实现方式中,利用波束成型的方式得到左声道单对象音频。
205.具体地,以人声为例,利用多声道录音时,不同歌手的空间方位不一样,找到对应方位的波束来提取单个歌手的声音,得到每个人声的音频。
206.除了上述实现方式,还可以通过其他的实现方式得到左声道单对象音频,或者将多种方案集合以得到左声道单对象音频,本技术实施例对此不作限定。
207.上面对得到左声道单对象音频进行了说明,得到右声道单对象音频的原理类似,这里不再赘述。
208.在一种可能的实现方式中,在分别对左声道单类型音频和右声道单类型音频进行分离,得到左声道单对象音频的时候,还可能会得到左声道第二背景声和右声道第二背景声。
209.如图6a所示,当对左声道单类型音频进行处理时,除了得到第一人声的时域信号和第二人声的时域信号之外,还可能会得到左声道第二背景声。
210.左声道第二背景声可以理解为左声道单类型音频的时域信号中,除第一人声的时域信号和第二人声的时域信号之外的音频信号。
211.对于图6b示出的方法以及其他方法同理,也有可能会得到左声道第二背景声。
212.得到右声道第二背景声的原理同理,这里不再赘述。
213.在一种可能的实现方式中,在得到左声道单对象音频和右声道单对象音频后,还可以分别对左声道单对象音频和右声道单对象音频进行筛选。
214.下面以对左声道单对象音频进行筛选为例进行说明,对右声道单对象音频进行筛选的原理类似,这里不再赘述。
215.具体地,根据各个左声道单对象音频的能量大小,对得到的左声道单对象音频进行筛选。
216.确定各个左声道单对象音频的能量,当某个左声道单对象音频的能量小于预设的能量阈值时,删除该左声道单对象音频,并将该左声道单对象音频添加至左声道第二背景声中。
217.此时,左声道单类型音频的数量减少一个。
218.对于不同的音频对象,上述预设的能量阈值可以是相同的,也可以是不同的。
219.对于不同类型的音频对象,上述预设的能量阈值可以是相同的,也可以是不同的。
220.例如,经过图6a所示的处理过程,得到左声道单对象音频包括:第一人声、第二人声、鼓声、第一琴声和第二琴声。
221.利用预设的能量阈值,例如第二能量阈值,对上述得到的左声道单对象音频进行筛选。
222.获取每个左声道单对象音频的能量:第一人声的能量、第二人声的能量、鼓声的能量、第一琴声的能量和第二琴声的能量,并分别和上述第二能量阈值进行比较。
223.例如,当第一人声的能量、第二人声的能量、鼓声的能量和第一琴声的能量均大于或等于上述第二量阈值,第二琴声的能量小于上述第二能量阈值时,得到的左声道单对象音频包括第一人声、第二人声、鼓声和第一琴声,不包括第二琴声。
224.对于上述能量大小的比较,可以通过利用音频数据的多帧音频数据。
225.例如,在比较第一人声的能量和第二预设的能量阈值时,第一人声分为多帧音频数据,当第一人声的每帧音频数据均大于或等于第二预设的能量阈值时,则确定第一人声的能量大于或等于第二预设的能量阈值。
226.例如,在比较第一琴声的能量和第二预设的能量阈值时,第一琴声分为多帧音频数据,当第一琴声的每帧音频数据均小于第二预设的能量阈值时,则确定第一琴声的能量小于第二预设的能量阈值。
227.在以上的说明中,对于左声道原始音频的处理,首先通过提取得到左声道单类型音频;然后,分别对每个左声道单类型音频进行分离,得到左声道单对象音频。
228.在一种可能的实现方式中,对于左声道原始音频的处理,可以直接得到左声道单对象音频。
229.例如,已知左声道原始音频的音频对象只有一种类型,此时,可以直接利用左声道
原始音频得到左声道单对象音频,无需提取单一类型音频对象的音频数据。
230.例如,左声道原始音频为纯人声合唱,音频对象仅包括多个人声。
231.上面说明了处理左声道单类型音频,得到左声道单对象音频和左声道第二背景声。对于处理右声道单类型音频的原理类似,这里不再赘述。
232.经过以上的处理过程,得到左声道单对象音频、左声道第二背景声、右声道单对象音频,以及右声道第二背景声。
233.s204、对左声道单对象音频和右声道单对象音频进行匹配,得到每个音频对象的左声道音频和右声道音频。
234.原始音频可能包括多个音频对象,每个类型也有可能有多个音频对象。
235.具体地,对于同一个音频对象的类型,由同一个左声道单类型音频分离得到的左声道单对象音频,以及由同一个右声道单类型音频分离得到的右声道单对象音频进行匹配,得到该音频对象的类型的每个音频对象的左声道单对象音频和右声道单对象音频。
236.根据以上的说明,分离左声道单类型音频得到一个或多个左声道单对象音频,分离右声道单类型音频得到一个或多个右声道单对象音频。
237.对于一个类型的音频对象来说,当得到左声道单对象音频的数量为一个时,表明对于左声道来说,该类型的音频对象仅包含一个音频对象;对于一个类型的音频对象来说,当得到多个左声道单对象音频时,表明对于左声道来说,该类型的音频对象包含多个音频对象。
238.对于分离右声道单类型音频得到一个或多个右声道单对象音频的原理和上面类似,这里不再赘述。
239.当对于左声道和右声道来说,该类型的音频对象均是仅包含一个音频对象时,得到的一个左声道单对象音频,和一个右声道单对象音频是对应于同一个音频对象的。
240.当对于左声道和右声道来说,该类型的音频对象均是是包含多个音频对象时,得到的多个左声道单对象音频,和多个右声道单对象音频是对应于多个音频对象的。多个左声道单对象音频和多个右声道单对象音频之间的对应关系通常是不确定的。
241.在一种可能的实现方式中,对于同一个音频对象的类型,根据左声道单对象音频和右声道单对象音频之间的相关度,对左声道单对象音频和右声道单对象音频进行匹配。
242.对于同一个类型的音频对象,存在多个左声道单对象音频,多个右声道单对象音频。
243.得到左声道单对象音频和右声道单对象音频的相关度,并根据相关度确定左声道单对象音频和右声道单对象音频之间的匹配关系。
244.相关度用于描述左声道单对象音频和右声道单对象音频之间的相关程度。
245.例如,对于同一个类型的音频对象“人”来说,左声道单对象音频包括:第一人声和第二人声,右声道单对象音频包括:第三人声和第四人声。
246.下面以确定第一人声和第三人声的相关度为例进行说明。
247.第一人声为x,第三人声为y,第一人声x和第三人声y的相关度为:其中,cor(x,y)为计算第一人声x和第三人声y的协方差,var[x]为计算第一人声x
的方差,var[y]为计算第三人声y的方差。
[0248]
还可以通过其他的方式计算两个单对象音频之间的相关度。
[0249]
确定各左声道单对象音频和各右声道单对象音频的相关度,例如得到第一人声和第三人声的相关度r1、第一人声和第四人声的相关度r2、第二人声和第三人声的相关度r3,以及第二人声和第四人声的相关度r4。
[0250]
分别比较相关度r1、相关度r2、相关度r3和相关度r4和相关度阈值的关系大小,超过相关度阈值的相关度所对应的左声道单对象音频和右声道单对象音频,确定为匹配的单对象音频。
[0251]
例如,相关度阈值为0.7;相关度r1和相关度r4大于相关度阈值,相关度r2和相关度r3小于相关度阈值,此时,第一人声和第三人声匹配,第二人声和第四人声匹配。
[0252]
在一些可能的实现方式中,还可以比较第一人声和第三人声的相关度r1,以及第一人声和第四人声的相关度r2;比较第二人声和第三人声的相关度r3,以及第二人声和第四人声的相关度r4。
[0253]
例如,当相关度r1大于相关度r2,此时,第一人声和第三人声的声源相同,第一人声和第三人声对应于同一个音频对象;当相关度r4大于相关度r3,此时,第二人声和第四人声声源相同,第一人声和第三人声对应于同一个音频对象。
[0254]
s205、利用每个音频对象的左声道音频和右声道音频,生成每个音频对象的单声道信号。
[0255]
本实施例提供以下几种生成每个音频对象的单声道信号的实现方式。
[0256]
在一种可能的实现方式中,叠加每个音频对象的左声道单对象音频和右声道单对象音频,生成每个音频对象的单声道信号。
[0257]
例如,对于同一个音频对象,左声道单对象音频为l,右声道单对象音频为r,该音频对象的单声道信号m=l m。
[0258]
通过叠加左声道和右声道单对象音频的方式得到单声道信号,计算的复杂度较低。
[0259]
在一种可能的实现方式中,对于每个音频对象来说,对左声道单对象音频的平方,和右声道单对象音频的平方之和进行开方,生成每个音频对象的单声道信号。
[0260]
例如,对于同一个音频对象,左声道单对象音频为l,右声道单对象音频为r,该音频对象的单声道信号:通过上述方式,对于一个音频对象来说,左声道单对象音频和右声道单对象音频在转换为单声道信号后能够保持能量的一致性。
[0261]
在一些可能的情况中,还可以采用以下的方式:对于一个音频对象来说,首先确定左声道单对象音频和右声道单对象音频的相位差;然后利用上述相位差,对左声道单对象音频和右声道单对象音频进行相位的对齐处;然后,将相位对齐后的左声道单对象音频和右声道单对象音频进行叠加,得到该音频对象的单声道信号。
[0262]
在一些可能的情况中,计算不同时延下左声道单对象音频和右声道单对象音频的相关度,用以实现相位的对齐处理。
[0263]
除了上述实现方式,还可以通过其他的实现方式生成每个音频对象的单声道信
号,或者将多种方案集合以生成每个音频对象的单声道信号,本技术实施例对此不作限定。
[0264]
音频对象的参数可以包括位置参数,位置参数例如和角度相关的参数、和距离相关的参数等;还可以包括其他的参数,例如增益等。
[0265]
下面对确定音频对象的参数进行说明。
[0266]
s206、确定每个音频对象的初始水平方位角。
[0267]
水平方位角为用于表征所述音频对象相对于听者的水平方位角的参数。
[0268]
初始水平方位角指的是水平方位角的初始值。
[0269]
水平方位角是音频对象的一个参数,初始水平方位角指的是水平方位角这个参数的初始值。
[0270]
以下对音频对象的初始水平方位角进行说明。
[0271]
音频对象的水平方位角具体为该音频对象相对于听音者的水平方位角。
[0272]
将一个音频对象看作是一个虚拟的音源,听音者听到这个虚拟的音源发出的声音。该音频对象的水平方位角,指的是该音频对象相对于听音者来说在水平面内的夹角。
[0273]
请参见图7a,图7a为本技术实施例提供的音频对象的水平方位角的示意图。
[0274]
图7a示出了听音者所在空间的俯视示意图。
[0275]
当听音者为一个人时,听音者所在空间的俯视图的观察视角为:从听音者头顶的正上方进行观察。
[0276]
如图7a所示,听音者所在空间为以听音者o为圆心的空间,该圆的半径为听音者o和音频对象s之间的距离在俯视方向上的投影。
[0277]
听音者o面朝的方向为由o指向o’的方向,也即oo’的方向。
[0278]
音频对象s的水平方位角a,指的是听音者o和音频对象s之间连线,和oo’之间的夹角,如图7a所示。
[0279]
例如,当该音频对象位于听音者的正前方(也即音频对象s位于o’所在的位置)时,该音频对象的水平方位角为0度;当该音频对象位于听音者的正左方时,该音频对象的水平方位角为-90度;当该音频对象位于听音者的正右方时,该音频对象的水平方位角为90度。
[0280]
单声道音频包括多个音频帧。例如,在单声道音频中,每个音频帧包括10ms,20ms,40ms的音频段。
[0281]
对于一个音频对象的来说,对应于不同的音频帧的水平方位角可能是不同的。
[0282]
将一个音频对象看作是一个虚拟的音源,听音者听到这个虚拟的音源发出的声音。在听音者听到该音频对象的声音的整个过程中,该音频对象相对于听音者可能是运动的。因此,该音频对象的水平方位角可能是变化的。
[0283]
在一种可能的实现方式中,每个音频对象的水平方位角包括多个方位角,每个方位角对应于单声道音频的每个音频帧。
[0284]
可以理解地是,一个音频对象的水平方位角对应于不同的音频帧可以是相同的,也可以是不同的。
[0285]
本实施例提供以下几种得到音频对象的水平方位角的实现方式。
[0286]
在一种可能的实现方式中,通过三角函数建模的方式得到音频对象的水平方位角。
[0287]
具体地,首先获取左声道单对象音频的能量e_left,以及右声道单对象音频的能
量e_right。
[0288]
当左声道单对象音频的能量大于或等于右声道单对象音频的能量时,通过以下公式得到音频对象的水平方位角:azimuth=2*arctan (e_right/e_left)-90当左声道单对象音频的能量小于右声道单对象音频的能量时,通过以下公式得到音频对象的水平方位角:azimuth=90-2*arctan (e_ left/e_ right)其中,e_right为右声道单对象音频的能量,e_left为左声道单对象音频的能量,arctan为反正切函数。
[0289]
通过以上方式估计得到的音频对象的水平方位角的范围是-90至 90度。
[0290]
在一种可能的实现方式中,根据左声道单对象音频的能量和右声道单对象音频的能量,上述两个能量与音频对象的水平方位角之间的对应关系,得到音频对象的水平方位角。
[0291]
进一步地,可以获取左声道单对象音频的能量和右声道单对象音频的能量的比值,根据上述比值与音频对象的水平方位角之间的对应关系,得到音频对象的水平方位角。
[0292]
在真实声音传播的环境中,当声音传到听音者的双耳时,需要考虑听音者的头部遮挡、耳廓反射、肩膀反射等因素对声音的影响。
[0293]
进一步地,在一种可能的实现方式中,听音者左声道和右声道的音频可以利用头相关变换函数hrtf(head related transfer functions)确定。
[0294]
头相关变换函数hrtf(head related transfer functions)是一种音效定位算法,用于描述声波从声源到双耳的传输过程,对应时域的头相关冲击响应hrir。
[0295]
以听音者为人为例,人通过两个耳朵定位来自三维空间的声音,这得力于人耳对声音信号的分析系统。
[0296]
从空间任意一点传到人耳(通常是鼓膜前)的信号可以用一个滤波系统来描述,音源加滤波器得到的就是两耳鼓膜前的声音信号(双耳信号)。
[0297]
通过描述空间信息的滤波器(传递函数),也即hrtf,能够还原来自空间特定方位的声音信号。如果获取空间所有方位到双耳的滤波器组,就能得到一个滤波矩阵,从而还原来自整个空间方位的声音信号。
[0298]
因此,已知音源和hrtf能够得到该音源分别传输到双耳的音频。
[0299]
基于此,可以预先获取左右耳能量比值与音频对象的水平方位角之间的对应关系,左右耳能量比值为左声道单对象音频的能量和右声道单对象音频的能量的比值。
[0300]
经过s205得到音频对象的左声道单对象音频和右声道单对象音频,也即对于该音频对象,能够得到左声道单对象音频的能量e_left和右声道单对象音频的能量e_right的比值。
[0301]
根据上述对应关系,以及左声道单对象音频的能量和右声道单对象音频的能量的比值,能够确定该音频对象的水平方位角。
[0302]
进一步地,可以将上述对应关系以表格的形式进行存储。
[0303]
请参见图7b,图7b为左右声道能量和水平方位角的对应关系的示意图。
[0304]
如图7b所示,预先获取左右耳能量比值e_left/e_right与音频对象的水平方位角
azimuth之间的对应关系:当水平方位角azimuth为90度、85度、80度、75度、70度、0、-75度、-80度、-85度、-90度时,对应的左右耳能量比值e_left/e_right分别0.01、0.03、0.08、0.15、0.25、1.00、6.6、12.5、33.3、100。
[0305]
可以理解地是,除了图7b示出的对应关系,还可以包括其他水平方位角azimuth与左右耳能量比值e_left/e_righ之间的对应关系,具体可以根据实际情况确定。
[0306]
以上说明了可以根据水平方位角与左右耳能量比值之间的对应关系,确定音频对象的水平方位角。上述对应关系是多个数值之间一对一的对应关系。
[0307]
在一种可能的实现方式中,在通过上述方式得到上述对应关系之后,还可以利用上述对应关系拟合水平方位角与左右耳能量比值的函数关系。
[0308]
具体地,拟合得到的函数可以为如下式的多项式函数:其中,, , , 为多项式函数的参数,是通过函数拟合得到的。
[0309]
除了上述实现方式,还可以通过其他的实现方式得到音频对象的水平方位角,或者将多种方案结合以得到音频对象的水平方位角,本技术实施例对此不作限定。
[0310]
上述为本实施例提供的得到音频对象的水平方位角的实现方式,在一种可能的实现方式中,对于每个音频对象的每个音频帧,均通过上述任一的方式,得到该音频对象的水平方位角。
[0311]
也即,得到每个音频对象的水平方位角集合,该集合中包含有每个音频帧的该音频对象的水平方位角。
[0312]
在一种可能的实现方式中,还可以通过设定第一水平方位角,以及水平方位角的变化范围,从而确定初始水平方位角。
[0313]
初始水平方位角为第一水平方位角依据变化范围进行变化的数值。
[0314]
具体地,第一水平方位角可以是通过以上任一的方式得到的,或者是直接设定的。
[0315]
水平方位角变化范围,指的是该音频对象的水平方位角,在该范围内进行变化。
[0316]
进一步地,变化的形式可以是随机变化,也可以是按照预设的规则变化(例如逐渐增减或逐渐减小等)。
[0317]
例如,第一水平方位角为5度,水平方位角变化范围为[-1,1]。也即,该音频对象的第一水平方位角为5度,并随机在[4,6]进行变化。
[0318]
在一种可能的实现方式中,还可以直接设定音频对象的第一水平方位角,并且该音频对象的水平方位角保持固定。
[0319]
可以理解地是,当存在多个音频对象时,确定每个音频对象的第一水平方位角的方式可以是相同的,也可以是不同的,本技术实施例对此不作限定。
[0320]
s207、根据音频对象类型,确定每个对象音频的初始仰角和初始距离。
[0321]
本技术实施例中的仰角为用于表征所述音频对象相对于听者的仰角的参数;本技术实施例中的距离为用于表征所述音频对象相对于听者的距离的参数。
[0322]
音频对象的仰角具体指的是该音频对象相对于听音者的仰角,音频对象的距离指的是音频对象和听音者之间的距离。
[0323]
初始仰角指的是仰角的初始值。初始距离指的是距离的初始值。
[0324]
仰角和距离均是音频对象的参数,初始仰角指的是仰角这个参数的初始值,初始距离指的是距离这个参数的初始值。
[0325]
以下对如何确定音频对象的初始仰角和初始距离进行说明。
[0326]
请参见图8,图8为本技术实施例提供的音频对象的仰角和距离的示意图。
[0327]
图8示出了听音者所在空间侧视示意图。
[0328]
当听音者为一个人时,听音者所在空间的侧视图的观察视角为:平行于听音者站立进行观察。
[0329]
如图8所示,听音者o和音频对象s之间的距离为d。
[0330]
以听音者站在水平面上为例,音频对象s的仰角b为:听音者o和音频对象s的连线,与水平面之间的夹角。
[0331]
将一个音频对象看作是一个虚拟的音源,听音者听到这个虚拟的音源发出的声音。
[0332]
例如听音者和音频对象位于同一水平面,考虑听音者和音频对象的高度:听音者的高度为1m。当该音频对象的高度等于1m时,该音频对象的仰角为0度;当该音频对象的高度大于1m时,该音频对象的仰角大于0度;当该音频对象的高度小于1m时,该音频对象的仰角小于0度。
[0333]
以下为本技术实施例提供的确定对象音频的仰角和距离的实现方式。
[0334]
在一种可能的实现方式中,根据音频对象的类型确定对象音频的仰角和距离。
[0335]
本实施例提供以下几种根据音频对象的类型确定对象音频的仰角和距离的实现方式。
[0336]
在一种可能的实现方式中,预设各音频对象类型的音频对象的仰角和距离。
[0337]
对于一个音频对象类型来说,属于该音频对象类型的音频对象的仰角和距离是预先设定。
[0338]
具体地,对于一个音频对象类型来说,可以预设该音频对象类型的音频对象的仰角为预设仰角,预设该音频对象类型的音频对象的距离为预设距离。
[0339]
进一步地,预设仰角和预设距离可以对应一个或多个数值。
[0340]
当预设仰角对应一个数值时,确定该数值为该音频对象的仰角;当预设仰角对应多个数值时,可以通过随机选取的方式,在多个数值中随机选取一个数值作为对象音频的仰角的数值。
[0341]
预设距离和预设仰角同理,这里不再赘述。
[0342]
预设距离和预设仰角这两个参数,还可以其中一个参数对应一个预设的数值,另一个对应多个预设的数值,这里不再赘述。
[0343]
例如,对于音频对象类型“人”,音频对象的预设仰角可以包括0度、1度、2度,预设距离可以包括1m、2m、3m。
[0344]
在确定音频对象类型“人”的音频对象的预设仰角时,可以随机确定0度、1度和2度中的一个数值作为该音频对象的预设仰角。
[0345]
对于同一个音频对象类型的不同音频对象,确定的预设仰角可以是不同的。
[0346]
对于音频对象类型“人”,音频对象的预设仰角可以包括0度、1度、2度等,预设距离
可以包括1m、2 m、3 m等;类似地,对于音频对象类型“鼓”,音频对象的预设仰角可以包括-5度、-6度、-7度等,预设距离可以包括2米、3米、4米等;对于音频对象类型“鸟”,音频对象的预设仰角可以包括20度、30度、40度等,预设距离可以包括5米、6米、10米等;对于音频对象类型“飞机”,音频对象的预设仰角可以包括70度、80度、90度等,预设距离可以包括20米、30米、40米等。
[0347]
音频对象的类型与预设仰角、预设距离这两个参数的对应关系可以通过表格的形式存储和/或呈现。
[0348]
根据上述对应关系,根据该音频对象的类型,随机确定音频对象的预设仰角和预设距离的数值。
[0349]
以上说明了预设音频对象类型的音频对象的仰角和距离,以确定对象音频的仰角和距离。
[0350]
在一种可能的实现方式中,还可以随机生成音频对象的预设仰角和预设距离,例如利用随机数生成函数或随机数生成器生成。
[0351]
进一步地,对于随机数生成函数或随机数生成器,设定生成随机数数值的范围。
[0352]
例如,利用随机数生成函数或随机数生成器,随机生成音频对象类型“人”的音频对象的预设仰角。设定生成随机数数值的范围为[-5,5],也即,随机数生成函数或随机数生成器生成的预设仰角的范围为[-5, 5]。
[0353]
以上说明了随机生成音频对象类型的音频对象的仰角和距离,以确定对象音频的仰角和距离。
[0354]
在一种可能的实现方式中,还可以根据音频对象的单声道音频的能量,确定该音频对象的距离。
[0355]
例如,音频对象的单声道音频的能量越小,确定该音频对象的距离越大。
[0356]
在一些可能的情况中,可以利用音频对象的单声道音频的能量和音频对象的距离的函数,确定音频对象的距离。上述函数用以体现:音频对象的单声道音频的能量和音频对象的距离之间的负相关关系。
[0357]
当存在多个对象音频时,对于每个对象音频的仰角和距离的确定,实现方式可以相同,也可以不同;对于一个对象音频的仰角的确定,和该对象音频的距离的确定,实现方式可以相同,也可以不同,本实施例对此不作限定。
[0358]
除了上述实现方式,还可以通过其他的实现方式得到音频对象的仰角和距离,或者将多种方案结合以得到音频对象的仰角和距离,本技术实施例对此不作限定。
[0359]
上述为本实施例提供的得到音频对象的仰角和距离的实现方式,在一种可能的实现方式中,对于每个音频对象的每个音频帧,均通过上述任一的方式,得到该音频对象的仰角和距离。
[0360]
也即,得到每个音频对象的仰角集合,该集合中包含有每个音频帧的该音频对象的仰角;得到每个音频对象的距离集合,该集合中包含有每个音频帧的该音频对象的。
[0361]
在一种可能的实现方式中,还可以直接设定音频对象的第一仰角、第一距离、仰角的变化范围,以及距离的变化范围。
[0362]
具体地,音频对象的第一仰角和第一距离可以是通过以上任一的方式得到的,还可以直接设定的。
[0363]
仰角的变化范围,指的是该音频对象的仰角在该范围内进行变化;距离的变化范围,指的是该音频对象的距离在该范围内进行变化。
[0364]
对于第一仰角、第一距离、仰角的变化范围,以及距离的变化范围的说明,参加上述对于水平方位角初始值和水平方位角的变化范围的说明。
[0365]
可以理解地是,当存在多个音频对象时,确定每个音频对象的初始仰角和初始距离的方式可以是相同的,也可以是不同的,本技术实施例对此不作限定。
[0366]
根据以上的过程对原始音频进行处理和,得到音频对象的单对象音频和位置参数,其中,音频对象的位置参数可以包括:音频对象的水平方位角、音频对象的仰角和音频对象的距离。
[0367]
在一些可能的情况中,还可以得到音频对象的其他参数。
[0368]
在一种可能的实现方式中,在获取原始音频之后,响应于原始音频处理指令,对原始音频进行处理(上述s202-s206),从而得到音频对象的单对象音频和位置参数。
[0369]
进一步地,在一种可能的实现方式中,原始音频处理指令可以是由用户发出的。
[0370]
本技术实施例以电子终端为手机为例,对3d音频播放应用程序(3d音频播放app)可能的界面进行说明。
[0371]
在一种可能的实现方式中,可以将音频对象的信息以图像的方式呈现给用户,音频对象的信息包括音频对象的水平方位角、音频对象的仰角,以及音频对象的距离等。
[0372]
请参见图4a,如图4a所示,在主界面中,显示有3d音频对象分析及设定虚拟按钮403。
[0373]
在一种可能的实现方式中,原始音频处理指令,可以是由用户点击主界面中3d音频对象分析及设定虚拟按钮403产生的。
[0374]
在一些可能的情况中,接收到3d音频对象分析及设定虚拟按钮403的按压操作后,页面由主界面跳转至3d音频对象分析及设定界面。
[0375]
在一种可能的实现方式中,响应于原始音频处理指令对原始音频进行处理,在处理原始音频的过程中,3d音频对象分析及设定界面显示处理和分析的进度。
[0376]
具体地,用户在播放主界面点击“3d音频对象分析及设定”按钮后,通过人工智能ai算法对选定的音频文件进行分析,提取不同的音频对象和环境声。
[0377]
请参见图9a,图9a为本技术实施例提供的3d音频对象分析及设定界面的示意图。
[0378]
如图9a所示,在3d音频对象分析及设定界面,显示有目标音源显示框401。目标音源显示框401中显示有目标音源的名称和格式“渡口.flac”。
[0379]
在目标音源显示框401下方,3d音频对象分析及设定界面还包括进度指示409,用于指示处理原始音源当前的进度。
[0380]
如图9a所示,在目标音源显示框401下方,还显示有原始视频的处理和分析的进度。这里,目标音频即为用于处理和分析的原始视频。
[0381]
如图9a所示,进度指示409“分析中
……
(已完成90%)”用于说明正在处理和分析原始视频,并且处理和分析的进度约为90%。
[0382]
在一些可能的情况中,当前处理和分析的进度,可以根据历史处理和分析所需的
时长,以及本次处理和分析已用的时间确定;或者利用已经处理的音频对象和所有音频对象的个数的比例,确定当前处理和分析的进度;或者其他能够用于得到处理和分析的进度的实现方式。
[0383]
在一些可能的情况中,3d音频对象分析及设定界面上,还可以包括返回虚拟按钮406、跳转至电子设备桌面的桌面按钮407、主界面虚拟按钮408等。
[0384]
对象音频的水平方位角、仰角,以及距离已经具有明确的数值,或者是初始值和变化方式已经明确。
[0385]
s208、确定音频对象的参数的目标值。
[0386]
下面提到的参数,没有特殊的说明,均指的是音频对象的参数。
[0387]
参数可以包括位置参数,还可以包括其他参数。位置参数可以包括水平方位角、仰角和距离等;其他参数可以包括增益等。
[0388]
对于对象音频的水平方位角、仰角和距离已经上文进行说明,这里不再赘述。
[0389]
音频对象的增益,指的是对该音频对象的单对象音频数的信号幅度进行缩放的倍数。
[0390]
在一种可能的实现方式中,确定参数的初始值为参数的目标值。
[0391]
例如,确定初始水平方位角为水平方位角的目标值。
[0392]
在一种可能的实现方式中,确定参数的初始值为参数的目标值,并且,当接收到某个参数的输入值时,根据该参数的输入值确定该参数的目标值。
[0393]
进一步地,参数的输入值可以是由用户输入的。
[0394]
具体地,参数的输入值可以为参数的目标值,也即用户直接输入参数的目标值;参数的输入值也可以为参数的变化值,也即用户输入参数的变化值,具体根据参数的初始值和变化值,可以得到参数的目标值。
[0395]
经过s206-s207至少确定了对象音频的水平方位角、仰角和距离这三个参数的初始值。
[0396]
用户可以根据需要调整对象音频的参数,以满足用户个性化的需求。本技术实施例以电子终端为手机为例,对3d音频播放应用程序(3d音频播放app)可能的界面进行说明。
[0397]
继续参见图9a,进度指示409用于指示处理和分析原始音源当前的进度。当处理和分析原始音源完成后,进度指示409可以显示“分析已完成”,用于指示对原始音频的处理和分析已经完成,也即原始视频的处理和分析的进度为100%。
[0398]
请参见图9a和图9b,图9b为本技术实施例提供的3d音频对象分析及设定另一界面的示意图。
[0399]
如图9b所示,当处理和分析原始数据完成后,进度指示409可以显示“分析已完成”。
[0400]
在图9b示出的3d音频对象分析及设定界面中,包括目标音源显示框401、返回虚拟按钮406、跳转至电子设备桌面的桌面按钮407、主界面虚拟按钮408、进度指示409,还包括:音频对象显示区域410、音频对象列表411、选定音频对象参数设定区域412。
[0401]
在对原始数据的处理和分析结束后,得到音频对象和音频对象的位置参数,此时,可以得到音频对象列表。
[0402]
如图9b所示,在对原始数据的处理和分析完成后,界面上可以显示一个矩形空间
(3d音频空间)。矩形的中心可以是虚拟的听音者位置。
[0403]
如图9b示出的音频对象列表411,示出了各音频对象的名称,以及各音频对象在界面上对应的图标。
[0404]
音频对象的位置参数包括音频对象的水平方位角、音频对象的仰角,以及音频对象的距离。
[0405]
由于各个音频对象的位置参数用于指示音频对象和听音者的位置关系,包括在各个水平和数值方向的角度,以及两者之间的距离。此时可以确定各个音频对象和听音者的位置关系。
[0406]
图9b示出的音频对象显示区域410,利用立方体表示听音者所在的三维空间,以不同的图形表示不同的音频对象。对象显示区域410示出了音频对象和听音者的位置关系。
[0407]
在音频对象显示区域410和音频对象列表411的下方,还可以显示有听音者的图标说明。
[0408]
在图9b示出的3d音频对象分析及设定界面中,用户能够清晰且直观地看出音频对象和听音者的位置关系。
[0409]
在图9b示出的3d音频对象分析及设定界面中,还包括在选定音频对象参数设定区域412。
[0410]
用户可以利用选定音频对象参数设定区域412,对各个音频对象的位置参数进行调整。
[0411]
具体地,用户可以通过点击音频对象显示区域410中音频对象的图标,选择想要进行调整的音频对象。
[0412]
当接收到用户在音频对象显示区域410中对某个音频对象的图标的点击后,选定音频对象参数设定区域412中出现图标被点击的音频对象的名称和图标。
[0413]
如图9b所示,在选定音频对象参数设定区域412,左边示出了“人声”这个音频对象,此时,用户可以通过选定音频对象参数设定区域412的右边进行位置参数的调整。
[0414]
如图9b所示,在选定音频对象参数设定区域412的右边,显示有三个位置参数的名称以及位置参数的数值输入框。
[0415]
用户可以向各个数值输入框中进行输入,以设置各位置参数的目标值。
[0416]
图9b示出了直接获取用户输入的位置参数的目标值的情况。在一种可能的实现方式中,还可以获取用户对各位置参数的数值的调整值。
[0417]
在一些可能的情况中,各个位置参数的数值输入框显示的初始值,可以为处理和分析原始视频完成后的数值,也即初始显示各个位置参数调整之前的数值。
[0418]
在一些可能的实现方式中,获取音频对象的其他参数的目标值。
[0419]
音频对象的其他参数可以包括该音频对象的增益,具体指的是:对该音频对象的单对象音频进行放大的倍数。
[0420]
如图9b所示,在选定音频对象参数设定区域412的右边,还显示有“增益”这个参数的名称以及数值输入框。
[0421]
对于参数“增益”获取过程和以上各位置参数类似,这里不再赘述。
[0422]
当对位置参数和其他参数的数值没有调整时,参数的目标值可以等于参数的初始值。
[0423]
在一些可能的实现方式中,用户还可以在图9b示出的矩形空间中,将音频对象对应的小球点击并拖动拉出该矩形空间,以使在播放3d音频的时候,不会播放这个音频对象的声音。
[0424]
例如,歌曲中有2个歌手,用户可以把某个歌手的声音去掉。
[0425]
上面对确定音频对象的水平方位角、仰角、距离和增益的方式进行了说明:通过处理和分析原始音频得到参数的第一数值,然后以获取到参数的第二数值作为参数的目标值,或者根据第一数值和参数的变化量得到参数的目标值,能够提高音频的个性化。
[0426]
在一些可能的情况中,参数的目标值还可以为上述参数的第一数值。例如,在得到参数的第一数值后,直接以第一取值作为参数的目标值,不进行获取第二数值的处理过程,能够简化用户操作。
[0427]
s209、根据每个音频对象的单声道音频和位置参数的目标值,确定每个音频对象的左声道目标音频和右声道目标音频。
[0428]
在一种可能的实现方式中,对于每个音频对象的单声道音频,基于该音频对象的参数的目标值,利用头相关传递函数hrtf处理该音频对象的单声道音频,得到该音频对象的左声道目标音频和该音频对象的右声道目标音频。
[0429]
头相关传递函数hrtf包括左hrtf和右hrtf。
[0430]
利用头相关传递函数hrtf处理该音频对象的单声道音频,指的是hrtf这个函数作用于单声道音频。
[0431]
请参见图10a,图10a为本技术实施例提供的利用头相关传递函数hrtf得到音频对象的单声道目标音频的示意图。
[0432]
单声道目标音频可以为左声道目标音频,也可以为右声道目标音频。
[0433]
如图10a所示,对于每个音频对象,根据位置参数的目标值,从hrtf库中确定符合位置参数的目标值的左hrtf和右hrtf;利用左hrtf处理单声道音频,得到左声道目标音频;利用右hrtf处理单声道音频,得到右声道目标音频。
[0434]
对于每个音频对象,得到的目标左声道即为该音频对象位于目标位置时发出的声音,听音者的左声道所接收到的音频;目标位置,指的是该音频对象和听音者的位置关系满足该音频对象的位置参数的目标值时的位置。
[0435]
由于头相关传递函数hrtf是基于位置参数的目标值从hrtf库中得到的,在音频对象的单声道音频经过hrtf处理后,听音者能够感受到音频对象该音频对象发声时是位于目标位置的。
[0436]
以听音者利用音频播放器播放音频为例。对于一个音频对象,当音频播放器的左声道播放该音频对象的左声道目标音频时,听音者能够感受到该音频对象和听音者的位置关系符合该音频对象的位置参数的目标值。
[0437]
本实施例提供以下几种得到单声道目标音频的实现方式,下面以单声道目标音频为左声道目标音频为例进行说明。
[0438]
请参见图10b,图10b为本技术实施例提供的得到单声道目标音频的示意图。
[0439]
如图10b所示,利用音频对象的位置位置参数的目标值,在hrtf库中确定符合位置参数的目标值的时域的hrtf滤波器系数,分别为时域的左hrtf和右hrtf。
[0440]
将单声道音频的时域信号和时域的左hrtf进行卷积,得到左声道目标音频;将单
声道音频的时域信号和时域的右hrtf进行卷积,得到右声道目标音频。左声道目标音频和右声道目标音频均为时域信号。
[0441]
请参见图10c,图10c为本技术另一实施例提供的得到单声道目标音频的示意图。
[0442]
如图10c所示,利用音频对象的位置位置参数的目标值,在hrtf库中确定符合位置参数的目标值的频域的hrtf滤波器系数,可能为fft域或者mdct域等,得到频域的左hrtf和右hrtf;然后,将单声道音频的时域信号进行时频转换(可能为fft或mdct变换等),得到单声道音频的频域信号;再将单声道音频的时域信号分别和频域的左hrtf和右hrtf相乘,得到左声道目标音频的频域信号和右声道目标音频的频域信号;分别对左声道目标音频的频域信号和右声道目标音频的频域信号进行反时频变换,得到左声道目标音频的时域信号和右声道目标音频的时域信号。
[0443]
除了上述实现方式,还可以通过其他的实现方式得到左声道目标音频和右声道目标音频,或者将多种方案集合以得到左声道目标音频和右声道目标音频,本技术实施例对此不作限定。
[0444]
可以理解地是,当存在多个音频对象时,确定得到每个音频对象的左声道目标音频和右声道目标音频的方式可以是相同的,也可以是不同的,本技术实施例对此不作限定。
[0445]
得到右声道的音频对象音频和得到左声道的音频对象音频的方式类似,这里不再赘述。
[0446]
请见参见图9b,3d音频对象分析及设定界面中,还可以包括其他功能性的虚拟按键:试听对象、试听全部以及保存结果。
[0447]
在一些可能的情况中,响应于用户对试听对象、试听全部以及保存结果任意一个按键的按压,执行s09。
[0448]
在一些可能的情况中,当接收到用户对试听对象按键的按压,还可以仅确定选定的音频对象的左声道目标音频和右声道目标音频,并在确定后进行播放。
[0449]
在一些可能的情况中,当接收到用户对试听全部按键的按压,确定所有的音频对象的左声道目标音频和右声道目标音频,并在确定后进行播放。
[0450]
在一些可能的情况中,当接收到用户对保存结果按键的按压,确定所有的音频对象的左声道目标音频和右声道目标音频,并在确定后进行保存。
[0451]
s210、叠加左声道的背景声和所有音频对象的左声道目标音频得到左声道输出音频,叠加右声道的背景声和所有音频对象的右声道目标音频得到右声道输出音频。
[0452]
请参见图11,图11为本技术实施例提供的得到单声道输出音频的示意图。
[0453]
单声道输出音频包括左声道输出音频和右声道输出音频。
[0454]
如图11所示,叠加左声道的背景声和所有音频对象的左声道目标音频得到左声道输出音频,叠加右声道的背景声和所有音频对象的右声道目标音频得到右声道输出音频。
[0455]
左声道的背景声为上述左声道第一背景声和左声道第二背景声的叠加,右声道的背景声为上述右声道第一背景声和右声道第二背景声的叠加。
[0456]
以耳机为例,左声道输出音频即为通过耳机的左声道输出的音频,右声道输出音频即为通过耳机的右声道输出的音频。
[0457]
音频对象可能有多个,因此将所有的音频对象的左声道目标音频叠加,将所有的音频对象的右声道目标音频叠加。
[0458]
在一种可能的实现方式中,得到左声道输出音频之前,还可以将左声道的背景声和所有音频对象的左声道目标音频叠加的结果,进行一些音频处理,然后输出得到的左声道输出音频。
[0459]
音频处理可以包括:用于控制音色均衡器处理、用于控制响度的动态范围控制器处理、以及用于避免产生削波的限幅器处理等。
[0460]
在一些可能的情况中,得到左声道输出音频之前,还可以进行其他处理,本技术实施例对此不做限定。
[0461]
在一些可能的情况中,继续参见图9b,响应于用户对图9b所示的界面中点击试听全部或者保存结果虚拟按键的按压,执行s210得到左声道输出音频和右声道输出音频。
[0462]
进一步地,响应于用户对保存结果虚拟按键的按压,还可以在保存结果之后,由图9b所示的界面返回至图4a所示的界面。
[0463]
返回至图4a所示的界面后,3d音频播放虚拟按钮404和3d音频k歌虚拟按钮405,以黑色显示(原本可以为灰色)。
[0464]
用户可以通过点击3d音频播放虚拟按钮404,进行音频播放。
[0465]
在一些可能的实现方式中,在实际的应用场景中,用户可以利用电子设备的声音输入装置,例如,图1a示出的电子设备100的麦克风170c进行声音的输入,作为输出音频的一个音频对象。
[0466]
具体地,用户可以通过点击3d音频k歌虚拟按钮405,进行k歌(唱歌)。
[0467]
请参见图9c,图9c为本技术实施例提供的3d音频k歌界面的示意图。
[0468]
在一些可能的实现方式中,响应于用户对3d音频k歌虚拟按钮405的按压,跳转至图9c所示的3d音频k歌界面。
[0469]
与图9b不同地是,图9c示出的3d音频k歌界面中,包含有开始k歌虚拟按钮,用于响应于用户的按压开始录制音频;结束k歌虚拟按钮,用于响应于用户的按压结束录制音频;保存结果虚拟按钮,用于保存k歌结果。
[0470]
在实际场景中,可以在播放上述得到的左声道输出音频和右声道输出音频的同时进行音频录制(用户进行k歌)。例如,实现用户跟自己喜欢的歌手合唱等。
[0471]
进一步地,例如原始音频包括两个人声(第一人声和第二人声),通过上述对音频对象的分析和处理的过程,可以去除第一人声,实现用户跟第二人声进行合唱。
[0472]
进一步地,用户输入的音频可以作为一个音频对象。用户在如4a所示的界面中,可以点击 3d音频对象分析及设定虚拟按钮403,对已有的音频对象和增加的音频对象(用户k歌产生的)进行设定。
[0473]
3d音频对象分析及设定的具体过程已在上文进行说明,这里不再赘述。
[0474]
采用本技术实施例的技术方案,根据原始的立体声音频,提取得到各个音频对象的音频,并设置至少包括水平方位角、仰角和距离的位置参数,然后利用位置参数确定头相关传输函数;再通过头相关函数对各个音频对象的音频进行处理,得到每个音频对象包含空间位置信息的音频,进而得到耳机的左声道和右声道输出的音频。采用本技术实施例的技术方案,听者不仅能够感受到每个音频对象相对于听者的位置信息,还能够感受到不同音频对象之间的位置差异,从而提高音频播放时的空间感。
[0475]
以上各步骤可以由电子设备中的中央处理器cpu、网络处理器npu,或者应用处理
器ap中的一个或多个处理器完成。
[0476]
本技术实施例还提供了一种电子设备。本技术实施例不具体限定电子设备的类型,电子设备可以为使用手机、笔记本电脑、可穿戴电子设备(例如智能手表)、平板电脑、增强现实(augmented reality, ar)设备、虚拟现实(virtual reality, vr)设备等。
[0477]
本技术实施例提供的电子设备包括处理器和存储器,其中,存储器存储有代码,处理器用于调用存储器中存储的代码,执行如上述任一的音频处理方法。
[0478]
请参见图1a,本技术实施例提供的电子设备100包括的存储器可以为图1a示出的内部存储器121,处理器可以为图1a示出的处理器110。
[0479]
在一些可能的实现方式中,本技术实施例提供的电子设备100包括的处理器可以包括:中央处理器(central processing unit, cpu)、应用处理器(application processor, ap)和神经网络计算处理器(neural-network processing unit, npu) 等中的一种或多种。
[0480]
在一些可能的实现方式中,本技术实施例提供的电子设备100包括的处理器可以包括一个或多个处理器或处理单元。
[0481]
在一些可能的情况中,本技术实施例提供的电子设备100包括的存储器还可以是以其他形式存在的。
[0482]
采用本技术实施例的技术方案,根据原始的立体声音频,提取得到各个音频对象的音频,每个音频对象对应一个音源;为每个音频对象设置用于表征所述音频对象相对于听者的仰角的参数,以增加每个音频对象的音频在高度方向的位置信息;并根据每个音频对象的左声道音频、右声道音频和位置参数,确定每个音频对象的左声道目标音频和声道目标音频;最后叠加每个音频对象的左声道目标音频得到左声道输出音频,叠加每个音频对象的右声道目标音频得到右声道输出音频。由于每个音频对象的音频具有高度方向的信息,听者不仅能够感受到每个音频对象相对于听者的高度信息,还能够感受到不同音频对象之间的高度差异,从而提高音频播放时的空间感。进一步地,还可以为每个音频对象设置用于表征所述音频对象相对于听者的水平方位角和距离的参数,增加每个音频对象的位置信息,进一步提高音频播放时的空间感。
[0483]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外,还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0484]
以上所述仅是本技术的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献