用于处理初始音频信号的方法和装置与流程

2023-02-06 22:57:30 来源：中国专利 TAG：

技术特征：
1.一种用于处理包括目标部分as_tp和侧边部分as_sp的初始音频信号as的方法(100)，包括以下步骤：a.接收所述初始音频信号as；b.通过使用第一信号修改器来修改(110、110a)所接收的初始音频信号as以获得第一修改音频信号“第一mod as”；通过使用第二信号修改器来修改(110、110b)所接收的初始音频信号as以获得第二修改音频信号“第二mod as”；c.针对评估标准评估(120、120a)所述第一修改音频信号以获得描述所述评估标准的满足程度的第一评估值“第一psv”；针对所述评估标准评估(120、120a)所述第二修改音频信号以获得描述所述评估标准的满足程度的第二评估值“第二psv”；以及d.取决于相应的第一评估值“第一psv”或第二评估值“第二psv”来选择(130)所述第一修改音频信号“第一mod as”或所述第二修改音频信号“第二mod as”。2.根据权利要求1所述的方法(100)，其中，所述评估标准来自包括以下各项的组：-感知相似度-语音清晰度-响度-声音模式-空间感。3.根据权利要求1或2所述的方法(100)，其中，选择的步骤是基于描述独立的评估标准的多个独立的第一评估值和第二评估值来执行的。4.根据前述权利要求中任一项所述的方法(100)，其中，所述评估标准是所述感知相似度，并且其中，步骤c包括以下子步骤：将所接收的初始音频信号as与所述第一修改音频信号“第一modas”进行比较(120、120a)以获得第一感知相似度值“第一psv”作为第一评估值，所述第一感知相似度值“第一psv”描述所述初始音频信号as与所述第一修改音频信号“第一mod as”之间的感知相似度；以及将所接收的初始音频信号as与所述第二修改音频信号“第二modas”进行比较(120、120b)以获得第二感知相似度值“第二psv”作为第二评估值，所述第二感知相似度值“第二psv”描述所述初始音频信号as与所述第二修改音频信号“第二mod as”之间的感知相似度。5.根据权利要求4所述的方法(100)，其中，选择所述第一修改音频信号“第一mod as”，其中，所述第一感知相似度值“第一psv”高于所述第二感知相似度值“第二psv”以便指示所述第一修改音频信号“第一mod as”的更高感知相似度；以及其中，当所述第二感知相似度值“第二psv”高于所述第一感知相似度值“第一psv”以便指示所述第二修改音频信号“第二mod as”的更高感知相似度时，选择所述第二修改音频信号“第二mod as”。6.根据前述权利要求中任一项所述的方法(100)，还包括以下步骤：取决于步骤d的选择来输出所述第一修改音频信号“第一mod as”或所述第二修改音频信号“第二mod as”。7.根据权利要求3所述的方法(100)，其中，当相应的第一感知相似度值或第二感知相
似度值“第二psv”低于阈值时，执行输出所述初始音频信号as而不是输出所述第一修改音频信号“第一mod as”或所述第二修改音频信号“第二mod as”的步骤，其中，低于所述阈值，相应的第一修改音频信号“第一mod as”或第二修改音频信号“第二mod as”被指示为与所述初始音频信号as不够相似。8.根据前述权利要求中任一项所述的方法(100)，其中，所述目标部分as_tp是所述初始音频信号as的语音部分，并且所述侧边部分as_sp是所述音频信号的环境噪声部分。9.根据前述权利要求中任一项所述的方法(100)，其中，所述第一修改音频信号和/或所述第二修改音频信号“第二mod as”包括：被移动到前景中的所述目标部分as_tp和被移动到背景中的所述侧边部分as_sp，和/或作为所述目标部分as_tp被移动到前景中的语音部分和作为所述侧边部分as_sp被移动到背景中的环境噪声部分。10.根据前述权利要求中任一项所述的方法(100)，其中，比较的步骤包括：通过使用感知模型、peaq模型、polqa模型和/或pemo-q模型来提取所述第一评估值和/或所述第二评估值“第二psv”。11.根据前述权利要求中任一项所述的方法(100)，其中，所述第一评估值和/或所述第二评估值“第二psv”取决于所述第一修改音频信号“第一mod as”或所述第二修改音频信号“第二mod as”的物理参数、所述第一修改音频信号“第一mod as”或所述第二修改音频信号“第二mod as”的音量电平、所述第一修改音频信号“第一mod as”或所述第二修改音频信号“第二mod as”的心理声学参数、所述第一修改音频信号“第一mod as”或所述第二修改音频信号“第二mod as”的响度信息、所述第一修改音频信号“第一mod as”或所述第二修改音频信号“第二mod as”的音调信息、和/或所述第一修改音频信号“第一mod as”或所述第二修改音频信号“第二mod as”的感知源宽度信息。12.根据前述权利要求中任一项所述的方法(100)，其中，所述第一信号修改器和/或所述第二信号修改器被配置为执行snr增加、动态压缩、所述初始音频信号as的snr增加、和/或所述初始音频信号as的动态压缩；和/或其中，如果所述初始音频信号as包括单独的目标部分as_tp和单独的侧边部分as_sp，则修改的步骤包括：增加所述目标部分as_tp、增加对所述目标部分as_tp的频率加权、动态压缩所述目标部分as_tp、减少所述侧边部分as_sp、减少对所述侧边部分as_sp的频率加权；和/或其中，如果所述初始音频信号as包括组合的目标部分as_tp和侧边部分as_sp，则修改包括：执行对所述目标部分as_tp和所述侧边部分as_sp的分离。13.根据前述权利要求中任一项所述的方法(100)，其中，选择(130)的步骤是考虑到以下因素中的一个或多个而形成的：听力受损者的听力硬度等级；个人听力表现；个人频率相关听力表现；个人偏好；关于信号修改率的个人偏好。14.根据前述权利要求中任一项所述的方法(100)，其中，修改(110)和/或比较(120)的步骤是考虑到以下因素中的一个或多个而执行的：
听力受损者的听力硬度等级；个人听力表现；个人频率相关听力表现；个人偏好；关于信号修改率的个人偏好。15.根据前述权利要求中任一项所述的方法(100)，其中，所述方法还包括以下步骤：接收关于定义个人偏好的优化目标的信息；其中，所述评估标准取决于所述优化目标；或者其中，修改和/或评估和/或选择的步骤取决于所述优化目标；或者其中，对用于选择步骤的描述独立的评估标准的独立的第一评估值和第二评估值的加权取决于所述优化目标。16.根据权利要求4至14中任一项所述的方法(100)，其中，比较(120)的步骤是针对以下内容执行的：整个初始音频信号as与整个第一修改音频信号和第二修改音频信号“第二mod as”；和/或单独音频信号的目标部分as_tp与所述第一修改音频信号和所述第二修改音频信号“第二mod as”的相应目标部分as_tp；和/或所述初始音频信号as的侧边部分as_sp与第一修改音频部分和第二修改音频部分的侧边部分as_sp。17.根据前述权利要求中任一项所述的方法(100)，其中，所述初始音频信号as包括多个时间帧，并且其中，针对每个时间帧重复步骤a至d；和/或其中，针对所述初始音频信号as的场景的时间部分或时间帧重复步骤a至d。18.根据前述权利要求中任一项所述的方法(100)，其中，对包括多个时间帧的所述初始音频信号as的适配是针对需要所述适配的时间帧和其他时间帧来执行的，以便保持感知连续性，或者其中，对包括多个时间帧的所述初始音频信号as的适配是针对需要所述适配的时间帧并且以插值方式针对其他时间帧执行的，以便保持感知连续性；和/或其中，执行对第一后续时间帧和第二后续时间帧的适配，使得形成所述第一后续时间帧和所述第二后续时间帧之间的过渡以便保持感知连续性。19.根据前述权利要求中任一项所述的方法(100)，其中，所述方法(100)还包括以下初始步骤：分析(21)初始音频部分以便确定语音部分；将所述语音部分与所述环境噪声部分进行比较，以便评估所述初始音频信号as的语音清晰度；以及如果指示所述语音清晰度的值低于阈值，则激活所述第一信号修改器和/或所述第二信号修改器以进行修改的步骤。20.一种具有程序代码的计算机程序，所述程序代码用于当在计算机上运行时执行根据前述权利要求中任一项所述的方法步骤。21.一种用于处理包括目标部分as_tp和侧边部分as_sp的初始音频信号as的装置，所述装置包括：接口，用于接收所述初始音频信号as；第一信号修改器(11)和第二信号修改器(11)，所述第一信号修改器(11)用于修改(110)所接收的初始音频信号as以获得第一修改音频信号“第一mod as”，所述第二信号修
改器(11)用于修改所接收的初始音频信号as以获得第二修改音频信号“第二mod as”；评估器，用于针对评估标准评估(120、120a)所述第一修改音频信号以获得描述所述评估标准的满足程度的第一评估值“第一psv”，并且针对所述评估标准评估(120、120a)所述第二修改音频信号以获得描述所述评估标准的满足程度的第二评估值“第二psv”；以及选择器(13)，用于取决于相应的第一感知评估相似度值“第一psv”或第二感知评估相似度值“第二psv”来选择(130)所述第一修改音频信号“第一mod as”或所述第二修改音频信号“第二mod as”。

技术总结
一种用于处理包括目标部分(AS_TP)和侧边部分(AS_SP)的初始音频信号(AS)的方法(100)，包括以下步骤：接收初始音频信号(AS)；通过使用第一信号修改器修改所接收的初始音频信号(AS)以获得第一修改(110a)音频信号，并通过使用第二信号修改器修改所接收的初始音频信号(AS)以获得第二修改音频信号(第二MOD AS)；将所接收的初始音频信号(AS)与第一修改音频信号(第一MOD AS)进行比较以获得第一感知相似度值(第一PSV)，该第一PSV描述初始音频信号(AS)与第一修改音频信号(第一MOD AS)之间的感知相似度；以及将所接收的初始音频信号(AS)与第二修改音频信号(第二MOD AS)进行比较以获得第二感知相似度值(第二PSV)，该第二PSV描述初始音频信号(AS)与第二修改音频信号(第二MOD AS)之间的感知相似度；以及取决于相应的第一感知相似度值或第二感知相似度值(第二PSV)来选择(130)第一修改音频信号(第一MOD AS)或第二修改音频信号(第二MOD AS)。AS)。AS)。

技术研发人员：扬
受保护的技术使用者：弗劳恩霍夫应用研究促进协会
技术研发日：2020.05.29
技术公布日：2023/2/3

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：当确定是否从某些客户端设备卸载助理相关处理任务时补偿硬件差异的制作方法

用于处理初始音频信号的方法和装置与流程

相关文献

最热文献