音频质量确定方法、装置、电子设备及存储介质与流程

2022-10-13 00:06:45 来源：中国专利 TAG：

1.本公开涉及音频处理技术领域，尤其涉及一种音频质量确定方法、装置、电子设备及存储介质。

背景技术：

2.唱歌作为一项备受欢迎的娱乐活动，逐渐发展出丰富的线上玩法，例如，歌曲接唱。歌曲接唱是指：接唱者根据歌曲已播放片段的提示，演唱出该歌曲的待接唱片段。
3.目前，通常采用自动语音识别技术（automatic speech recognition，asr），从接唱者演唱的片段中识别出接唱歌词，从而根据接唱歌词是否与待接唱片段的歌词一致，来判定接唱的准确性。
4.但是，由于歌曲接唱玩法的自由性，接唱者演唱的片段可能不限于预设的待接唱片段。上述基于歌词的一致性进行评分的方法太过死板，难以在多变的接唱场景下，对音频片段进行准确评价。

技术实现要素：

5.本公开提供一种音频质量确定方法、装置、电子设备及存储介质，能够提升确定音频片段的质量的准确性。本公开的技术方案如下。
6.根据本公开实施例的第一方面，提供一种音频质量确定方法，该方法包括：确定目标音频片段的第一音高序列和参考音频片段的第二音高序列；从该第二音高序列中，确定与该第一音高序列的匹配度符合目标条件的子音高序列；基于该子音高序列和该第一音高序列，确定该目标音频片段的质量信息，该质量信息指示该目标音频片段与该参考音频片段中该子音高序列对应片段的相关程度。
7.在一种可能实施方式中，该从该第二音高序列中，确定与该第一音高序列的匹配度符合目标条件的子音高序列，包括：基于该参考音频片段的时间信息，将该第二音高序列划分为多个参考子序列，该时间信息指示该参考音频片段中多个子片段的起止时间；从该多个参考子序列中，确定与该第一音高序列的匹配度符合目标条件的该子音高序列。
8.在一种可能实施方式中，该从该多个参考子序列中，确定与该第一音高序列的匹配度符合目标条件的该子音高序列，包括：基于该多个参考子序列和该第一音高序列，确定该多个参考子序列和该第一音高序列之间的匹配路径，该匹配路径包括多个路径点，该路径点用于指示该参考子序列中的第一元素和该第一音高序列中的第二元素，该第一元素是该参考子序列中与该第二元素最相近的元素；基于该多个参考子序列对应的匹配路径，从该多个参考子序列中，确定匹配度符
合目标条件的该子音高序列。
9.在一种可能实施方式中，在该质量信息包括第一质量子信息的情况下，该基于该子音高序列和该第一音高序列，确定该目标音频片段的质量信息，包括：基于该子音高序列和该第一音高序列之间的匹配路径、该子音高序列和该第一音高序列之间的相关系数以及该子音高序列和该第一音高序列之间的样本标准误差，确定该目标音频片段的质量信息的第一质量子信息，该第一质量子信息指示该目标音频片段与该参考音频片段中该子音高序列对应片段在音高变化趋势上的相关程度。
10.在一种可能实施方式中，在该质量信息包括第二质量子信息的情况下，该基于该子音高序列和该第一音高序列，确定该目标音频片段的质量信息，包括：基于该子音高序列的序列长度，对该第一音高序列进行处理，得到第三音高序列，该第三音高序列的序列长度与该子音高序列的序列长度相同；基于该子音高序列和该第三音高序列，确定该子音高序列和该第三音高序列之间的匹配路径，该子音高序列和该第三音高序列之间的匹配路径包括多个目标路径点，该目标路径点用于指示该第三音高序列中的第三元素和该子音高序列中的第四元素，该第三元素是该第三音高序列中与该第四元素最相近的元素；基于该多个目标路径点的坐标、该子音高序列和该第三音高序列之间的相关系数以及该子音高序列的长度，确定该目标音频片段的质量信息的第二质量子信息，该第二质量子信息指示该目标音频片段与该参考音频片段中该子音高序列对应片段在音高上的相关程度。
11.在一种可能实施方式中，在该质量信息包括第三质量子信息的情况下，该基于该子音高序列和该第一音高序列，确定该目标音频片段的质量信息，包括：基于该多个目标路径点的坐标，确定该第三音高序列与该子音高序列之间的时间偏移量，该时间偏移量指示该第三音高序列在时间上相对于该子音高序列的偏移程度；基于该时间偏移量，确定该质量信息的第三质量子信息，该第三质量子信息指示该目标音频片段与该参考音频片段中该子音高序列对应片段在时间上的相关程度。
12.在一种可能实施方式中，该第一音高序列的确定过程包括：确定该目标音频片段的基频序列；基于音高和频率的对应关系，对该基频序列进行转换，得到该目标音频片段的第一音高序列。
13.在一种可能实施方式中，该确定该目标音频片段的基频序列，包括下述任一项：基于累计均值归一化差函数，对该目标音频片段进行处理，得到该基频序列；基于该目标音频片段的自相关系数指示的周期信息，对该目标音频片段进行处理，得到该基频序列。
14.在一种可能实施方式中，该基于音高和频率的对应关系，对该基频序列进行转换，得到该目标音频片段的第一音高序列之前，该方法还包括：基于频率范围信息，对该基频序列进行去噪处理；对该去噪处理后的基频序列进行平滑处理。
15.在一种可能实施方式中，该从该第二音高序列中，确定与该第一音高序列的匹配度符合目标条件的子音高序列之前，该方法还包括：
对该目标音频片段进行语音活动检测，得到该目标音频片段的语音活动序列，该语音活动序列指示该目标音频片段的能量值；基于该语音活动序列，对该第一音高序列的静音部分进行处理，该静音部分的能量值小于活动阈值；该从该第二音高序列中，确定与该第一音高序列的匹配度符合目标条件的子音高序列，包括：从该第二音高序列中，确定与处理后的该第一音高序列的匹配度符合目标条件的子音高序列。
16.在一种可能实施方式中，该静音部分包括多个静音帧，该基于该语音活动序列，对该第一音高序列的静音部分进行处理，包括：基于该语音活动序列，确定该静音部分包括的多个静音帧在该目标音频片段中的位置；将该第一音高序列中第一静音帧对应的部分音高序列删除，该第一静音帧处于该目标音频片段的开头位置或结束位置；对该第一音高序列中第二静音帧对应的部分音高序列进行平滑处理，该第二静音帧为该静音部分中除该第一静音帧以外的静音帧。
17.在一种可能实施方式中，该从该第二音高序列中，确定与该第一音高序列的匹配度符合目标条件的子音高序列之前，该方法还包括：基于目标分辨率，对该第一音高序列和该第二音高序列进行重采样。
18.根据本公开实施例的第二方面，提供一种音频质量确定装置，该装置包括：序列确定单元，被配置为执行确定目标音频片段的第一音高序列和参考音频片段的第二音高序列；匹配单元，被配置为执行从该第二音高序列中，确定与该第一音高序列的匹配度符合目标条件的子音高序列；质量确定单元，被配置为执行基于该子音高序列和该第一音高序列，确定该目标音频片段的质量信息，该质量信息指示该目标音频片段与该参考音频片段中该子音高序列对应片段的相关程度。
19.在一种可能实施方式中，该匹配单元，包括：划分模块，被配置为执行基于该参考音频片段的时间信息，将该第二音高序列划分为多个参考子序列，该时间信息指示该参考音频片段中多个子片段的起止时间；匹配模块，被配置为执行从该多个参考子序列中，确定与该第一音高序列的匹配度符合目标条件的该子音高序列。
20.在一种可能实施方式中，该匹配模块，被配置为执行：基于该多个参考子序列和该第一音高序列，确定该多个参考子序列和该第一音高序列之间的匹配路径，该匹配路径包括多个路径点，该路径点用于指示该参考子序列中的第一元素和该第一音高序中列的第二元素，该第一元素是该参考子序列中与该第二元素最相近的元素；基于该多个参考子序列对应的匹配路径，从该多个参考子序列中，确定匹配度符合目标条件的该子音高序列。
21.在一种可能实施方式中，该质量确定单元，被配置为执行：基于该子音高序列和该第一音高序列之间的匹配路径、该子音高序列和该第一音高序列之间的相关系数以及该子音高序列和该第一音高序列之间的样本标准误差，确定该目标音频片段的质量信息的第一质量子信息，该第一质量子信息指示该目标音频片段与该参考音频片段中该子音高序列对应片段在音高变化趋势上的相关程度。
22.在一种可能实施方式中，该质量确定单元，被配置为执行：基于该子音高序列的序列长度，对该第一音高序列进行处理，得到第三音高序列，该第三音高序列的序列长度与该子音高序列的序列长度相同；基于该子音高序列和该第三音高序列，确定该子音高序列和该第三音高序列之间的匹配路径，该子音高序列和该第三音高序列之间的匹配路径包括多个目标路径点，该目标路径点用于指示该第三音高序列中的第三元素和该子音高序列中的第四元素，该第三元素是该第三音高序列中与该第四元素最相近的元素；基于该多个目标路径点的坐标、该子音高序列和该第三音高序列之间的相关系数以及该子音高序列的长度，确定该目标音频片段的质量信息的第二质量子信息，该第二质量子信息指示该目标音频片段与该参考音频片段中该子音高序列对应片段在音高上的相关程度。
23.在一种可能实施方式中，该质量确定单元，被配置为执行：基于该多个目标路径点的坐标，确定该第三音高序列与该子音高序列之间的时间偏移量，该时间偏移量指示该第三音高序列在时间上相对于该子音高序列的偏移程度；基于该时间偏移量，确定该质量信息的第三质量子信息，该第三质量子信息指示该目标音频片段与该参考音频片段中该子音高序列对应片段在时间上的相关程度。
24.在一种可能实施方式中，该序列确定单元，包括：基频确定模块，被配置为执行确定该目标音频片段的基频序列；转换模块，被配置为执行基于音高和频率的对应关系，对该基频序列进行转换，得到该目标音频片段的第一音高序列。
25.在一种可能实施方式中，该基频确定模块，被配置为执行下述任一项：基于累计均值归一化差函数，对该目标音频片段进行处理，得到该基频序列；基于该目标音频片段的自相关系数指示的周期信息，对该目标音频片段进行处理，得到该基频序列。
26.在一种可能实施方式中，该音频质量确定装置还包括：去噪单元，被配置为执行基于频率范围信息，对该基频序列进行去噪处理；平滑单元，被配置为执行对该去噪处理后的基频序列进行平滑处理。
27.在一种可能实施方式中，该音频质量确定装置还包括：语音活动处理单元，被配置为执行对该目标音频片段进行语音活动检测，得到该目标音频片段的语音活动序列，该语音活动序列指示该目标音频片段的能量值；基于该语音活动序列，对该第一音高序列的静音部分进行处理，该静音部分的能量值小于活动阈值；该匹配单元，被配置为执行：从该第二音高序列中，确定与处理后的该第一音高序列的匹配度符合目标条件的子音高序列。
28.在一种可能实施方式中，该静音部分包括多个静音帧，该语音活动处理单元，被配置为执行：基于该语音活动序列，确定该静音部分包括的多个静音帧在该目标音频片段中的位置；将该第一音高序列中第一静音帧对应的部分音高序列删除，该第一静音帧处于该目标音频片段的开头位置或结束位置；对该第一音高序列中第二静音帧对应的部分音高序列进行平滑处理，该第二静音帧为该静音部分中除该第一静音帧以外的静音帧。
29.在一种可能实施方式中，该音频质量确定装置还包括：重采样单元，被配置为执行基于目标分辨率，对该第一音高序列和该第二音高序列进行重采样。
30.根据本公开实施例的第三方面，提供一种电子设备，该电子设备包括：一个或多个处理器；用于存储该处理器可执行程序代码的存储器；其中，该处理器被配置为执行该程序代码，以实现上述的音频质量确定方法。
31.根据本公开实施例的第四方面，提供一种计算机可读存储介质，该计算机可读存储介质包括：当该计算机可读存储介质中的程序代码由电子设备的处理器执行时，使得该电子设备能够执行上述音频质量确定方法。
32.根据本公开实施例的第五方面，提供一种计算机程序产品，包括一条或多条指令，该一条或多条指令由电子设备的一个或多个处理器执行，使得该电子设备能够执行上述音频质量确定方法。
33.通过上述技术方案，在参考音频片段提供的音频质量确定标准上，能够灵活地根据目标音频片段的实际情况，确定其对应的部分参考音频片段所的子音高序列，从而针对性地基于子音高序列，确定目标音频片段的质量信息，有效提升了确定音频质量的准确性。
34.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
35.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。
36.图1是根据一示例性实施例示出的一种音频质量确定方法的实施环境示意图；图2是根据一示例性实施例示出的一种音频质量确定方法的流程图；图3是根据一示例性实施例示出的另一种音频质量确定方法的流程图；图4是根据一示例性实施例示出的一种匹配路径的示意图；图5是根据一示例性实施例示出的一种音频质量确定方法的示意图；图6是根据一示例性实施例示出的一种音频质量确定装置的框图；图7是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
37.为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，清楚完整地对本公开实施例的技术方案进行描述。
38.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
39.需要说明的是，本公开所涉及的信息（包括但不限于用户设备信息、用户个人信息等）、数据（包括但不限于用于分析的数据、存储的数据、展示的数据等）以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本公开中涉及到的音频片段都是在获得充分授权的情况下获取的。
40.接下来对本公开涉及的实施环境进行介绍。图1是本公开实施例提供的一种音频质量确定方法的实施环境示意图，参见图1，该实施环境中包括：终端101和服务器102。
41.其中，该终端101用于获取目标音频片段，并向服务器102发送该目标音频片段，以获取该服务器102确定的该目标音频片段的质量信息。在一些实施例中，该终端101可以运行有能够获取音频片段的软件，例如，用于录制使用者歌声以得到音频片段的唱歌软件。
42.可选地，终端101可以为智能手机、智能手表、台式电脑、手提电脑、虚拟现实终端、增强现实终端、无线终端和膝上型便携计算机等设备中的至少一种，终端101具有通信功能，可以接入互联网，终端101可以泛指多个终端中的一个，本实施例仅以终端101来举例说明。
43.其中，该服务器102能够用于确定音频片段的质量信息。在一些实施例中，该服务器102以参考音频片段为标准，对目标音频片段进行评估，从而准确得到该目标音频片段的质量信息。在一些实施例中，该服务器102用于提供在线的音频质量确定服务，例如，上述终端101中运行的唱歌软件对应的后台服务器，该后台服务器能够基于参考歌曲，实时确定唱歌软件发送的音频片段的质量信息，并将音频片段的质量信息反馈给唱歌软件。
44.可选地，该服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式文件系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（content delivery network，cdn）、大数据以及人工智能平台等基础云计算服务的云服务器。
45.在一些实施例中，该终端101不仅用于获取目标音频片段，还能够用于执行上述服务器102所实现的步骤，以确定目标音频片段的质量信息。在一些实施例中，该终端101能够从服务器102获取参考音频片段，从而以参考音频片段为标准，对目标音频片段进行评估，以准确得到该目标音频片段的质量信息。例如，该终端101能够通过唱歌软件，从提供音频质量确定服务的服务器102，获取到参考音频片段，从而确定唱歌软件录制的目标音频片段的质量信息。
46.其中，服务器102与终端101可以通过有线或无线通信方式进行直接或间接的连
接，本公开实施例对此不作限定。可选地，上述终端101和服务器102的数量可以更多或更少，本公开实施例对此不加以限定。当然，服务器102还可以包括其他功能服务器，以便提供更全面且多样化的服务。
47.接下来对本公开实施例的技术方法进行介绍。图2是根据一示例性实施例示出的一种音频质量确定方法的流程图，如图2所示，该方法由电子设备执行，该电子设备可以为上述终端或服务器，该方法包括以下步骤201至步骤203。
48.在步骤201中，电子设备确定目标音频片段的第一音高序列和参考音频片段的第二音高序列。
49.其中，该目标音频片段是待确定质量信息的音频片段，本公开实施例以该参考音频片段为确定该目标音频片段的音频质量的标准，例如，该参考音频片段可以是指定歌曲的原始片段，该目标音频片段是对该指定歌曲的演唱片段。
50.在一些实施例中，该目标音频片段是实时录制得到的，例如，由唱歌软件实时录制的使用者的演唱音频片段。在另一些实施例中，该目标音频片段已存储的音频片段，本公开实施例对此不作限定。
51.在本公开实施例中，音高指音的高度，是声音的基础特征。以该目标音频片段的第一音高序列为例：该第一音高序列包括按照时间排列的多个元素，元素指示该目标音频片段的音高，该多个元素的排列顺序对应于音高出现的时间顺序。
52.在本公开实施例中，该第一音高序列能够表示该目标音频片段的音高在时间上的变化，从而从多个维度指示该目标音频片段的特征，例如，旋律和节奏。在一些实施例中，该第一音频片段包括多个音频帧，该多个音频帧的音高决定了该目标音频片段的旋律，该多个音频帧之间的时间间隔决定了该目标音频片段的节奏，相应地，该第一音高序列的多个元素则对应于该多个音频帧的音高。
53.其中，对该第二音高序列的介绍参考对该第一音高序列的说明，在此不作赘述。
54.本公开实施例中，确定该目标音频片段的第一音高序列，相当于将该目标音频片段转换为能够用于与该参考音频片段的第二音高序列进行比较的音频特征序列，从而基于该目标音频片段的音高在时间上的排列特点，与该参考音频片段进行对比，即可确定目标音频片段的音频质量。
55.在步骤202中，该电子设备从该第二音高序列中，确定与该第一音高序列的匹配度符合目标条件的子音高序列。
56.在一些实施例中，该参考音频片段的长度大于该目标音频片段，例如，该参考音频片段是包括指定歌曲中a、b、c和d四句歌词的原始片段，该目标音频片段是包括c和d两句歌词的演唱片段。在这种示例下，该第二音高序列的长度要大于该第一音高序列，并且，该第二音高序列的一部分对应于该第一音高序列。电子设备通过设置该目标条件，来从该第一音高序列中，确定出与该第一音高序列对应的一部分，也即是，该子音高序列。其中，该目标条件根据该第一音高序列与该第二音高序列之间的匹配方式确定，本公开实施例对此不作限定。
57.在步骤203中，该电子设备基于该子音高序列和该第一音高序列，确定该目标音频片段的质量信息，该质量信息指示该目标音频片段与该参考音频片段中该子音高序列对应片段的相关程度。
58.在本公开实施例中，该参考音频片段被作为确定该目标音频片段的音频质量的标准。基于匹配度确定出的该子音高序列对应片段，是该参考音频片段中该目标音频片段所对应的片段，因此，基于该子音高序列和该第一音高序列，能够精准地根据该目标音频片段对应的部分来确定质量信息。
59.在一些实施例中，该电子设备能够根据该子音高序列和该第一音高序列指示音频片段特征的多个维度，例如，旋律和节奏，确定出该目标音频片段与该参考音频片段中该子音高序列对应片段在该多个维度上的相关程度，也即是，该质量信息可以从多个质量维度来指示该目标音频片段的音频质量，例如，音高准确度和节奏准确度等，本公开实施例对此不作限定。
60.通过公开实施例提供的技术方案，在参考音频片段提供的音频质量确定标准上，能够灵活地根据目标音频片段的实际情况，确定其对应的部分参考音频片段所的子音高序列，从而针对性地基于子音高序列来确定目标音频片段的质量信息，有效提升了确定音频质量的准确性。
61.上述图2所示仅为本公开的基本流程，下面对本公开提供的方案进行进一步阐述。图3是根据一示例性实施例示出的另一种音频质量确定方法的流程图，如图3所示，该方法由电子设备执行，该电子设备可以为终端或服务器，该方法包括以下步骤301至步骤314。
62.在步骤301中，电子设备获取目标音频片段和参考音频片段，执行步骤302和步骤304。
63.本步骤301中的目标音频片段和参考音频片段的说明参考上述步骤201。
64.在本公开实施例中，该参考音频片段被作为音频质量确定标准，该电子设备中存储有该参考音频片段。在一些实施例中，该电子设备是服务器，服务器中存储有该参考音频质量。在另一些实施例中，该电子设备是终端，终端能够从提供音频质量确定服务的后台服务器下载该参考音频片段。
65.在一些实施例中，该参考音频片段以乐器数字接口（musical instrument digital interface，midi）文件的格式存储。其中，midi文件是一种描述性的“音乐语言”，其包含产生音乐所需的指令，例如，音符（指示音高）、时间差（指示音高持续的时间）、控制器（指示使用的乐器）和系统信息（指示音轨或接口标准等参数）。
66.在一些实施例中，该电子设备能够实时录制得到该目标音频片段，例如，该电子设备是终端，终端上运行的唱歌软件能够在获得使用者充分授权的情况下，实时录制使用者的歌声，得到演唱音频片段。在另一些实施例中，该电子设备是服务器，该服务器能够实时从终端获取该终端录制得到的该目标音频片段。
67.在另一些实施例中，该电子设备能够基于已存储的音频片段确定该目标音频片段，例如，该电子设备响应于对已存储音频片段的剪辑操作，生成该目标音频片段，本公开实施例对此不作限定。
68.在步骤302中，该电子设备确定该参考音频片段的第二音高序。
69.在一些实施例中，该参考音频片段以midi文件的格式存储，该电子设备能够基于该参考音频片段对应的midi文件，确定该参考音频片段的音高、音高开始的时间和音高持续的时间，从而生成该第二音高序列。示例性地，电子设备基于该midi文件包含的音符，按照音符—音高对照表，将音符映射为对应的音高，从而得到该参考音频片段的第二音高序
列reftone。
70.在一些实施例中，在确定该第二音高序列之后，能够根据音高和频率的对应关系，确定该参考音频片段的参考频率序列refpitch，该参考频率序列指示该参考音频片段的频率随着时间的变化。
71.在一些实施例中，可以通过下述公式（1），确定该参考音频片段的参考频率序列refpitch，其中，reftone是第二音高序列。
72.（1）。
73.在步骤303中，该电子设备基于该参考音频片段的时间信息，将该第二音高序列划分为多个参考子序列，该时间信息指示该参考音频片段中多个子片段的起止时间，执行步骤306。
74.在一些实施例中，该时间信息包括该参考音频片段的歌词文件，该歌词文件包括多个携带时间标签的语句。该多个子片段对应于该歌词文件中该多个携带时间标签的语句，子片段的起止时间也即是该多个语句的时间标签所指示的起止时间，其中，该时间标签的形式可以为：1、“分钟数：秒数”，例如，[mm：ss]-[mm：ss]；2、“分钟数:秒数.百分之一秒数”，例如，[mm：ss.ff]-[mm：ss.ff]；该m、s和f均为非负整数。可选地，该歌词文件包括的语句可以是空白语句，该空白语句对应于参考音频片段中有旋律（音高）而没有歌词的片段，例如，前奏、间奏和尾奏。该电子设备基于该时间标签指示的起止时间，即可将该第二音高序列划分为该多个参考子序列。
[0075]
在一些实施例中，该参考子序列对应于至少一个该子片段，也即是，该电子设备能够以该子片段为最小粒度，划分得到序列长度不同的多个参考子序列。示例性地，该时间信息指示该参考音频片段包括a、b、c和d四句歌词，则该电子设备基于该时间信息，能够将该第二音高序列划分为多个参考序列：reftone1（a-b-c-d）、reftone2（a-b-c）、reftone3（b-c-d）和reftone4（c-d）。
[0076]
通过上述技术方案，能够以语句为粒度，对参考音高序列进行精确划分，充分考虑到了根据该参考音频片段进行音频质量评价时出现的多种情况，大大提升了确定未知音频片段的音频质量的灵活性。
[0077]
在另一些实施例中，该参考音频片段携带语句标识，该语句标识指示划分出的该多个参考子序列至少包括的指定语句。例如，该语句标识指示歌词c和d，则对该第二音高序列进行划分得到的该多个参考子序列：reftone（a-b-c-d）、reftone（b-c-d）和reftone（c-d），均至少包括该歌词c和歌词d对应的部分。其中，在接歌场景下，该指定语句可以是游戏规则指定的接歌歌词，例如，针对包括歌词a、b、c和d的待接歌片段，游戏规则指定至少接上歌词c和d。
[0078]
通过上述技术方案，提供了针对参考音频片段中指定语句的序列划分方式，能够有效提升不同场景下确定未知音频片段的音频质量的准确性。
[0079]
在步骤304中，该电子设备确定该目标音频片段的基频序列。
[0080]
在本公开实施例中，音高的大小是由声音信号的振动频率决定，基频是指声音信号的主要频率。因此，该目标音频片段的音高的大小能够基于基频的高低确定。
[0081]
在一些实施例中，该目标音频片段包括多个音频帧，电子设备以音频帧为单位确
定基频，该多个音频帧的基频即构成了该基频序列。在一些实施例中，音频帧的时长能够基于该目标音频片段的采样频率确定，该采样频率指示将模拟声音波形进行数字化时，每秒钟抽取声波幅度样本的次数，该次数也称为采样点数。在另一些实施例中，该音频帧的时长为预设时长，例如，以30毫秒（ms）为一个音频帧，确定一个基频值。
[0082]
在一些实施例中，该目标音频片段的基频序列能够通过下述方式一或方式二确定。
[0083]
方式一、电子设备基于累计均值归一化差函数（cumulative mean normalized difference function，cmndf），对该目标音频片段进行处理，得到该基频序列。
[0084]
在一些实施例中，电子设备基于阴（yin）算法对该目标音频片段进行基频检测。参见公式（2），其中，x是目标音频片段音频帧的时域信号；是延迟指数，可以代表x在t处的周期；w为一个音频帧内的采样点数，基于该目标音频片段的采样频率确定。公式（2）通过将平移后的时域信号与原始的时域信号相减求平方再积分，得到差函数（difference function）。
[0085]
（2）进一步地，yin算法在上述差函数的基础上，定义了本公开涉及的该累积均值归一化差函数，参见公式（3）。
[0086]
（3）公式（3）中，通过用差函数在左边的平均值来归一化差函数在处的值，不仅去除了差函数在原点处的谷值，还使得纵坐标不再依赖于时域信号本身的幅度。
[0087]
在一些实施例中，若该时域信号的周期性不够理想，则会导致想要用于确定基频的最小值可能并不是最左边最深的谷值，这一情况也称为半频错误。基于此，可以通过设置一个谷深阈值来保证确定出的基频的准确性。
[0088]
基于上述公式（2）和公式（3），能够确定该差函数的谷值对应的，该能够用于确定该音频帧的周期，具体地，可以通过将相邻的两个谷值对应的相减，得到该音频帧的周期p。基于此，通过周期p与采样频率fs的关系，即可得到该音频帧的基频f
hz
，参见公式（4）。
[0089]
（4）按照上述公式（2）至公式（4）所提供的方式，即可确定出多个音频帧的基频，从而得到该目标音频片段的基频序列。
[0090]
方式二、电子设备对该目标音频片段进行处理，确定该目标音频片段的自相关系数指示的周期信息，得到该基频序列。
[0091]
在一些实施例中，自相关系数（autocorrelation coefficient，ac）可以基于下述公式（5）确定。
[0092]
（5）其中，x是目标音频片段音频帧的时域信号，为延迟指数，acf是音频帧对应的自相关系数，n是序列x的信号长度。当自相关系数的最大值对应的，是音频帧周期p的倍数。因此，通过计算自相关系数，可以得到音频帧的周期p，进而通过上述公式（4），得到该音频帧的基频f
hz
。
[0093]
需要说明的是，本步骤304在上述步骤301完成之后即可执行。
[0094]
在步骤305中，该电子设备基于音高和频率的对应关系，对该基频序列进行转换，得到该目标音频片段的第一音高序列。
[0095]
在一些实施例中，该对应关系是指音阶的划分规则，包括：以频率440hz为标准音高，频率比是2的音高作为一个八度，一个八度按照等比关系分为12个音阶。在一些实施例中，电子设备能够基于下述公式（6），对该基频序列进行转换，得到该第一音高序列。
[0096]
（6）其中，vocaltone是第一音高序列；vocalpitch是基频序列。
[0097]
通过上述步骤304和本步骤305，即可实现确定该目标音频片段的第一音高序列的过程。
[0098]
在一些实施例中，电子设备在对该基频序列进行转换之前，基于频率范围信息，对该基频序列进行去噪处理。在一些实施例中，该频率范围信息为预设的噪音频率范围，例如，歌声的基频范围在通常80hz到2200hz以内，在此范围之外的频率可以看作是噪声。电子设备可以将该基频序列中，数值处于该噪音频率范围之内的元素过滤。基于此，能够将该目标音频片段中的常规噪声滤除，提升确定该目标音频片段的音频质量的准确性。
[0099]
在另一些实施例中，该频率范围信息还包括步骤302中基于公式（1）确定的参考频率序列refpitch。在这种示例下，电子设备对该基频序列进行去噪的过程包括：计算该基频序列vocaltone的平均值m1，以及，该参考频率序列refpitch的平均值m2；基于m1和m2的比值m，在m小于等于比例阈值的情况下，将该基频序列中，数值比参考最大值大目标值的元素过滤；在m大于比例阈值的情况下，将该基频序列中，数值比该参考最大值的2倍大目标值的元素过滤。其中，该比例阈值可以设置为1.8；该参考最大值是该参考频率序列refpitch中的最大值；该目标值可以设置为200。
[0100]
在一些实施例中，上述过滤元素的过程可以是将元素设置为0。
[0101]
通过上述技术方案，能够在去除常规噪音的基础上，根据参考音频片段的参考频率序列，针对该参考音频片段本身的频率大小，对该目标音频片段的基频序列进行精准去噪，从而进一步提升确定该目标音频片段的音频质量的准确性。
[0102]
在另一些实施例中，电子设备对上述去噪处理后的基频序列进行平滑处理。电子设备通过滑动窗口对该去噪处理后的基频序列取平均数，以得到平滑处理后的基频序列。参见公式（7），其中t指示当前音频帧；t-1指示上一音频帧；为平滑因子，可以设置为0.9，vocalpitch是经过去噪处理后的基频序列，smoothvocalpitch是平滑处理后的基频序列。
[0103]
（7）其中，当t=1时，。
[0104]
通过上述技术方案，对去噪之后的基频序列进行平滑处理，能够进一步得到更加纯净的基频序列，从而有效提升确定音频质量的准确性。
[0105]
在另一些实施例中，电子设备在执行步骤301之后，对该目标音频片段进行语音活动检测，得到该目标音频片段的语音活动序列，该语音活动序列指示该目标音频片段的能量值。示例性地，电子设备通过计算每个音频帧的平均能量，来判断该语音帧的语音活动状态。若该语音帧的能量小于该活动阈值，则确定该音频帧无语音活动，也即是，该音频帧为静音帧；若该语音帧的能量大于等于该活动阈值，确定则该音频帧有语音活动。在一些实施例中，电子设备基于静音帧在该目标音频片段中的位置，得到歌声的语音活动序列，例如，该语音活动序列的多个元素取值为1或0，其中，取值为0的元素对应于静音帧。进一步地，电子设备基于该语音活动序列，即可对该第一音高序列的静音部分进行处理，该静音部分的能量值小于活动阈值。示例性地，静音部分包括多个静音帧，电子设备针对静音帧在该目标音频片段中所处的位置，对该静音部分进行处理。在一些实施例中，该静音部分包括处于该目标音频片段的开头部分或结束部分的多个第一静音帧，这一类静音帧通常为无意义的片段，电子设备将该第一音高序列中，该第一静音帧对应的部分音高序列删除。在一些实施例中，该静音部分中除该第一静音帧以外的第二静音帧，通常与目标音频片段的节奏相关，例如，处于该目标音频片段中段的第二静音帧。电子设备对该第一音高序列中，该第二静音帧对应的部分音高序列进行平滑处理。可选地，对该第二静音帧对应的部分音高序列进行平滑处理的过程可以为：用任一第二静音前五帧的平均音高，填充该第二静音帧对应的音高序列。
[0106]
上述通过语音活动检测对该第一音高序列进行进一步地处理的过程，能够去除该第一音高序列中冗余的部分，并通过对中段的静音帧进行平滑处理，使得该第一音高序列的整体音高变化更加连续，从而提升确定音频质量的准确性。
[0107]
在步骤306中，该电子设备基于该多个参考子序列和该第一音高序列，确定该多个参考子序列和该第一音高序列之间的匹配路径，该匹配路径包括多个路径点，该路径点用于指示该参考子序列的第一元素和该第一音高序列的第二元素，该第一元素是该参考子序列中与该第二元素最相近的元素。
[0108]
其中，上述第一元素和该第二元素相近是指：该第一元素在该参考子序列中的时序与该第二元素在该第一音高序列中的时序最相近，且，该第一元素的取值与该第二元素最相近。例如，该参考子序列为“[1,3,4,5,8,2]”，该第一音高序列为“[2,3,5,5,3,2,1]”，则按照取值最相近和时序最相近的原则，能够确定该参考子序列中第一元素“4”在该第一音高序列中对应的第二元素为：该第一音高序列中从左到右的第三个元素“5”。
[0109]
在一些实施例中，该路径点的坐标包括该参考子序列的第一元素和该第一音高序列的第二元素。在一些实施例中，上述确定匹配路径的过程能够基于动态时间规整（dynamic time warping，dtw）算法确定。下面基于dtw，介绍确定参考子序列q和第一音高序列c之间匹配路径的过程，该过程包括下述步骤a和步骤b。
[0110]
步骤a、电子设备计算q和c之间的元素相似度。
[0111]
其中，通过计算q和c之间的欧氏距离，来确定该q和c之间的相似度，计算原理参见公式（8）。
[0112]
（8）公式（8）中，d为q中第i个元素qi和c中第j个元素cj之间的欧氏距离。
[0113]
步骤b、电子设备基于该元素相似度，匹配q和c，确定使累积距离最小的多个路径点，该多个路径点组成了该q和c之间的匹配路径。
[0114]
其中，通过下述公式（9），确定该匹配路径包括的该多个路径点。
[0115]
（9）公式（9）中，为q中第i个元素qi和c中第j个元素cj组成的路径点对应的累计距离；为q中第i-1个元素q
i-1
和c中第j-1个元素c
j-1
组成的路径点对应的累计距离，为q中第i-1个元素q
i-1
和c中第j个元素cj组成的路径点对应的累计距离，为q中第i个元素qi和c中第j-1个元素c
j-1
组成的路径点对应的累计距离；为q中第i个元素qi和c中第j个元素cj之间的欧氏距离，匹配路径包括的路径点为使得该最小的；min{}为取最小值的函数。
[0116]
在另一些实施例中，在执行本步骤306之前，电子设备基于目标分辨率，对该第一音高序列和该第二音高序列进行重采样。在一些实施例中，若该目标分辨率对应的采样频率小于该第一音高序列的采样频率，则电子设备基于目标分辨率，对该第一音高序列进行下采样处理，示例性地，该目标分辨率指示的采样频率为该第一音高序列的采样频率的五分之一，则电子设备对该第一音高序列进行下采样，例如，将该第一音高序列的每5个音频帧的音高计算一个平均值，得到用于后续计算的第一音高序列vocaltone。相应地，若该目标分辨率对应的采样频率大于该第二音高序列划分为的该多个参考子序列，则对该多个参考子序列进行上采样。在另一些实施例中，该电子设备可以在执行完步骤302，以确定该第二音高序列之后，基于该目标分辨率对该第二音高序列进行重采样。
[0117]
通过上述技术方案，不仅能够保证两个序列之间的分辨率相近，提升后续确定音频质量的准确性，还能够有效降低系统的运算量，提高确定音频质量的实时性。
[0118]
在步骤307中，该电子设备基于该多个参考子序列对应的匹配路径，从该多个参考子序列中，确定匹配度符合目标条件的该子音高序列，执行步骤308和步骤309。
[0119]
在一些实施例中，该匹配度用参考子序列的匹配路径对应的累计距离衡量。该目标条件是指，该多个参考子序列中，匹配路径对应的累计距离最小的参考子序列。
[0120]
为了便于理解匹配路径指示两个序列之间匹配度的原理，本公开实施例提供了一种参考子序列reftonei和第一音高序列vocaltone之间匹配路径的示意图。参见图4，图4是根据一示例性实施例示出的一种匹配路径的示意图，参见图4中（a）图，bestpath1是子音高序列reftone1与该第一音高序列vocaltone之间的匹配路径，在两个序列的音高变化情况相似程度较高的情况下，匹配路径近似为一条对角线；参见图4中（b）图，bestpath2是不符合该目标条件的参考子序列reftone2与该第一音高序列vocaltone之间的匹配路径，两个
序列的音高变化情况相差甚远或者毫无关系的情况下，匹配路径的线性度很低。
[0121]
通过上述步骤306和本步骤307，即可实现从多个参考子序列中，确定与该第一音高序列的匹配度符合目标条件的该子音高序列的过程。
[0122]
在步骤308中，该电子设备基于该子音高序列和该第一音高序列之间的匹配路径、该子音高序列和该第一音高序列之间的相关系数以及该子音高序列和该第一音高序列之间的样本标准误差，确定该目标音频片段的质量信息的第一质量子信息，执行步骤314。
[0123]
其中，该第一质量子信息指示该目标音频片段与该参考音频片段中该子音高序列对应片段在音高变化趋势上的相关程度。
[0124]
在一些实施例中，电子设备根据该子音高序列的匹配路径bestpath进行相关程度分析，从而确定该第一质量子信息。在一些实施例中，该相关系数是皮尔逊相关系数。考虑到该bestpath的线性越强，该第一音高序列与该子音高序列在整体音高变化趋势上的相关程度越强。因此，可以通过计算该子音高序列和该第一音高序列之间的皮尔逊相关系数r1来判断该bestpath的线性强弱。确定皮尔逊相关系数的过程参见公式（10）和公式（11）。
[0125]
（10）公式（10）提供了一种确定相关系数的基本公式cov（x，y）是样本协方差，是样本x的标准差，是样本y的标准差，e用于求样本的期望，上述公式（10）还可以进一步表示为下述公式（11）。
[0126]
（11）公式（11）中，为样本x的平均值；为样本y的平均值；是基于dtw得到的bestpath中多个路径点的坐标，也即是，上述的第一元素和第二元素，在此不作赘述。
[0127]
在一些实施例中，电子设备基于该bestpath，确定该子音高序列和该第一音高序列之间的标准误差，也即是，qi和cj之间的标准误差std
err
。该标准误差能够从样本波动的角度，指示上述皮尔逊相关系数的可信程度。该标准误差std
err
能够通过下述公式（12）得到。
[0128]
（12）公式（12）中，r为上述公式（11）确定的皮尔逊相关系数；是基于dtw得到的bestpath中多个路径点的坐标。
[0129]
在一些实施例中，在通过上述公式（10）至公式（12）确定了该子音高序列和该第一音高序列之间的皮尔逊相关系数r1，以及，该子音高序列和该第一音高序列之间的样本标
准误差std
err1
之后，该电子设备能够通过下述公式（13），确定该目标音频片段的质量信息的第一质量子信息matchscore。
[0130]
（13）通过上述技术方案，基于序列之间的匹配路径，从线性度和样本波动等角度，对序列之间的相关程度进行分析，从而有效提升了从整体音高变化趋势上确定音频质量的准确性和可靠性。
[0131]
在步骤309中，该电子设备基于该子音高序列的序列长度，对该第一音高序列进行处理，得到第三音高序列，该第三音高序列的序列长度与该子音高序列的序列长度相同。
[0132]
在一些实施例中，若该目标音频片段的长度与该子音高序列对应的片段不一致，则会影响判断音频片段音准和节奏的准确性，因此，通过将该第一音高序列的序列长度拉长或缩短至与该子音高序列一致，能够进一步提升确定音频质量的准确性。
[0133]
需要说明的是，本步骤309在上述步骤307完成之后即可执行。
[0134]
在步骤310中，该电子设备基于该子音高序列和该第三音高序列，确定该子音高序列和该第三音高序列之间的匹配路径，该子音高序列和该第三音高序列之间的匹配路径包括多个目标路径点，该目标路径点用于指示该第三音高序列的第三元素和该子音高序列的第四元素，该第三元素是该第三音高序列中与该第四元素最相近的元素，执行步骤311和步骤312。
[0135]
本步骤310的实现过程与步骤306同理，在此不作赘述。
[0136]
在本技术实施例中，该目标路径点的坐标包括该第三音高序列的第三元素和该子音高序列的第四元素。
[0137]
在步骤311中，该电子设备基于该多个目标路径点的坐标、该子音高序列和该第三音高序列之间的相关系数以及该子音高序列的长度，确定该目标音频片段的质量信息的第二质量子信息，执行步骤314。
[0138]
其中，该第二质量子信息指示该目标音频片段与该参考音频片段中该子音高序列对应片段在音高上的相关程度。
[0139]
在一些实施例中，该电子设备基于该多个目标路径点的坐标，确定该子音高序列和该第三音高序列之间的匹配路径对应的目标累计距离simidist，计算原理参见公式（9），在此不作赘述。
[0140]
在一些实施例中，该子音高序列和该第三音高序列之间的相关系数是皮尔逊相关系数。确定该子音高序列和该第三音高序列之间的皮尔逊相关系数r2的过程参考步骤308，在此不作赘述。
[0141]
在一些实施例中，在确定了该子音高序列和该第三音高序列之间的皮尔逊相关系数r2，以及，该子音高序列和该第一音高序列之间匹配路径对应的目标累计距离simidist之后，该电子设备能够通过下述公式（14），确定该目标音频片段的质量信息的第二质量子信息pitchscore。
[0142]
（14）其中，len是该第三音高序列的序列长度，也即是，该子音高序列的长度。
[0143]
通过上述技术方案，基于参考的音高序列对待确定质量的音高序列进行长度对
齐，进而基于对齐后的两个序列，进行相关程度分析，保证了两个序列之间对应的音高能够有效对齐，从而提升了音高相关程度的维度确定音频质量的准确性和可靠性。
[0144]
在步骤312中，该电子设备基于该多个目标路径点的坐标，确定该第三音高序列与该子音高序列之间的时间偏移量，该时间偏移量指示该第三音高序列在时间上相对于该子音高序列的偏移程度。
[0145]
在本公开实施例中，该目标路径点的坐标包括该第三音高序列的第三元素和该子音高序列的第四元素，该第三元素是该第三音高序列中与该第四元素在时序上和取值上都最相近的元素。在一些实施例中，通过计算该第三元素和该第四元素之间的标准差，即可度量该第三音高序列在时间上相对于该子音高序列的偏移程度。示例性地，可以通过下述公式（15），确定该时间偏移量timedist。
[0146]
（15）其中，该是第i个目标路径点的坐标，该n是该目标路径点的数量。
[0147]
需要说明的是，本步骤312在上述步骤310完成之后即可执行。
[0148]
在步骤313中，该电子设备基于该时间偏移量，确定该质量信息的第三质量子信息，该第三质量子信息指示该目标音频片段与该参考音频片段中该子音高序列对应片段在时间上的相关程度。
[0149]
在本公开实施例中，该第三音高序列在长度上与该子音高序列对齐，电子设备基于该时间偏移量，即可准确地量化该目标音频片段在时间上与该子音高序列对应片段的相关程度，该时间上的相关程度也即表征了该目标音频片段整体节奏的准确性。
[0150]
在一些实施例中，可以通过下述公式（16）确定该质量信息的第三质量子信息。
[0151]
（16）其中，rhythmscore为第三质量子信息，timedist是时间偏移量。
[0152]
通过上述技术方案，基于参考的音高序列对待确定质量的音高序列进行长度对齐，进而基于对齐后的两个序列，进行相关程度分析，保证了两个序列之间的节奏能够最大程度上对齐，从而提升了从时间相关程度的维度确定音频质量的准确性和可靠性。
[0153]
在步骤314中，该电子设备基于该质量信息的第一质量子信息、第二质量子信息和第三质量子信息，确定该目标音频片段的质量信息。
[0154]
在本公开实施例中，通过确定该第一质量子信息、第二质量子信息和第三质量子信息，分别从多个维度为该目标音频片段的质量进行了评估，通过对该第一质量子信息、第二质量子信息和第三质量子信息进行加权求和，即可得到融合了多个质量维度来准确指示该目标音频片段的音频质量的质量信息。在一些实施例中，该质量信息finalscore(i)可以通过下述公式（17）确定。
[0155]
（17）公式（17）中，、和为权重值，；该i是音频帧的编号，电子设备可以逐帧确定该质量信息，也可以基于完整的音高序列确定该目标音频片段的质量信息，本公开实施例对此不作限定。
[0156]
本公开实施例提供了一种音频质量确定方法的示意图，对上述步骤301至步骤314进行辅助性说明。参见图5，图5是一种音频质量确定方法的示意图，图5中的各个步骤与上述步骤301至315中对应的内容同理，在此不作赘述。
[0157]
通过上述技术方案，在参考音频片段提供的音频质量确定标准上，能够灵活地根据目标音频片段的实际情况，确定其对应的部分参考音频片段所的子音高序列，从而针对性地基于子音高序列来确定目标音频片段的质量信息，有效提升了确定音频质量的准确性。进一步地，从整体变化趋势相关程度、音高相关程度和时间相关程度等维度，对该目标音频片段的质量进行了评估，从而能够融合多个质量维度，来准确指示该目标音频片段的音频质量的质量信息，有效提升了确定出的音频质量的准确性和灵活适用性。
[0158]
图6是根据一示例性实施例示出的一种音频质量确定装置的框图。参照图6，该装置包括：序列确定单元601，被配置为执行确定目标音频片段的第一音高序列和参考音频片段的第二音高序列；匹配单元602，被配置为执行从该第二音高序列中，确定与该第一音高序列的匹配度符合目标条件的子音高序列；质量确定单元603，被配置为执行基于该子音高序列和该第一音高序列，确定该目标音频片段的质量信息，该质量信息指示该目标音频片段与该参考音频片段中该子音高序列对应片段的相关程度。
[0159]
在一种可能实施方式中，该匹配单元602，包括：划分模块，被配置为执行基于该参考音频片段的时间信息，将该第二音高序列划分为多个参考子序列，该时间信息指示该参考音频片段中多个子片段的起止时间；匹配模块，被配置为执行从该多个参考子序列中，确定与该第一音高序列的匹配度符合目标条件的该子音高序列。
[0160]
在一种可能实施方式中，该匹配模块，被配置为执行：基于该多个参考子序列和该第一音高序列，确定该多个参考子序列和该第一音高序列之间的匹配路径，该匹配路径包括多个路径点，该路径点用于指示该参考子序列中的第一元素和该第一音高序列中的第二元素，该第一元素是该参考子序列中与该第二元素最相近的元素；基于该多个参考子序列对应的匹配路径，从该多个参考子序列中，确定匹配度符合目标条件的该子音高序列。
[0161]
在一种可能实施方式中，该质量确定单元603，被配置为执行：基于该子音高序列和该第一音高序列之间的匹配路径、该子音高序列和该第一音高序列之间的相关系数以及该子音高序列和该第一音高序列之间的样本标准误差，确定该目标音频片段的质量信息的第一质量子信息，该第一质量子信息指示该目标音频片段与该参考音频片段中该子音高序列对应片段在音高变化趋势上的相关程度。
[0162]
在一种可能实施方式中，该质量确定单元603，被配置为执行：基于该子音高序列的序列长度，对该第一音高序列进行处理，得到第三音高序列，该第三音高序列的序列长度与该子音高序列的序列长度相同；基于该子音高序列和该第三音高序列，确定该子音高序列和该第三音高序列之间
的匹配路径，该子音高序列和该第三音高序列之间的匹配路径包括多个目标路径点，该目标路径点用于指示该第三音高序列中的第三元素和该子音高序列中的第四元素，该第三元素是该第三音高序列中与该第四元素最相近的元素；基于该多个目标路径点的坐标、该子音高序列和该第三音高序列之间的相关系数以及该子音高序列的长度，确定该目标音频片段的质量信息的第二质量子信息，该第二质量子信息指示该目标音频片段与该参考音频片段中该子音高序列对应片段在音高上的相关程度。
[0163]
在一种可能实施方式中，该质量确定单元603，被配置为执行：基于该多个目标路径点的坐标，确定该第三音高序列与该子音高序列之间的时间偏移量，该时间偏移量指示该第三音高序列在时间上相对于该子音高序列的偏移程度；基于该时间偏移量，确定该质量信息的第三质量子信息，该第三质量子信息指示该目标音频片段与该参考音频片段中该子音高序列对应片段在时间上的相关程度。
[0164]
在一种可能实施方式中，该序列确定单元601，包括：基频确定模块，被配置为执行确定该目标音频片段的基频序列；转换模块，被配置为执行基于音高和频率的对应关系，对该基频序列进行转换，得到该目标音频片段的第一音高序列。
[0165]
在一种可能实施方式中，该基频确定模块，被配置为执行下述任一项：基于累计均值归一化差函数，对该目标音频片段进行处理，得到该基频序列；基于该目标音频片段的自相关系数指示的周期信息，对该目标音频片段进行处理，得到该基频序列。
[0166]
在一种可能实施方式中，该音频质量确定装置还包括：去噪单元，被配置为执行基于频率范围信息，对该基频序列进行去噪处理；平滑单元，被配置为执行对该去噪处理后的基频序列进行平滑处理。
[0167]
在一种可能实施方式中，该音频质量确定装置还包括：语音活动处理单元，被配置为执行对该目标音频片段进行语音活动检测，得到该目标音频片段的语音活动序列，该语音活动序列指示该目标音频片段的能量值；基于该语音活动序列，对该第一音高序列的静音部分进行处理，该静音部分的能量值小于活动阈值；该匹配单元，被配置为执行：从该第二音高序列中，确定与该处理后的第一音高序列的匹配度符合目标条件的子音高序列。
[0168]
在一种可能实施方式中，该静音部分包括多个静音帧，该语音活动处理单元，被配置为执行：基于该语音活动序列，确定该静音部分包括的多个静音帧在该目标音频片段中的位置；将该第一音高序列中第一静音帧对应的部分音高序列删除，该第一静音帧处于该目标音频片段的开头位置或结束位置；对该第一音高序列中第二静音帧对应的部分音高序列进行平滑处理，该第二静音帧为该静音部分中除该第一静音帧以外的静音帧。
[0169]
在一种可能实施方式中，该音频质量确定装置还包括：
重采样单元，被配置为执行基于目标分辨率，对该第一音高序列和该第二音高序列进行重采样。
[0170]
通过上述技术方案，在参考音频片段提供的音频质量确定标准上，能够灵活地根据目标音频片段的实际情况，确定其对应的部分参考音频片段所的子音高序列，从而针对性地基于子音高序列来确定目标音频片段的质量信息，有效提升了确定音频质量的准确性。进一步地，从整体变化趋势相关程度、音高相关程度和时间相关程度等维度，对该目标音频片段的质量进行了评估，从而能够融合多个质量维度，来准确指示该目标音频片段的音频质量的质量信息，有效提升了确定出的音频质量的准确性和灵活适用性。
[0171]
需要说明的是：上述实施例提供的音频质量确定装置在执行相应步骤时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频质量确定装置与音频质量确定方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
[0172]
在本公开实施例中，还提供了一种电子设备，该电子设备包括处理器和存储器，该存储器用于存储至少一条计算机程序，该至少一段计算机程序由该处理器加载并执行以实现上述的音频质量确定方法。该电子设备能够实现为上述终端或服务器。参见图7，图7是根据一示例性实施例示出的一种电子设备的框图，该电子设备700可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器（central processing units，cpu）701和一个或多个的存储器702，其中，该一个或多个存储器702中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器701加载并执行以实现上述各个方法实施例提供的音频质量确定方法中电子设备执行的过程。当然，该电子设备700还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该电子设备700还可以包括其他用于实现设备功能的部件，在此不做赘述。
[0173]
在示例性实施例中，还提供了一种包括程序代码的计算机可读存储介质，例如包括程序代码的存储器702，上述程序代码可由电子设备700的处理器701执行以完成上述音频质量确定方法。可选地，计算机可读存储介质可以是只读内存（read-only memory，rom）、随机存取存储器（random access memory，ram）、只读光盘（compact-disc read-only memory，cd-rom）、磁带、软盘和光数据存储设备等。
[0174]
在示例性实施例中，还提供了一种计算机程序产品，包括一条或多条指令，该一条或多条指令由电子设备的一个或多个处理器执行，使得该电子设备能够执行上述音频质量确定方法。
[0175]
在一些实施例中，本公开实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
[0176]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的
权利要求指出。
[0177]
应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

音频质量确定方法、装置、电子设备及存储介质与流程

相关文献

最热文献