音频评测方法、装置、电子设备和介质与流程

2021-06-25 17:16:00 来源：中国专利 TAG：电子设备介质音频处理装置评测

1.本公开涉及音频处理技术领域，尤其涉及一种音频评测方法、装置、电子设备和介质。

背景技术：

2.音频评测其目的是根据用户输入的语音信息进行发音质量的准确度评价，以对输入的音频进行音频质量的衡量；其可应用于儿童的发音检测。目前的音频评测主要是根据预先建立的音频评测模型计算输入音频的gop分数，并根据认为经验进行分数阈值的限定，以此判断输入音频的发音质量。
3.在现有方法中，依靠人为经验设置的分数阈值，往往会根据分数阈值出现打分不合理的情况，尤其是在低幼儿童语音评测场景中，存在大量0分；使得语音评测效率降低。

技术实现要素：

4.为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种音频评测方法、装置、电子设备和介质。
5.第一方面，本公开提供了一种音频评测方法，包括：根据待评测音频和所述待评测音频的参考文本，确定所述待评测音频的发音质量gop分数；若检测到所述gop分数大于预设分数阈值，则将所述gop分数输入预先确定的概率预测模型中，并根据所述概率预测模型的输出确定所述gop分数的正样本概率；其中，所述概率预测模型是根据历史音频数据的gop分数划分得到正样本和负样本对第一预设网络模型进行训练得到的；根据所述gop分数的正样本概率和预先建立的分段函数模型，确定所述待评测音频的目标评测值；其中，所述分段函数模型包括至少两个正样本概率对应的分段函数子模型；所述分段函数子模型是根据历史音频数据的正样本概率和所述历史音频数据对应的打分值对第二预设网络模型训练得到的。
6.可选的，所述根据待评测音频和所述待评测音频的参考文本，确定所述待评测音频的发音质量gop分数，包括：确定待评测音频的参考文本中包含的音素；并从所述待评测音频中获取所述音素对应的音频帧；其中，所述参考文本中单个音素对应至少一个音频帧；根据所述音素对应的音频帧确定所述音素与所述音频帧的匹配概率；根据所述匹配概率和所述音素对应的音频帧的数量，确定所述音素的发音质量gop分数；并将所述参考文本中包含的音素的gop分数之和作为所述待评测音频的gop分数。
7.可选的，所述将所述gop分数输入预先确定的概率预测模型中之前，所述方法还包括：确定历史音频数据的gop分数；
设置至少一个打分宽松度阈值，将所述历史音频数据的gop分数大于或等于所述打分宽松度阈值的音频数据作为正样本；将所述历史音频数据的gop分数小于所述打分宽松度阈值的音频数据作为负样本；根据所述正样本和所述负样本对第一预设网络进行训练得到概率预测模型。
8.可选的，所述根据所述gop分数的正样本概率和预先建立的分段函数模型，确定所述待评测音频的目标评测值之前，所述方法还包括：获取所述待评测音频的打分宽松度阈值；根据所述待评测音频的打分宽松度阈值，确定所述待评测音频的分段函数模型。
9.可选的，所述根据所述gop分数的正样本概率和预先建立的分段函数模型，确定所述待评测音频的目标评测值，包括：将所述gop分数的正样本概率输入所述待评测音频的分段函数模型中，并根据所述分段函数模型的输出确定所述待评测音频的目标评测值。
10.可选的，所述根据所述待评测音频的打分宽松度阈值，确定所述待评测音频的分段函数模型之前，所述方法还包括：基于设置的至少一个打分宽松度阈值，确定所述打分宽松度阈值对应的概率区间；并确定所述概率区间对应的分段函数；根据所述历史音频数据的正样本概率确定所述正样本概率所属的概率区间，并根据所述概率区间的分段函数和所述历史音频数据的打分值，确定所述打分宽松度阈值的分段函数模型。
11.可选的，所述根据所述正样本概率所属的概率区间的分段函数和所述历史音频数据的打分值，确定分段函数模型，包括：根据所述历史音频数据的打分值，确定所述正样本概率所属的概率区间的分段函数的参数；根据概率区间的分段函数的参数，构建分段函数模型。
12.可选的，所述根据所述历史音频数据的打分值，确定所述正样本概率所属的概率区间的分段函数的参数，包括：根据所述历史音频数据的打分值，确定所述正样本概率所属的概率区间的分段函数的合格率；若所述合格率小于合格率阈值，则调整所述分段函数的参数，直至所述分段函数的合格率大于合格率阈值。
13.可选的，所述确定所述待评测音频的发音质量gop分数之后，所述方法还包括：若检测到所述gop分数小于预设分数阈值，则确定所述待评测音频的目标评测值为零。
14.第二方面，本公开提供了一种音频评测装置，包括：gop分数确定模块，用于根据待评测音频和所述待评测音频的参考文本，确定所述待评测音频的发音质量gop分数；概率确定模块，用于若检测到所述gop分数大于预设分数阈值，则将所述gop分数输入预先确定的概率预测模型中，并根据所述概率预测模型的输出确定所述gop分数的正样本概率；其中，所述概率预测模型是根据历史音频数据的gop分数划分得到正样本和负样
本对第一预设网络模型进行训练得到的；评测值确定模块，用于根据所述gop分数的正样本概率和预先建立的分段函数模型，确定所述待评测音频的目标评测值；其中，所述分段函数模型包括至少两个正样本概率对应的分段函数子模型；所述分段函数子模型是根据历史音频数据的正样本概率和所述历史音频数据对应的打分值对第二预设网络模型训练得到的。
15.可选的，gop分数确定模块，具体用于：确定待评测音频的参考文本中包含的音素；并从所述待评测音频中获取所述音素对应的音频帧；其中，所述参考文本中单个音素对应至少一个音频帧；根据所述音素对应的音频帧确定所述音素与所述音频帧的匹配概率；根据所述匹配概率和所述音素对应的音频帧的数量，确定所述音素的发音质量gop分数；并将所述参考文本中包含的音素的gop分数之和作为所述待评测音频的gop分数.可选的，还包括：样本确定模块和模型训练模块；gop分数确定模块，还用于确定历史音频数据的gop分数；样本确定模块，用于设置至少一个打分宽松度阈值，将所述历史音频数据的gop分数大于或等于所述打分宽松度阈值的音频数据作为正样本；将所述历史音频数据的gop分数小于所述打分宽松度阈值的音频数据作为负样本；模型训练模块，用于根据所述正样本和所述负样本对第一预设网络进行训练得到概率预测模型。
16.可选的，还包括：打分宽松度阈值获取模块和分段函数模型确定模块；打分宽松度阈值获取模块，用于获取所述待评测音频的打分宽松度阈值；分段函数模型确定模块，用于根据所述待评测音频的打分宽松度阈值，确定所述待评测音频的分段函数模型。
17.可选的，评测值确定模块，具体用于：将所述gop分数的正样本概率输入所述待评测音频的分段函数模型中，并根据所述分段函数模型的输出确定所述待评测音频的目标评测值。
18.可选的，还包括：分段函数确定模块；分段函数确定模块，用于基于设置的至少一个打分宽松度阈值，确定所述打分宽松度阈值对应的概率区间；并确定所述概率区间对应的分段函数；分段函数模型确定模块，还用于根据所述历史音频数据的正样本概率确定所述正样本概率所属的概率区间，并根据所述概率区间的分段函数和所述历史音频数据的打分值，确定所述打分宽松度阈值的分段函数模型。
19.可选的，分段函数确定模块包括：参数确定单元和模型构建单元；参数确定单元，用于根据所述历史音频数据的打分值，确定所述正样本概率所属的概率区间的分段函数的参数；模型构建单元，用于根据概率区间的分段函数的参数，构建分段函数模型。
20.可选的，参数确定单元，具体用于：根据所述历史音频数据的打分值，确定所述正样本概率所属的概率区间的分段函数的合格率；若所述合格率小于合格率阈值，则调整所述分段函数的参数，直至所述分段函数
的合格率大于合格率阈值。
21.可选的，评测值确定模块，还用于若检测到所述gop分数小于预设分数阈值，则确定所述待评测音频的目标评测值为零。
22.第三方面，本公开还提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例中的任一种所述的音频评测方法。
23.第四方面，本公开还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例中的任一种所述的音频评测方法。
24.本公开实施例提供的技术方案与现有技术相比具有如下优点：能够通过概率预测模型排除gop分数过低导致异常音频低打分的问题，从而结合分段函数模型实现不同发音质量区间的合理评测，有效提高了对音频发音质量评测的准确性。
附图说明
25.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。
26.为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
27.图1是本公开实施例提供的一种音频评测方法的流程示意图；图2是本公开实施例提供的另一种音频评测方法的流程示意图；图3是本公开实施例提供的又一种音频评测方法的流程示意图；图4是本公开实施例提供的又一种音频评测方法的流程示意图；图5是本公开实施例提供的又一种音频评测方法的流程示意图；图6是本公开实施例提供的一种音频评测装置的结构示意图；图7是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
28.为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。
29.在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。
30.图1是本公开实施例提供的一种音频评测方法的流程示意图。本实施例可适用于对音频进行发音质量检测的情况。本实施例方法可由音频评测装置来执行，该装置可采用硬件/或软件的方式来实现，并可配置于电子设备中。可实现本申请任意实施例所述的音频评测方法。如图1所示，该方法具体包括如下：
s110、根据待评测音频和待评测音频的参考文本，确定待评测音频的发音质量gop分数。
31.在本实施例中，待评测音频是基于提供的待评测音频的参考文本得出，例如通过录音设备录制被测试者阅读待评测音频的参考文本确定出；待评测音频的参考文本为音频测试方提供或自选。在实际的音频测试场景中，会给被测试者提供一个参考文本，被测试者根据该参考文本上的内容进行发声阅读，以得到待评测音频。
32.待评测音频的发音质量（goodness of pronunciation，gop）分数为对待评测音频参照待评测音频的参考文本得到的发音质量检测值，其可通过用于评价音频发音质量算法（例如gop算法）计算得出。
33.示例性的，用户需要进行音频评测时，根据音频评测设备提供的参考文本，将该参考文本中的内容进行阅读记录并输入至音频评测设备中，音频评测设备会输出该用户阅读该参考文本的gop分数；应当注意的是，本实施例中的gop分数可代表对该用户音频的初始判定值，其并不代表一个待评测音频的最终评测值。
34.s120、检测gop分数是否大于预设分数阈值，若是，则执行s130；若否，则执行s150。
35.在本实施例中，预设分数阈值为待评测音频的发音正常和发音异常的判定阈值，gop分数越小则表示该gop分数对应的待评测音频与参考文本的匹配值越低，可认定该待评测音频发音异常；因此，需要在确定出待评测音频的gop分数后，需对其进行发音异常的检测，以有效识别出待评测音频的发音是否异常。
36.s130、将gop分数输入预先确定的概率预测模型中，并根据概率预测模型的输出确定gop分数的正样本概率。
37.其中，概率预测模型是根据历史音频数据的gop分数划分得到正样本和负样本对第一预设网络模型进行训练得到的。
38.在本实施例中，第一预设网络模型可包括逻辑回归模型，即可通过调整逻辑回归模型中训练数据的分布，训练不同的概率预测模型，以根据gop分数识别出其所属的正样本概率。在概率预测模型的训练过程中，正样本数据（或负样本数据）可包括历史音频数据、历史音频数据的参考文本和打分值，打分值可为评测人员依据训练数据中用户发音质量对其进行打分而得到的人工评测分数，分数范围可为[0,5]。
[0039]
s140、根据gop分数的正样本概率和预先建立的分段函数模型，确定待评测音频的目标评测值。
[0040]
其中，分段函数模型包括至少两个正样本概率对应的分段函数子模型；分段函数子模型是根据历史音频数据的正样本概率和历史音频数据对应的打分值对第二预设网络模型训练得到的。
[0041]
在本实施例中，第二预设网络模型可包括非线性回归模型，分段函数子模型可包括非线性回归模型，以适应于多训练样本的线性不统一。其中，分段函数模型包括至少两个分段函数子模型，每一分段函数子模型可根据正样本概率确定出该正样本概率对应的待评测音频的音频评测值。
[0042]
s150、确定待评测音频的目标评测值为零。
[0043]
在本实施例中，当确定出待评测音频的gop分数小于预设分数阈值，则表明该待评测音频大多为空音频、纯噪音音频或者是没有按照待评测音频的参考文本进行阅读的音
频，此时，直接将该待评测音频的评测值确定为零分，从而确保该部分音频在宽松度设置较低的情况下获得较高的评测值，以避免评测误差较大的问题。
[0044]
本公开实施例根据待评测音频和待评测音频的参考文本，确定待评测音频的发音质量gop分数；若检测到gop分数大于预设分数阈值，则将gop分数输入预先确定的概率预测模型中，并根据概率预测模型的输出确定gop分数的正样本概率；根据gop分数的正样本概率和预先建立的分段函数模型，确定待评测音频的目标评测值。本公开实施例能够通过概率预测模型排除gop分数过低导致异常音频低打分的问题，从而结合分段函数模型实现不同发音质量区间的合理评测，有效提高了对音频发音质量评测的准确性。
[0045]
图2是本公开实施例提供的另一种音频评测方法的流程示意图。本实施例是在上述实施例的基础上进一步扩展与优化，并可与上述技术方案中任意可选方案组合。如图2所示，该方法包括：s210、确定待评测音频的参考文本中包含的音素；并从待评测音频中获取音素对应的音频帧；其中，参考文本中单个音素对应至少一个音频帧。
[0046]
在本实施例中，待评测音频的参考文本中包含的音素可根据发音词典将参考文本转化为对应的音素序列得出；其中，发音词典中包含单词与音素的映射关系；具体的，可根据参考文本中每一单词与发音词典进行比对，将发音词典中该单词对应的音素作为参考文本中同一单词的音素。
[0047]
从待评测音频中获取音素对应的音频帧可包括：对待评测音频进行音频特征分析，利用声学模型将待评测音频与参考文本进行强制对齐，以识别出待评测音频中每一音素对应的音频帧。
[0048]
s220、根据音素对应的音频帧确定音素与音频帧的匹配概率。
[0049]
在本实施例中，匹配概率为音素与音频帧中发音的匹配度；具体的，可根据第一音素与音频帧中对应第二音素的匹配度来确定匹配概率，或，根据第一音素的发音与音频帧确定匹配概率；其中，第一音素为参考文本中的音素，第二音素为音频帧中包含的音素。
[0050]
根据第一音素与音频帧中对应第二音素的匹配度来确定匹配概率，可包括：对该音频帧进行音素提取，以获得该音频帧对应的第二音素；将第二音素与第一音素进行特征匹配，并将第二音素与第一音素的匹配值作为音素与音频帧的匹配概率。
[0051]
根据第一音素的发音与音频帧确定匹配概率，可包括：将第一音素进行发音转换，转换为第一音频对应的第一音频帧；将第一音频帧与音频帧进行匹配，并将第一音频帧与音频帧的匹配值作为音素与音频帧的匹配概率；其中，第一音频帧为对参考文本中第一音素进行音频处理得出；音频帧为从待评测音频中获取得到。
[0052]
s230、根据匹配概率和音素对应的音频帧的数量，确定音素的发音质量gop分数；并将参考文本中包含的音素的gop分数之和作为待评测音频的gop分数。
[0053]
在本实施例中，由于每一用户阅读参考文本的速度以及习惯不同，因此，参考文本中音素对应于待评测音频中音频帧的数量可为多个。单一音素的gop分数可根据其与对应音频帧的匹配概率取对数，再和对应的音频帧数量的比值得出，具体可参见如下公式（1）。
[0054]
（1）公式（1）中，x为单个音素；为音素x与其对应音频帧的匹配概率；为音素x对应的音频帧的数量；o为音素x对应的音频帧。
[0055]
本实施例通过计算每一单个音素的gop分数，再将所有音素的gop分数之和作为待评测音频的gop分数，能够高效精准的确定出待评测音频的gop分数。
[0056]
s240、若检测到gop分数大于预设分数阈值，则将gop分数输入预先确定的概率预测模型中，并根据概率预测模型的输出确定gop分数的正样本概率。
[0057]
其中，概率预测模型是根据历史音频数据的gop分数划分得到正样本和负样本对第一预设网络模型进行训练得到的；s250、根据gop分数的正样本概率和预先建立的分段函数模型，确定待评测音频的目标评测值。
[0058]
其中，分段函数模型包括至少两个正样本概率对应的分段函数子模型；分段函数子模型是根据历史音频数据的正样本概率和历史音频数据对应的打分值对第二预设网络模型训练得到的。
[0059]
图3是本公开实施例提供的又一种音频评测方法的流程示意图。本实施例是在上述实施例的基础上进一步扩展与优化，并可与上述技术方案中任意可选方案组合。如图3所示，该方法包括：s310、根据待评测音频和待评测音频的参考文本，确定待评测音频的发音质量gop分数。
[0060]
s320、确定历史音频数据的gop分数。
[0061]
在本实施例中，历史音频数据可包括两类，第一类为已根据音频评测设备评测过gop分数的，该类数据可直接在音频评测设备中基于音频评测记录获取得到；第二类为未根据音频评测设备评测过gop分数的，此时，可从候选参考文本中选择内容较短的参考文本，并对该参考文本进行语音录制，得到评测音频，并将该评测音频输入音频评测设备中，根据音频评测设备的输出确定该评测音频的gop分数。
[0062]
s330、设置至少一个打分宽松度阈值，将历史音频数据的gop分数大于或等于打分宽松度阈值的音频数据作为正样本；将历史音频数据的gop分数小于打分宽松度阈值的音频数据作为负样本。
[0063]
在本实施例中，打分宽松度阈值为对gop分数进行不同质量检测程度的分数阈值，不同的打分宽松度阈值可得到不同的评测结果；其表示对待评测音频评判标准的宽松程度。
[0064]
具体的，可以设置多个打分宽松度阈值，并针对每个打分宽松度阈值将gop分数对应的音频数据划分为正样本和负样本，从而构建出以gop分数为特征的二分类训练数据。
[0065]
示例性的，以打分宽松度阈值为2、3和4进行样本分类说明；打分宽松度阈值为2
时，将gop分数大于或等于2的音频数据作为正样本，将gop分数小于2的音频数据作为负样本；打分宽松度阈值为3时，将gop分数大于或等于3的音频数据作为正样本，将gop分数小于3的音频数据作为负样本；打分宽松度阈值为4时，将gop分数大于或等于5的音频数据作为正样本，将gop分数小于4的音频数据作为负样本；其中，2、3和4分别对应宽松、适中和严格的打分制度。
[0066]
s340、根据正样本和负样本对第一预设网络进行训练得到概率预测模型。
[0067]
在本实施例中，基于不同打分宽松度阈值划分得到的正样本和负样本，对第一预设网络进行训练，得到不同打分宽松度阈值对应的逻辑回归参数，以有效训练出概率预测模型。
[0068]
需要说明的是，本实施例中的概率预测模型可包括至少一个概率预测子模型，其中每一概率阈值子模型与一个打分宽松度阈值对应关联，即本实施例中概率预测子模型的数量与其前期设置的打分宽松度阈值数量有关。
[0069]
s350、若检测到gop分数大于预设分数阈值，则将gop分数输入预先确定的概率预测模型中，并根据概率预测模型的输出确定gop分数的正样本概率。
[0070]
其中，概率预测模型是根据历史音频数据的gop分数划分得到正样本和负样本对第一预设网络模型进行训练得到的。
[0071]
s360、根据gop分数的正样本概率和预先建立的分段函数模型，确定待评测音频的目标评测值。
[0072]
其中，分段函数模型包括至少两个正样本概率对应的分段函数子模型；分段函数子模型是根据历史音频数据的正样本概率和历史音频数据对应的打分值对第二预设网络模型训练得到的。
[0073]
图4是本公开实施例提供的又一种音频评测方法的流程示意图。本实施例是在上述实施例的基础上进一步扩展与优化，并可与上述技术方案中任意可选方案组合。如图4所示，该方法包括：s410、根据待评测音频和待评测音频的参考文本，确定待评测音频的发音质量gop分数。
[0074]
s420、若检测到gop分数大于预设分数阈值，则将gop分数输入预先确定的概率预测模型中，并根据概率预测模型的输出确定gop分数的正样本概率。
[0075]
其中，概率预测模型是根据历史音频数据的gop分数划分得到正样本和负样本对第一预设网络模型进行训练得到的。
[0076]
s430、获取待评测音频的打分宽松度阈值；根据待评测音频的打分宽松度阈值，确定待评测音频的分段函数模型。
[0077]
在本实施例中，待评测音频的打分宽松度阈值可支持用户自定义选择，若用户在进行音频评测时未选择，则默认其选择打分宽松度阈值的程度为适中。
[0078]
获取待评测音频的打分宽松度阈值可包括：响应于用户通过虚拟控件触发的阈值选择请求，向用户返回可选的打分宽松度阈值；并根据用户触发的点击行为，确定待评测音频的打分宽松度阈值；或者，在检测到用户的音频评测请求时，向用户返回目标打分宽松度阈值，并根据用户的响应操作，确定待评测音频的打分宽松度阈值。
[0079]
示例性的，在实际的操作场景中，当用户进行音频评测时，音频评测设备会向用户
显示一个操作界面；其中，该操作界面上至少包括阈值选择虚拟控件和开始评测虚拟控件；用户可通过点击该虚拟控件进行打分宽松度阈值的自主选择，并点击开始评测虚拟控件；若音频评测设备检测到用户直接点击了开始评测虚拟控件，则向用户弹出一个具有目标打分宽松度阈值的界面，在用户点击确认后，开始音频评测。
[0080]
本实施例中，音频评测设备中的每一打分宽松度阈值均对应一个分段函数模型，以根据用户的打分宽松需求输出对应的评测值，从而能够进行不同打分宽松程度的音频评测，以提高音频评测设备的实用性。
[0081]
s440、将gop分数的正样本概率输入待评测音频的分段函数模型中，并根据分段函数模型的输出确定待评测音频的目标评测值。
[0082]
在本实施例中，分段函数模型中包括不同概率范围内分段函数子模型，以使得能够按照正样本概率细化区分音频的评测结果，避免现有实现方案中直接对gop分数进行阈值划分直接得到评测结果导致评测结果不准确的问题。
[0083]
图5是本公开实施例提供的又一种音频评测方法的流程示意图。本实施例是在上述实施例的基础上进一步扩展与优化，并可与上述技术方案中任意可选方案组合。如图5所示，该方法包括：s510、根据待评测音频和待评测音频的参考文本，确定待评测音频的发音质量gop分数。
[0084]
s520、若检测到gop分数大于预设分数阈值，则将gop分数输入预先确定的概率预测模型中，并根据概率预测模型的输出确定gop分数的正样本概率。
[0085]
其中，概率预测模型是根据历史音频数据的gop分数划分得到正样本和负样本对第一预设网络模型进行训练得到的。
[0086]
s530、基于设置的至少一个打分宽松度阈值，确定打分宽松度阈值对应的概率区间；并确定概率区间对应的分段函数。
[0087]
在本实施例中，每个打分宽松度阈值可对应多个概率区间，即将区间[0,1]分为多个概率区间段，且每个概率区间段对应的分段函数不同。
[0088]
需要注意的是，本实施例中，不同打分宽松度阈值在同一概率区间内对应的分段函数可能不同。
[0089]
示例性的，以打分宽松度阈值分别为2、3和4对应的不同正样本概率下的分段函数进行示意说明；其中，将概率区间[0,1]划分为[0,0.17）、[0.17,0.5）、[0.5,0.83）和[0.83,1]。
[0090]
打分宽松度阈值分别为2时，分段函数如下（2）所示。
[0091]
（2）打分宽松度阈值分别为3时，分段函数如下（3）所示。
[0092]
（3）打分宽松度阈值分别为4时，分段函数如下（4）所示。
[0093]
（4）s540、根据历史音频数据的正样本概率确定正样本概率所属的概率区间，并根据概率区间的分段函数和历史音频数据的打分值，确定打分宽松度阈值的分段函数模型。
[0094]
在本实施例中，可将概率区间[0,1]分为多个初始概率区间段，再根据历史音频数据的正样本概率和其对应的打分值，继续调整概率区间段，并修正分段函数子模型的模型参数，从而得到适应于不同概率区间段的分段函数模型。
[0095]
在本实施例中，可选的，根据正样本概率所属的概率区间的分段函数和历史音频数据的打分值，确定分段函数模型，包括：根据历史音频数据的打分值，确定正样本概率所属的概率区间的分段函数的参数；根据概率区间的分段函数的参数，构建分段函数模型。
[0096]
其中，分段函数为非线性的，则各分段函数中涉及到的参数较多，则需要的历史音频数据越多，其训练得到的分段函数的参数越准确，最终得出的分段函数模型的精确度越高。
[0097]
本实施例通过对非线性回归模型进行训练，从而得到能够精准表征模型的参数，以使得构建出的分段函数模型具有较强的评测精度。
[0098]
在本实施例中，可选的，根据历史音频数据的打分值，确定正样本概率所属的概率区间的分段函数的参数，包括：根据历史音频数据的打分值，确定正样本概率所属的概率区间的分段函数的合格率；若合格率小于合格率阈值，则调整分段函数的参数，直至分段函数的合格率大于合格率阈值。
[0099]
其中，从历史音频数据中选择不同正样本概率下的数据作为验证数据集，并将验证数据集中音频数据输入分段函数模型中，将分段函数模型输出的评测值与音频数据对应的打分值进行匹配，以验证分段函数模型是否合格。本实施例能够根据分段函数模型的合格率不断修整其模型参数，以确定出最优参数，从而使得训练出的分段函数模型具有较高的适用性。
[0100]
s550、获取待评测音频的打分宽松度阈值；根据待评测音频的打分宽松度阈值，确定待评测音频的分段函数模型。
[0101]
s560、将gop分数的正样本概率输入待评测音频的分段函数模型中，并根据分段函数模型的输出确定待评测音频的目标评测值。
[0102]
图6是本公开实施例提供的一种音频评测装置的结构示意图；该装置配置于电子设备中，可实现本申请任意实施例所述的音频评测方法。该装置具体包括如下：gop分数确定模块610，用于根据待评测音频和所述待评测音频的参考文本，确定所述待评测音频的发音质量gop分数；概率确定模块620，用于若检测到所述gop分数大于预设分数阈值，则将所述gop分数输入预先确定的概率预测模型中，并根据所述概率预测模型的输出确定所述gop分数的正样本概率；其中，所述概率预测模型是根据历史音频数据的gop分数划分得到正样本和负样本对第一预设网络模型进行训练得到的；评测值确定模块630，用于根据所述gop分数的正样本概率和预先建立的分段函数模型，确定所述待评测音频的目标评测值；其中，所述分段函数模型包括至少两个正样本概率对应的分段函数子模型；所述分段函数子模型是根据历史音频数据的正样本概率和所述
历史音频数据对应的打分值对第二预设网络模型训练得到的。
[0103]
在本实施例中，可选的，gop分数确定模块610，具体用于：确定待评测音频的参考文本中包含的音素；并从所述待评测音频中获取所述音素对应的音频帧；其中，所述参考文本中单个音素对应至少一个音频帧；根据所述音素对应的音频帧确定所述音素与所述音频帧的匹配概率；根据所述匹配概率和所述音素对应的音频帧的数量，确定所述音素的发音质量gop分数；并将所述参考文本中包含的音素的gop分数之和作为所述待评测音频的gop分数.在本实施例中，可选的，本实施例装置还包括：样本确定模块和模型训练模块；gop分数确定模块610，还用于确定历史音频数据的gop分数；样本确定模块，用于设置至少一个打分宽松度阈值，将所述历史音频数据的gop分数大于或等于所述打分宽松度阈值的音频数据作为正样本；将所述历史音频数据的gop分数小于所述打分宽松度阈值的音频数据作为负样本；模型训练模块，用于根据所述正样本和所述负样本对第一预设网络进行训练得到概率预测模型。
[0104]
在本实施例中，可选的，本实施例装置还包括：打分宽松度阈值获取模块和分段函数模型确定模块；打分宽松度阈值获取模块，用于获取所述待评测音频的打分宽松度阈值；分段函数模型确定模块，用于根据所述待评测音频的打分宽松度阈值，确定所述待评测音频的分段函数模型。
[0105]
在本实施例中，可选的，评测值确定模块630，具体用于：将所述gop分数的正样本概率输入所述待评测音频的分段函数模型中，并根据所述分段函数模型的输出确定所述待评测音频的目标评测值。
[0106]
在本实施例中，可选的，本实施例装置还包括：分段函数确定模块；分段函数确定模块，用于基于设置的至少一个打分宽松度阈值，确定所述打分宽松度阈值对应的概率区间；并确定所述概率区间对应的分段函数；分段函数模型确定模块，还用于根据所述历史音频数据的正样本概率确定所述正样本概率所属的概率区间，并根据所述概率区间的分段函数和所述历史音频数据的打分值，确定所述打分宽松度阈值的分段函数模型。
[0107]
在本实施例中，可选的，分段函数确定模块包括：参数确定单元和模型构建单元；参数确定单元，用于根据所述历史音频数据的打分值，确定所述正样本概率所属的概率区间的分段函数的参数；模型构建单元，用于根据概率区间的分段函数的参数，构建分段函数模型。
[0108]
可选的，参数确定单元，具体用于：根据所述历史音频数据的打分值，确定所述正样本概率所属的概率区间的分段函数的合格率；若所述合格率小于合格率阈值，则调整所述分段函数的参数，直至所述分段函数的合格率大于合格率阈值。
[0109]
在本实施例中，可选的，评测值确定模块630，还用于若检测到所述gop分数小于预设分数阈值，则确定所述待评测音频的目标评测值为零。
[0110]
通过本发明实施例的音频评测装置，能够通过概率预测模型排除gop分数过低导致异常音频低打分的问题，从而结合分段函数模型实现不同发音质量区间的合理评测，有效提高了对音频发音质量评测的准确性。
[0111]
本发明实施例所提供的音频评测装置可执行本发明任意实施例所提供的音频评测方法，具备执行方法相应的功能模块和有益效果。
[0112]
图7是本公开实施例提供的一种电子设备的结构示意图。如图7所示，该电子设备包括处理器710、存储器720、输入装置730和输出装置740；电子设备中处理器710的数量可以是一个或多个，图7中以一个处理器710为例；电子设备中的处理器710、存储器720、输入装置730和输出装置740可以通过总线或其他方式连接，图7中以通过总线连接为例。
[0113]
存储器720作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的音频评测方法对应的程序指令/模块。处理器710通过运行存储在存储器720中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现本发明实施例所提供的音频评测方法。
[0114]
存储器720可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器720可进一步包括相对于处理器710远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0115]
输入装置730可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，可以包括键盘、鼠标等。输出装置740可包括显示屏等显示设备。
[0116]
本公开实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于实现本发明实施例所提供的音频评测方法。
[0117]
当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的音频评测方法中的相关操作。
[0118]
通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器（read
‑
only memory, rom）、随机存取存储器（random access memory, ram）、闪存（flash）、硬盘或光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。
[0119]
值得注意的是，上述搜索装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。
[0120]
需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之
间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0121]
以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/3 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

音频评测方法、装置、电子设备和介质与流程

相关文章

最热文献