音频评测方法及装置、非瞬时性存储介质与流程

2022-04-30 02:06:42 来源：中国专利 TAG：

1.本公开的实施例涉及一种音频评测方法、音频评测装置以及非瞬时性存储介质。

背景技术：

2.口语交流是一种重要的人际交流的方式，在人们的实际生活中具有重要地位。随着社会经济的不断发展，人们对口语学习的效率以及口语评估的客观性、公正性和规模化测试提出了越来越高的要求。传统的人工口语水平评测方法由于评估者的个体差异，往往不能保证评分标准的统一；另外，由于需要大量的人力、物力和财力支持，人工评测方法也不适宜用于大规模的口语测试。
3.随着语音技术的不断成熟，语音技术在各个领域的应用越来越广泛。口语评测是语音技术最早的应用领域之一，越来越多的口语教学者和用户都纷纷借助于这种口语评测的技术来进行口语的教学和学习。

技术实现要素：

4.本公开至少一个实施例提供一种音频评测方法，包括：获取音频数据和参考文本，其中，所述参考文本包括第一文本；基于第一发音词典模型和第一语言模型，对所述音频数据进行第一解码操作，以得到第一解码文本；根据所述第一解码文本和所述参考文本，确定第一评分；根据所述参考文本和所述第一发音词典模型，确定第二发音词典模型；根据所述参考文本，确定第二语言模型，其中，所述第二语言模型是基于所述参考文本训练得到的；基于所述第二发音词典模型和所述第二语言模型，对所述音频数据进行第二解码操作，以得到第二解码文本以及所述音频数据与所述第二解码文本的对应关系；根据所述第一文本、所述第二解码文本以及所述音频数据与所述第二解码文本的对应关系，确定第二评分；以及根据所述第一评分和所述第二评分，确定所述音频数据的最终评分。
5.例如，在本公开的一些实施例提供的音频评测方法中，根据所述参考文本和所述第一发音词典模型，确定所述第二发音词典模型，包括：响应于所述参考文本中的任一单词未出现在所述第一发音词典模型中，基于所述任一单词生成所述任一单词的发音，并将所述任一单词和所述任一单词的发音加入所述第一发音词典模型，以得到所述第二发音词典模型；以及响应于所述参考文本中的全部单词均出现在所述第一发音词典模型中，将所述第一发音词典模型作为所述第二发音词典模型。
6.例如，在本公开的一些实施例提供的音频评测方法中，基于所述任一单词生成所述任一单词的发音，包括：采用字素到音素转换模型处理所述任一单词以生成所述任一单词的发音。
7.例如，在本公开的一些实施例提供的音频评测方法中，基于所述第一发音词典模型和所述第一语言模型，对所述音频数据进行所述第一解码操作，以得到所述第一解码文本，包括：基于声学模型、上下文相关音子模型、所述第一发音词典模型和所述第一语言模型，构建第一加权有限状态转换器解码图；以及基于所述第一加权有限状态转换器解码图，
使用维特比算法对所述音频数据进行所述第一解码操作,以得到所述第一解码文本。
8.例如，在本公开的一些实施例提供的音频评测方法中，基于所述第二发音词典模型和所述第二语言模型，对所述音频数据进行所述第二解码操作，以得到所述第二解码文本以及所述音频数据与所述第二解码文本的对应关系，包括：基于所述声学模型、所述上下文相关音子模型、所述第二发音词典模型和所述第二语言模型，构建第二加权有限状态转换器解码图；以及基于所述第二加权有限状态转换器解码图，使用维特比算法对所述音频数据进行所述第二解码操作,以得到所述第二解码文本以及所述音频数据与所述第二解码文本的对应关系。
9.例如，在本公开的一些实施例提供的音频评测方法中，所述声学模型包括基于时延神经网络的链式模型或者高斯混合模型—隐马尔可夫模型。
10.例如，在本公开的一些实施例提供的音频评测方法中，所述第二语言模型包括一元语言模型。
11.例如，在本公开的一些实施例提供的音频评测方法中，根据所述第一解码文本和所述参考文本，确定所述第一评分，包括：确定所述第一解码文本与所述参考文本之间的重叠度和最长公共子序列；以及基于所述重叠度和所述最长公共子序列，得到所述第一评分。
12.例如，在本公开的一些实施例提供的音频评测方法中，根据所述第一文本、所述第二解码文本以及所述音频数据与所述第二解码文本的对应关系，确定所述第二评分，包括：确定所述第二解码文本中的与所述第一文本对应的第二文本；基于所述音频数据与所述第二解码文本的对应关系，确定所述音频数据中的与所述第二文本对应的音频段；以及基于所述第一文本和与所述第二文本对应的音频段，确定所述第二评分。
13.例如，在本公开的一些实施例提供的音频评测方法中，所述第一文本包括至少一个文本片段，基于所述第一文本和与所述第二文本对应的音频段，确定所述第二评分，包括：基于所述第一文本和与所述第二文本对应的音频段，确定与所述至少一个文本片段中的每个文本片段中的每个单词对应的音频子段；基于发音准确度算法，根据与所述每个文本片段中的每个单词对应的音频子段，确定所述每个单词的单词评分，并将所述每个文本片段中的全部单词的单词评分的平均值作为所述每个文本片段的片段评分；以及根据所述至少一个文本片段的片段评分，确定所述第二评分。
14.例如，在本公开的一些实施例提供的音频评测方法中，根据所述第一评分和所述第二评分，确定所述音频数据的所述最终评分，包括：获取与所述第一评分对应的第一权重和与所述第二评分对应的第二权重；以及根据所述第一评分、所述第一权重、所述第二评分和所述第二权重，确定所述最终评分，其中，所述最终评分表示为：
15.score_final＝w1*score_1 w2*score2，
16.其中，score_final表示所述最终评分，score_1表示所述第一评分，score2表示所述第二评分，w1表示所述第一权重，w2表示所述第二权重，且w1 w2＝1。
17.例如，在本公开的一些实施例提供的音频评测方法中，第一权重w1的取值范围为[0.3,0.5]。
[0018]
例如，在本公开的一些实施例提供的音频评测方法中，所述第一文本包括数字、符号单位和外来词至少之一。
[0019]
例如，在本公开的一些实施例提供的音频评测方法中，所述音频数据包括回答测
试题目的语音数据，所述参考文本包括至少一个对应于所述测试题目的参考答案本文，每个所述参考答案文本包括所述第一文本。
[0020]
本公开至少一个实施例还提供一种音频评测装置，包括：存储器，用于非暂时性存储计算机可读指令；以及处理器，用于运行所述计算机可读指令，其中，所述计算机可读指令被所述处理器运行时，执行本公开任一实施例提供的音频评测方法。
[0021]
本公开至少一个实施例还提供一种非瞬时性存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行本公开任一实施例提供的音频评测方法的指令。
附图说明
[0022]
为了更清楚地说明本公开实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。
[0023]
图1为本公开至少一个实施例提供的一种音频评测方法的流程图；
[0024]
图2为本公开至少一个实施例提供的一种音频评测装置的示意性框图；以及
[0025]
图3为本公开至少一个实施例提供的一种存储介质的示意图。
具体实施方式
[0026]
为了使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。
[0027]
除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。
[0028]
下面通过几个具体的实施例对本公开进行说明。为了保持本公开实施例的以下说明清楚且简明，本公开省略了已知功能和已知部件的详细说明。当本公开实施例的任一部件在一个以上的附图中出现时，该部件在每个附图中由相同或类似的参考标号表示。
[0029]
半开放题型是口语评测中较为常见的一种题型，这种半开放题型是指由测试系统播放图像、视频或者短文等提示内容，并根据这些提示内容要求用户回答相关问题或口语复述播放内容等的测试项目。例如，在半开放题型的口语评测中，用户的语音经过基于自动语音识别(automatic speech recognition，asr)技术的语音识别引擎转换成文本，然后该文本和预先设置的参考答案进行语义匹配以得到用户的语音的最终评分。
[0030]
例如，通用的语音识别引擎可以包括通用的声学模型(acoustic model)、通用的上下文相关(context-dependent)音子模型、通用的发音词典(lexicon)模型和通用的语言
模型(language model)。例如，声学模型可以用于将声音信号(例如，音频数据)识别成声学单元(例如上下文相关的音子，例如三音子triphone)。例如，语音识别引擎可以先对音频数据进行分帧，并提取每一帧的特征信息，然后将提取的特征信息输入声学模型。例如，声学模型可以对上述特征信息进行处理(包括确定每一帧对应的隐马尔可夫模型(hidden markov model，hmm)状态、确定转移过程等)，以得到上下文相关音子的序列(例如，triphone序列)。例如，上下文相关音子模型可以对上述上下文相关音子的序列进行处理，以得到音素(例如，单音素monophone)序列。例如，发音词典模型包括语音识别引擎所能处理的词汇集(简称词表)及其发音，可以用于将上述音素序列转化为单词序列。例如，语言模型可以用于对上述单词序列进行筛选，以得到合乎语法的句子(例如，由多个单词构成的词串)。
[0031]
在半开放题型的评测过程中，当参考答案中存在特殊单词的时候，即使用户正确地回答出了该特殊单词，通用的语音识别引擎也未必能识别出来，从而导致评分偏低(尤其是该特殊单词是参考答案的关键词的时候)。例如，特殊单词包括但不限于未登录词(out of vocabulary，oov，也称为“集外词”)和生僻单词等。例如，未登录词是指未出现在语音识别引擎所使用的词表中的单词，生僻单词是指在用于构建语言模型的语料库中出现频次很低的单词。
[0032]
以测试题目为“what do people usually eat on dragon boat festival？”、参考答案为“zongzi”或“people usually eat zongzi”(其中关键词是“zongzi”)为例，一方面，由于通用的语音识别引擎中的词表无法覆盖到所有的词汇，“zongzi”这个单词(相对于英语而言是外来词)很可能属于未登录词(即未出现在词表中)，从而通用的语音识别引擎无法将其识别出来(例如，可能错误地识别为“zone z”)；另一方面，即便词表中存在“zongzi”这个单词，由于通用的语言模型等因素(例如，“zongzi”这个单词很可能属于生僻单词)的影响，通用的语音识别引擎也未必能识别出来。因此，在基于通用的语音识别引擎进行半开放题型的口语评测过程中，如果参考答案包括通用的语音识别引擎无法识别的关键词，则即使用户正确地回答出了该关键词，其评分仍然可能会偏低。
[0033]
本公开至少一实施例提供一种音频评测方法。该音频评测方法包括：获取音频数据和参考文本，其中，参考文本包括第一文本；基于第一发音词典模型和第一语言模型，对音频数据进行第一解码操作，以得到第一解码文本；根据第一解码文本和参考文本，确定第一评分；根据参考文本和第一发音词典模型，确定第二发音词典模型；根据参考文本，确定第二语言模型，其中，第二语言模型是基于所述参考文本训练得到的；基于第二发音词典模型和第二语言模型，对音频数据进行第二解码操作，以得到第二解码文本以及音频数据与第二解码文本的对应关系；根据第一文本、第二解码文本以及音频数据与第二解码文本的对应关系，确定第二评分；以及根据第一评分和第二评分，确定音频数据的最终评分。
[0034]
本公开的一些实施例还提供对应于上述音频评测方法的音频评测装置以及非瞬时性存储介质。
[0035]
本公开的实施例提供的音频评测方法，可以根据第一发音词典模型和第一语言模型并结合参考文本，确定音频数据的第一评分，同时根据参考文本(例如，参考答案文本)确定第二发音词典模型和第二语言模型，并在此基础上根据参考文本中的第一文本(例如，参考答案文本中的关键词)确定音频数据的第二评分，从而可以结合第一评分和第二评分确
定音频数据的最终评分，进而可以避免直接将第一评分作为音频数据的最终评分而导致最终评分可能偏低的问题(因为在确定音频数据的第一评分的过程中可能存在无法识别第一文本的问题)，可以为音频数据的评测(例如，半开放题型的口语评测)提供更加客观、更加合理、更加准确的评测结果，具有较高的实用性。
[0036]
下面结合附图对本公开的一些实施例及其示例进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。
[0037]
图1为本公开至少一个实施例提供的一种音频评测方法的流程图。例如，该音频评测方法可以应用于计算设备，该计算设备包括具有计算功能的任何电子设备，例如可以为智能手机、笔记本电脑、平板电脑、台式计算机、服务器等，本公开的实施例对此不作限制。例如，该计算设备具有中央处理单元(central processing unit，cpu)或图形处理单元(graphics processing unit，gpu)，该计算设备还包括存储器。该存储器例如为非易失性存储器(例如只读存储器(read only memory，rom))，其上存储有操作系统的代码。例如，存储器上还存储有代码或指令，通过运行这些代码或指令，可以实现本公开实施例提供的音频评测方法。
[0038]
例如，如图1所示，该音频评测方法包括步骤s10至步骤s80。
[0039]
步骤s10：获取音频数据和参考文本，其中，参考文本包括第一文本。
[0040]
例如，在一些实施例中，图1所示的音频评测方法可以应用于半开放题型的口语评测，但不限于此。需要说明的是，为了描述的方便和简洁，本公开是以将图1所示的音频评测方法应用于半开放题型的口语评测进行说明，但不应视作对本公开的限制。
[0041]
例如，音频数据可以包括回答测试题目的语音数据，例如，用户回答半开放题型的测试题目的音频数据；例如，参考文本可以包括至少一个对应于测试题目的参考答案文本，例如，每个参考答案文本可以包括第一文本。例如，第一文本可以包括参考答案文本中的一个或多个关键词(或关键短语)。
[0042]
例如，在一个具体示例中，测试题目为“what do people usually eat on dragon boat festival？”，音频数据可以包括用户回答该测试题目的语音数据，参考文本可以包括参考答案文本“zongzi”或/和参考答案文本“people usually eat zongzi”，第一文本可以包括关键词“zongzi”。
[0043]
例如，在一些实施例中，图1所示的音频评测方法可以通过例如客户端在本地执行。在此情况下，参考文本可以是预先存储在客户端中的参考答案文本，也可以是客户端从服务器接收的参考答案文本，本公开的实施例对此不作限制；音频数据可以包括通过客户端的音频采集设备采集的语音，但不限于此。例如，音频数据和参考文本还可以由客户端从网络中获取。
[0044]
例如，客户端包括但不限于智能手机、平板电脑、个人计算机、个人数字助理(personal digital assistant，pda)、可穿戴设备、头戴显示设备等，例如，音频采集设备包括但不限于客户端内置或外接的麦克风。例如，音频数据可以是实时录制的，也可以是预先录制的，本公开的实施例对此不作限制。
[0045]
例如，在另一些实施例中，图1所示的音频评测方法还可以通过例如服务器在远程执行。在此情况下，服务器可以接收用户通过客户端上传的音频数据，然后基于预先存储在服务器中的参考文本进行音频评测的过程，并将评测结果返回客户端，以供用户参考；当
然，参考文本也可以没有预先存储在服务器中，而是与音频数据一起由用户通过客户端上传至服务器。
[0046]
例如，参考文本的语言可以为英语、法语、德语、西班牙语、汉语、日语、韩语等语言之一，本公开的实施例包括但不限于此。例如，在参考文本的语言为汉语、日语、韩语等语言的情况下，本公开的实施例中的“一个单词”可以对应理解为“一个字”(例如，汉语中的汉字等)。例如，音频数据中所使用的语言与参考文本的语言通常是一致的，本公开的实施例包括但不限于此。
[0047]
例如，参考文本通常为一个句子或短语，例如每个句子或短语包括若干单词。本公开的实施例包括但不限于此。
[0048]
步骤s20：基于第一发音词典模型和第一语言模型，对音频数据进行第一解码操作，以得到第一解码文本。
[0049]
例如，在一些实施例中，步骤s20可以包括以下步骤s21至步骤s22。
[0050]
步骤s21：基于声学模型、上下文相关音子模型、第一发音词典模型和第一语言模型，构建第一加权有限状态转换器解码图；
[0051]
步骤s22：基于第一加权有限状态转换器解码图，使用维特比算法对音频数据进行第一解码操作,以得到第一解码文本。
[0052]
例如，步骤s21中的声学模型、上下文相关音子模型、第一发音词典模型和第一语言模型可以分别采用通用的声学模型、通用的上下文相关音子模型、通用的发音词典模型和通用的语言模型(即可以采用通用的语音识别引擎来执行步骤s20中的第一解码操作)，本公开的实施例对此不作限制。上述四种通用模型各自的具体细节均可以参考前述相关描述以及自然语言处理领域的相关技术，在此不再赘述。
[0053]
例如，声学模型通常可以采用高斯混合模型(gaussian mixture model，gmm)—隐马尔可夫模型(hidden markov model，hmm)的架构(gmm-hmm)、深度神经网络(deep neural network，dnn)—隐马尔可夫模型的架构(dnn-hmm)或者基于时延神经网络(time-delay neural network，dnn)的链式(chain)模型的架构等来进行建模。需要说明的是，本公开的实施例包括但不限于此。
[0054]
例如，上下文相关音子模型可以采用聚类算法(例如，基于数据驱动的聚类算法或基于决策树的聚类算法等)进行构建，本公开的实施例包括但不限于此。例如，采用聚类算法构建上下文相关音子模型的具体技术细节均可以参考自然语言处理领域的相关技术，在此不再赘述。
[0055]
例如，第一发音词典模型(例如，通用的发音词典模型)可以包括通用的语音识别引擎所能处理的词汇集及其发音。例如，构建第一发音词典模型的具体技术细节均可以参考自然语言处理领域的相关技术，在此不再赘述。
[0056]
例如，第一语言模型(例如，通用的语言模型)可以为基于统计的语言模型或基于神经网络的语言模型等，本公开的实施例包括但不限于此。例如，基于统计的语言模型包括n元(n-gram)语言模型，例如n元语言模型包括但不限于常用的三元(n＝3)语言模型和二元(n＝2)语言模型等。例如，n元语言模型是一个基于概率的判别模型，n元语言模型的输入是n个单词的顺序序列，n元语言模型的输出是这n个单词的联合概率(joint probability)。例如，n元语言模型的具体技术细节可以参考自然语言处理领域的相关技术，在此不再赘
述。
[0057]
例如，在基于神经网络的语言模型中，所述神经网络包括但不限于递归神经网络(recurrent neural network，rnn)、长短期记忆网络(long-short term memory，lstm)或者双向长短期记忆网络(bi-directional long-short term memory，bi-lstm)等。例如，基于神经网络的语言模型的具体技术细节均可以参考自然语言处理领域的相关技术，在此不再赘述。
[0058]
例如，加权有限状态转换器(weighted finite state transducer，wfst)提供了一个统一的形式来表示当前业界大规模连续语音识别(lvcsr)系统的不同知识源(knowledge source)，且表示不同知识源的多个wfst可以通过复合运算整合成一个wfst。例如，在一些实施例中，上述声学模型、上下文相关音子模型、第一发音词典模型和第一语言模型均可以编译成wfst，分别对应记作h.fst、c.fst、l.fst(例如，为了区别于后续第二发音词典模型对应的wfst，可以记作l.fst_1)和g.fst(例如，为了区别于后续第二语言模型对应的wfst，可以记作g.fst_1)，进而可以通过复合运算整合成一个hclg格式(即包括h.fst、c.fst、l.fst_1和g.fst_1)的wfst，简称“第一wfst”。例如，第一wfst表示的解码图(即第一加权有限状态转换器解码图)可以通过各种优化运算来去掉其中的冗余部分而变成等价的但是更加紧凑高效的wfst解码图来加速解码过程。例如，将上述声学模型、上下文相关音子模型、第一发音词典模型、第一语言模型编译并整合成一个hclg格式的wfst的具体技术细节均可以参考自然语言处理领域的相关技术，在此不再赘述。
[0059]
例如，维特比(viterbi)算法是基于令牌传递(token passing)的思想进行解码。例如，基于维特比算法，可以在第一加权有限状态转换器解码图中寻找最优解码路径，从而确定第一解码文本中的各个单词，即得到第一解码文本。应当理解的是，第一解码文本中的每个单词的时间边界可以在维特比算法结束后回溯的过程中得到，从而根据第一解码文本中的每个单词的时间边界(例如，包括起始时刻和结束时刻)，可以确定对应于第一解码文本中的每个单词的音频子段。例如，维特比算法的具体技术细节可以参考自然语言处理领域的相关技术，在此不再赘述。
[0060]
步骤s30：根据第一解码文本和参考文本，确定第一评分。
[0061]
例如，在一些实施例中，可以采用常见的文本评价方法，基于参考文本对第一解码文本进行评价，以确定第一评分。例如，常见的文本评价方法包括但不限于双语评估辅助工具(bilingual evaluation understudy，bleu)以及基于召回率的摘要评价辅助工具(recall-oriented understudy for gisting evaluation，rouge)等。
[0062]
例如，bleu可以通过计算第一解码文本和参考文本之间的重叠度(例如，n-gram重叠度)，来确定第一解码文本与参考文本的符合程度。例如，在一些实施例中，第一解码文本和参考文本之间的重叠度可以包括uni-gram(n＝1)重叠度、bi-gram(n＝2)重叠度和tri-gram(n＝3)重叠度等，例如，可以通过对多种n-gram重叠度(例如，n＝1、2、3等)进行加权平均，以得到第一解码文本和参考文本之间的重叠度，进而，可以基于第一解码文本和参考文本之间的重叠度，确定第一评分。
[0063]
例如，rouge可以包括rouge-l(其中，l指最长公共子序列longest common subsequence，lcs)等。例如，rouge-l可以通过确定第一解码文本和参考文本之间的最长公共子序列，以得到rouge-l分数，进而，可以将rouge-l分数转换为第一评分。
[0064]
例如，在一些实施例中，可以结合多种文本评价方法并综合考虑多种文本评价指标(例如，上述第一解码文本和参考文本之间的重叠度以及rouge-l分数等)来确定第一评分，例如，可以对根据第一解码文本和参考文本之间的重叠度确定的评分以及根据rouge-l分数确定的评分进行加权平均以确定第一评分。例如，各种文本评价方法及文本评价指标的具体技术细节可以参考自然语言处理领域的相关技术(例如，文本生成评价指标的相关技术)，在此不再赘述。
[0065]
应当理解的是，本公开的实施例对第一评分的确定方法不作限制；在实际应用中，可以采用常用的评分方法或任意合理的评分方法来执行步骤s30中的确定第一评分的操作。
[0066]
步骤s40：根据参考文本和第一发音词典模型，确定第二发音词典模型。
[0067]
例如，在一些实施例中，步骤s40可以包括以下步骤s41至步骤s42。
[0068]
步骤s41：响应于参考文本中的任一单词未出现在第一发音词典模型中，基于该任一单词生成该任一单词的发音，并将该任一单词和该任一单词的发音加入第一发音词典模型，以得到第二发音词典模型；
[0069]
步骤s42：响应于参考文本中的全部单词均出现在第一发音词典模型中，将第一发音词典模型作为第二发音词典模型。
[0070]
需要说明的是，由于第一发音词典模型(例如，通用的发音词典模型)中的词表不可能包含所有数字(例如，表示时间、年代、电话、年龄等的数字)以及数字与单词的组合，也不可能包含所有的外来词(尤其是新出现的外来词)，通常也不会包含所有的符号单位(例如，货币单位、温度单位等)，因此，未出现在第一发音词典模型中的所述任一单词(即未登录词)通常为数字、外来词和符号单位等。
[0071]
例如，在一些实施例中，参考文本中的第一文本(例如，参考答案文本中的关键词)可以包括数字、符号单位和外来词至少之一。在此情况下，若直接将基于步骤s20至步骤s30得到的第一评分作为音频数据的最终评分，则由于在确定第一评分的过程中可能存在无法识别第一文本的问题，最终评分可能偏低。因此，本公开的实施例提供的音频评测方法还包括专门用于对参考文本中的第一文本进行评分的步骤s40至步骤s70以及结合第一评分和第二评分确定最终评分的步骤s80(具体细节可以参考本公开中关于步骤s40至步骤s80的相应描述)，以对音频数据进行更加客观、更加合理、更加准确的评测。
[0072]
应当理解的是，在本公开的实施例中，未登录词是相对于第一发音词典模型而言的。还应当理解的是，在本公开的实施例中，外来词是相对于参考文本的语言而言的。例如，在参考文本的语言为英语的情况下，“zongzi”(粽子)、“baozi”(包子)等属于外来词。
[0073]
例如，在一些实施例中，可以采用字素到音素(grapheme-to-phoneme，g2p)转换模型处理所述任一单词(即未登录词)以生成所述任一单词的发音。例如，在一些示例中，可以采用rnn和lstm实现g2p转换模型，本公开的实施例包括但不限于此。例如，g2p转换模型的具体技术细节均可以参考自然语言处理领域的相关技术，在此不再赘述。
[0074]
例如，在一个具体示例中，以测试题目为“what do people usually eat on dragon boat festival？”、参考文本为“zongzi”和“people usually eat zongzi”(参考文本包括两个参考答案文本)为例，若单词“zongzi”未出现在第一发音词典中(即存在未登录词)，则可以通过g2p转换模型生成单词“zongzi”的发音，并将单词“zongzi”及其发音加入
第一发音词典模型，以得到第二发音词典模型；若参考文本中的全部单词“zongzi”、“people”、“usually”、“eat”均出现在第一发音词典模型中(即不存在未登录词)，则可以直接将第一发音词典模型作为第二发音词典模型。
[0075]
应当理解的是，在基于步骤s40确定第二发音词典模型时，步骤s41和步骤s42是根据判断条件择一执行的。
[0076]
应当理解的是，步骤s40可以确保第二发音词典模型能够用于处理未登录词。
[0077]
步骤s50：根据参考文本，确定第二语言模型，其中，第二语言模型是基于参考文本训练得到的。
[0078]
例如，在一些实施例中，可以以参考文本作为训练语料，训练得到一个n元(n-gram)语言模型，并将该n元语言模型作为第二语言模型。例如该n元语言模型包括但不限于常用的一元(n＝1)语言模型、二元(n＝2)语言模型和三元(n＝3)语言模型等。因此，在一些实施例中，第二语言模型可以为一元语言模型。例如，在将图1所示的音频评测方法应用于半开放题型的口语评测时，由于参考文本(例如，参考答案文本)包括的单词数量相对较少，将第二语言模型训练为一元语言模型，可以提高后续步骤s60中的第二解码操作的准确率。
[0079]
需要说明的是，区别于第一语言模型(例如，通用的语言模型)，第二语言模型和参考文本是对应的，也就是说，不同的参考文本对应不同的第二语言模型。在本公开的实施例中，参考文本可以是任意的文本(例如，随测试题目的变化而变化)，因此，在该音频评测方法的每次执行过程中，通常需要基于每次获取的参考文本训练得到与该获取的参考文本对应的第二语言模型(即之前的参考文本的信息不会影响本次的语言模型)，进而确保后续第二解码操作得到的第二解码文本中的每个单词都是出自于参考文本。应当理解的是，步骤s50可以确保第二语言模型能够用于处理未登录词和生僻单词。
[0080]
例如，在一些实施例中，在执行图1所示的音频评测方法之前，参考文本是已知的；在此情况下，可以基于参考文本提前(即在执行图1所示的音频评测方法之前)训练得到第二语言模型，从而，在执行步骤s50中的确定第二语言模型的操作时，只要直接选取参考文本对应的第二语言模型即可。
[0081]
例如，在另一些实施例中，在执行图1所示的音频评测方法之前，参考文本是未知的；在此情况下，在执行步骤s50中的确定第二语言模型的操作时，可以基于参考文本实时训练得到第二语言模型。
[0082]
步骤s60：基于第二发音词典模型和第二语言模型，对音频数据进行第二解码操作，以得到第二解码文本以及音频数据与第二解码文本的对应关系。
[0083]
例如，在一些实施例中，步骤s60可以包括以下步骤s61至步骤s62。
[0084]
步骤s61：基于声学模型、上下文相关音子模型、第二发音词典模型和第二语言模型，构建第二加权有限状态转换器解码图；
[0085]
步骤s62：基于第二加权有限状态转换器解码图，使用维特比算法对音频数据进行第二解码操作,以得到第二解码文本以及音频数据与第二解码文本的对应关系。
[0086]
例如，在一些实施例中，步骤s61中的声学模型与步骤s21中的声学模型通常为同一个模型；步骤s61中的上下文相关音子模型与步骤s21中的上下文相关音子模型通常为同一个模型；步骤s61中的第二发音词典模型与步骤s21中的第一发音词典模型可能相同，也可能不同，例如可以参考前述步骤s40的相关描述；步骤s61中的第二语言模型通常不同于
步骤s21中的第一语言模型，例如可以参考前述步骤s50的相关描述。
[0087]
例如，在一些实施例中，上述声学模型、上下文相关音子模型、第二发音词典模型和第二语言模型均可以编译成wfst，分别对应记作h.fst、c.fst、l.fst(例如，为了区别于前述第一发音词典模型对应的wfst，可以记作l.fst_2)和g.fst(例如，为了区别于前述第一语言模型对应的wfst，可以记作g.fst_2)，进而可以通过复合运算整合成一个hclg格式(即包括h.fst、c.fst、l.fst_2和g.fst_2)的wfst，简称“第二wfst”。第二wfst表示的解码图(即第二加权有限状态转换器解码图)可以通过各种优化运算来去掉其中的冗余部分而变成等价的但是更加紧凑高效的wfst解码图来加速解码过程。例如，将上述声学模型、上下文相关音子模型、第二发音词典模型、第二语言模型编译并整合成一个hclg格式的wfst的具体技术细节均可以参考自然语言处理领域的相关技术，在此不再赘述。
[0088]
例如，基于维特比算法，可以在第二加权有限状态转换器解码图中寻找最优解码路径，从而确定第二解码文本中的各个单词，即得到第二解码文本；又例如，第二解码文本中的每个单词的时间边界可以在维特比算法结束后回溯的过程中得到，从而根据第二解码文本中的每个单词的时间边界(例如，包括起始时刻和结束时刻)，可以确定对应于第二解码文本中的每个单词的音频子段，即得到音频数据与第二解码文本的对应关系。例如，维特比算法的具体技术细节可以参考自然语言处理领域的相关技术，在此不再赘述。
[0089]
步骤s70：根据第一文本、第二解码文本以及音频数据与第二解码文本的对应关系，确定第二评分。
[0090]
例如，在一些实施例中，步骤s70可以包括以下步骤s71至步骤s73。
[0091]
步骤s71：确定第二解码文本中的与第一文本对应的第二文本。
[0092]
例如，在一些实施例中，第二解码文本中的每个单词都是出自于参考文本。也就是说，如果以参考文本中的各个单词为元素构建一个集合，则第二解码文本中的每个单词均为该集合中的元素。
[0093]
例如，在一些实施例中，第一文本可以包括至少一个文本片段。例如，在第一文本包括一个文本片段的情况下，可以提取第二解码文本中与该文本片段相同的部分，以作为第二文本；又例如，在第一文本包括多个文本片段的情况下，可以分别提取第二解码文本中与各个文本片段相同的部分，以作为第二文本。例如，在一些实施例中，第二文本通常包括第一文本中的至少部分文本片段。例如，在一些实施例中，第二文本可以包括第一文本中的全部文本片段，即第二文本与第一文本是相同的。
[0094]
步骤s72：基于音频数据与第二解码文本的对应关系，确定音频数据中的与第二文本对应的音频段。
[0095]
例如，根据步骤s60中得到的音频数据与第二解码文本的对应关系，可以确定对应于第二解码文本中的每个单词的音频段。例如，在一些实施例中，可以根据第二文本包括的单词以及对应于第二解码文本中的每个单词的音频段，确定与第二文本对应的音频段。
[0096]
步骤s73：基于第一文本和与第二文本对应的音频段，确定第二评分。
[0097]
例如，在一些实施例中，第一文本可以包括至少一个文本片段，在此情况下，步骤s73可以包括：基于第一文本和与第二文本对应的音频段，确定与该至少一个文本片段中的每个文本片段中的每个单词对应的音频子段；基于发音准确度算法(goodness of pronunciation，gop)，根据与每个文本片段中的每个单词对应的音频子段，确定每个单词
的单词评分，并将每个文本片段中的全部单词的单词评分的平均值作为每个文本片段的片段评分；以及根据该至少一个文本片段的片段评分，确定第二评分。
[0098]
例如，在一些示例中，发音准确度算法可以包括：先提取对应于每个单词的音频子段的特征信息，例如，特征信息包括但不限于梅尔倒谱系数(mel-scale frequency cepstral coefficients，mfcc)等；然后将特征信息输入预先训练好的音素评测模型进行音素评估，得到上述音频子段中的每个音素的gop值；最后基于每个音素的gop值，确定上述音频子段中的每个音素的音素评分，进而确定每个单词的评分。在此基础上，可以进一步确定每个文本片段的片段评分，进而还可以确定第二评分。例如，发音准确度算法的具体技术细节可以参考自然语言处理领域的相关技术，在此不再赘述。
[0099]
例如，根据至少一个文本片段的片段评分，确定第二评分，可以包括：在第一文本包括一个文本片段的情况下，将该文本片段的片段评分作为第二评分；在第一文本包括多个文本片段的情况下，将该多个文本片段的片段评分的平均值(例如，算术平均值)或者加权平均值，作为第二评分。
[0100]
步骤s80：根据第一评分和第二评分，确定音频数据的最终评分。
[0101]
例如，在一些实施例中，步骤s80可以包括：获取与第一评分对应的第一权重和与第二评分对应的第二权重；以及，根据第一评分、第一权重、第二评分和第二权重，确定最终评分。例如，在一些示例中，最终评分可以表示为：
[0102]
score_final＝w1*score_1 w2*score2，
[0103]
其中，score_final表示最终评分，score_1表示第一评分，score2表示第二评分，w1表示第一权重，w2表示第二权重，且w1 w2＝1。
[0104]
例如，在一些示例中，步骤s30得到的第一评分score_1和步骤s70得到的第二评分score_2的取值范围相同；例如，第一评分score_1和第二评分score_2的取值范围均可以为[0,100]，相应地，最终评分score_final的取值范围也为[0,100]。需要说明的是，本公开的实施例包括但不限于此。
[0105]
例如，在一些示例中，第一权重w1的取值范围可以为[0.3,0.5]，本公开的实施例包括但不限于此。例如，第一权重w1的取值可以设置为0.3、0.35、0.4、0.45、0.5等。例如，第一权重w1的取值还可以根据实际需要进行设置，本公开的实施例对此不作限制。
[0106]
应当理解的是，在将图1所示的音频评测方法应用于半开放题型的口语评测的情况下，若参考文本(例如，参考答案文本)中存在未登录词和/或生僻单词，尤其是该未登录词和/或生僻单词为参考文本中的第一文本(例如，参考答案文本中的关键词)的时候，通常不能直接将第一评分(基于步骤s20至步骤s30即可得到)作为最终评分，因为在确定第一评分的过程中可能存在无法识别第一文本的问题，从而如果直接将第一评分作为最终评分，则最终评分可能偏低。为了应对上述问题，图1所示的音频评测方法还专门对参考文本中的第一文本(即参考答案文本中的关键词)进行评分(参考步骤s40至步骤s70)以得到第二评分，并结合第一评分和第二评分确定音频数据的最终评分(参考步骤s80)，从而可以为音频数据的评测提供更加客观、更加合理、更加准确的评测结果，具有较高的实用性。
[0107]
需要说明的是，虽然本公开的实施例均以英语文本为例进行说明，但不应视为对本公开的实施例提供的音频评测方法的限制。本公开的实施例提供的音频评测方法可以适用于英语、法语、德语、西班牙语、汉语、日语、韩语等各种语言的半开放题型的评测。
[0108]
需要说明的是，在本公开的实施例中，上述音频评测方法的流程可以包括更多或更少的操作，这些操作可以顺序执行或并行执行。虽然上文描述的音频评测方法的流程包括特定顺序出现的多个操作，但是应该清楚地了解，多个操作的顺序并不受限制。上文描述的音频评测方法可以执行一次，也可以按照预定条件执行多次。
[0109]
本公开至少一个实施例还提供一种音频评测装置。图2为本公开至少一个实施例提供的一种音频评测装置的示意性框图。例如，如图2所示，该音频评测装置100包括存储器110和处理器120。
[0110]
例如，存储器110用于非暂时性存储计算机可读指令，处理器120用于运行该计算机可读指令，该计算机可读指令被处理器120运行时执行本公开任一实施例提供的音频评测方法。
[0111]
例如，存储器110和处理器120之间可以直接或间接地互相通信。例如，在一些示例中，如图2所示，该音频评测装置100还可以包括系统总线130，存储器110和处理器120之间可以通过系统总线130互相通信，例如，处理器120可以通过系统总线130访问存储器110。例如，在另一些示例中，存储器110和处理器120等组件之间可以通过网络连接进行通信。网络可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。网络可以包括局域网、互联网、电信网、基于互联网和/或电信网的物联网(internet of things)、和/或以上网络的任意组合等。有线网络例如可以采用双绞线、同轴电缆或光纤传输等方式进行通信，无线网络例如可以采用3g/4g/5g移动通信网络、蓝牙、zigbee或者wifi等通信方式。本公开对网络的类型和功能在此不作限制。
[0112]
例如，处理器120可以控制音频评测装置中的其它组件以执行期望的功能。处理器120可以是中央处理单元(cpu)、张量处理器(tpu)或者图形处理器gpu等具有数据处理能力和/或程序执行能力的器件。中央处理器(cpu)可以为x86或arm架构等。gpu可以单独地直接集成到主板上，或者内置于主板的北桥芯片中。gpu也可以内置于中央处理器(cpu)上。
[0113]
例如，存储器110可以包括一个或多个计算机程序产品的任意组合，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(rom)、硬盘、可擦除可编程只读存储器(eprom)、便携式紧致盘只读存储器(cd-rom)、usb存储器、闪存等。
[0114]
例如，在存储器110上可以存储一个或多个计算机指令，处理器120可以运行所述计算机指令，以实现各种功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如音频数据、参考文本、第一解码文本、第二解码文本、第一评分、第二评分、最终评分以及应用程序使用和/或产生的各种数据等。
[0115]
例如，存储器110存储的一些计算机指令被处理器120执行时可以执行根据上文所述的音频评测方法中的一个或多个步骤。
[0116]
例如，如图2所示，音频评测装置100还可以包括允许外部设备与音频评测装置100进行通信的输入接口140。例如，输入接口140可被用于从外部计算机设备、从用户等处接收指令。音频评测装置100还可以包括使音频评测装置100和一个或多个外部设备相互连接的输出接口150。例如，音频评测装置100可以通过输出接口150输出音频评测结果等。通过输入接口140和输出接口150与音频评测装置100通信的外部设备可被包括在提供任何类型的
用户可与之交互的用户界面的环境中。用户界面类型的示例包括图形用户界面、自然用户界面等。例如，图形用户界面可接受来自用户采用诸如键盘、鼠标、遥控器等之类的输入设备的输入，以及在诸如显示器之类的输出设备上提供输出。此外，自然用户界面可使得用户能够以无需受到诸如键盘、鼠标、遥控器等之类的输入设备强加的约束的方式来与音频评测装置100交互。相反，自然用户界面可依赖于语音识别、触摸和指示笔识别、屏幕上和屏幕附近的手势识别、空中手势、头部和眼睛跟踪、语音和语义、视觉、触摸、手势、以及机器智能等。
[0117]
例如，在一些实施例中，该音频评测装置100还包括音频评测方法的实施例中描述的音频采集设备。
[0118]
另外，音频评测装置100尽管在图2中被示出为单个系统，但可以理解，音频评测装置100也可以是分布式系统，还可以布置为云设施(包括公有云或私有云)。因此，例如，若干设备可以通过网络连接进行通信并且可共同执行被描述为由音频评测装置100执行的任务。例如，在一些实施例中，可以通过客户端获取半开放题型的测试题目，然后采集用户回答该测试题目的音频数据，并将音频数据上传至服务器；服务器基于接收的音频数据和预先存储在服务器中的参考文本执行音频评测的过程后将评测结果(例如，最终评分)返回客户端，以提供给用户。
[0119]
例如，关于音频评测方法的实现过程的详细说明可以参考上述音频评测方法的实施例中的相关描述，重复之处在此不再赘述。
[0120]
例如，在一些示例中，该音频评测装置可以包括但不限于智能手机、平板电脑、个人计算机、个人数字助理(personal digital assistant，pda)、可穿戴设备、头戴显示设备、服务器等。
[0121]
需要说明的是，本公开的实施例提供的音频评测装置是示例性的，而非限制性的，根据实际应用需要，该音频评测装置还可以包括其他常规部件或结构，例如，为实现音频评测装置的必要功能，本领域技术人员可以根据具体应用场景设置其他的常规部件或结构，本公开的实施例对此不作限制。
[0122]
本公开的实施例提供的音频评测装置的技术效果可以参考上述实施例中关于音频评测方法的相应描述，在此不再赘述。
[0123]
本公开至少一个实施例还提供一种非瞬时性存储介质。图3为本公开一个实施例提供的一种非瞬时性存储介质的示意图。例如，如图3所示，该非瞬时性存储介质200非暂时性地存储计算机可读指令201，当非暂时性计算机可读指令201由计算机(包括处理器)执行时可以执行本公开任一实施例提供的音频评测方法的指令。
[0124]
例如，在非瞬时性存储介质200上可以存储一个或多个计算机指令。非瞬时性存储介质200上存储的一些计算机指令可以是例如用于实现上述音频评测方法中的一个或多个步骤的指令。
[0125]
例如，非瞬时性存储介质可以包括平板电脑的存储部件、个人计算机的硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom)、光盘只读存储器(cd-rom)、闪存、或者上述存储介质的任意组合，也可以为其他适用的存储介质。
[0126]
本公开的实施例提供的非瞬时性存储介质的技术效果可以参考上述实施例中关于音频评测方法的相应描述，在此不再赘述。
[0127]
对于本公开，有以下几点需要说明：
[0128]
(1)本公开实施例附图中，只涉及到与本公开实施例涉及到的结构，其他结构可参考通常设计。
[0129]
(2)在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合以得到新的实施例。
[0130]
以上，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：阵列式消声器中导流罩的安装结构及阵列式消声器的制作方法

音频评测方法及装置、非瞬时性存储介质与流程

相关文献

最热文献