语音语料库生成方法、装置、计算机设备和存储介质与流程

2022-03-05 10:33:28 来源：中国专利 TAG：

1.本技术涉及人工智能技术领域，特别是涉及一种语音语料库生成方法、装置、计算机设备和存储介质。

背景技术：

2.随着人工智能的发展，出现了语音识别技术，用于对用户语音进行识别，得到语音对应的文字内容，从而进一步与用户交互。目前语音识别技术在开发过程中需要用到大量的经过标注的语音语料来对神经网络模型进行训练，但是准备语音，并耗费大量时间对语音进行手动标注，标注容易出错，因而，导致语音语料库的质量较低。

技术实现要素：

3.基于此，有必要针对上述技术问题，提供一种能够提高语音语料库质量的语音语料库生成方法、装置、计算机设备和存储介质。
4.一种语音语料库生成方法，所述方法包括：
5.获取音频集合；所述音频集合中包括未标注相应转录文本的音频；
6.针对所述音频集合中每个音频，通过待优化的语音识别模型、最优语音识别模型以及参照语音识别模型分别对音频进行语音转录，得到相应的第一转录文本、最优转录文本和第二转录文本；所述参照语音识别模型的识别准确率低于所述待优化的语音识别模型；
7.分别确定所述第一转录文本和所述第二转录文本相较于所述最优转录文本的差异信息；
8.将所述音频和所述最优转录文本输入所述待优化语音识别模型，得到音素级别对齐的损失值；
9.基于每个音频所对应的所述差异信息和所述损失值，从所述音频集合中筛选出满足高质量条件的音频；
10.将筛选的音频和相应最优转录文本作为一组数据存储至语音语料库；
11.基于所述语音语料库中各组数据优化所述待优化语音识别模型。
12.在其中一个实施例中，所述获取音频集合包括：获取初始音频集合；
13.将所述初始音频集合中的音频分别输入所述最优语音识别模型，得到与所述音频对应的最优转录文本和所述音频的相关信息；
14.基于所述最优转录文本和音频相关信息对所述初始音频集合中的音频进行初步筛选处理，得到音频集合。
15.在其中一个实施例中，，所述方法还包括：
16.将所述第一转录文本输入统计语言模型得到困惑度指标；
17.所述基于所述差异信息和所述损失值，从所述音频集合中筛选出满足高质量条件的音频包括：
18.基于所述差异信息、所述损失值和所述困惑度指标，从所述音频集合中筛选出满足高质量条件的音频。
19.在其中一个实施例中，所述差异信息，包括第一转录文本和所述第二转录文本相较于所述最优转录文本的字错率；所述分别确定所述第一转录文本和所述第二转录文本相较于所述最优转录文本的差异信息包括：
20.针对所述第一转录文本和所述第二转录文本中的任意一种转录文本，以最优转录文本为标准，分别确定所述任意一种转录文本相较于所述最优转录文本增加、减少和替换的字数；
21.基于所述字数得到所述任意一种转录文本相较于所述最优转录文本的字错率。
22.在其中一个实施例中，所述基于每个音频所对应的所述差异信息和所述损失值，从所述音频集合中筛选出满足高质量条件的音频包括：
23.针对每个音频，确定相应所述第一转录文本和第二转录文本相较于所述最优转录文本的字错率之间的接近程度；
24.若所述接近程度满足预设接近条件、且所述损失值小于预设损失值阈值，则判定所述音频满足高质量条件。
25.在其中一个实施例中，所述方法还包括：
26.针对未筛选出的音频，获取针对所述音频标注的至少两份人工标注文本，所述人工标注文本是通过不同标注人员分别针对所述音频进行标注得到的；
27.检测所述人工标注文本是否一致；
28.若不一致，则触发对所述音频进行复核标注，得到复核标注文本；
29.将所述音频和所述复核标注文本存储至所述语音语料库。
30.在其中一个实施例中，所述差异信息和所述损失值包括于所述音频对应的筛选信息集合；
31.所述方法还包括：
32.针对未筛选出的音频，获取音频的音频相关信息；
33.将所述音频相关信息和所述筛选信息集合，输入至训练好的所述音频质量模型，得到与所述音频对应的标注难度；
34.基于所述标注难度，将未筛选出的音频分组，以使得相应标注人员对每组音频进行标注得到人工标注文本。
35.一种语音语料库生成装置，所述装置包括：
36.获取模块，用于获取音频；获取针对所述音频分别基于至少两个语音识别模型得到的至少两份转录文本，所述语音识别模型包括最优和待优化语音识别模型；所述转录文本包括所述最优语音识别模型输出的最优转录文本；
37.筛选信息计算模块，用于基于所述转录文本得到字错率集合；将所述音频和所述最优转录文本输入所述待优化语音识别模型得到损失值指标；
38.筛选模块，用于基于筛选信息集合对所述音频进行筛选处理；若符合预设要求，将所述音频和所述最优转录文本放入语音语料库；所述筛选信息集合包括所述字错率集合和所述损失值指标；
39.持续优化模块，用于基于所述语音语料库持续优化所述待优化语音识别模型。
40.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行上述语音语料库生成方法的步骤。
41.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行上述语音语料库生成方法的步骤。
42.上述语音语料库生成方法、装置、计算机设备和存储介质，通过获取包括未标注相应转录文本的音频的音频集合。针对音频集合中每个音频，通过待优化的语音识别模型、最优语音识别模型以及参照语音识别模型分别对音频进行语音转录，得到相应的第一转录文本、最优转录文本和第二转录文本，其中，参照语音识别模型的识别准确率低于待优化的语音识别模型。分别确定第一转录文本和所述第二转录文本相较于所述最优转录文本的差异信息；然后将音频和最优转录文本输入所述待优化语音识别模型，得到音素级别对齐的损失值；基于每个音频所对应的差异信息和损失值，从音频集合中筛选出满足高质量条件的音频。将筛选的音频和相应最优转录文本作为一组数据存储至语音语料库，从而保证了最优转录文本，即标注文本的准确性。并基于语音语料库中各组数据优化待优化语音识别模型，实现待优化语音识别模型的持续优化，以增加筛选语料数据的准确性。因此，通过对语音的自动标注、标注文本的筛选以及语音识别模型的持续优化，提高语音语料库生成效率和质量。
附图说明
43.图1为一个实施例中语音语料库生成方法的应用环境图；
44.图2为一个实施例中语音语料库生成方法的流程示意图；
45.图3为一个实施例中语音语料库生成方法的整体框架图；
46.图4为一个实施例中语音语料库生成装置的结构框图；
47.图5为一个实施例中音频分组模块的结构框图；
48.图6为一个实施例中计算机设备的内部结构图。
具体实施方式
49.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
50.本技术提供的语音语料库生成方法，可以应用于如图1所示的应用环境中。其中，终端110通过网络与服务器120进行通信。其中，终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
51.终端110可以收集音频，并初步筛选音频得到包括未标注相应转录文本的音频的音频集合，终端110将音频集合发送给服务器120。服务器120获取音频集合；针对所述音频集合中每个音频，通过待优化的语音识别模型、最优语音识别模型以及参照语音识别模型分别对音频进行语音转录，得到相应的第一转录文本、最优转录文本和第二转录文本；所述参照语音识别模型的识别准确率低于所述待优化的语音识别模型。服务器120分别确定所述第一转录文本和所述第二转录文本相较于所述最优转录文本的差异信息；将所述音频和
所述最优转录文本输入所述待优化语音识别模型，得到音素级别对齐的损失值。服务器120基于每个音频所对应的所述差异信息和所述损失值，从所述音频集合中筛选出满足高质量条件的音频。服务器120将筛选的音频和相应最优转录文本作为一组数据存储至语音语料库；基于所述语音语料库中各组数据优化所述待优化语音识别模型。
52.在一个实施例中，终端110也可以由服务器替代，对此不限定。
53.在一个实施例中，如图2所示，提供了一种语音语料库生成方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：
54.s202，获取音频集合；音频集合中包括未标注相应转录文本的音频；针对音频集合中每个音频，通过待优化的语音识别模型、最优语音识别模型以及参照语音识别模型分别对音频进行语音转录，得到相应的第一转录文本、最优转录文本和第二转录文本；参照语音识别模型的识别准确率低于待优化的语音识别模型。
55.其中，待优化的语音识别模型是在本方法中需要被优化的语音识别模型。最优语音识别模型是本方法所使用的三个语音识别模型(即，待优化的语音识别模型、最优语音识别模型以及参照语音识别模型)中语音识别准确率最高的语音识别模型。参照语音识别模型的识别准确率低于待优化的语音识别模型，即参照语音识别模型的识别准确率是三个语音识别模型找那个最低的。
56.其中，转录文本是指将音频进行语音识别后生成的文本，即，将音频中表达的文字转录成文本格式所得到的文本。转录文本也可以称为音频的标注文本。
57.具体地，服务器获取音频集合；音频集合中包括多个未标注相应转录文本的音频。针对音频集合中每个音频，服务器将音频分别输入到待优化的语音识别模型、最优语音识别模型以及参照语音识别模型进行语音转录，得到相应的第一转录文本、最优转录文本和第二转录文本。可以理解，第一转录文本是待优化的语音识别模型对音频进行语音转录生成的，最优转录文本是最优语音识别模型对音频进行语音转录生成的，第二转录文本是参照语音识别模型对音频进行语音转录生成的。最优转录文本的识别准确率是三个转录文本中最高的，第二转录文本的识别准确率是三个转录文本中最低的。
58.在一个实施例中，音频集合可以是基于最优语音识别模型进行初步筛选出的，且在初步筛选的过程中，获得最优转录文本。在其他实施例中，音频集合也可以是未经初步筛选的原始的音频集合，对此不作限定。
59.在一个实施例中，服务器在基于最优语音识别模型初步筛选得到音频集合的过程中，会涉及到对音频集合中各个音频进行语音转录生成最优转录文本，因此，服务器可以在筛选出音频集合后，可以直接获取在筛选过程中针对各个音频转录生成的最优转录文本，而不用再使用最优语音识别模型做二次转录，只需要通过待优化的语音识别模型和参照语音识别模型，分别筛选出的音频集合中的音频进行语音转录，得到相应的第一转录文本和第二转录文本，从而可以节省计算机处理资源。
60.s204，分别确定第一转录文本和第二转录文本相较于最优转录文本的差异信息；将音频和最优转录文本输入待优化语音识别模型，得到音素级别对齐的损失值。
61.其中，差异信息是指多个转录文本之间的与文本内容相关的差别信息。
62.在一个实施例中，差异信息可以是基于文本之间的字的差别计算出来的。
63.在另一个实施例中，差异信息可以是分别基于文本之间的字和标点符号的差别计算出来的。
64.在另一个实施例中，差异信息可以是分别基于文本之间的字、字对应的拼音和标点符号的差别计算出来的。
65.其中，音素是指根据语音的自然属性化划分出来的最小语音单位。音素级别对齐的损失值是指音频和转录文本在音素级别上的损失值。
66.具体地，服务器计算第一转录文本相较于最优转录文本的差异信息，计算第二转录文本相较于最优转录文本的差异信息。服务器将音频和最优转录文本输入待优化语音识别模型，得到音频和转录文本在音素级别上的损失值。可以理解，服务器获取到的差异信息和损失值，用于对音频集合进行筛选。
67.s206，基于每个音频所对应的差异信息和损失值，从音频集合中筛选出满足高质量条件的音频；将筛选的音频和相应最优转录文本作为一组数据存储至语音语料库。
68.其中，语音语料库，用于存储语音语料，即用于存储多个音频和对应转录文本的集合。
69.具体地，服务器针对音频集合中的每个音频，基于每个音频所对应的差异信息和损失值，对音频进行筛选处理，判断该音频是否满足预设的高质量条件；若是，则将音频和相应的最优转录文本作为一组数据存储至语音语料库。可以理解，基于差异信息和损失值来筛选挑选出满足高质量条件的音频，以保证语音语料库中转录文本(即，标注文本)的准确性。
70.在一个实施例中，针对未筛选出的不满足高质量条件的至少部分音频，可以进行人工标注处理后，将人工标注文本和该音频作为一组数据放入语音语料库。
71.在一个实施例中，针对未筛选出的不满足高质量条件的音频，可以基于差异信息和损失值从中筛选挑选出满足中等质量条件的音频，并在进行人工标注处理后，将人工标注文本和该音频作为一组数据放入语音语料库。
72.在一个实施中，服务器可以丢弃不满足高质量条件、且不满足中等质量条件的音频。
73.s208,基于语音语料库中各组数据优化待优化语音识别模型。
74.具体地，语音语料库中存储了多个音频和对应的转录文本，一组数据包括一个音频和对应的转录文本。服务器获取语音语料库的各组数据，基于各组数据训练待优化语音识别模型，用于进一步优化语音识别模型。
75.可以理解，对待优化语音识别模型进行优化后，后续使用优化后的语音识别模型来对下一批音频集合进行自动转录标注处理时，就能够更加准确，即，能使得在步骤s202中获得的第一转录文本具有更高的识别准确率，在步骤204中获得的音素级别的损失值具有更优秀的结果，从而提高了整个文本自动标注处理(即自动为音频添加转录文本的处理)的准确性，进而也减少了人工标注处理，提高了标注效率。
76.上述语音语料库生成方法、装置、计算机设备和存储介质，通过获取包括未标注相应转录文本的音频的音频集合。针对音频集合中每个音频，通过待优化的语音识别模型、最优语音识别模型以及参照语音识别模型分别对音频进行语音转录，得到相应的第一转录文
本、最优转录文本和第二转录文本，其中，参照语音识别模型的识别准确率低于待优化的语音识别模型。分别确定第一转录文本和第二转录文本相较于最优转录文本的差异信息；然后将音频和最优转录文本输入待优化语音识别模型，得到音素级别对齐的损失值；基于每个音频所对应的差异信息和损失值，从音频集合中筛选出满足高质量条件的音频。将筛选的音频和相应最优转录文本作为一组数据存储至语音语料库，从而保证了最优转录文本，即标注文本的准确性。并基于语音语料库中各组数据优化待优化语音识别模型，实现待优化语音识别模型的持续优化，以增加筛选语料数据的准确性。因此，通过对语音的自动标注、标注文本的筛选以及语音识别模型的持续优化，提高语音语料库的生成效率和质量。
77.在一个实施例中，获取音频集合包括：获取初始音频集合；将初始音频集合中的音频分别输入最优语音识别模型，得到与音频对应的最优转录文本和音频的相关信息；基于最优转录文本和音频相关信息对初始音频集合中的音频进行初步筛选处理，得到音频集合。
78.在一个实施例中，在获取初始音频集合之前，方法还包括：获取包含两个对话角色的声音轨道的长音频，对音频进行语音端点检测(vad，voice activity detection)处理，得到多个包含一个对话角色的声音轨道的短音频，将短音频放入初始音频集合中。
79.在一个实施例中，长音频所对应的两个对话角色包括客户和坐席，长音频是基于客户和坐席的之间的对话的录音得到的。
80.其中，音频的相关信息包括音频的声学特征信息。
81.在一个实施例中，声学特征信息可以包括时长、语速和音高等中的至少一种。
82.具体地，服务器获取包含多个音频的初始音频集合，将初始音频集合中的音频分别输入最优语音识别模型，得到与该音频对应的最优转录文本和音频的相关信息，包括时长和语速等。服务器基于最优转录文本和音频相关信息对初始音频集合中的音频进行初步筛选处理，丢弃不符合要求的音频，得到音频集合。
83.在一个实施例中，服务器可以基于最优转录文本、音频的发音人信息和音频相关信息对初始音频集合中的音频进行初步筛选处理，得到音频集合。其中，发音人信息包括性别信息和对话角色信息等中的至少一种。
84.在一个实施例中，初步筛选处理可以包括音素分布多样性维度筛选、发音人多样性维度筛选和声学特征维度筛选等中的至少一种。
85.在一个实施例中，音素分布多样性维度筛选包括：获取语音语料库的总音素分布信息；获取最优转录文本的目标音素分布信息，根据目标音素分布信息和总音素分布信息计算音频在保持语音预料库音素多样性方面的作用值，若作用值小于预设阈值，则丢弃该音频。可以理解，对音频进行音素分布多样性维度的筛选，以使得语音语料库具有多样性的音素分布。
86.在一个实施例中，声学特征维度筛选包括：获取音频的相关信息中的时长和语速值；判断音频的时长是否大于预设时长阈值，若是则丢弃该音频，若否则判断音频的语速是否大于预设语速阈值，若是则丢弃该音频。比如，由于语音识别模型对语音时长输入的限制，服务器丢弃音频时长超过10s的音频；服务器还对音频的语速做判断，丢弃平均语速大于每秒12个字的音频。可以理解，对音频进行声学特征维度的筛选，以保证语音语料库的语音质量和可使用性。
87.在一个实施例中，发音人多样性维度筛选包括：若音频对应的对话角色为坐席，获取发音人信息中所包含的坐席标识，获取具有相同坐席标识的音频在语音语料库中的占有比例，若占有比例大于预设的比例阈值，则丢弃该音频。可以理解，对音频进行发音人多样性维度的筛选，以保证语音语料库的语音现象是丰富的。
88.在本实施例中，服务器基于最优转录文本和音频相关信息对初始音频集合中的音频进行初步筛选处理，得到音频集合，以保证语音语料库的音频的语音质量、多样性的音素分布和足够丰富的语音现象。
89.在一个实施例中，方法还包括：将第一转录文本输入统计语言模型得到困惑度指标；基于差异信息和损失值，从音频集合中筛选出满足高质量条件的音频包括：基于差异信息、损失值和困惑度指标，从音频集合中筛选出满足高质量条件的音频。
90.其中，统计语言模型是自然语言处理(natural language processing,nlp)的基础模型，用于得到音频的ppl(perplexity，困惑度)值。困惑度指标，即困惑度值，用于表示音频的困惑度的大小。
91.在一个实施例中，使用的统计语言模型为n-gram模型(n元语法模型)或神经语言模型(nlm，neural language model，是一类用来克服维数灾难的语言模型，它使用词的分布式表示对自然语言序列建模。)。在一个实施例中，使用的n-gram模型为5-gram模型。
92.具体地，服务器将第一转录文本输入统计语言模型得到困惑度指标。服务器针对音频集合中的每个音频，基于对应的差异信息、损失值和困惑度指标，从音频集合中筛选出满足高质量条件的音频，将音频和对应的转录文本放入语音语料库。对符合中等质量条件的音频进行人工标注处理后，放入语音语料库；并丢弃低质量的音频。可以理解，通过对音频集合的筛选，以保证语音语料库的音频质量和转录文本、即标注文本的准确性。
93.在一个实施例中，若音频对应的差异信息和损失值满足预设条件时，进一步将困惑度指标和预设的困惑度阈值做比对，若小于预设的困惑度阈值，则该音频满足高质量条件，直接将该音频放入语音语料库。
94.在本实施例中，基于差异信息、损失值和困惑度指标，从音频集合中筛选出满足高质量条件的音频，保证语音语料库的音频质量和转录文本、即标注文本的准确性。
95.在一个实施例中，差异信息，包括第一转录文本和第二转录文本相较于最优转录文本的字错率；分别确定第一转录文本和第二转录文本相较于最优转录文本的差异信息包括：针对第一转录文本和第二转录文本中的任意一种转录文本，以最优转录文本为标准，分别确定任意一种转录文本相较于最优转录文本增加、减少和替换的字数；基于字数得到任意一种转录文本相较于最优转录文本的字错率。
96.其中，字错率是指将识别出来的字与标准句子中的字进行比较，计算不相同的字数与标准句子的字数之间的比例，从而得到的比例值。
97.具体地，服务器针对第一转录文本，以最优转录文本为标准，确定第一转录文本相较于最优转录文本增加、减少和替换的字数，再将字数与最优转录文本的字数求比例得到第一转录文本的字错率。同样地，服务器针对第二转录文本，以最优转录文本为标准，确定第二转录文本相较于最优转录文本增加、减少和替换的字数，再将字数与最优转录文本的字数求比例得到第二转录文本的字错率。可以理解，字错率，可以表征转录文本相对于最优转录文本的差异值。
98.在一个实施例中，字错率的统计公式为
99.字错率＝((插入字数替换字数减少字数)/标准句子总字数)*100％
100.比如，最优转录文本的内容为“吃了吗”，若第一转录文本的内容为“吃了吗吗”，那么增加的字数为1，得到的字错率为33％。若第一转录文本的内容为“吃了”，那么减少的字数为1，得到的字错率为33％。若第一转录文本的内容为“吃了嘛”，那么替换的字数为1，得到的字错率为33％。
101.比如，最优转录文本的内容为“你早上吃了吗”，若第一转录文本的内容为“你吃了饭没”，那么减少的字数为2，替换的字数为1，得到的字错率为(1 2)/6*100％＝50％。
102.在本实施例中，通过针对第一转录文本和第二转录文本中的任意一种转录文本，以最优转录文本为标准，分别确定任意一种转录文本相较于最优转录文本的字错率，用于得到待优化语音识别模型、最优识别模型和参照识别模型分别输出的三个转录文本之间的差异性，以准确地衡量音频的转录文本是否准确。
103.在一个实施例中，基于每个音频所对应的差异信息和损失值，从音频集合中筛选出满足高质量条件的音频包括：针对每个音频，确定相应第一转录文本和第二转录文本相较于最优转录文本的字错率之间的接近程度；若接近程度满足预设接近条件、且损失值小于预设损失值阈值，则判定音频满足高质量条件。
104.具体地，服务器针对音频集合中的每个音频，计算出第一转录文本相较于最优转录文本的字错率，第二转录文本相较于最优转录文本的字错率，计算两个字错率之间的差值的绝对值，即接近程度，若绝对值满足预设绝对值阈值、且损失值小于预设损失值阈值，则判定音频满足高质量条件
105.在另一个实施例中，服务器针对每个音频，确定相应第一转录文本和第二转录文本相较于最优转录文本的字错率之间的接近程度以及两个字错率之间的最大值；若接近程度满足预设接近条件、字错率最大值小于预设字错率阈值、且损失值小于预设损失值阈值，则判定音频满足高质量条件。
106.在另一个实施例中，服务器针对每个音频，确定相应第一转录文本和第二转录文本相较于最优转录文本的字错率之间的接近程度以及两个字错率之间的最大值；若接近程度满足预设接近条件、字错率最大值小于预设的阈值、损失值小于预设损失值阈值、且困惑度指标小于预设困惑度阈值，则判定音频满足高质量条件。
107.在本实施例中，服务器针对每个音频，确定相应第一转录文本和第二转录文本相较于最优转录文本的字错率之间的接近程度；若接近程度满足预设接近条件、且损失值小于预设损失值阈值，则判定音频满足高质量条件，以保证筛选出来的音频的转录文本的准确性。
108.在一个实施例中，方法还包括：针对未筛选出的音频，获取针对音频标注的至少两份人工标注文本，人工标注文本是通过不同标注人员分别针对音频进行标注得到的；检测人工标注文本是否一致；若不一致，则触发对音频进行复核标注，得到复核标注文本；将音频和复核标注文本存储至语音语料库。
109.其中，复核标注是指复核标注人员对音频进行再次标注。未筛选出的音频是指在步骤s206过程中，挑选出的不满足高质量条件、且未被丢弃的音频。
110.具体地，针对未筛选出的每个音频，服务器将音频分配给至少两个标注人员进行
标注。标准人员标注完成后生成至少两份人工标注文本。服务器获取针对该音频的至少两份人工标注文本，检测人工标注文本之间的文本是否一致。若一致，将音频和人工标注文本作为一组数据放入语音语料库；若不一致，将该音频分配给另外的复核标注人员进行复核标注，得到复核标注文本，并将音频和复核标注文本作为一组数据存储至语音语料库。
111.在一个实施例中，服务器还可以基于音频是否需要复核标注这一步骤，来考评标注人员的工作效率。
112.在一个实施例中，对音频的标注是基于标注服务器进行管理的。具体地，标注服务器获取需要进行人工标注的音频，标注管理员使用标注服务器、并基于音频的标注难度将音频的分配给不同的标注人员。标注服务器存储了音频的分组信息，不同的标注人员在工作台上标注音频完成后，标注服务器读取针对同一音频的至少两份标注文本，若不一致，提示用于指示音频标注出错的信息给标注管理员，以使得标注管理员对音频进行复核标注处理。
113.在本实施例中，服务器获取针对音频标注的至少两份人工标注文本检测人工标注文本是否一致；若不一致，则触发对音频进行复核标注，得到复核标注文本；将音频和复核标注文本存储至语音语料库，以保证语音语料库中转录文本的准确性。
114.在一个实施例中，差异信息和损失值包括于音频对应的筛选信息集合；方法还包括：针对未筛选出的音频，获取音频的音频相关信息；将音频相关信息和筛选信息集合，输入至训练好的音频质量模型，得到与音频对应的标注难度；基于标注难度，将未筛选出的音频分组，以使得相应标注人员对每组音频进行标注得到人工标注文本。
115.其中，标注难度用于表示对音频进行人工标注的难易程度。筛选集合是包括差异信息、损失值等用于筛选的输入信息的集合。
116.在一个实施例中，筛选信息集合包括差异信息、损失值和困惑度指标。
117.具体地，不同的标注人员具有不同的标注效率和标注能力。服务器针对未筛选出的音频，获取音频的音频相关信息。将音频相关信息和筛选信息集合，输入至训练好的音频质量模型，得到与音频对应的标注难度；基于标注难度和标注人员的标注效率、标注能力，将未筛选出的音频进行复制和分组，不同的组归属于不同的标注人员、且不同的组可以包括相同的音频，以使得标准人员能够更准确地对音频进行人工标注。
118.在另一个实施例中，服务器针对未筛选出的音频，获取音频的音频相关信息和发音人信息；将音频相关信息、发音人信息和筛选信息集合，输入至训练好的音频质量模型，得到标注难度。
119.在一个实施例中，在音频质量模型训练完成之前，服务器获取音频对应的的人工评估出的标准难度，使用标准难度、音频相关信息和筛选信息集合对音频质量模型进行训练，以得到训练好的音频质量模型。
120.在一个实施例中，服务器可以基于音频的标注难度和标注人员的标注结果是否准确为依据，对标注人员进行考评。
121.在本实施例中，针对未筛选出的音频，基于音频质量模型，得到与音频对应的标注难度；基于标注难度，将未筛选出的音频分组，以使得相应标注人员对每组音频标注得到人工标注文本，从而保证了人工标注文本的准确性。
122.在一个实施例中，如图3，描述出了语音语料库生成方法的整体框架图，其中，该框
架包括数据集部分、处理步骤和模型。数据集部分分为初步筛选步骤所使用的长音频集合和执行初步筛选得到的音频集合，还有语音语料库。在初步筛选过程中，服务器获取到长音频，执行vad处理得到多个短音频，并基于音素分布、发音人信息和声学特征等中的至少一种对短音频初步筛选后，得到用于样本分级的音频集合。在样本分级步骤中，服务器获取音频集合中的音频，输入多个语音识别模型获取多个转录文本，并基于转录文本获得差异信息，将音频和最优转录文本输入待优化语音识别模型以获得损失值，待优化语音识别模型输出的转录文本输入统计语言模型以获得困惑度指标。最后，服务器基于损失值、差异信息等对音频进行筛选，将满足高质量的音频放入语音语料库，将满足中等质量条件的音频进行人工标注处理。人工标注处理过程中，服务器先基于音频质量模型获得音频标注难度，再基于音频标注难度将音频分组，由不同的标注人员进行标注，若多个标注文本不一致，则进行复核处理后再放入音频和最终的标注文本于语音语料库中。服务器还基于语音语料库持续优化待优化语音识别模型，基于样本分级中获得的差异信息、损失值等信息训练音频质量模型。
123.应该理解的是，虽然本技术部分实施例中的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
124.在一个实施例中，如图4所示，提供了一种语音语料库生成装置400，包括：获取模块402、标注模块404、特征提取模块406和筛选模块408，其中：
125.获取模块402，用于获取音频集合；音频集合中包括未标注相应转录文本的音频。
126.标注模块404，用于针对音频集合中每个音频，通过待优化的语音识别模型、最优语音识别模型以及参照语音识别模型分别对音频进行语音转录，得到相应的第一转录文本、最优转录文本和第二转录文本；参照语音识别模型的识别准确率低于待优化的语音识别模型。
127.特征提取模块406，用于分别确定第一转录文本和第二转录文本相较于最优转录文本的差异信息；将音频和最优转录文本输入待优化语音识别模型，得到音素级别对齐的损失值。
128.筛选模块408，用于基于每个音频所对应的差异信息和损失值，从音频集合中筛选出满足高质量条件的音频；将筛选的音频和相应最优转录文本作为一组数据存储至语音语料库。
129.持续优化模块410，用于基于语音语料库中各组数据优化待优化语音识别模型。
130.在一个实施例中，获取模块402还用于：获取初始音频集合；将初始音频集合中的音频分别输入最优语音识别模型，得到与音频对应的最优转录文本和音频的相关信息；基于最优转录文本和音频相关信息对初始音频集合中的音频进行初步筛选处理，得到音频集合。
131.在一个实施例中，特征提取模块404还用于：将第一转录文本输入统计语言模型得
到困惑度指标；基于差异信息和损失值，从音频集合中筛选出满足高质量条件的音频包括：基于差异信息、损失值和困惑度指标，从音频集合中筛选出满足高质量条件的音频。
132.在一个实施例中，差异信息，包括第一转录文本和第二转录文本相较于最优转录文本的字错率；特征提取模块404还用于：针对第一转录文本和第二转录文本中的任意一种转录文本，以最优转录文本为标准，分别确定任意一种转录文本相较于最优转录文本增加、减少和替换的字数；基于字数得到任意一种转录文本相较于最优转录文本的字错率。
133.在一个实施例中，筛选模块408还用于：针对每个音频，确定相应第一转录文本和第二转录文本相较于最优转录文本的字错率之间的接近程度；若接近程度满足预设接近条件、且损失值小于预设损失值阈值，则判定音频满足高质量条件。
134.在一个实施例中，筛选模块408还用于：针对未筛选出的音频，获取针对音频标注的至少两份人工标注文本，人工标注文本是通过不同标注人员分别针对音频进行标注得到的；检测人工标注文本是否一致；若不一致，则触发对音频进行复核标注，得到复核标注文本；将音频和复核标注文本存储至语音语料库。
135.在一个实施例中，差异信息和损失值包括于音频对应的筛选信息集合；语音语料装置400包括音频分组模块500，音频分组模块500包括标注难度获取模块502和分组模块504，其中：
136.标注难度获取模块502，用于针对未筛选出的音频，获取音频的音频相关信息；将音频相关信息和筛选信息集合，输入至训练好的音频质量模型，得到与音频对应的标注难度。
137.分组模块504，用于基于标注难度，将未筛选出的音频分组，以使得相应标注人员对每组音频进行标注得到人工标注文本。
138.上述语音语料库生成装置，通过获取包括未标注相应转录文本的音频的音频集合。针对音频集合中每个音频，通过待优化的语音识别模型、最优语音识别模型以及参照语音识别模型分别对音频进行语音转录，得到相应的第一转录文本、最优转录文本和第二转录文本，其中，参照语音识别模型的识别准确率低于待优化的语音识别模型。分别确定第一转录文本和第二转录文本相较于最优转录文本的差异信息；然后将音频和最优转录文本输入待优化语音识别模型，得到音素级别对齐的损失值；基于每个音频所对应的差异信息和损失值，从音频集合中筛选出满足高质量条件的音频。将筛选的音频和相应最优转录文本作为一组数据存储至语音语料库，从而保证了最优转录文本，即标注文本的准确性。并基于语音语料库中各组数据优化待优化语音识别模型，实现待优化语音识别模型的持续优化，以增加筛选语料数据的准确性。因此，通过对语音的自动标注、标注文本的筛选以及语音识别模型的持续优化，提高语音语料库生成效率和质量。
139.关于上述语音语料库生成装置的具体限定可以参见上文中对于上述语音语料库生成方法的限定，在此不再赘述。上述语音语料库生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
140.在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。
其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音语料数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音语料库生成方法。
141.本领域技术人员可以理解，图6中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
142.在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。
143.在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
144.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory，rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory，ram)或外部高速缓冲存储器。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory，sram)或动态随机存取存储器(dynamic random access memory，dram)等。
145.以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
146.以上实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：伴读台灯的睡眠模式控制方法、伴读台灯、终端以及介质与流程

语音语料库生成方法、装置、计算机设备和存储介质与流程

相关文献

最热文献