语言模型训练方法、音频识别方法和计算机设备与流程

2022-06-11 07:22:27 来源：中国专利 TAG：

1.本技术涉及音频处理技术领域，特别是涉及一种语言模型训练方法、音频识别方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术：

2.随着计算机技术的发展，目前用户已经可以通过手机等移动终端进行音乐播放和歌曲演唱，而对于无词歌曲或用户进行歌曲演唱时输入的音频，需要进行歌词识别，从而识别出其中的歌词信息。由于同一首歌曲中可以包含多种语言的歌词，因此需要分别识别歌曲中的各种语言的歌词信息。目前识别歌曲中的歌词信息的方式通常是通过识别歌曲的语种，再利用相应语种的识别模型对歌曲音频进行识别。然而，通过识别音频语种再通过对应语种模型识别音频的方式，容易导致识别歌词信息识别错误，降低识别准确度。
3.因此，目前对歌曲的音频识别方法存在识别准确度低的缺陷。

技术实现要素：

4.基于此，有必要针对上述技术问题，提供一种能够提高识别准确度的语言模型训练方法、音频识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
5.第一方面，本技术提供了一种语言模型训练方法，所述方法包括：
6.获取多个样本音频及各所述样本音频的样本歌词，其中所述多个样本音频对应多种音频风格且所述样本音频对应的样本歌词包含多个语种；
7.根据所述样本歌词的语种以及所述样本歌词对应的样本音频的音频风格，对所述样本歌词包含的样本音素添加语种标识及音频风格标识；
8.基于所述多个样本音频的样本歌词所对应的添加标识后的样本音素，构建混合发音词典；
9.根据所述混合发音词典训练待训练语言模型，得到目标语言模型，所述目标语言模型用于基于输入音频的语种以及音频风格识别所述输入音频的歌词发音序列。
10.在其中一个实施例中，所述获取各所述样本音频的样本歌词，包括：
11.获取所述样本音频对应的音频歌词，对所述音频歌词进行去重，得到所述样本歌词。
12.在其中一个实施例中，所述根据所述样本歌词的语种以及所述样本歌词对应的样本音频的音频风格，对所述样本歌词包含的样本音素添加语种标识及音频风格标识，包括：
13.根据所述样本歌词与标准音标的映射关系，获取所述样本歌词包含的样本音素；
14.根据所述样本歌词对应的语种以及所述样本歌词对应的样本音频的音频风格，对所述样本音素添加语种标识及音频风格标识。
15.第二方面，本技术提供了一种音频识别方法，所述方法包括：
16.获取待识别音频的每帧音频的音频特征；
17.根据所述每帧音频的音频特征，获取所述每帧音频所属的发音状态；
18.将所述每帧音频的音频特征及其发音状态输入目标语言模型，通过所述目标语言模型识别所述每帧音频之间的关联关系并根据所述关联关系确定所述待识别音频的歌词发音序列；所述目标语言模型根据如上述的方法训练得到；
19.根据所述歌词发音序列，识别所述待识别音频对应的歌词文本。
20.在其中一个实施例中，所述发音状态包括发音起始状态、发音中间状态以及发音结尾状态；
21.所述根据所述每帧音频的音频特征，获取所述每帧音频所属的发音状态，包括：
22.针对所述待识别音频中的每帧音频，将该帧音频对应的音频特征输入预设状态识别模型，获取所述预设状态识别模型输出的该帧音频为发音起始状态的第一概率、该帧音频为发音中间状态的第二概率以及该帧音频为发音结尾状态的第三概率；
23.将所述第一概率、第二概率以及第三概率中的最大值对应的发音状态作为该帧音频所属的发音状态。
24.在其中一个实施例中，所述将所述每帧音频的音频特征及其发音状态输入目标语言模型，通过所述目标语言模型识别所述每帧音频之间的关联关系并根据所述关联关系确定所述待识别音频的歌词发音序列，包括：
25.针对所述待识别音频中的每帧音频，将该帧音频的音频特征及其对应的发音状态输入目标语言模型；
26.通过所述目标语言模型识别所述音频特征对应的歌词的语种以及所述音频特征对应的待识别音频的音频风格，并根据识别到语种、音频风格以及该帧音频的发音状态，确定该帧音频的多个关联发音状态，以及每个关联发音状态的转移概率；所述关联发音状态表征该帧音频对应的下一帧音频的发音状态；所述转移概率表征从该帧音频的发音状态转换为所述关联发音状态的概率；
27.根据每帧音频对应的发音状态以及每帧音频对应的多个关联发音状态，构建多个待识别状态序列；各个待识别状态序列中包含多帧音频对应的发音状态，且相邻两帧音频的发音状态中的后者为前者的关联发音状态；
28.根据所述待识别状态序列中相邻两帧音频的发音状态之间的转移概率，从多个所述待识别状态序列中确定所述待识别音频的歌词发音序列。
29.在其中一个实施例中，所述根据所述待识别状态序列中相邻帧音频的发音状态之间的转移概率，从多个所述待识别状态序列中确定所述待识别音频的歌词发音序列，包括：
30.根据所述待识别状态序列中相邻两帧发音状态之间的转移概率，从多个待识别状态序列中确定目标状态序列；
31.将所述目标状态序列转换为音素序列，作为所述待识别音频的歌词发音序列。
32.在其中一个实施例中，所述根据所述待识别状态序列中相邻帧音频的发音状态之间的转移概率，从多个待识别状态序列中确定一个目标状态序列，包括：
33.获取所述待识别状态序列中相邻两帧音频的发音状态之间的转移概率的乘积；
34.从多个待识别状态序列中确定所述乘积的最大值对应的待识别状态序列，作为目标状态序列。
35.在其中一个实施例中，所述将所述目标状态序列转换为音素序列，作为所述待识别音频的歌词发音序列，包括：
36.将所述目标状态序列输入所述目标语言模型，由所述目标语言模型识别所述目标状态序列中的每个发音状态组合对应于各个已知语种以及已知音频风格的关联音素以及所述关联音素的概率，得到每个发音状态组合的多个关联音素及其概率；所述发音状态组合包括发音起始阶段、发音中间阶段以及发音结尾阶段；
37.根据所述目标状态序列中多个发音状态组合对应的关联音素之间的排列结果，确定多个关联音素序列；
38.获取所述关联音素序列中相邻两关联音素之间的概率的乘积；
39.根据所述概率的乘积的最大值对应的关联音素序列，得到所述待识别音频的歌词发音序列。
40.第三方面，本技术提供了一种语言模型训练装置，所述装置包括：
41.音频获取模块，用于获取多个样本音频及各所述样本音频的样本歌词，其中所述多个样本音频对应多种音频风格且所述样本音频对应的样本歌词包含多个语种；
42.添加模块，用于根据所述样本歌词的语种以及所述样本歌词对应的样本音频的音频风格，对所述样本歌词包含的样本音素添加语种标识及音频风格标识；
43.构建模块，用于基于所述多个样本音频的样本歌词所对应的添加标识后的样本音素，构建混合发音词典。
44.训练模块，用于根据所述混合发音词典训练待训练语言模型，得到目标语言模型，所述目标语言模型用于基于输入音频的语种以及音频风格识别所述输入音频的歌词发音序列。
45.第四方面，本技术提供了一种音频识别装置，所述装置包括：
46.状态获取模块，用于获取待识别音频的每帧音频的音频特征；根据所述每帧音频的音频特征，获取所述每帧音频所属的发音状态；
47.确定模块，用于将所述每帧音频的音频特征及其发音状态输入目标语言模型，通过所述目标语言模型识别所述每帧音频之间的关联关系并根据所述关联关系确定所述待识别音频的歌词发音序列；所述目标语言模型根据如上述的语言模型训练方法训练得到；
48.识别模块，用于根据所述歌词发音序列，识别所述待识别音频对应的歌词文本。
49.第五方面，本技术提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法的步骤。
50.第六方面，本技术提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。
51.第七方面，本技术提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的方法的步骤。
52.上述语言模型训练方法、音频识别方法、装置、计算机设备、存储介质和计算机程序产品，通过获取包含多种语种的歌词的样本音频的样本歌词，并根据样本歌词的语种和音频风格，对样本歌词对应的样本音素添加对应的标识，基于多个样本音频的样本歌词对应的添加标识后的样本音素，构建混合发音词典，从而基于混合发音词典训练待训练语言模型，得到目标语言模型；并通过将待识别音频中的音频特征以及每帧音频的发音状态输入目标语言模型，通过目标语言模型识别每帧音频之间的关联关系，确定待识别音频的歌词发音序列，从而根据歌词发音序列识别待识别音频对应的歌词文本。相较于传统的通过
识别音频语种再通过对应语种模型识别音频的方式，本方案利用基于混合发音词典训练的语言模型，并基于语种和流派共同识别音频中的歌词信息，能够提高音频识别的准确度。
附图说明
53.图1为一个实施例中语言模型训练方法的应用环境图；
54.图2为一个实施例中语言模型训练方法的流程示意图；
55.图3为一个实施例中音频识别方法的流程示意图；
56.图4为一个实施例中状态识别步骤的流程示意图；
57.图5为一个实施例中状态转移步骤的流程示意图；
58.图6为另一个实施例中音频识别方法的流程示意图；
59.图7为一个实施例中语言模型训练装置的结构框图；
60.图8为一个实施例中音频识别装置的结构框图；
61.图9为一个实施例中计算机设备的内部结构图。
具体实施方式
62.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
63.本技术实施例提供的语言模型训练方法、音频识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。终端102可以获取用户输入的待识别音频，并将该待识别音频发送至服务器104中，服务器104可以将该待识别音频输入目标语言模型中，通过基于混合发音词典训练的目标语言模型识别待识别音频中的歌词发音序列，其中混合发音词典是基于标识了语种和音频风格信息的音素构建的，服务器104可以基于歌词发音序列识别出其中的文本信息，实现对音频的文本识别。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
64.在一个实施例中，如图2所示，提供了一种语言模型训练方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：
65.步骤s202，获取多个样本音频及各样本音频的样本歌词，其中多个样本音频对应多种音频风格且样本音频对应的样本歌词包含多个语种。
66.其中，样本音频可以是已知歌词信息的音频，并且样本音频中的歌词信息可以包含多种语种，例如，样本音频可以是包含中英文歌词的歌曲音频。服务器104可以获取多个样本音频。其中，上述多个样本音频中可以包括多种语种的歌词。例如，以样本音频是音乐歌曲为例，一个样本音频中可以包含有多种语种的歌词，如同时包含中文歌词和英文歌词的中英混合歌词等，其中多种语种可以是两种也可以是两种以上；并且，上述多个音频还对应多种音频风格。例如，以样本音频是音乐歌曲为例，每个样本音频都可以有其相应的音频风格，如流行音乐、嘻哈音乐、重金属音乐或其他音乐等。需要说明的是，音频风格也可以是
除了上述的音频风格以外的风格。
67.步骤s204，根据样本歌词的语种以及样本歌词对应的样本音频的音频风格，对样本歌词包含的样本音素添加语种标识及音频风格标识。
68.其中，样本歌词可以是上述获取的各个样本音频的歌词，上述样本音频可以有多个，每个样本音频可以对应一组样本歌词。其中，服务器104可以通过对样本音频对应的歌词进行处理后，得到样本音频对应的样本歌词。例如，在一个实施例中，获取各样本音频的样本歌词，包括：获取样本音频对应的音频歌词，对音频歌词进行去重，得到样本歌词。本实施例中，服务器104可以获取样本音频对应的音频歌词，并对音频歌词进行去重处理，得到上述样本歌词。例如，以样本音频是音乐音频为例，该样本音频中可以包括中英混合的歌词，服务器104可以从中分离出中文歌词和英文歌词，并对这些歌词进行去重，得到样本歌词的字词集合。
69.服务器104得到上述样本音频的样本歌词后，由于样本歌词具备不同的语种，并且其对应的样本音频有不同的音频风格，例如，对于a，其在中文歌词、英文歌词中的发音会不一样，并且其在不同音频风格中的发音也会不一样。因此服务器104还可以根据样本歌词的语种以及上述音频风格，对样本歌词对应的样本音素添加对应的标识。其中，音素是根据语音的自然属性划分出来的最小语音单位。服务器104可以首先将样本歌词转换为对应的样本音素，并基于样本音素对应的样本歌词的语种以及上述音频风格，对样本音素添加对应的标识，实现对不同语种以及不同音频风格的样本音素的区分。
70.步骤s206，基于多个样本音频的样本歌词所对应的添加标识后的样本音素，构建混合发音词典。
71.其中，上述样本音频可以有多个，则样本音频对应的样本歌词也可以有多个，进而上述样本音素也可以有多个。服务器104对多个样本音素进行标识添加后，可以基于多个添加标识后的样本音素，构建混合发音词典。即混合发音词典中包含了多个样本音素，并且每个样本音素还带有其对应的语种标识和音频风格标识。从而服务器104可以基于混合发音词典对语言模型进行训练。
72.步骤s208，根据混合发音词典训练待训练语言模型，得到目标语言模型，目标语言模型用于基于输入音频的语种以及音频风格识别输入音频的歌词发音序列。
73.其中，混合发音词典中可以包括多个带有语种标识和音频风格标识的样本音素。服务器104可以根据该混合发音词典训练待训练语言模型，从而得到目标语言模型。其中，待训练语言模型可以是一种n-gram语言模型，n-gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为n的滑动窗口操作，形成了长度是n的字节片段序列。由于上述样本音素带有其对应的语种标识和音频风格标识，服务器104通过带有语种标识和音频风格标识的样本音素训练待训练语言模型，可以得到用于针对输入音频的语种以及音频风格输出对应的歌词发音序列的目标语言模型。其中，输入音频可以是用户输入的音频，歌词发音序列可以是与用户输入的音频对应的歌词的发音序列。发音序列可以由多个音素构成。具体地，以上述样本音频是音乐歌曲为例，音乐歌曲可以分为不同的流派，即不同的音频风格，并且音乐歌曲中可以包含中英文混合的歌词，服务器104根据基于音乐流派的中英文样本歌词构造混合发音词典后，可以利用该混合发音词典中的大量歌词文本训练上述待训练语言模型，从而得到目标语言模型。
74.上述语言模型训练方法中，通过获取包含多种语种的歌词的样本音频的样本歌词，并根据样本歌词的语种和音频风格，对样本歌词对应的样本音素添加语种标识和音频风格标识，基于多个样本音频的样本歌词对应的添加标识后的样本音素，构建混合发音词典，从而基于混合发音词典训练待训练语言模型，得到目标语言模型；从而终端可以利用该目标语言模型识别包含多种语种的不同音频风格的音频中的歌词发音序列。相较于传统的通过识别音频语种再通过对应语种模型识别音频的方式，本方案中基于混合发音词典训练的语言模型，可以基于语种和流派共同识别音频中的歌词信息，能够提高音频识别的准确度。
75.在一个实施例中，根据样本歌词的语种以及样本歌词对应的样本音频的音频风格，对样本歌词包含的样本音素添加语种标识及音频风格标识，包括：根据样本歌词与标准音标的映射关系，获取样本歌词包含的样本音素；根据样本歌词对应的语种以及样本歌词对应的样本音频的音频风格，对样本音素添加语种标识及音频风格标识。
76.本实施例中，样本歌词为样本音频对应的歌词，样本歌词具有对应的语种信息，并且其对应的样本音频也有对应的音频风格。服务器104可以对不同风格的样本音频中的不同语种的歌词进行分类和区分。服务器104可以根据样本歌词与标准音标的映射关系，获取样本歌词对应的样本音素。服务器104得到样本音素后，可以根据样本歌词对应的语种，以及该样本歌词对应的样本音频的音频风格，对其对应的样本音素添加对应的标识，从而实现对样本音素添加对应的语种标识和音频风格标识。其中，标准音标可以是国际音标。以上述样本音频是歌曲音频为例，服务器104可以基于国际音标的映射关系，将上述样本歌词与对应的音素进行映射，得到每个样本歌词对应的样本音素，服务器104可以基于多个样本音素构成原始的混合词典。服务器104可以基于上述原始混合词典中各个样本音素的语种和音频风格上的差异，向各个样本音素添加对应的标识，从而实现对不同语种和不同音频风格的音素的区分。
77.具体地，服务器104可以基于样本歌词的语种和音频风格，对其对应的样本音素分别添加不同的标识。例如，在一个实施例中根据样本歌词对应的语种以及样本音频对应的音频风格，对样本音素添加对应标识，包括：根据样本歌词的语种，对样本音素添加语种标识，得到第一标识后样本音素；根据第一标识后样本音素对应的样本音频的音频风格，对第一标识后样本音素添加音频风格标识，得到第二标识后样本音素，作为添加标识后的音素。本实施例中，服务器104可以获取样本歌词对应的语种，其中样本歌词中可以包括多种语种，例如可以包括中文和英文的歌词，则服务器104可以基于每个样本歌词的语种，对其对应的样本音素添加语种标识，得到第一标识后的样本音素。具体地，对于同一个歌词a，其在不同的语种中的发音方式会不同，对于中文歌词，服务器104可以在样本歌词对应的样本音素中添加“_chn”后缀；对于英文歌词，服务器104可以在样本歌词对应的样本音素中添加“_eng”后缀，从而服务器104可以区分相同音素在中文语言和英文语言上的差异，确保相同音素在识别阶段可以对应两条不同的语言解码路径。
78.服务器104得到上述添加语种标识的第一标识后样本音素后，可以获取每个第一标识后样本音素对应的样本音频的音频风格，并基于每个样本音频的音频风格，对其对应的第一标识后样本音频添加对应的音频风格标识，实现对样本音素的音频风格的区分，得到第二标识后样本音素，即第二标识后样本音素中可以包含语种标识以及音频风格标识，
服务器104可以将上述第二标识后样本音素，作为上述用于构建混合发音词典的添加标识后的音素。具体地，以上述样本音频是歌曲音频为例，上述音频风格可以是音乐流派，包括流行音乐、嘻哈音乐、重金属音乐和其他音乐等。服务器104可以按照音乐流派，为上述各个添加了语种标识的样本音素添加对应的音频风格标识，例如添加“_pop”后缀、“_hiphop”后缀、“_metal”后缀、“_other”后缀，用以表示相同音素在不同流派中的发音差异。其中，其他音乐可以是不属于上述三种类型的音频风格的音乐。服务器104对不同语种的歌词再根据流派进行区分，可以在歌词发音序列的确定步骤中，基于语种的解码路径搜索上继续细分解码路径，即同一个音素，经过语言和音乐流派的区分后，可以从一条路径细分为多条。从而服务器104可以基于不同语种和不同音频风格的样本音素构建混合发音词典，并训练得到目标语言模型，实现基于目标语言模型识别包含多种语种的歌词且音频风格不同的音频的文本识别。
79.通过上述实施例，服务器104可以通过对不同语种的样本歌词对应的音素添加对应语种的标识，并对不同音频风格的音频的音素添加对应音频风格的标识，从而服务器104可以基于包含语种标识和音频风格标识的音素构建混合发音词典，并基于混合发音词典训练得到目标语言模型，实现对多种语种混合且不同音频风格的音频的歌词发音序列的识别，从而提高了音频识别的准确度。
80.在一个实施例中，如图3所示，提供了一种音频识别方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：
81.步骤s302，获取待识别音频中的每帧音频的音频特征；根据每帧音频的音频特征，获取每帧音频所属的发音状态。
82.其中，待识别音频可以是用户输入的音频，用户可以通过终端102录音待识别音频，从而终端102可以将待识别音频发送至服务器104中。服务器104可以获取到用户的待识别音频，并从中提取中待识别音频的音频特征。其中，待识别音频可以是包含多种语种的歌词的音频。例如，上述待识别音频可以是包含中英文混合歌词的歌曲，服务器104可以从该中英文混合歌曲中提取音频特征，具体地，上述音频特征可以是mfcc(mel frequency cepstrum coefficient，梅尔频率倒谱系数)，即服务器104可以提取上述待识别音频中的梅尔频率倒谱系数。其中，mel(梅尔)频率是基于人耳听觉特性提出来的，它与hz频率成非线性对应关系，mel频率倒谱系数(mfcc)则是利用它们之间的这种关系，计算得到的hz频谱特征。
83.服务器104提取到待识别音频中的音频特征后，可以基于音频特征获取待识别音频中每帧音频所属的发音状态。其中，发音状态可以表示音频中一个音素的发音过程中的不同部分的发音，例如，对于音素“w”，在其发音过程中，其可以对应有三个发音状态，包括发音起始状态、发音中间状态以及发音结尾状态，即发音状态是最小发音单位，发音状态可以包含发音起始状态、发音中间状态和发音结尾状态。其中，上述发音状态可以基于预设的状态识别模型进行识别，其中，上述状态识别模型可以是一种神经网络模型。
84.步骤s304，将每帧音频的音频特征及其发音状态输入目标语言模型，通过目标语言模型识别每帧音频之间的关联关系，并根据关联关系确定待识别音频的歌词发音序列；目标语言模型根据如上述的语言模型训练方法训练得到。
85.其中，上述音频特征可以是音频的mfcc系数，服务器104可以将上述待识别音频以
帧为单位进行分割，得到多帧音频，并且，每帧音频均对应一种发音状态，服务器104可以将每帧音频的音频特征及其对应的发音状态输入目标语言模型，并通过目标语言模型对输入的音频特征及其发音状态识别每帧音频之间的关联关系，例如服务器104可以通过目标语言模型中带有语种标识的音频风格标识的样本音素识别输入的每帧音频的音频特征之间的关联程度，以及每帧音频的发音状态之间的关联程度，从而目标语言模型可以结合音频特征之间的关联程度以及发音状态之间的关联程度，确定每帧音频之间的关联关系，并基于该关联关系确定待识别音频的歌词发音序列。其中，上述目标语言模型可以是基于上述的语言模型训练方法训练得到的模型。歌词发音序列可以是由多帧音频对应的音素组成的序列，服务器104可以通过目标语言模型识别出最优的包含多个帧的发音状态的状态序列后，再将状态序列转换为歌词发音序列。
86.步骤s306，根据歌词发音序列，识别待识别音频对应的歌词文本。
87.其中，歌词发音序列可以是包含多个帧的音素组成的音素序列。服务器104得到上述歌词发音序列后，可以将歌词发音序列转换成文字，从而得到最终的歌词识别结果。其中，由于一个音素可以对应有多个文字，例如音素“wan”，可以对应“玩”、“万”或“晚”等文字，因此服务器104可以通过上述目标语言模型识别音素序列中的音素所属的语种及其对应的音频的音频风格，从而基于语种和音频风格确定出最大概率的文字，服务器104可以通过目标语言模型为每个音素均识别出多个候选的文字，这些候选的文字中可以包括不同语种且所属音频的音频风格不同的文字，音素及其对应的每个候选文字之间可以包含对应的概率，则服务器104可以基于音素序列中的每个音素关联的候选文字，形成多个候选的文字序列，从而服务器104可以计算这些候选的文字序列中各个候选文字对应的概率的乘积，并获取概率的乘积的最大值，将该最大值对应的候选文字序列，作为最终的歌词识别结果，从而得到待识别音频的歌词文本。
88.上述音频识别方法中，通过将待识别音频中的音频特征以及每帧音频的发音状态输入目标语言模型，通过基于混合发音词典训练的目标语言模型识别每帧音频之间的关联关系，确定待识别音频的歌词发音序列，从而根据歌词发音序列识别待识别音频对应的歌词文本。相较于传统的通过识别音频语种再通过对应语种模型识别音频的方式，本方案利用基于混合发音词典训练语言模型，语言模型可以基于语种和流派共同识别音频中的歌词信息，能够提高音频识别的准确度。
89.在一个实施例中，根据每帧音频的音频特征，获取每帧音频所属的发音状态，包括：针对待识别音频中的每帧音频，将该帧音频对应的音频特征输入预设状态识别模型，获取预设状态识别模型输出的该帧音频为发音起始状态的第一概率、该帧音频为发音中间状态的第二概率以及该帧音频为发音结尾状态的第三概率；将第一概率、第二概率以及第三概率中的最大值对应的发音状态作为该帧音频所属的发音状态。
90.本实施例中，发音状态可以包括发音起始状态、发音中间状态和发音结尾状态。服务器104可以提取待识别音频中每帧音频的音频特征，并基于每帧音频的音频特征识别出每帧音频的发音状态。上述待识别音频可以包含多帧音频，则对于待识别音频中的每帧音频，服务器104可以将该帧音频对应的音频特征输入预设状态识别模型，并获取预设状态识别模型输出的该帧音频对应于不同发音状态的概率，包括该帧音频为发音起始状态的第一概率、该帧音频为发音中间状态的第二概率以及该帧音频为发音结尾状态的第三概率，从
而服务器104可以基于这些概率确定该帧音频所属的发音状态。例如，服务器104可以将上述第一概率、第二概率和第三概率中的最大值，作为该帧音频所属的发音状态，从而服务器104可以通过对多帧音频进行上述处理，得到待识别音频中每帧音频对应的发音状态。其中，如图4所示，图4为一个实施例中状态识别步骤的流程示意图。上述预设状态识别模型可以是一种神经网络模型dnn(deep neural networks，深度神经网络)，服务器104可以将上述音频特征输入到深度神经网络中，神经网络中的每个输出节点表示一个hmm(hidden markov model，隐马尔科夫模型)状态，即上述发音状态可以是一种hmm状态。例如对于一个带有语种标识和音频风格标识的音素a_chn_pop，其可以对应三个hmm状态，分别表示该音素的发音起始阶段、发音中途阶段、发音结尾阶段，其中a表示音素名，chn表示语种标识，pop表示音频风格标识；并且上述每帧音频可以对应一个状态，上述dnn模型可以作为状态分类器，输出待识别音频中每帧音频属于每个状态的概率，该概率可以是hmm模型的发射概率，如图4中的s1,
···
,sk，表示不同的hmm状态，每个状态可以对应有转移概率和观测概率，layer n表示上述深度神经网络模型中的不同层，speech features表示音频特征。则服务器104可以通过上述神经网络模型得到待识别音频中每帧对应每个发音状态的概率，并且服务器104还可以基于这些概率进行最优状态路径的识别。其中，该识别可以通过上述目标语言模型识别相邻帧状态的转移概率实现。
91.通过本实施例，服务器104可以基于设定的状态识别模型，识别出每帧音频对应的发音状态，从而服务器104可以基于每帧音频的发音概率，确定出每帧音频之间的关联关系，从而基于该关联关系对待识别音频进行文字识别，提高了音频识别的准确度。
92.在一个实施例中，将每帧音频的音频特征及其发音状态输入目标语言模型，通过目标语言模型识别每帧音频之间的关联关系，并根据关联关系确定待识别音频的歌词发音序列，包括：针对待识别音频中的每帧音频，将该帧音频的音频特征及其对应的发音状态输入目标语言模型；通过目标语言模型识别音频特征对应的歌词的语种以及音频特征对应的待识别音频的音频风格，并根据识别到的语种、音频风格以及该帧音频的发音状态，确定该帧音频的多个关联发音状态，以及每个关联发音状态的转移概率；关联发音状态表征该帧音频对应的下一帧音频的发音状态；转移概率表征从该帧音频的发音状态转换为关联发音状态的概率；根据每帧音频对应的发音状态以及每帧音频对应的多个关联发音状态，构建多个待识别状态序列；各个待识别状态序列中包含多帧音频对应的发音状态，且相邻两帧音频的发音状态中的后者为前者的关联发音状态；根据待识别状态序列中相邻两帧音频的发音状态之间的转移概率，从多个待识别状态序列中确定待识别音频的歌词发音序列。
93.本实施例中，服务器104可以将上述每帧音频的音频特征以及发音状态输入目标语言模型中，并通过目标语言模型识别每帧音频之间的关联关系。而上述待识别音频中可以包含多帧音频，对于待识别音频中的每帧音频，服务器104可以将该帧音频的音频特征及其对应的发音状态输入目标语言模型，并通过目标语言模型识别音频特征对应的歌词的语种以及音频特征对应的待识别音频的音频风格，从而服务器104可以根据音频特征对应的歌词的语种、音频特征对应的待识别音频的音频风格以及该帧音频的发音状态，输出该帧音频对应的关联发音状态及其转移概率。其中，关联发音状态可以表示该帧音频对应的下一帧音频的发音状态，并且关联发音状态可以是从该帧音频以外的其他帧音频的发音状态中确定；转移概率可以表示该帧音频的发音状态转换为上述关联发音状态的概率，其中，由
于上述关联发音状态可以有多个，则上述转移概率也可以有多个，即每个发音状态及其关联发音状态之间均可以有对应的转移概率。转移概率是马尔可夫链中的重要概念，若马氏链分为m个状态，历史资料转化为由这m个状态所组成的序列。从任意一个状态出发，经过任意一次转移，必然出现状态1、2、
……
，m中的一个，这种状态之间的转移称为转移概率。具体地，如图5所示，图5为一个实施例中状态转移步骤的流程示意图。服务器104可以通过神经网络确定出每帧音频的发音状态，并通过目标语言模型识别出不同帧音频之间的状态的转移概率，如图5所示，sa、sb和sc表示不同的发音状态，三个状态之间可以自转移，也可以转移到任意其他状态，而转移的概率可以由上述目标语言模型确定。
94.服务器104得到上述每帧音频对应的发音状态以及每帧音频对应的关联发音状态后，可以基于每帧音频对应的发音状态和每帧音频对应的关联发音状态，构建待识别状态序列，其中，各个待识别状态序列包含多帧音频对应的发音状态以及每帧音频对应的关联发音状态，并且，每帧音频对应的关联发音状态可以有多个。服务器103可以基于待识别状态序列中相邻帧音频的发音状态之间的转移概率，从多个待识别状态序列中确定出一个序列，作为待识别音频的歌词发音序列。具体地，服务器104可以通过上述dnn计算每个帧音频所属的发音状态的发射概率(即输出概率)，通过上述目标语言模型计算出每帧音频的发音状态与其关联发音状态之间的转移概率，从而服务器104可以基于这些概率得到多条解码路径，服务器104可以从这些解码路径形成的多个待识别状态序列中，选出一个序列，作为最终的识别结果。其中，由于每帧音频对应的音素可以对应多种语种和多种不同的音频风格，即一个音素可以扩展为多个音素，若列举出所有路径进行概率值的比较，计算量较大，因此服务器104可以通过维特比解码算法，从多个待识别状态序列中得到最终的一个序列作为待识别音频的歌词发音序列。
95.通过本实施例，服务器104可以通过计算多个状态序列中每个状态序列中相邻帧的转移概率，确定出最优的一个状态序列，从而服务器104可以基于该最优的状态序列进行音频识别，提高了音频识别的准确度。
96.在一个实施例中，根据待识别状态序列中相邻帧音频的发音状态之间的转移概率，从多个待识别状态序列中确定待识别音频的歌词发音序列，包括：根据待识别状态序列中相邻两帧发音状态之间的转移概率，从多个待识别状态序列中确定目标状态序列；将目标状态序列转换为音素序列，作为待识别音频的歌词发音序列。
97.本实施例中，待识别状态序列中可以包括多帧音频对应的发音状态，以及每帧音频对应的关联发音状态，从而服务器104可以根据待识别状态序列中相邻帧发音状态之间的转移概率，从多个待识别状态序列中确定出目标状态序列。其中，服务器104可以通过对每条待识别状态序列中的多个转移概率进行乘积，基于乘积确定出目标状态序列。例如，在一个实施例中，根据待识别状态序列中相邻帧音频的发音状态之间的转移概率，从多个待识别状态序列中确定目标状态序列，包括：获取待识别状态序列中相邻帧音频的发音状态之间的转移概率的乘积；从多个待识别状态序列中确定乘积的最大值对应的待识别状态序列，作为目标状态序列。本实施例中，服务器104可以获取待识别状态序列中相邻帧音频的发音状态之间的转移概率的乘积，而待识别状态序列可以有多条，服务器104计算得到的乘积也可以有多个，服务器104可以将上述转移概率的乘积中的最大值对应的待识别状态序列作为目标状态序列。
98.服务器104计算得到目标状态序列后，可以将目标状态序列转换为音素序列，从而将该音素序列作为待识别音频的歌词发音序列。其中，服务器104可以基于目标语言模型将目标状态序列转换为音素序列。例如，在一个实施例中，将目标状态序列转换为音素序列，作为待识别音频的歌词发音序列，包括：将目标状态序列输入目标语言模型，由目标语言模型识别目标状态序列中的每个发音状态组合对应于各个已知语种以及已知音频风格的关联音素以及所述关联音素的概率，得到每个发音状态组合的多个关联音素及其概率；发音状态组合包括发音起始阶段、发音中间阶段以及发音结尾阶段；根据目标状态序列中的每个发音状态组合对应的关联音素，确定多个关联音素序列；获取关联音素序列中相邻两关联音素之间的概率的乘积；根据概率的乘积的最大值对应的关联音素序列，得到待识别音频的歌词发音序列。
99.本实施例中，服务器104可以基于目标状态序列中的多个帧音频的发音状态及其关联发音状态，得到对应的发音状态组合，发音状态组合中可以包括发音起始阶段、发音中间阶段以及发音结尾阶段。服务器104可以将上述得到的目标状态序列输入目标语言模型，基于目标语言模型识别得到目标状态序列中的发音状态组合对应于目标语言模型的各个语种以及各个音频风格的音素的概率，为了便于与其他音素区分，所识别的音素可以称为关联音素，也就是说，基于目标语言模型可以识别得到多个关联音素及每个关联音素对应的概率。即上述发音状态组合可以形成一种音素，例如服务器104基于三个阶段的发音状态组合组成“w”的音素，则该音素对应于目标语言模型的多种识别结果，例如可以是中文歌词的w_chn音素，也可以是英文歌词的w_eng音素，还可以是不同音频风格的w音素。即上述每个发音状态组合可以对应多个关联音素，服务器104可以根据目标状态序列中的每个发音状态组合对应的多个关联音素，将多个发音状态组合对应的关联音素进行排列组合，确定出多个关联音素序列。并且服务器104还可以确定出关联音素序列中各个关联音素之间的相互转换的概率，获取每个关联音素序列中相邻关联音素之间的概率乘积，从而服务器104可以根据该概率乘积的最大值对应的关联音素序列，得到待识别音频的歌词发音序列。
100.通过上述实施例，服务器104可以基于目标语言模型识别得到多个状态序列和多个音素序列，并基于这些序列中每个转移概率的乘积，确定出最优的序列，从而服务器104基于最优序列得到待识别音频的歌词发音序列，提高了音频识别的准确度。
101.在一个实施例中，如图6所示，图6为另一个实施例中音频识别方法的流程示意图。包括以下步骤：以待识别音频是包含中英文混合歌词的歌曲为例，上述音频风格可以是音乐流派，包括流行音乐、嘻哈音乐、重金属音乐，其他不属于这三类的都归为其他音乐。服务器104可以首先构建基于流派的中英文混合发音词典。具体地，服务器104可以从大量中英混合歌词中分离出中文歌词和英文歌词，并进行去重后，得到字词集合；服务器104根据国际音标的映射关系，得到上述中文歌词和英文歌词对应的音素，并基于这些音素构建原始的混合词典。服务器104可以基于词典中音素的歌词语种添加语种标识，例如“_chn”后缀和“_eng”后缀，用以区分相同音素在中文语言和英文语言上的差异；服务器104还可以基于词典中音素对应的音频的音乐流派信息，添加音频风格标识，例如“_pop”后缀、“_hiphop”后缀、“_metal”后缀、“_other”后缀，用以表示相同音素在不同流派中的发音差异。从而服务器104可以基于上述添加了语种标识和音频风格标识后的音素，构建得到基于流派的中英文混合发音词典，服务器104可以基于该中英文混合发音词典，利用大量歌词文本，训练得
到n-gram目标语言模型(即语言模型)。
102.另外，服务器104还可以从用户输入的中英文混合歌曲中提取出音频特征，提取方法可以如上述的方法所示。服务器104可以将上述音频特征输入上述的dnn模型和hmm模型，得到每帧音频特征对应的发音状态、每帧音频特征对应的关联发音状态及其转移概率。服务器104可以结合上述目标语言模型，通过考虑不同语种以及不同音频风格的音素的发音状态与状态序列组合中的各个帧的状态之间的匹配度，确定出状态序列组合中相邻帧之间状态转移的转移概率，并基于这些转移概率进行最优的解码路径搜索，得到最优的一条目标状态序列，服务器104可以基于该最优的目标状态序列，通过如上述的状态序列-音素序列转换方法将其转换为音素序列，再通过如上述的音素序列-文字序列转换方法将音素序列转换为文字，从而得到最终的歌词识别结果。
103.通过本实施例，服务器104可以利用基于混合发音词典训练的语言模型，并基于语种和流派共同识别音频中的歌词信息，能够提高音频识别的准确度。
104.应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
105.基于同样的发明构思，本技术实施例还提供了一种用于实现上述所涉及的语言模型训练方法的语言模型训练装置、音频识别方法的音频识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个音频识别装置实施例中的具体限定可以参见上文中对于语言模型训练方法、音频识别方法的限定，在此不再赘述。
106.在一个实施例中，如图7所示，提供了一种语言模型训练装置，包括：音频获取模块500、添加模块502、构建模块504和训练模块506，其中：
107.音频获取模块500，用于获取多个样本音频及各样本音频的样本歌词，其中多个样本音频对应多种音频风格且样本音频对应的样本歌词包含多个语种。
108.添加模块502，用于根据样本歌词的语种以及样本歌词对应的样本音频的音频风格，对样本歌词包含的样本音素添加语种标识及音频风格标识。
109.构建模块504，用于基于多个样本音频的样本歌词所对应的添加标识后的样本音素，构建混合发音词典。
110.训练模块506，用于根据混合发音词典训练待训练语言模型，得到目标语言模型，目标语言模型用于基于输入音频的语种以及音频风格识别输入音频的歌词发音序列。
111.在一个实施例中，上述音频获取模块500，具体用于获取样本音频对应的音频歌词，对音频歌词进行去重，得到样本歌词。
112.在一个实施例中，上述添加模块502，具体用于根据样本歌词与标准音标的映射关系，获取样本歌词包含的样本音素；根据样本歌词对应的语种以及样本歌词对应的样本音频的音频风格，对样本音素添加语种标识及音频风格标识。
113.在一个实施例中，上述添加模块502，具体用于根据样本歌词的语种，对样本音素添加语种标识，得到第一标识后样本音素；根据第一标识后样本音素对应的样本音频的音频风格，对第一标识后样本音素添加音频风格标识，得到第二标识后样本音素，作为添加标识后的音素。
114.在一个实施例中，如图8所示，提供了一种音频识别装置，包括：状态获取模块600、确定模块602和识别模块604，其中：
115.状态获取模块600，用于获取待识别音频的每帧音频的音频特征；根据每帧音频的音频特征，获取每帧音频所属的发音状态。
116.确定模块602，用于将每帧音频的音频特征及其发音状态输入目标语言模型，通过目标语言模型识别每帧音频之间的关联关系并根据关联关系确定待识别音频的歌词发音序列；目标语言模型根据如上述的语言模型训练方法训练得到。
117.识别模块604，用于根据歌词发音序列，识别待识别音频对应的歌词文本。
118.在一个实施例中，上述状态获取模块600，具体用于针对待识别音频中的每帧音频，将该帧音频对应的音频特征输入预设状态识别模型，获取预设状态识别模型输出的该帧音频为发音起始状态的第一概率、该帧音频为发音中间状态的第二概率以及该帧音频为发音结尾状态的第三概率；将第一概率、第二概率以及第三概率中的最大值对应的发音状态作为该帧音频所属的发音状态。
119.在一个实施例中，上述确定模块602，具体用于针对待识别音频中的每帧音频，将该帧音频的音频特征及其对应的发音状态输入目标语言模型；通过目标语言模型识别音频特征对应的歌词的语种以及音频特征对应的待识别音频的音频风格，并根据识别到的语种、音频风格以及该帧音频的发音状态，确定该帧音频的多个关联发音状态，以及每个关联发音状态的转移概率；关联发音状态表征该帧音频对应的下一帧音频的发音状态；转移概率表征从该帧音频的发音状态转换为关联发音状态的概率；根据每帧音频对应的发音状态以及每帧音频对应的多个关联发音状态，构建多个待识别状态序列；各个待识别状态序列中包含多帧音频对应的发音状态，且相邻两帧音频的发音状态中的后者为前者的关联发音状态；根据待识别状态序列中相邻两帧音频的发音状态之间的转移概率，从多个待识别状态序列中确定待识别音频的歌词发音序列。
120.在一个实施例中，上述确定模块602，具体用于根据待识别状态序列中相邻两帧发音状态之间的转移概率，从多个待识别状态序列中确定一个目标状态序列；将目标状态序列转换为音素序列，作为待识别音频的歌词发音序列。
121.在一个实施例中，上述确定模块602，具体用于获取待识别状态序列中相邻帧音频的发音状态之间的转移概率的乘积；从多个待识别状态序列中确定乘积的最大值对应的待识别状态序列，作为目标状态序列。
122.在一个实施例中，上述确定模块602，具体用于将目标状态序列输入目标语言模型，由目标语言模型识别目标状态序列中的每个发音状态组合对应于各个已知语种以及已知音频风格的关联音素以及关联音素的概率，得到每个发音状态组合的多个关联音素及其概率；发音状态组合包括发音起始阶段、发音中间阶段以及发音结尾阶段；根据目标状态序列中多个发音状态组合对应的关联音素之间的排列结果，确定多个关联音素序列；获取关联音素序列中相邻两关联音素之间的概率的乘积；根据概率的乘积的最大值对应的关联音
素序列，得到待识别音频的歌词发音序列。
123.上述音频识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
124.在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语言模型训练方法和音频识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。
125.本领域技术人员可以理解，图9中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
126.在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述的语言模型训练方法和音频识别方法。
127.在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的语言模型训练方法和音频识别方法。
128.在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的语言模型训练方法和音频识别方法。
129.需要说明的是，本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。
130.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory，rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory，mram)、铁电存储器(ferroelectric random access memory，fram)、相变存储器(phase change memory，pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory，ram)或外部高速缓冲存储器等。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory，sram)或动态随机存取存储器(dynamic random access memory，dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，
不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。
131.以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
132.以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本技术专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于鲸鱼算法的主动噪声控制算法的步长和阶数选取方法

语言模型训练方法、音频识别方法和计算机设备与流程

相关文献

最热文献