语音识别模型训练方法、语言识别方法及电子设备与流程

2022-06-05 13:58:58 来源：中国专利 TAG：

1.本公开涉及电子技术领域，尤其涉及一种语音识别模型训练方法、语音识别方法、语音识别模型训练装置、语音识别装置及电子设备。

背景技术：

2.由于过去很长时间里，语音识别都是基于单通道训练的，积累了大量各种设备、经过前端处理后的单通道数据。但是对于多通道的语音数据的质和量均存在不足，导致目前基于多通道数据训练的端到端模型训练不佳。

技术实现要素：

3.本公开提供一种语音识别模型训练方法、语音识别方法、语音识别模型训练装置、语音识别装置及电子设备。
4.本公开实施例的第一方面，提供一种语音识别模型训练方法，包括：
5.基于预先确定的多通道训练数据对预设的神经网络模型进行训练，得到第一模型，其中，所述多通道训练数据基于语音识别的实际场景确定，所述多通道训练数据至少包括文本标签以及与所述文本标签对应的多个语音数据，一个所述语音数据对应输入所述神经网络模型的一个输入通道；
6.基于所述第一模型，在获取的多通道仿真数据中确定出与所述实际场景匹配的所述多通道仿真数据，其中所述多通道仿真数据由预先确定的单通道训练数据仿真得到，其中所述单通道训练数据至少包括与所述多通道训练数据相同的文本标签以及与所述文本标签对应的一个语音数据，所述多通道仿真数据的多个语音数据由所述单通道训练数据的语音数据仿真得到；
7.基于所述多通道训练数据以及所述与所述实际场景匹配的多通道仿真数据，训练所述第一模型，得到第二模型。
8.在一些实施例中，所述基于所述第一模型，在获取的多通道仿真数据中确定出与所述实际场景匹配的所述多通道仿真数据，至少包括：
9.获取所述多通道仿真数据；
10.基于所述第一模型，对所述多通道仿真数据进行置信度确定，得到置信度符合预定条件的所述多通道仿真数据；
11.确定所述置信度符合所述预定条件的多通道仿真数据为与所述实际场景匹配的多通道仿真数据。
12.在一些实施例中，所述预定条件至少包括预定阈值；
13.所述置信度符合预定条件，至少包括：所述置信度大于所述预定阈值；
14.所述确定所述置信度符合所述预定条件的多通道仿真数据为与所述实际场景匹配的多通道仿真数据，包括：
15.确定置信度大于所述预定阈值的多通道仿真数据为与所述实际场景匹配的多通
道仿真数据。
16.在一些实施例中，所述基于所述第一模型，在获取的多通道仿真数据中确定出与所述实际场景匹配的所述多通道仿真数据前，所述方法包括：
17.预先确定进行数据仿真时的语音识别条件；
18.基于所述单通道训练数据，仿真得到所述语音识别条件下产生的所述多通道仿真数据，其中所述语音识别条件至少包括以下之一：
19.所述语音识别模型的通道数；
20.音频输出设备与音频输入设备间的相对位置；
21.数据仿真时预先确定的声源位置；其中所述音频输出设备与音频输入设备均可以作为所述神经网络模型的输入通道。
22.在一些实施例中，所述多通道仿真数据中至少包含有：
23.参考通道数据；所述参考通道数据确定为所述音频输出设备输出的音频数据；
24.录音通道数据；所述录音通道数据确定为所述音频输入设备输入的音频数据，其中所述录音通道数据至少包括两个录音通道输入的音频数据；其中一个音频输入设备用于形成一个录音通道。
25.在一些实施例中，所述基于所述第一模型，在获取的多通道仿真数据中确定出与所述实际场景匹配的所述多通道仿真数据，至少还包括：
26.基于所述第一模型，对所述多通道仿真数据进行置信度确定，滤除置信度不符合所述预定条件的多通道仿真数据。
27.在一些实施例中，所述基于所述第一模型，对所述多通道仿真数据进行置信度确定，至少包括：
28.基于所述第一模型，通过对所述多通道仿真数据中音频信号的幅值和相位进行判断，确定出所述多通道仿真数据对应的置信度。
29.本公开实施例的第二方面提供一种语音识别方法，包括：
30.获取待识别的语音；
31.基于预先训练的神经网络模型，识别所述语音中的文本；其中，所述神经网络模型为基于多通道训练数据以及与所述实际场景匹配的多通道仿真数据训练得到；所述多通道仿真数据由预先确定的单通道训练数据仿真得到；
32.其中所述单通道训练数据至少包括与所述多通道训练数据相同的文本标签以及与所述文本标签对应的一个语音数据，所述多通道仿真数据的多个语音数据由所述单通道训练数据的语音数据仿真得到。
33.本公开实施例的第三方面提供一种语音识别模型训练装置，包括：
34.第一处理单元，用于基于预先确定的多通道训练数据对预设的神经网络模型进行训练，得到第一模型，其中，所述多通道训练数据基于语音识别的实际场景确定，所述多通道训练数据至少包括文本标签以及与所述文本标签对应的多个语音数据，一个所述语音数据对应输入所述神经网络模型的一个输入通道；
35.第二处理单元，用于基于所述第一模型，在获取的多通道仿真数据中确定出与所述实际场景匹配的所述多通道仿真数据，其中所述多通道仿真数据由预先确定的单通道训练数据仿真得到，其中所述单通道训练数据至少包括与所述多通道训练数据相同的文本标
签以及与所述文本标签对应的一个语音数据，所述多通道仿真数据的多个语音数据由所述单通道训练数据的语音数据仿真得到；
36.第三处理单元，用于基于所述多通道训练数据以及所述与所述实际场景匹配的多通道仿真数据，训练所述第一模型，得到第二模型。
37.在一些实施例中，所述第二处理单元，具体用于
38.获取所述多通道仿真数据；
39.基于所述第一模型，对所述多通道仿真数据进行置信度确定，得到置信度符合预定条件的所述多通道仿真数据；
40.确定所述置信度符合所述预定条件的多通道仿真数据为与所述实际场景匹配的多通道仿真数据。
41.在一些实施例中，所述预定条件至少包括预定阈值；
42.所述置信度符合预定条件，至少包括：所述置信度大于所述预定阈值；
43.所述第二处理单元，具体还用于
44.确定置信度大于所述预定阈值的多通道仿真数据为与所述实际场景匹配的多通道仿真数据。
45.在一些实施例中，所述基于所述第一模型，在获取的多通道仿真数据中确定出与所述实际场景匹配的所述多通道仿真数据前，所述第二处理单元，具体还用于
46.预先确定进行数据仿真时的语音识别条件；
47.基于所述单通道训练数据，仿真得到所述语音识别条件下产生的所述多通道仿真数据。
48.在一些实施例中，所述语音识别条件至少包括以下之一：
49.所述语音识别模型的通道数；
50.音频输出设备与音频输入设备间的相对位置；
51.数据仿真时预先确定的声源位置。
52.在一些实施例中，所述多通道仿真数据中至少包含有：
53.参考通道数据；所述参考通道数据确定为所述音频输出设备输出的音频数据；
54.录音通道数据；所述录音通道数据确定为所述音频输入设备输入的音频数据。
55.在一些实施例中，所述录音通道数据至少包括两个录音通道输入的音频数据；其中一个音频输入设备用于形成一个录音通道。
56.在一些实施例中，所述第二处理单元，具体还用于
57.基于所述第一模型，对所述多通道仿真数据进行置信度确定，滤除置信度不符合所述预定条件的多通道仿真数据。
58.在一些实施例中，所述第二处理单元，具体还用于
59.基于所述第一模型，通过对所述多通道仿真数据中音频信号的幅值和相位进行判断，确定出所述多通道仿真数据对应的置信度。
60.本公开实施例的第四方面提供一种语音识别装置，包括：
61.第一处理单元，用于获取待识别的语音；
62.第二处理单元，用于基于预先训练的神经网络模型，识别所述语音中的文本；其中，所述神经网络模型为基于多通道训练数据以及与所述实际场景匹配的多通道仿真数据
训练得到；所述多通道仿真数据由预先确定的单通道训练数据仿真得到；
63.其中所述单通道训练数据至少包括与所述多通道训练数据相同的文本标签以及与所述文本标签对应的一个语音数据，所述多通道仿真数据的多个语音数据由所述单通道训练数据的语音数据仿真得到。
64.本公开实施例的第五方面，提供一种电子设备，包括：处理器和存储器，所述存储器上存储有能够在处理器上运行的计算机程序，所述处理器用于运行所述计算机程序时，执行第一方面和第二方面所述方法的步骤。
65.本公开的实施例提供的技术方案可以包括以下有益效果：
66.本公开实施例中的语音识别模型训练方法包括：基于预先确定的多通道训练数据对预设的神经网络模型进行训练，得到第一模型，其中，多通道训练数据基于语音识别的实际场景确定，多通道训练数据至少包括文本标签以及与文本标签对应的多个语音数据，一个语音数据对应输入神经网络模型的一个输入通道；基于第一模型，在获取的多通道仿真数据中确定出与实际场景匹配的多通道仿真数据，其中多通道仿真数据由预先确定的单通道训练数据仿真得到，其中单通道训练数据至少包括与多通道训练数据相同的文本标签以及与文本标签对应的一个语音数据，多通道仿真数据的多个语音数据由单通道训练数据的语音数据仿真得到；基于多通道训练数据以及与实际场景匹配的多通道仿真数据，训练第一模型，得到第二模型。本技术中在解决多通道训练数据不足的问题时采用单通道训练数据扩增多通道仿真数据的方式来增加训练数据，同时在多通道仿真数据中选取与实际场景匹配的仿真数据作为训练第二模型的训练数据，其中，多通道仿真数据的多个语音数据由所述单通道训练数据的语音数据仿真得到。多通道仿真数据的多个语音数据可与多通道训练数据的多个语音数据不同。如此不仅解决了多通道训练数据不足的问题，同时优化了作为训练数据的多通道仿真数据，使得用于训练模型的多通道仿真数据与语音识别的实际场景更加匹配，进而可有效提高训练模型的语言识别性能。
67.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
68.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。
69.图1是根据一示例性实施例示出的一种语音识别模型训练方法流程图。
70.图2是根据一示例性实施例示出的一种语音识别模型训练方法中的第一模型训练示意图图像拍摄流程图一。
71.图3是根据一示例性实施例示出的一种语音识别模型训练方法中的多通道仿真数据仿真示意图。
72.图4是根据一示例性实施例示出的一种语音识别模型训练方法中的第二模型训练示意图。
73.图5是根据一示例性实施例示出的一种语音识别模型训练装置结构示意图。
74.图6是根据一示例性实施例示出的一种电子设备设备的框图。
具体实施方式
75.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置的例子。
76.由于过去很长时间里，语音识别都是基于单通道训练的，积累了大量各种设备、经过前端处理后的单通道数据。但是对于多通道的语音数据的质和量均存在不足，导致目前基于多通道数据训练的端到端模型训练不佳。
77.为了提升多通道端到端语音识别模型的性能，通常采用多通道数据增广的方法，增加数据规模和场景的覆盖度，但是仿真数据和真实数据的分布差距过大，会带来数据与实际场景不匹配问题，引起训练得到的模型性能不升反降的现象。
78.本公开实施例提供一种语音识别模型训练方法。图1是根据一示例性实施例示出的一种语音识别模型训练方法流程图。如图1所示，语音识别模型训练方法包括：
79.步骤10、基于预先确定的多通道训练数据对预设的神经网络模型进行训练，得到第一模型，其中，所述多通道训练数据基于语音识别的实际场景确定，所述多通道训练数据至少包括文本标签以及与所述文本标签对应的多个语音数据，一个所述语音数据对应输入所述神经网络模型的一个输入通道；
80.步骤11、基于所述第一模型，在获取的多通道仿真数据中确定出与所述实际场景匹配的所述多通道仿真数据，其中所述多通道仿真数据由预先确定的单通道训练数据仿真得到，其中所述单通道训练数据至少包括与所述多通道训练数据相同的文本标签以及与所述文本标签对应的一个语音数据，所述多通道仿真数据的多个语音数据由所述单通道训练数据的语音数据仿真得到；
81.步骤12、基于所述多通道训练数据以及所述与所述实际场景匹配的多通道仿真数据，训练所述第一模型，得到第二模型。
82.本公开实施例中，多通道训练数据基于语音识别的实际场景确定，为多通道语音识别系统语音识别时输入的真实训练数据，多通道训练数据包含有参考通道数据和至少一个录音通道数据。由于录音通道的位置不同，不同录音通道对应的语音数据可不同。参考通道数据和录音通道数据均对应有文本标签以及语音数据。多通道仿真数据为通过预先确定的单通道训练数据仿真扩增得到多种语音识别应用场景下的仿真数据。其中，多通道仿真数据的多个语音数据由所述单通道训练数据的语音数据仿真得到。多通道仿真数据的多个语音数据可与多通道训练数据的多个语音数据不同。其中，多种语音识别应用场景可事先确定出，再通过单通道训练数据仿真扩增得到多种语音识别应用场景下的仿真数据。多种语音识别应用场景可以包括远场、近场、回声等任一场景。从而得到远场、近场、回声等各种场景下的仿真数据。其中，单通道训练数据为大量各种设备积累、经过前端处理后的单通道真实训练数据，单通道训练数据包含有一个录音通道数据。单通道训练数据中的参考通道数据被预先过滤。其中，参考通道数据可以确定为扬声器等音频输出设备输出的文本标签及对应语言数据，该语言数据可以包括扬声器等音频输出设备输出的音乐等。录音通道数据可以确定为音频输入设备作为录音通道时的录入的文本标签及对应语言数据，包括用户说话的语言。
83.本公开实施例中，多通道仿真数据由预先确定的单通道训练数据仿真得到，至少包括：
84.确定出语音识别应用场景；
85.根据所述语音识别应用场景，确定仿真软件的设置参数；通过设置参数使得仿真软件下仿真的应用场景趋近于实际场景；
86.基于单通道训练数据，通过仿真软件仿真得到多通道仿真数据。
87.本公开实施例中，第一模型，为通过预先确定的多通道训练数据训练得到，可以确定为基础语音识别模型。第二模型，为基于多通道训练数据以及与实际场景匹配的多通道仿真数据训练第一模型得到，可以确定为最终获得的性能优化后的语音识别模型。即第二模型为第一模型再次训练后的语言识别模型。
88.本公开实施例中的语音识别模型训练方法包括：基于预先确定的多通道训练数据对预设的神经网络模型进行训练，得到第一模型，其中，多通道训练数据基于语音识别的实际场景确定，多通道训练数据至少包括文本标签以及与文本标签对应的多个语音数据，一个语音数据对应输入神经网络模型的一个输入通道；基于第一模型，在获取的多通道仿真数据中确定出与实际场景匹配的多通道仿真数据，其中多通道仿真数据由预先确定的单通道训练数据仿真得到，其中单通道训练数据至少包括与多通道训练数据相同的文本标签以及与文本标签对应的一个语音数据，多通道仿真数据的多个语音数据由单通道训练数据的语音数据仿真得到；基于多通道训练数据以及与实际场景匹配的多通道仿真数据，训练第一模型，得到第二模型。本技术中在解决多通道训练数据不足的问题时采用单通道训练数据扩增多通道仿真数据的方式来增加训练数据，同时在多通道仿真数据中选取与实际场景匹配的仿真数据作为训练第二模型的训练数据，其中，多通道仿真数据的多个语音数据由所述单通道训练数据的语音数据仿真得到。多通道仿真数据的多个语音数据可与多通道训练数据的多个语音数据不同。如此不仅解决了多通道训练数据不足的问题，同时优化了作为训练数据的多通道仿真数据，使得用于训练模型的多通道仿真数据与语音识别的实际场景更加匹配，进而可有效提高训练模型的语言识别性能。
89.图2是根据一示例性实施例示出的一种语音识别模型训练方法中的第一模型训练示意图图像拍摄流程图一。如图2所示，采用现有的高质量标注的多通道真实数据(多通道训练数据)进行基础模型的训练，得到第一模型。
90.在一些实施例中，所述基于所述第一模型，在获取的多通道仿真数据中确定出与所述实际场景匹配的所述多通道仿真数据，至少包括：
91.获取所述多通道仿真数据；
92.基于所述第一模型，对所述多通道仿真数据进行置信度确定，得到置信度符合预定条件的所述多通道仿真数据；
93.确定所述置信度符合所述预定条件的多通道仿真数据为与所述实际场景匹配的多通道仿真数据。
94.本公开实施例中，预定条件用于作为多通道仿真数据的置信度的判断标准。当置信度符合预定条件时，可确定对应的多通道仿真数据为与实际场景匹配的多通道仿真数据。与实际场景匹配的多通道仿真数据可作为训练数据用于对语音识别模型进行训练。
95.本公开实施例中，所述基于所述第一模型，对所述多通道仿真数据进行置信度确
定，至少包括：
96.基于所述第一模型，通过对所述多通道仿真数据中音频信号的幅值和相位进行判断，确定出所述多通道仿真数据对应的置信度。
97.本公开实施例中，可通过对多通道仿真数据中音频信号的幅值和相位的分析，确定出多通道仿真数据中音频信号是否更符合实际场景下应用的信号特征；如果多通道仿真数据中音频信号更符合实际场景下应用的信号特征，则多通道仿真数据对应的置信度更高，否则对应的置信度便会偏低。
98.图3是根据一示例性实施例示出的一种语音识别模型训练方法中的多通道仿真数据仿真示意图。如图3所示，通过单通道训练数据仿真得到多通道仿真数据，基于第一模型对多通道仿真数据进行置信度确定。
99.在一些实施例中，所述预定条件至少包括预定阈值；
100.所述置信度符合预定条件，至少包括：所述置信度大于所述预定阈值；
101.所述确定所述置信度符合所述预定条件的多通道仿真数据为与所述实际场景匹配的多通道仿真数据，包括：
102.确定置信度大于所述预定阈值的多通道仿真数据为与所述实际场景匹配的多通道仿真数据。
103.本公开实施例中，当多通道仿真数据对应的置信度大于预定阈值时，可确定多通道仿真数据对应的置信度符合预定条件，此时多通道仿真数据可作为训练数据用于对语音识别模型进行训练。否则，当多通道仿真数据对应的置信度小于预定阈值时，可确定多通道仿真数据对应的置信度不符合预定条件，此时多通道仿真数据不作为训练数据，可被滤除。如此可通过置信度与预定阈值的比较，确定出可用于作为训练数据的多通道仿真数据。
104.在一些实施例中，所述基于所述第一模型，在获取的多通道仿真数据中确定出与所述实际场景匹配的所述多通道仿真数据前，所述方法包括：
105.预先确定进行数据仿真时的语音识别条件；
106.基于所述单通道训练数据，仿真得到所述语音识别条件下产生的所述多通道仿真数据。
107.本公开实施例中，语言识别应用场景可由语音识别条件构成。预先确定进行数据仿真时的语音识别条件，即预先确定进行数据仿真时的语言识别应用场景。基于所述单通道训练数据，仿真得到所述语言识别应用场景下应用的所述多通道仿真数据。
108.在一些实施例中，所述语音识别条件至少包括以下之一：
109.所述语音识别模型的通道数；
110.音频输出设备与音频输入设备间的相对位置；
111.数据仿真时预先确定的声源位置。
112.本公开实施例中，所述语音识别条件至少包括以下之一：所述语音识别模型的通道数；
113.音频输出设备与音频输入设备间的相对位置；数据仿真时预先确定的声源位置。所述语音识别模型的通道数不同，对应的需要训练的语言识别模型便会不同。即第一模型和第二模型便会不同。通道数不同，对应仿真得到的多通道仿真数据便会不同。音频输出设备与音频输入设备间的相对位置不同，数据仿真时预先确定的声源位置不同，对应构成的
语言识别应用场景便会不同，此时进行数据仿真时仿真软件的设置参数便会不同，仿真得到的多通道仿真数据便会不同。如此，通过语音识别条件确定语言识别应用场景，从而仿真得到对应语言识别应用场景下的多通道仿真数据。
114.在一些实施例中，所述多通道仿真数据中至少包含有：
115.参考通道数据；所述参考通道数据确定为所述音频输出设备输出的音频数据；
116.录音通道数据；所述录音通道数据确定为所述音频输入设备输入的音频数据。
117.本公开实施例中，音频输出设备可以为扬声器；音频输入设备可以为麦克风。参考通道可以为音频信号输出通道即如图3所示的ch0；录音通道可以为音频信号输入通道即如图3所示的chn。
118.本公开实施例中，各个录音通道对应的音频输入设备的位置不同，音频输入设备与声源的距离不同，其形成的录音通道的输入音频信号便会不同。通过改变参考通道的音频输出和录音通道的音频输入，得到各种语言识别应用场景下的多通道仿真数据。
119.在一些实施例中，所述录音通道数据至少包括两个录音通道输入的音频数据；其中一个音频输入设备用于形成一个录音通道。
120.本公开实施例中，对于语言识别模型而言，通道数不同，对应的模型便会不同。所述语言识别模型均具有参考通道，同时具有一定数量的录音通道。所述录音通道至少为一个，可以为多个。录音通道数不同，对应的模型便不同，对应得到的多通道仿真数据不同。其中，n录音通道对应的多通道仿真数据应用于n录音通道对应的模型训练。即参考通道ch0 录音通道ch1得到的多通道仿真数据应用于参考通道ch0 录音通道ch1对应的模型训练；参考通道ch0 录音通道ch1 录音通道ch2得到的多通道仿真数据应用于参考通道ch0 录音通道ch1 录音通道ch2对应的模型训练。
121.在一些实施例中，所述基于所述第一模型，在获取的多通道仿真数据中确定出与所述实际场景匹配的所述多通道仿真数据，至少还包括：
122.基于所述第一模型，对所述多通道仿真数据进行置信度确定，滤除置信度不符合所述预定条件的多通道仿真数据。
123.本公开实施例中，当多通道仿真数据对应的置信度小于预定阈值时，可确定多通道仿真数据对应的置信度不符合预定条件，此时多通道仿真数据不作为训练数据，可被滤除。
124.在一些实施例中，所述基于所述第一模型，对所述多通道仿真数据进行置信度确定，至少包括：
125.基于所述第一模型，通过对所述多通道仿真数据中音频信号的幅值和相位进行判断，确定出所述多通道仿真数据对应的置信度。
126.本公开实施例中，可通过对多通道仿真数据中音频信号的幅值和相位的分析，确定出多通道仿真数据中音频信号是否更符合实际场景下应用的信号特征；如果多通道仿真数据中音频信号更符合实际场景下应用的信号特征，则多通道仿真数据对应的置信度更高，否则对应的置信度便会偏低。
127.图4是根据一示例性实施例示出的一种语音识别模型训练方法中的第二模型训练示意图。如图4所示，基于多通道训练数据和置信度满足预定条件的多通道仿真数据训练第一模型得到第二模型。第二模型为第一模型训练后的语言识别模型。
128.本公开实施例的第二方面提供一种语音识别方法，包括：
129.获取待识别的语音；
130.基于预先训练的神经网络模型，识别所述语音中的文本；其中，所述神经网络模型为基于多通道训练数据以及与所述实际场景匹配的多通道仿真数据训练得到；所述多通道仿真数据由预先确定的单通道训练数据仿真得到；
131.其中所述单通道训练数据至少包括与所述多通道训练数据相同的文本标签以及与所述文本标签对应的一个语音数据，所述多通道仿真数据的多个语音数据由所述单通道训练数据的语音数据仿真得到。
132.本公开实施例中，上述实施例中训练完成的语音识别模型可应用于语音识别提取语音对应的文字，可应用于聊天软件app等，信息输入时，通过语音输入提取语音对应的文字，然后在聊天窗口中发送提取出的文字。由于语音识别模型为经过大量多通道训练数据以及与所述实际场景匹配的多通道仿真数据训练得到，该语音识别模型具有较好的语音识别性能和很低的字错率，性能突出、稳定。
133.本公开实施例的第三方面提供一种语音识别模型训练装置。图5是根据一示例性实施例示出的一种语音识别模型训练装置结构示意图。如图5所示，语音识别模型训练装置包括：
134.第一处理单元51，用于基于预先确定的多通道训练数据对预设的神经网络模型进行训练，得到第一模型，其中，所述多通道训练数据基于语音识别的实际场景确定，所述多通道训练数据至少包括文本标签以及与所述文本标签对应的多个语音数据，一个所述语音数据对应输入所述神经网络模型的一个输入通道；
135.第二处理单元52，用于基于所述第一模型，在获取的多通道仿真数据中确定出与所述实际场景匹配的所述多通道仿真数据，其中所述多通道仿真数据由预先确定的单通道训练数据仿真得到，其中所述单通道训练数据至少包括与所述多通道训练数据相同的文本标签以及与所述文本标签对应的一个语音数据，所述多通道仿真数据的多个语音数据由所述单通道训练数据的语音数据仿真得到；
136.第三处理单元53，用于基于所述多通道训练数据以及所述与所述实际场景匹配的多通道仿真数据，训练所述第一模型，得到第二模型。
137.本公开实施例中，多通道训练数据基于语音识别的实际场景确定，为多通道语音识别系统语音识别时输入的真实训练数据，多通道训练数据包含有参考通道数据和至少一个录音通道数据。由于录音通道的位置不同，不同录音通道对应的语音数据可不同。参考通道数据和录音通道数据均对应有文本标签以及语音数据。多通道仿真数据为通过预先确定的单通道训练数据仿真扩增得到多种语音识别应用场景下的仿真数据。其中，多通道仿真数据的多个语音数据由所述单通道训练数据的语音数据仿真得到。多通道仿真数据的多个语音数据可与多通道训练数据的多个语音数据不同。其中，多种语音识别应用场景可事先确定出，再通过单通道训练数据仿真扩增得到多种语音识别应用场景下的仿真数据。多种语音识别应用场景可以包括远场、近场、回声等任一场景。从而得到远场、近场、回声等各种场景下的仿真数据。其中，单通道训练数据为大量各种设备积累、经过前端处理后的单通道真实训练数据，单通道训练数据包含有一个录音通道数据。单通道训练数据中的参考通道数据被预先过滤。其中，参考通道数据可以确定为扬声器等音频输出设备输出的文本标签
及对应语言数据，该语言数据可以包括扬声器等音频输出设备输出的音乐等。录音通道数据可以确定为音频输入设备作为录音通道时的录入的文本标签及对应语言数据，包括用户说话的语言。
138.本公开实施例中，多通道仿真数据由预先确定的单通道训练数据仿真得到，至少包括：
139.确定出语音识别应用场景；
140.根据所述语音识别应用场景，确定仿真软件的设置参数；通过设置参数使得仿真软件下仿真的应用场景趋近于实际场景；
141.基于单通道训练数据，通过仿真软件仿真得到多通道仿真数据。
142.本公开实施例中，第一模型，为通过预先确定的多通道训练数据训练得到，可以确定为基础语音识别模型。第二模型，为基于多通道训练数据以及与实际场景匹配的多通道仿真数据训练第一模型得到，可以确定为最终获得的性能优化后的语音识别模型。即第二模型为第一模型再次训练后的语言识别模型。
143.本公开实施例中的语音识别模型训练装置包括：基于预先确定的多通道训练数据，训练得到第一模型，其中多通道训练数据基于语音识别的实际场景确定；基于第一模型，在获取的多通道仿真数据中确定出与实际场景匹配的多通道仿真数据，其中多通道仿真数据由预先确定的单通道训练数据仿真得到；基于多通道训练数据以及与实际场景匹配的多通道仿真数据，训练第一模型，得到第二模型。本技术中在解决多通道训练数据不足的问题时采用单通道训练数据扩增多通道仿真数据的方式来增加训练数据，同时在多通道仿真数据中选取与实际场景匹配的仿真数据作为训练第二模型的训练数据。如此不仅解决了多通道训练数据不足的问题，同时优化了作为训练数据的多通道仿真数据，使得用于训练模型的多通道仿真数据与语音识别的实际场景更加匹配，进而可有效提高训练模型的语言识别性能。
144.图2是根据一示例性实施例示出的一种语音识别模型训练方法中的第一模型训练示意图图像拍摄流程图一。如图2所示，采用现有的高质量标注的多通道真实数据(多通道训练数据)进行基础模型的训练，得到第一模型。
145.在一些实施例中，所述第二处理单元，具体用于
146.获取所述多通道仿真数据；
147.基于所述第一模型，对所述多通道仿真数据进行置信度确定，得到置信度符合预定条件的所述多通道仿真数据；
148.确定所述置信度符合所述预定条件的多通道仿真数据为与所述实际场景匹配的多通道仿真数据。
149.本公开实施例中，预定条件用于作为多通道仿真数据的置信度的判断标准。当置信度符合预定条件时，可确定对应的多通道仿真数据为与实际场景匹配的多通道仿真数据。与实际场景匹配的多通道仿真数据可作为训练数据用于对语音识别模型进行训练。
150.本公开实施例中，所述基于所述第一模型，对所述多通道仿真数据进行置信度确定，至少包括：
151.基于所述第一模型，通过对所述多通道仿真数据中音频信号的幅值和相位进行判断，确定出所述多通道仿真数据对应的置信度。
152.本公开实施例中，可通过对多通道仿真数据中音频信号的幅值和相位的分析，确定出多通道仿真数据中音频信号是否更符合实际场景下应用的信号特征；如果多通道仿真数据中音频信号更符合实际场景下应用的信号特征，则多通道仿真数据对应的置信度更高，否则对应的置信度便会偏低。
153.图3是根据一示例性实施例示出的一种语音识别模型训练方法中的多通道仿真数据仿真示意图。如图3所示，通过单通道训练数据仿真得到多通道仿真数据，基于第一模型对多通道仿真数据进行置信度确定。
154.在一些实施例中，所述预定条件至少包括预定阈值；
155.所述置信度符合预定条件，至少包括：所述置信度大于所述预定阈值；
156.所述第二处理单元，具体还用于
157.确定置信度大于所述预定阈值的多通道仿真数据为与所述实际场景匹配的多通道仿真数据。
158.本公开实施例中，当多通道仿真数据对应的置信度大于预定阈值时，可确定多通道仿真数据对应的置信度符合预定条件，此时多通道仿真数据可作为训练数据用于对语音识别模型进行训练。否则，当多通道仿真数据对应的置信度小于预定阈值时，可确定多通道仿真数据对应的置信度不符合预定条件，此时多通道仿真数据不作为训练数据，可被滤除。如此可通过置信度与预定阈值的比较，确定出可用于作为训练数据的多通道仿真数据。
159.在一些实施例中，所述基于所述第一模型，在获取的多通道仿真数据中确定出与所述实际场景匹配的所述多通道仿真数据前，所述第二处理单元，具体还用于
160.预先确定进行数据仿真时的语音识别条件；
161.基于所述单通道训练数据，仿真得到所述语音识别条件下产生的所述多通道仿真数据。
162.本公开实施例中，语言识别应用场景可由语音识别条件构成。预先确定进行数据仿真时的语音识别条件，即预先确定进行数据仿真时的语言识别应用场景。基于所述单通道训练数据，仿真得到所述语言识别应用场景下应用的所述多通道仿真数据。
163.在一些实施例中，所述语音识别条件至少包括以下之一：
164.所述语音识别模型的通道数；
165.音频输出设备与音频输入设备间的相对位置；
166.数据仿真时预先确定的声源位置。
167.本公开实施例中，所述语音识别条件至少包括以下之一：所述语音识别模型的通道数；
168.音频输出设备与音频输入设备间的相对位置；数据仿真时预先确定的声源位置。所述语音识别模型的通道数不同，对应的需要训练的语言识别模型便会不同。即第一模型和第二模型便会不同。通道数不同，对应仿真得到的多通道仿真数据便会不同。音频输出设备与音频输入设备间的相对位置不同，数据仿真时预先确定的声源位置不同，对应构成的语言识别应用场景便会不同，此时进行数据仿真时仿真软件的设置参数便会不同，仿真得到的多通道仿真数据便会不同。如此，通过语音识别条件确定语言识别应用场景，从而仿真得到对应语言识别应用场景下的多通道仿真数据。
169.在一些实施例中，所述多通道仿真数据中至少包含有：
170.参考通道数据；所述参考通道数据确定为所述音频输出设备输出的音频数据；
171.录音通道数据；所述录音通道数据确定为所述音频输入设备输入的音频数据。
172.本公开实施例中，音频输出设备可以为扬声器；音频输入设备可以为麦克风。参考通道可以为音频信号输出通道即如图3所示的ch0；录音通道可以为音频信号输入通道即如图3所示的chn。
173.本公开实施例中，各个录音通道对应的音频输入设备的位置不同，音频输入设备与声源的距离不同，其形成的录音通道的输入音频信号便会不同。通过改变参考通道的音频输出和录音通道的音频输入，得到各种语言识别应用场景下的多通道仿真数据。
174.在一些实施例中，所述录音通道数据至少包括两个录音通道输入的音频数据；其中一个音频输入设备用于形成一个录音通道。
175.本公开实施例中，对于语言识别模型而言，通道数不同，对应的模型便会不同。所述语言识别模型均具有参考通道，同时具有一定数量的录音通道。所述录音通道至少为一个，可以为多个。录音通道数不同，对应的模型便不同，对应得到的多通道仿真数据不同。其中，n录音通道对应的多通道仿真数据应用于n录音通道对应的模型训练。即参考通道ch0 录音通道ch1得到的多通道仿真数据应用于参考通道ch0 录音通道ch1对应的模型训练；参考通道ch0 录音通道ch1 录音通道ch2得到的多通道仿真数据应用于参考通道ch0 录音通道ch1 录音通道ch2对应的模型训练。
176.在一些实施例中，所述第二处理单元，具体还用于
177.基于所述第一模型，对所述多通道仿真数据进行置信度确定，滤除置信度不符合所述预定条件的多通道仿真数据。
178.本公开实施例中，当多通道仿真数据对应的置信度小于预定阈值时，可确定多通道仿真数据对应的置信度不符合预定条件，此时多通道仿真数据不作为训练数据，可被滤除。
179.在一些实施例中，所述第二处理单元，具体还用于
180.基于所述第一模型，通过对所述多通道仿真数据中音频信号的幅值和相位进行判断，确定出所述多通道仿真数据对应的置信度。
181.本公开实施例中，可通过对多通道仿真数据中音频信号的幅值和相位的分析，确定出多通道仿真数据中音频信号是否更符合实际场景下应用的信号特征；如果多通道仿真数据中音频信号更符合实际场景下应用的信号特征，则多通道仿真数据对应的置信度更高，否则对应的置信度便会偏低。
182.图4是根据一示例性实施例示出的一种语音识别模型训练方法中的第二模型训练示意图。如图4所示，基于多通道训练数据和置信度满足预定条件的多通道仿真数据训练第一模型得到第二模型。第二模型为第一模型训练后的语言识别模型。
183.本公开实施例的第四方面提供一种语音识别装置，包括：
184.第一处理单元，用于获取待识别的语音；
185.第二处理单元，用于基于预先训练的神经网络模型，识别所述语音中的文本；其中，所述神经网络模型为基于多通道训练数据以及与所述实际场景匹配的多通道仿真数据训练得到；所述多通道仿真数据由预先确定的单通道训练数据仿真得到；
186.其中所述单通道训练数据至少包括与所述多通道训练数据相同的文本标签以及
与所述文本标签对应的一个语音数据，所述多通道仿真数据的多个语音数据由所述单通道训练数据的语音数据仿真得到。
187.本公开实施例中，上述语音识别装置中训练完成的语音识别模型可应用于语音识别提取语音对应的文字，可应用于聊天软件app等，信息输入时，通过语音输入提取语音对应的文字，然后在聊天窗口中发送提取出的文字。由于语音识别模型为经过大量多通道训练数据以及与所述实际场景匹配的多通道仿真数据训练得到，该语音识别模型具有较好的语音识别性能和很低的字错率，性能突出、稳定。
188.本公开实施例还提供一种电子设备，包括：处理器和存储器，所述存储器上存储有能够在处理器上运行的计算机程序，所述处理器用于运行所述计算机程序时，执行各实施例所述方法的步骤。
189.本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现各实施例所述方法的步骤。
190.图6是根据一示例性实施例示出的一种电子设备设备的框图。例如，电子设备设备可以是移动电话，计算机，数字广播电子设备，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。
191.参照图6，电子设备设备可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(i/o)的接口812，传感器组件814，以及通信组件816。
192.处理组件802通常控制电子设备设备的整体操作，诸如与触摸，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。
193.存储器804被配置为存储各种类型的数据以支持在电子设备设备的操作。这些数据的示例包括用于在电子设备设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
194.电力组件806为电子设备设备的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备设备生成、管理和分配电力相关联的组件。
195.多媒体组件808包括在电子设备设备和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备设备处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
196.音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(mic)，当电子设备设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。
197.i/o接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。
198.传感器组件814包括一个或多个传感器，用于为电子设备设备提供各个方面的状态评估。例如，传感器组件814可以检测到电子设备设备的打开/关闭状态，组件的相对定位，例如组件为电子设备设备的显示器和小键盘，传感器组件814还可以检测电子设备设备或电子设备设备一个组件的位置改变，用户与电子设备设备接触的存在或不存在，电子设备设备方位或加速/减速和电子设备设备的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。
199.通信组件816被配置为便于电子设备设备和其他设备之间有线或无线方式的通信。电子设备设备可以接入基于通信标准的无线网络，如wifi，2g或3g，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件816还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
200.在示例性实施例中，电子设备设备可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。
201.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。
202.应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：设备的语音唤醒方法、装置、电子设备及存储介质与流程

语音识别模型训练方法、语言识别方法及电子设备与流程

相关文献

最热文献