跨领域语音识别中端到端的语音的置信度估计方法及装置与流程

2022-11-16 16:03:22 来源：中国专利 TAG：

1.本发明涉及跨领域语音处理技术领域，具体提供一种跨领域语音识别中端到端的语音的置信度估计方法及装置、控制装置和存储介质。

背景技术：

2.语音识别是一种让机器通过识别和理解过程把语音信号转变为相应的文本或命令的人工智能技术。置信度估计是语音识别系统常用的一种估计方法，经常用来对语音识别的错误进行筛选，作为语音识别系统不确定性的指示，置信度分数还经常用于模型融合、半监督伪标签选择等方法。
3.在传统的语音识别系统中，解码工程中利用词图信息，可以获得可靠的置信度分数。利用发音持续时间、语言模型等信息，可以进一步提高置信度估计的准确性。近年来，基于端到端的语音识别系统在识别性能上逐步超过传统模型，但是由于端到端系统在解码过程中无法直接利用词图信息和语言模型的信息，端到端语音识别系统通常是通过将解码器每一步的softmax概率作为输出字符的置信度估计分数。然而，基于softmax概率进行置信度估计，存在过度自信的问题，即使识别率差的字符，输出的置信分数也会比较高，因此使用softmax概率进行置信度估计在实际中应用效果很不理想，在跨领域的场景下，由于领域在声学及语言信息方面均存在一定差异，因此在跨领域的情况下，端到端语音识别系统的识别率会有一定程度的下降，而由于常见的端到端语音识别系统置信度估计是直接或者间接利用解码器的输出，因此在跨领域的情况下端到端语音识别系统置信度估计准确度会进一步下降。
4.相应地，本领域需要一种新的跨领域语音识别中端到端的语音的置信度估计方案来解决上述问题。

技术实现要素：

5.本发明旨在解决上述技术问题，即，解决其它领域与声学及语音识别领域存在一定差异，导致跨领域语音识别中端到端的的语音的置信度估计效果较差的问题，即存在识别率差的字符，导致最终输出的置信分数较高的问题，本发明提供了一种跨领域语音识别中端到端的语音的置信度估计方法及装置、控制装置和存储介质。
6.在第一方面，本发明提供一种跨领域语音识别中端到端的语音的置信度估计方法，该方法包括：
7.提取跨领域音频数据的声学特征向量；
8.将所述声学特征向量输入编码器得到对应的编码特征；
9.将所述编码特征输入解码器，输出对应的语音识别结果；
10.将所述语音识别结果输入训练好的跨领域语言模型，得到跨领域语言特征；
11.将所述语音识别结果和所述跨领域语言特征输入跨领域置信度特征提取层，输出跨领域置信度特征；
12.将所述跨领域置信度特征输入置信度估计模块，输出对应的置信度。
13.在上述跨领域语音识别中端到端的语音的置信度估计方法的一个技术方案中，所述跨领域置信度特征提取层包括第一特征提取层和第二特征提取层。
14.在上述跨领域语音识别中端到端的语音的置信度估计方法的一个技术方案中，所述将所述语音识别结果和所述跨领域语言特征输入跨领域置信度特征提取层，输出跨领域置信度特征，包括：
[0015][0016]
其中，p为跨领域置信度特征，m为跨领域语言特征，y为语音识别结果，f(
·
)为第一特征提取层，g(
·
)为第二特征提取层。
[0017]
在上述跨领域语音识别中端到端的语音的置信度估计方法的一个技术方案中，在将所述语音识别结果输入训练好的跨领域语言模型，得到跨领域语言特征之前，所述方法还包括：
[0018]
对所述跨领域语言模型进行训练，得到训练好的跨领域语言模型。
[0019]
在上述跨领域语音识别中端到端的语音的置信度估计方法的一个技术方案中，所述对所述跨领域语言模型进行训练，得到训练好的跨领域语言模型，包括
[0020]
获得多个领域的语料训练集；
[0021]
基于所述多个领域的语料训练集，对多个语言模型进行训练，得到多个语言模型各自的输出，其中，所述多个语言模型与所述多个领域的语料训练集一一对应；
[0022]
根据所述多个语言模型各自的输出，以及所述多个语言模型预设的插值系数，对所述多个语言模型进行插值，得到所述跨领域语言模型。
[0023]
在上述跨领域语音识别中端到端的语音的置信度估计方法的一个技术方案中，在对所述多个语言模型进行插值，得到所述跨领域语言模型后，所述方法还包括：
[0024]
根据nce损失函数计算所述跨领域语言模型的损失值；
[0025]
根据所述损失值对所述跨领域语言模型的模型参数进行优化。
[0026]
在上述跨领域语音识别中端到端的语音的置信度估计方法的一个技术方案中，所述置信度估计模型包括前向层和分类层；
[0027]
将所述跨领域置信度特征输入置信度估计模块，输出对应的置信度，包括：
[0028]
将所述跨领域置信度特征输入所述前向层，输出对应的置信度的最终状态；
[0029]
将所述输出对应的置信度的最终状态作为所述分类器的输入，输出对应的置信度。
[0030]
在第二方面，本发明提供一种跨领域语音识别中端到端的语音的置信度估计装置，所述装置包括：
[0031]
提取模块，用于提取跨领域音频数据的声学特征向量；
[0032]
编码器模块，用于将所述声学特征向量输入编码器得到对应的编码特征；
[0033]
解码器模块，用于将所述编码特征输入解码器，输出对应的语音识别结果；
[0034]
跨领域语言模型模块，用于将所述语音识别结果输入训练好的跨领域语言模型，得到跨领域语言特征；
[0035]
跨领域置信度特征提取层模块，用于将所述语音识别结果和所述跨领域语言特征输入跨领域置信度特征提取层，输出跨领域置信度特征；
[0036]
置信度估计模块，用于将所述跨领域置信度特征输入置信度估计模块，输出对应的置信度。
[0037]
在第三方面，本发明提供一种控制装置，该控制装置包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行上述置信度估计方法的技术方案中任一项技术方案所述的方法。
[0038]
在第四方面，提供一种计算机可读存储介质，该计算机可读存储介质其中存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行上述置信度估计方法的技术方案中任一项技术方案所述的方法。
[0039]
本发明上述一个或多个技术方案，至少具有如下一种或多种有益效果：
[0040]
在实施本发明的技术方案中，提出一种跨领域语音识别中端到端的语音的置信度估计方法，该方法通过提取跨领域音频数据的声学特征向量；将所述声学特征向量输入编码器得到对应的编码特征；将所述编码特征输入解码器，输出对应的语音识别结果；将所述语音识别结果输入训练好的跨领域语言模型，得到跨领域语言特征；将所述语音识别结果和所述跨领域语言特征输入跨领域置信度特征提取层，输出跨领域置信度特征；将所述跨领域置信度特征输入置信度估计模块，输出对应的置信度。该方法可以得到准确率更高的跨领域语音识别中端到端的语音的置信度的值，根据置信度的大小，可以对跨领域语音识别结果的准确性把握更高。
附图说明
[0041]
参照附图，本发明的公开内容将变得更易理解。本领域技术人员容易理解的是：这些附图仅仅用于说明的目的，而并非意在对本发明的保护范围组成限制。此外，图中类似的数字用以表示类似的部件，其中：
[0042]
图1是根据本发明的一个实施例的跨领域语音识别中端到端的语音的置信度估计方法的主要步骤流程示意图；
[0043]
图2是根据本发明的一个实施例的跨领域语音识别中端到端的语音的置信度估计装置的模块示意图；
[0044]
图3是根据本发明的一个实施例的跨领域语言模型的训练过程的主要步骤流程示意图；
[0045]
图4是根据本发明的一个实施例的步骤s106的主要步骤流程示意图；
[0046]
图5是根据本发明的一个实施例的跨领域语音识别中端到端的语音的置信度估计装置的主要结构框图示意图。
具体实施方式
[0047]
下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。
[0048]
在本发明的描述中，“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路，各种合适的感应器，通信端口，存储器，也可以包括软件部分，比如程序代码，也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器
可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“a和/或b”表示所有可能的a与b的组合，比如只是a、只是b或者a和b。术语“至少一个a或b”或者“a和b中的至少一个”含义与“a和/或b”类似，可以包括只是a、只是b或者a和b。单数形式的术语“一个”、“这个”也可以包含复数形式。
[0049]
语音识别是一种让机器通过识别和理解过程把语音信号转变为相应的文本或命令的人工智能技术。置信度估计是语音识别系统常用的一种估计方法，经常用来对语音识别的错误进行筛选，作为语音识别系统不确定性的指示，置信度分数还经常用于模型融合、半监督伪标签选择等方法。
[0050]
在传统的语音识别系统中，解码工程中利用词图信息，可以获得可靠的置信度分数。利用发音持续时间、语言模型等信息，可以进一步提高置信度估计的准确性。近年来，基于端到端的语音识别系统在识别性能上逐步超过传统模型，但是由于端到端系统在解码过程中无法直接利用词图信息和语言模型的信息，端到端语音识别系统通常是通过将解码器每一步的softmax概率作为输出字符的置信度估计分数。然而，基于softmax概率进行置信度估计，存在过度自信的问题，即使识别率差的字符，输出的置信分数也会比较高，因此使用softmax概率进行置信度估计在实际中应用效果很不理想，在跨领域的场景下，由于领域在声学及语言信息方面均存在一定差异，因此在跨领域的情况下，端到端语音识别系统的识别率会有一定程度的下降，而由于常见的端到端语音识别系统置信度估计是直接或者间接利用解码器的输出，因此在跨领域的情况下端到端语音识别系统置信度估计准确度会进一步下降。
[0051]
有鉴于此，本发明提供了一种跨领域语音识别中端到端的语音的置信度估计方法，该方法通过提取跨领域音频数据的声学特征向量；将所述声学特征向量输入编码器得到对应的编码特征；将所述编码特征输入解码器，输出对应的语音识别结果；将所述语音识别结果输入训练好的跨领域语言模型，得到跨领域语言特征；将所述语音识别结果和所述跨领域语言特征输入跨领域置信度特征提取层，输出跨领域置信度特征；将所述跨领域置信度特征输入置信度估计模块，输出对应的置信度。该方法可以得到准确率更高的跨领域语音识别中端到端的语音的置信度的值，根据置信度的大小，可以对跨领域语音识别结果的准确性把握更高。
[0052]
参阅附图1，图1是根据本发明的一个实施例的跨领域语音识别中端到端的语音的置信度估计方法的主要步骤流程示意图。如图1所示，本发明实施例中的跨领域语音识别中端到端的语音的置信度估计方法主要包括下列步骤s101-步骤s106。
[0053]
步骤s101：提取跨领域音频数据的声学特征向量；
[0054]
步骤s102：将所述声学特征向量输入编码器得到对应的编码特征；
[0055]
步骤s103：将所述编码特征输入解码器，输出对应的语音识别结果；
[0056]
步骤s104：将所述语音识别结果输入训练好的跨领域语言模型，得到跨领域语言特征；
[0057]
步骤s105：将所述语音识别结果和所述跨领域语言特征输入跨领域置信度特征提取层，输出跨领域置信度特征；
[0058]
步骤s106：将所述跨领域置信度特征输入置信度估计模块，输出对应的置信度。
[0059]
请参阅图2，上述实施方式的跨领域语音识别中端到端的语音的置信度估计方法可以由本发明实施方式的跨领域语音识别中端到端的语音的置信度估计装置100实现。具体地，本发明实施方式的一种跨领域语音识别中端到端的语音的置信度估计装置100，包括提取模块11、编码器模块12、解码器模块13、跨领域语言模型模块14、跨领域置信度特征提取层模块15和置信度估计模块16。提取模块11，用于提取跨领域音频数据的声学特征向量；编码器模块12，用于将所述声学特征向量输入编码器得到对应的编码特征；解码器模块13，用于将所述编码特征输入解码器，输出对应的语音识别结果；跨领域语言模型模块14，用于将所述语音识别结果输入训练好的跨领域语言模型，得到跨领域语言特征；跨领域置信度特征提取层模块15，用于将所述语音识别结果和所述跨领域语言特征输入跨领域置信度特征提取层，输出跨领域置信度特征；置信度估计模块16，用于将所述跨领域置信度特征输入置信度估计模块，输出对应的置信度。
[0060]
在本公开实施例中，所涉及的语音识别中端到端的语音的置信度估计方法可以应用于电子设备；这里，所述电子设备包括终端或服务器等设备，该终端可以为手机、平板电脑、笔记本电脑等；该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统。
[0061]
接下来，以具体实施方式说明本发明语音识别中端到端的语音的置信度估计方法的全部工作流程。
[0062]
步骤s101：提取跨领域音频数据的声学特征向量。
[0063]
在本实施例中，可将电子设备与音频采集设备连接，通过音频采集设备获取音频数据，并提取音频数据的第一声学特征向量。在语音识别方面，最常用到的语音特征就是梅尔倒谱系数(mel-scalefrequency cepstral coefficients，简称mfcc)。mfcc通常有以下之过程：1.将一段语音信号分解为多个讯框；2.将语音信号预强化，通过一个高通滤波器；3.进行傅立叶变换，将信号变换至频域；4.将每个讯框获得的频谱通过梅尔滤波器(三角重叠窗口)，得到梅尔刻度；5.在每个梅尔刻度上提取对数能量；6.对上面获得的结果进行离散傅里叶反变换，变换到倒频谱域；7.mfcc就是这个倒频谱图的幅度(amplitudes)。一般使用12个系数，与讯框能量叠加得13维的系数。本实施例中音频数据为跨领域音频数据，提取跨领域音频数据的第一声学特征向量便采用上述mfcc的过程，最终得到第一声学特征向量x＝(x1，...，xt)，其中，假设音频时长为1s，每一帧的时间点为10ms，则t＝100。
[0064]
步骤s102：将所述声学特征向量输入编码器得到对应的编码特征。
[0065]
在本实施例中，所述编码器包括：多层双向gru模块，其中，每层双向gru模块包括前向gru单元和后向gru单元。一个具体示例中，编码器包括4层双向gru模块，分别为第一层双向gru模块、第二层双向gru模块、第三层双向gru模块和第四层双向gru模块，其中，第一层双向gru模块包括第一层前向gru单元和第一层后向gru单元，第二层双向gru模块包括第二层前向gru单元和第二层后向gru单元，第三层双向gru模块包括第三层前向gru单元和第三层后向gru单元，第四层双向gru模块包括第四层前向gru单元和第四层后向gru单元。
[0066]
一个实施方式中，所述步骤s102包括：
[0067]
步骤s1021：将声学特征向量分别作为第一层前向gru单元的输入和第一层后向gru单元的输入，分别计算得到第一层前向gru单元输出和第一层后向gru单元输出，并将第一层前向gru单元输出与第一层后向gru单元输出进行拼接作为第一层双向gru模块的输
出；
[0068]
步骤s1022：将第一层双向gru模块的输出作为第二层前向gru单元的输入和第二层后向gru单元的输入，分别计算得到第二层前向gru单元输出和第二层后向gru单元输出，并将第二层前向gru单元输出与第二层后向gru单元输出进行拼接作为第二层双向gru模块的输出；
[0069]
步骤s1023：将第二层双向gru模块的输出作为第三层前向gru单元的输入和第三层后向gru单元的输入，分别计算得到第三层前向gru单元输出和第三层后向gru单元输出，并将第三层前向gru单元输出与第三层后向gru单元输出进行拼接作为第三层双向gru模块的输出；
[0070]
步骤s1024：将第三层双向gru模块的输出作为第四层前向gru单元的输入和第四层后向gru单元的输入，分别计算得到第四层前向gru单元输出和第四层后向gru单元输出，并将第四层前向gru单元输出与第四层后向gru单元输出进行拼接作为第四层双向gru模块的输出。
[0071]
本实施例中，由于编码器包括4层双向gru模块，因此第四层双向gru模块的输出便为声学特征向量输入编码器得到对应的编码特征，若编码器包括i层双向gru模块，则第i层双向gru模块的输出便为声学特征向量输入编码器得到的对应的编码特征。
[0072]
步骤s103：将所述编码特征输入解码器，输出对应的语音识别结果。
[0073]
在本实施例中，解码器例如采用beam_search解码器，beam_search包含一个参数beam size k，表示每一时刻均保留得分最高的k个序列，然后下一时刻用这k个序列继续生成，因此beam_search解码器更容易得到全局最优解。本实施例中将编码特征输入到beam_search解码器中得到语音识别结果。
[0074]
步骤s104：将所述语音识别结果输入训练好的跨领域语言模型，得到跨领域语言特征。
[0075]
一个实施方式中，在将所述语音识别结果输入训练好的跨领域语言模型，得到跨领域语言特征之前，所述方法还包括：
[0076]
步骤s100：对所述跨领域语言模型进行训练，得到训练好的跨领域语言模型。
[0077]
一个实施方式中，如图3所示，所述对所述跨领域语言模型进行训练，得到训练好的跨领域语言模型，包括：
[0078]
步骤s1001：获得多个领域的语料训练集。
[0079]
其中，领域可以按照广义的概念划分，示例地，多个不同的领域可以是：化学、生物、医疗、计算机、文学等；此外，领域还可以根据具体使用场景划分。
[0080]
步骤s1002：基于所述多个领域的语料训练集，对多个语言模型进行训练，得到多个语言模型各自的输出，其中，所述多个语言模型与所述多个领域的语料训练集一一对应。
[0081]
在本实施例中，在获得多个领域的语料训练集后，根据领域的数量构建多个对应的初始化语言模型。示例地，在步骤s11中获得了n个领域的语料训练集，应当构建n个初始化语言模型(每一个初始化语言模型的模型参数都是随机赋值的)，其中，一个领域的语料训练集与一个初始化语言模型唯一对应。示例性地，分别使用各个领域的语料训练集，对其对应的初始化语言模型进行训练。示例地，有3个不同的领域1-3，对应有3个不同领域的语料训练集1-3，也对应有3个不同的初始化语言模型1-3，则具体的训练过程应当是：基于语
料训练集1对初始化语言模型1进行训练；基于语料训练集2对初始化语言模型2进行训练；基于语料训练集3对初始化语言模型3进行训练。
[0082]
在本实施例中，可以分多轮对各个语言模型进行训练(对应该种情况，各个领域的语料训练集也可以分为多个子集，在每一轮训练时使用一个子集对对应的语言模型进行训练)，在每一次训练完成后，将各个领域的语料，分别输入对应的语言模型，可以得到输出值。示例地，将上述语料训练集1-3中的训练语料作为输入，分别输入初始化语言模型1-3并进行第一轮训练后，可以得到第一轮训练后的语言模型1-3；再将上述语料训练集1-3中的训练语料作为输入，分别输入第一轮训练后的语言模型1-3并进行第二轮训练后，可以得到第二轮训练后的语言模型1-3，以此类推，直到完成对语言模型1-3的多轮训练。在每一轮训练完成后，对语言模型1-3分别输入对应领域的语料，可得到输出值。示例地，在第一轮训练完毕后，将领域1的语料输入到第一轮训练后的语言模型1，可得到输出值1；将领域2的语料输入到第一轮训练后的语言模型2，可得到输出值2，以此类推，可得到每一个语言模型的输出值。
[0083]
步骤s1003：根据所述多个语言模型各自的输出，以及所述多个语言模型预设的插值系数，对所述多个语言模型进行插值，得到所述跨领域语言模型。
[0084]
在本实施例中，通过将多个不同领域的语言模型进行混合处理，得到可降低对跨领域语料敏感度的混合模型。示例地，将语言模型1(对应领域1)和语言模型2(对应领域2)进行混合处理，得到的混合模型既可以对领域1的语料进行预测，也可以对领域2的语料进行预测，且具有较高的预测精度。
[0085]
一个实施方式中，在对所述多个语言模型进行插值，得到所述跨领域语言模型后，所述方法还包括：
[0086]
步骤s1004：根据nce损失函数计算所述跨领域语言模型的损失值；
[0087]
步骤s1005：根据所述损失值对所述跨领域语言模型的模型参数进行优化。
[0088]
本实施例中，将跨领域语言模型训练好之后，就可以进行使用，当经过步骤s101-步骤s103之后，得到跨领域音频的语音识别结果，将该语音识别结果输入训练好的跨领域语言模型，输出得到跨领域语言特征。
[0089]
步骤s105：将所述语音识别结果和所述跨领域语言特征输入跨领域置信度特征提取层，输出跨领域置信度特征。
[0090]
一个实施方式中，所述跨领域置信度特征提取层包括第一特征提取层和第二特征提取层。
[0091]
所述将所述语音识别结果和所述跨领域语言特征输入跨领域置信度特征提取层，输出跨领域置信度特征，包括：
[0092][0093]
其中，p为跨领域置信度特征，m为跨领域语言特征，y为语音识别结果，f(
·
)为第一特征提取层，g(
·
)为第二特征提取层。
[0094]
步骤s106：将所述跨领域置信度特征输入置信度估计模块，输出对应的置信度。
[0095]
一个实施方式中，如图4所示，所述置信度估计模型包括前向层和分类层，将所述跨领域置信度特征输入置信度估计模块，输出对应的置信度，包括：
[0096]
步骤s1061：将所述跨领域置信度特征输入所述前向层，输出对应的置信度的最终
状态；
[0097]
步骤s1062：将所述输出对应的置信度的最终状态作为所述分类器的输入，输出对应的置信度。
[0098]
基于上述步骤s101-步骤s106，本发明提出一种跨领域语音识别中端到端的语音的置信度估计方法，该方法通过提取跨领域音频数据的声学特征向量；将所述声学特征向量输入编码器得到对应的编码特征；将所述编码特征输入解码器，输出对应的语音识别结果；将所述语音识别结果输入训练好的跨领域语言模型，得到跨领域语言特征；将所述语音识别结果和所述跨领域语言特征输入跨领域置信度特征提取层，输出跨领域置信度特征；将所述跨领域置信度特征输入置信度估计模块，输出对应的置信度。该方法可以得到准确率更高的跨领域语音识别中端到端的语音的置信度的值，根据置信度的大小，可以对跨领域语音识别结果的准确性把握更高。
[0099]
需要指出的是，尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述，但是本领域技术人员可以理解，为了实现本发明的效果，不同的步骤之间并非必须按照这样的顺序执行，其可以同时(并行)执行或以其他顺序执行，这些变化都在本发明的保护范围之内。
[0100]
进一步，本发明还提供了一种跨领域语音识别中端到端的语音的置信度估计装置。
[0101]
参阅附图2，图2是根据本发明的一个实施例的跨领域语音识别中端到端的语音的置信度估计装置的主要结构框图。如图2所示，本发明实施例中的跨领域语音识别中端到端的语音的置信度估计装置主要包括提取模块11、编码器模块12、解码器模块13、跨领域语言模型模块14、跨领域置信度特征提取层模15和置信度估计模块16。在一些实施例中，提取模块11、编码器模块12、解码器模块13、跨领域语言模型模块14、跨领域置信度特征提取层模15和置信度估计模块16中的一个或多个可以合并在一起成为一个模块。在一些实施例中提取模块11可以被配置成提取跨领域音频数据的声学特征向量。编码器模块12可以被配置成将所述声学特征向量输入编码器得到对应的编码特征。解码器模块13可以被配置成将所述编码特征输入解码器，输出对应的语音识别结果。跨领域语言模型模块14可以被配置成将所述语音识别结果输入训练好的跨领域语言模型，得到跨领域语言特征。跨领域置信度特征提取层模块15可以被配置成将所述语音识别结果和所述跨领域语言特征输入跨领域置信度特征提取层，输出跨领域置信度特征。置信度估计模块16可以被配置成将所述跨领域置信度特征输入置信度估计模块，输出对应的置信度。一个实施方式中，具体实现功能的描述可以参见步骤s101-步骤s106所述。
[0102]
上述跨领域语音识别中端到端的语音的置信度估计装置以用于执行图1所示的跨领域语音识别中端到端的语音的置信度估计方法实施例，两者的技术原理、所解决的技术问题及产生的技术效果相似，本技术领域技术人员可以清楚地了解到，为了描述的方便和简洁，跨领域语音识别中端到端的语音的置信度估计装置的具体工作过程及有关说明，可以参考跨领域语音识别中端到端的语音的置信度估计方法的实施例所描述的内容，此处不再赘述。
[0103]
本领域技术人员能够理解的是，本发明实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计
算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。
[0104]
进一步，本发明还提供了一种控制装置。在根据本发明的一个控制装置实施例中，如图5所示，控制装置包括处理器和存储装置，存储装置可以被配置成存储执行上述方法实施例的跨领域语音识别中端到端的语音的置信度估计方法的程序，处理器可以被配置成用于执行存储装置中的程序，该程序包括但不限于执行上述方法实施例的跨领域语音识别中端到端的语音的置信度估计方法的程序。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该控制装置可以是包括各种电子设备形成的控制装置设备。
[0105]
进一步，本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中，计算机可读存储介质可以被配置成存储执行上述方法实施例的跨领域语音识别中端到端的语音的置信度估计方法的程序，该程序可以由处理器加载并运行以实现上述跨领域语音识别中端到端的语音的置信度估计方法。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备，可选的，本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。
[0106]
进一步，应该理解的是，由于各个模块的设定仅仅是为了说明本发明的装置的功能单元，这些模块对应的物理器件可以是处理器本身，或者处理器中软件的一部分，硬件的一部分，或者软件和硬件结合的一部分。因此，图中的各个模块的数量仅仅是示意性的。
[0107]
本领域技术人员能够理解的是，可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理，因此，拆分或合并之后的技术方案都将落入本发明的保护范围内。
[0108]
至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种融合空间感知与注意力机制的语音声码器及建立方法

跨领域语音识别中端到端的语音的置信度估计方法及装置与流程

相关文献

最热文献