农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

语音识别处理方法、装置、电子设备以及存储介质与流程

2021-07-23 21:35:00 来源：中国专利 TAG：自然语言人工智能电子设备语音装置

本申请涉及计算机技术领域，具体涉及自然语言处理及语音技术领域等人工智能领域，尤其涉及一种语音识别处理方法、装置、电子设备及存储介质。

背景技术：

语音识别技术，也被称为自动语音识别(automaticspeechrecognition，简称asr)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。随着科学技术的发展，语音识别技术已被应用到人们的生活当中。

当前会议场景的语音识别技术中，会出现同一个词在不同领域中识别出不同的结果及专有名词识别错误的情况，如果对此专门的训练，会耗费大量的人力及时间成本，同时训练的过程相对复杂。

技术实现要素：

本申请提供了一种用于语音识别处理的方法、装置、电子设备以及存储介质。

根据本申请的第一方面，提供了一种用于语音识别处理的方法，包括：

确定所述语音识别的使用场景；

根据所述使用场景获取对应的预置热词集合；

在对语音信息进行语音识别并获得语音识别结果时，根据所述预置热词集合中各热词的第一拼音信息和所述语音识别结果的第二拼音信息，确定所述语音识别结果之中的待替换词和所述待替换词对应的目标热词；

将所述语音识别结果之中的待替换词替换成所述对应的目标热词。

其中，所述预置热词集合中的热词包括：

根据所述使用场景的语音识别经验得出的热词；和/或，

在所述使用场景中的语音识别过程中，对语音识别结果进行校正操作时所使用的替换词。

在本申请实施例中，在将热词配置至所述预置热词集合之后，所述方法还包括：

获取所述热词中每个字的拼音；

如果所述热词中不存在多音字，则将所述热词中每个字的拼音进行组合，以得到所述热词的第一拼音信息；

如果所述热词中存在多音字，则将所述热词之中所述多音字的拼音和其他字的拼音从左到右进行两两排列组合，获得多个拼音排列组合结果；

将所述多个拼音排列组合结果作为所述热词的第一拼音信息。

在本申请的一些实施例中，所述根据所述预置热词集合中各热词的第一拼音信息和所述语音识别结果的第二拼音信息，确定所述语音识别结果之中的待替换词和所述待替换词对应的目标热词，包括：

确定所述预置热词集合中各热词的第一拼音信息；

对所述语音识别结果进行预处理；其中，所述预处理包括过滤标点符号、过滤特殊字符、英文字符中的至少一种；

将预处理后的所述语音识别结果转换为对应的拼音，以得到所述语音识别结果的第二拼音信息；

将所述各热词的第一拼音信息与所述语音识别结果的第二拼音信息进行对比，从所述第一拼音信息和所述第二拼音信息中确定出具有相同音节组成成分和结构的目标拼音；

根据所述第二拼音信息，将所述语音识别结果之中所述目标拼音对应的文本确定为所述待替换词；

将所述目标拼音对应的热词确定为所述目标热词。

在本申请的一些实施例中，所述语音识别处理方法，还包括：

判断所述待替换词之中文本间是否存在标点符号和/或特殊字符；

如果所述待替换词之中文本间存在标点符号和/或特殊字符，则不执行所述将所述语音识别结果之中的待替换词替换成所述对应的目标热词的步骤；

如果所述待替换词之中文本间不存在标点符号和/或特殊字符，则执行所述将所述语音识别结果之中的待替换词替换成所述对应的目标热词的步骤。

可选地，在本申请的一些实施例中，所述语音识别处理方法，还包括：

获取预置语气词集合；

将据所述预置语气词集合中的各语气词与所述语音识别结果进行文本匹配，将所述语音识别结果中匹配到的文本作为语气词进行替换处理。

其中，所述预置语气词集合中的语气词包括：

根据所述使用场景的语音识别经验得出的语气词；和/或，

根据所述使用场景中讲话者的说话习惯而得到的语气词；和/或，

在所述使用场景中的语音识别过程中对语音识别结果进行校正操作时，将所述语音识别结果中替换成空字符的词作为语气词。

根据本申请的第二方面，提供了一种语音识别处理装置，包括：

第一确定模块，用于确定所述语音识别的使用场景；

第一获取模块，用于根据所述使用场景获取对应的预置热词集合；

第二确定模块，用于在对语音信息进行语音识别并获得语音识别结果时，根据所述预置热词集合中各热词的第一拼音信息和所述语音识别结果的第二拼音信息，确定所述语音识别结果之中的待替换词和所述待替换词对应的目标热词；

第一替换模块，用于将所述语音识别结果之中的待替换词替换成所述对应的目标热词。

其中，所述第一获取模块获取的预置热词集合中的热词包括：

根据所述使用场景的语音识别经验得出的热词；和/或，

在所述使用场景中的语音识别过程中，对语音识别结果进行校正操作时所使用的替换词。

在本申请实施例中，所述语音识别处理装置还包括热词配置模块，所述热词配置模块用于：

在将热词配置至所述预置热词集合之后，获取所述热词中每个字的拼音；

如果所述热词中不存在多音字，则将所述热词中每个字的拼音进行组合，以得到所述热词的第一拼音信息；

如果所述热词中存在多音字，则将所述热词之中所述多音字的拼音和其他字的拼音从左到右进行两两排列组合，获得多个拼音排列组合结果；

将所述多个拼音排列组合结果作为所述热词的第一拼音信息。

在本申请的一些实施例中，所述第二确定模块用于：

确定所述预置热词集合中各热词的第一拼音信息；

对所述语音识别结果进行预处理；其中，所述预处理包括过滤标点符号、过滤特殊字符、英文字符中的至少一种；

将预处理后的所述语音识别结果转换为对应的拼音，以得到所述语音识别结果的第二拼音信息；

将所述各热词的第一拼音信息与所述语音识别结果的第二拼音信息进行对比，从所述第一拼音信息和所述第二拼音信息中确定出具有相同音节组成成分和结构的目标拼音；

根据所述第二拼音信息，将所述语音识别结果之中所述目标拼音对应的文本确定为所述待替换词；

将所述目标拼音对应的热词确定为所述目标热词。

在本申请的一些实施例中，所述语音识别处理装置还包括：

判断模块，用于判断所述待替换词之中文本间是否存在标点符号和/或特殊字符；

如果所述待替换词之中文本间存在标点符号和/或特殊字符，则所述第一替换模块不执行所述将所述语音识别结果之中的待替换词替换成所述对应的目标热词的步骤；

如果所述待替换词之中文本间不存在标点符号和/或特殊字符，则所述第一替换模块执行所述将所述语音识别结果之中的待替换词替换成所述对应的目标热词的步骤。

此外，在本申请实施例中，所述语音识别处理装置，还包括：

第二获取模块，用于获取预置语气词集合；

第二替换模块，用于将据所述预置语气词集合中的各语气词与所述语音识别结果进行文本匹配，将所述语音识别结果中匹配到的文本作为语气词进行替换处理。

其中，所述第二获取模块获取的所述预置语气词集合中的语气词包括：

根据所述使用场景的语音识别经验得出的语气词；和/或，

根据所述使用场景中讲话者的说话习惯而得到的语气词；和/或，

在所述使用场景中的语音识别过程中对语音识别结果进行校正操作时，将所述语音识别结果中替换成空字符的词作为语气词。

根据本申请的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面所述的语音识别处理方法。

根据本申请的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行如第一方面所述的语音识别处理方法。

根据本申请的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如第一方面所述的语音识别处理方法。

根据本申请的技术方案，通过根据使用场景获取预先配置的热词集合，在对实时语音识别结果进行纠错处理时，将热词集合中热词对应的拼音信息与语音识别结果的拼音信息进行对比，并根据对比结果针对语音识别结果中的词语进行替换，这样，在无需附加人力及时间成本的前提下，不仅降低了语音识别结果的出错率，提升了特定场景下语音识别效果。由此可见，本申请可以有效实现特定场景下热词的替换功能，并且能够解决现有技术中利用自然语言处理nlp中模型训练技术替换导致的耗时问题等，可以提高语音识别结果的输出显示效率。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例提出的一种语音识别处理方法流程图；

图2是根据本申请实施例提出的一种获取第一拼音信息的流程图；

图3是根据本申请实施例提出的一种确定语音识别结果之中的待替换词及其对应的目标热词的流程图；

图4是根据本申请实施例提出的另一种语音识别处理方法流程图；

图5是根据本申请实施例提出的又一种语音识别处理方法流程图；

图6是根据本申请实施例提出的一种语音识别处理装置的结构框图；

图7是根据本申请实施例提出的另一种语音识别处理装置的结构框图；

图8是根据本申请实施例提出的又一种语音识别处理装置的结构框图；

图9是用来实现本申请实施例的语音识别处理方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

结合会议场景中语音识别技术存在的问题，目前存在的解决方式有采用自然语言处理技术和人工文本替换进行热词的替换。其中，自然语言处理技术会使用大量的文本，基于自然语言处理算法进行文本训练，得到训练后的文本模型，在此模型上对输入的文本进行热词替换。但是由于不同领域的词语搭配方式不同，无法训练出一个通用于所有领域的模型，所以对于不同领域需要重新进行模型训练，这样需要的时间较长，且无法保证实时性。此外，人工文本替换方式需要人工标注出需要替换的词，这样就会耗费较大的人力成本。

针对现有问题，本申请提出了一种语音识别处理方法、装置、电子设备以及存储介质。

图1为本申请实施例提出的一种语音识别处理方法的流程图，需要说明的是，本申请实施例的语音识别处理方法可应用于本申请实施例的语音识别处理装置，该语音识别处理装置可被配置于电子设备。如图1所示，该方法的实现步骤包括：

步骤101，确定语音识别的使用场景。

由于在不同场景下，使用的词语以及词语搭配方式会不同，所以在本申请实施例中，首先需要确定语音识别的使用场景，针对该使用场景使用该场景下的预置热词集合对语音识别结果进行纠错处理。

步骤102，根据使用场景获取对应的预置热词集合。

可以理解，热词集合是在某个领域下语音识别中经常出现的词语、专有名词或经常出现识别错误的词语等词语的集合。在不同的使用场景下，采用语音识别技术进行语音识别时，需要识别的词语会有较大的差异性，若不考虑使用场景，可能会出现同一词在不同领域中识别出的不同结果及专有名词识别错误的情况。所以在本申请实施例中，为了避免上述问题的出现，采用针对不同的使用场景预设对应的热词集合的方式。

步骤103，在对语音信息进行语音识别并获得语音识别结果时，根据预置热词集合中各热词的第一拼音信息和语音识别结果的第二拼音信息，确定语音识别结果之中的待替换词和所述待替换词对应的目标热词。

也就是说，在进行语音识别时，将预设热词集合中各热词的拼音信息和语音识别结果中的拼音信息进行比对，找到语音识别结果的拼音中哪些拼音所对应的词为需要替换成预设热词集合中的热词。

在本申请实施例中，语音识别结果之中的待替换词，可以理解为语音识别结果中的拼音信息与预置热词集合中的热词的拼音信息一致的词语。待替换词对应的目标热词，也就是，待替换词的拼音信息与预置热词集合中某热词的拼音信息一致，该热词即为待替换词对应的目标热词。在本申请实施例中，确定待替换词和待替换词对应的热词的实现方式可以为：针对语音信息，根据现有的语音识别技术进行语音识别，得到语音识别结果；根据语音识别结果的拼音信息，在预置热词集合的各热词的拼音信息中进行搜索，找到语音识别结果中的拼音信息与预置热词集合中的热词的拼音信息一致的词语，该词语即为待替换词；根据待替换词找到预置热词集合中与其拼音信息一致的热词，该热词即为待替换词对应的目标热词。

步骤104，将语音识别结果之中的待替换词替换成对应的目标热词。

也就是说，将语音识别结果中的词语替换成与预置热词集合中拼音信息一致的热词，这样，不仅可以避免出现词语识别错误的情况发生，同时也可以满足实时语音识别结果的输出。

根据本申请实施例提出的语音识别处理方法，通过根据使用场景获取预先配置的热词集合，在对实时语音识别结果进行纠错处理时，将热词集合中热词对应的拼音信息与语音识别结果的拼音信息进行对比，并根据对比结果针对语音识别结果中的词语进行替换，这样，在无需附加人力及时间成本的前提下，不仅降低了语音识别结果的出错率，而且提升了特定场景下语音识别效果。由此可见，本申请可以有效实现特定场景下热词的替换功能，并且能够结构现有技术中利用自然语音处理nlp中模型训练技术替换导致的耗时问题等，可以提高语音识别结构的输出显示效率。

需要说明的是，预置热词集合中的热词可包括但不限于：根据使用场景的语音识别经验得出的热词；和/或，在使用场景中的语音识别过程中，对语音识别结果进行校正操作时所使用的替换词。例如，在会议场景中，如果出现识别不准备的词，可实时将该词添加到热词集合中，使预置热词集合得到更新，在后续语音识别时，会直接获取已更新的热词集合中的热词对语音识别结果进行纠错处理。

为了进一步提高语音识别结果的输出显示效率，在将热词配置至预置热词集合之后立即对该热词进行拼音转换处理以得到该热词的第一拼音信息。图2为获取第一拼音信息的流程图，如图2所示，该获取第一拼音信息的实现方式如下：

步骤201，获取热词中每个字的拼音。

步骤202，判断热词中是否存在多音字，若不存在多音字，则执行步骤203，否则执行步骤204。

可以理解，若热词中存在多音字，其对应的拼音会有多个，为了使语音识别结果与预置热词集合中的热词的有效匹配，需要针对热词中存在多音字的情况进行特殊处理。

步骤203，将热词中每个字的拼音进行组合，以得到热词的第一拼音信息。

步骤204，将热词之中多音字的拼音和其他字的拼音从左到右进行两两排列组合，获得多个拼音排列组合结果。

也就是说，将热词中的多音字的拼音与其他字的拼音进行排列组合，使多音字的任何一个拼音均与该热词中的其他字的拼音针对该热词进行组合。

作为一种示例，在配置热词后，遍历每个新配置的热词，获取热词中每个字的拼音，如果其中包含了多音字，则将热词拼音从左到右排列组合，排列方式为：取第一个字的所有拼音，假设有a个，和第二个字的所有拼音，假设有b个，进行两两排列组合，获得结果u，长度为a×b；再将u和第三个字的所有拼音，假设有c个，进行两两排列组合，获得结果v，长度为a×b×c，依次类推，最终获得拼音的结果列表。

步骤205，将多个拼音排列组合结果作为热词的第一拼音信息。

根据本申请实施例提出的语音识别处理方法，在将热词配置至预置热词集合之后，通过对热词的处理获得热词的第一拼音信息，为实时语音识别的纠错提供了基础，提高了预置热词集合的使用效率，并且，在将热词预先配置到热词集合后即刻获取该热词对应的拼音，这样，在对实时语音识别结果进行纠错处理时，直接将热词对应拼音与语音识别结果的拼音进行对比，可以进一步提高语音识别结果的输出显示效率。此外，针对热词中存在多音字的情况，通过将热词拼音从左到右排列组合，将得到的多个拼音排列组合结果作为热词的第一拼音信息，这样，可以避免出现因为多音字的存在使语音识别结果与预置热词集合中热词匹配错误的情况发生，保证了提高了语音识别结果的准确性，并且，通过在配置热词后，立即将热词的多音字中的所有字的拼接进行排列组合，使得在对实时语音识别结果进行纠错处理时，直接将热词对应的所有拼音可能情况与语音识别结果的拼音进行对比，可以进一步提高语音识别结果的输出显示效率，同时还可以进一步提高语音识别效果。

为了对上述任一实施例中的语音识别处理方法进行详细的描述，图3为确定语音识别结果之中的待替换词及其对应的目标热词的流程图，如图3所示，该实现步骤如下：

步骤301，确定预置热词集合中各热词的第一拼音信息。

步骤302，对语音识别结果进行预处理，其中，预处理包括过滤标点符号、过滤特殊字符、英文字符中的至少一种。

步骤303，将预处理后的语音识别结果转换为对应的拼音，以得到所述语音识别结果的第二拼音信息。

需要说明的是，将预处理后的语音识别结果转换为对应的拼音时，若识别结果中存在为多音字的字，则选择多音字读音中的任一读音对应的拼音即可。

步骤304，将各热词的第一拼音信息与语音识别结果的第二拼音信息进行对比，从第一拼音信息和第二拼音信息中确定出具有相同音节组成成分和结构的目标拼音。

在本申请实施例中，得到目标拼音可以通过以下方式实现：遍历整个热词集合，获取每个热词，并遍历每个热词对应的第一拼音信息组成的集合与语音识别结果的第二拼音信息进行对比；找到第一拼音信息和第二拼音信息中具有相同音节组成成分和结构的拼音，将其作为目标拼音。需要说明的是，在一次语音识别处理过程中，目标拼音即为该语音识别结果的第二拼音信息中与第一拼音信息具有相同音节组成成为和功能的所有拼音，也就说是，目标拼音的数量可以为多个。

步骤305，根据第二拼音信息，将语音识别结果之中目标拼音对应的文本确定为待替换词。

可以理解，找到目标拼音后，也就是找到了语音识别结果中与预置热词集合中的热词匹配的词的拼音，接下来会将语音识别结果中的目标拼音对应的文本使用热词进行替换，所以在本申请实施例中，语音识别结果之中目标拼音对应的文本确定为待替换词。

步骤306，将目标拼音对应的热词确定为目标热词。

由于在语音识别过程中，待替换词中可能会存在标点或特殊符号等，若仅根据已确定的待替换词和目标热词执行替换，可能会出现替换错误的情况。为了进一步地提高替换的准确性，本申请提出了另一种语音识别处理方法。图4为本申请实施例提出的另一种语音识别处理方法的流程图，如图4所示，该语音识别处理方法还包括以下步骤：

步骤404，判断待替换词之中文本间是否存在标点符号和/或特殊字符。若待替换词之中文本间不存在标点符号和/或特殊字符，则执行步骤405，否则不执行。

可以理解，若待替换词之中文本间存在标点符号和/或特殊字符，说明根据语音识别结果，该待替换词与其对应的热词虽然在去掉标点符号和/或特殊字符后具有相同的拼音组成成分和结构，但是其对应的真实含义不同，直接执行替换会出现替换错误。在本申请实施例中，为了避免出现此类型的替换错误，增加了待替换词之中文本间是否存在标点符号和/或特殊字符的判断，针对文本间不存在标点符号和/或特殊字符的待替换词才执行待替换词与目标热词的替换，否则不执行。

步骤405，将语音识别结果之中的待替换词替换成对应的目标热词。

需要说明的是，图4中的步骤401～403与图1中的步骤101～103的实现方式一致，此处不再赘述。

根据本申请实施例提出的语音识别处理方法，通过增加待替换词之中文本间是否存在标点符号和/或特殊字符的判断，针对待替换词之中文本间不存在标点符号和/或特殊字符的情况，才执行将语音识别结果之中的待替换词替换成对应的目标热词的步骤，否则不执行替换步骤，这样，在一定程度上避免了替换错误的情况的发生，进一步地提高了替换的准确性，从而，提高了语音识别效果。

人们在日常沟通中，由于沟通过程中的思考、情绪表达或者表达习惯等原因，经常在语句之间使用语气词，这些语气词与语义的表达没有关系，但是在语音识别过程中，针对语气词的识别可能会语音识别结果造成干扰，影响语音识别效果。所以针对以上问题，本申请实施例提出了又一种语音识别处理方法，图5为针对上述任一实施例中的语音识别处理方法又增加的实现步骤的流程图。如图5所示，该语音识别处理方法增加了以下步骤：

步骤506，获取预置语气词集合。

在本申请实施例中，预置语气词集合也就是将使用场景中的讲话者使用的语气词均提前配置在语气词集合中，这样，在进行语音识别时直接获取已配置好的语气词集合进行语气词匹配，达到一次配置多次可用的目的。此外，在语音识别过程中，针对语音识别结果的校正操作发现的预置语气词集合中不存在的语气词，可以实时增加到预置语气词集合中，从而实现预置语气词集合的不断迭代优化。

其中，预置语气词集合中的语气词可以包括但不限于：根据使用场景的语音识别经验得出的语气词；和/或，根据使用场景中讲话者的说话习惯而得到的语气词；和/或，在使用场景中的语音识别过程中对语音识别结果进行校正操作时，将语音识别结果中替换成空字符的词作为语气词。

步骤507，将预置语气词集合中的各语气词与语音识别结果进行文本匹配，并将语音识别结果中匹配到的文本作为语气词进行替换处理。

也就是说，若语音识别结果可以匹配到预置语气词集合中的语气词，说明语音识别结果中存在语气词，需要将语音识别结果中匹配到的文本作为语气词进行替换处理。

在本申请实施例中，将预置语气词集合中的各语气词与语音识别结果进行文本匹配，可以采用文本相似度算法进行匹配。若语音识别结果中存在与预置语气词集合中语气词能匹配的文本，将该匹配到的文本作为语气词，并将其替换为空字符，完成语气词的替换处理。

需要说明的是，在本申请实施例中步骤502～505与步骤506～507可以同时进行，其中，图5中步骤501～505与图4中的步骤401～405的实现方式一致，此处不再赘述。

根据本申请实施例提出的语音识别处理方法，通过获取预置语气词集合，将语音识别结果与预置语气词集合中各语气词进行匹配，并将语音识别结果中匹配到的文本作为语气词进行替换处理，实现了语音识别结果中语气词的替换，进一步地提高了语音识别结果的准确性，进一步提升语音识别效果。

为了实现上述实施例，本申请提出了一种语音识别处理装置。

图6为本申请实施例提出的语音识别处理装置结构框图，如图6所示，该装置包括：

第一确定模块610，用于确定语音识别的使用场景；

第一获取模块620，用于根据使用场景获取对应的预置热词集合；

第二确定模块630，用于在对语音信息进行语音识别并获得语音识别结果时，根据预置热词集合中各热词的第一拼音信息和语音识别结果的第二拼音信息，确定语音识别结果之中的待替换词和待替换词对应的目标热词；

第一替换模块640，用于将语音识别结果之中的待替换词替换成对应的目标热词。

其中，第一获取模块620获取的预置热词集合中的热词包括：

根据使用场景的语音识别经验得出的热词；和/或，

在使用场景中的语音识别过程中，对语音识别结果进行校正操作时所使用的替换词。

在本申请实施例中，语音识别处理装置还包括热词配置模块650，该热词配置模块650用于：

在将热词配置至预置热词集合之后，获取热词中每个字的拼音；

如果热词中不存在多音字，则将热词中每个字的拼音进行组合，以得到热词的第一拼音信息；

如果热词中存在多音字，则将热词之中多音字的拼音和其他字的拼音从左到右进行两两排列组合，获得多个拼音排列组合结果；

将多个拼音排列组合结果作为热词的第一拼音信息。

在本申请的一些实施例中，第二确定模块630用于：

确定预置热词集合中各热词的第一拼音信息；

对语音识别结果进行预处理；其中，预处理包括过滤标点符号、过滤特殊字符、英文字符中的至少一种；

将预处理后的语音识别结果转换为对应的拼音，以得到语音识别结果的第二拼音信息；

将各热词的第一拼音信息与语音识别结果的第二拼音信息进行对比，从第一拼音信息和第二拼音信息中确定出具有相同音节组成成分和结构的目标拼音；

根据第二拼音信息，将语音识别结果之中目标拼音对应的文本确定为待替换词；

将目标拼音对应的热词确定为目标热词。

根据本申请实施例提出的语音识别处理装置，通过根据使用场景获取预先配置的热词集合，在对实时语音识别结果进行纠错处理时，将热词集合中热词对应的拼音信息与语音识别结果的拼音信息进行对比，并根据对比结果针对语音识别结果中的词语进行替换，这样，在无需附加人力及时间成本的前提下，不仅降低了语音识别结果的出错率，而且提升了特定场景下语音识别效果。由此可见，本申请可以有效实现特定场景下热词的替换功能，并且能够结构现有技术中利用自然语音处理nlp中模型训练技术替换导致的耗时问题等，可以提高语音识别结构的输出显示效率。

为了提高语音识别结果替换的准确性，本申请实施例提出了另一种语音识别处理装置，图7为本申请实施例提出的语音识别处理装置结构框图，如图7所示，该装置还包括：

判断模块760，用于判断待替换词之中文本间是否存在标点符号和/或特殊字符；

如果待替换词之中文本间存在标点符号和/或特殊字符，则第一替换模块740不执行将语音识别结果之中的待替换词替换成对应的目标热词的步骤；

如果待替换词之中文本间不存在标点符号和/或特殊字符，则第一替换模块740执行将语音识别结果之中的待替换词替换成对应的目标热词的步骤。

需要说明的是，图7中的710～750与图6中的610～650具有相同的功能和结构，此处不再赘述。

根据本申请实施例提出的语音识别处理装置，通过增加待替换词之中文本间是否存在标点符号和/或特殊字符的判断，针对待替换词之中文本间不存在标点符号和/或特殊字符的情况，才执行将语音识别结果之中的待替换词替换成对应的目标热词的步骤，否则不执行替换步骤，这样，在一定程度上避免了替换错误的情况的发生，进一步地提高了替换的准确性，从而，提高了语音识别效果。

针对沟通中存在语气词的问题，本申请实施例提出了又一种语音识别处理装置，图8为该语音识别处理装置的结构框图，如图8所示，该装置还包括：

第二获取模块870，用于获取预置语气词集合；

第二替换模块880，用于将据预置语气词集合中的各语气词与语音识别结果进行文本匹配，将语音识别结果中匹配到的文本作为语气词进行替换处理。

其中，第二获取模块870获取的预置语气词集合中的语气词包括：

根据使用场景的语音识别经验得出的语气词；和/或，

根据使用场景中讲话者的说话习惯而得到的语气词；和/或，

在使用场景中的语音识别过程中对语音识别结果进行校正操作时，将语音识别结果中替换成空字符的词作为语气词。

需要说明的是，图8中的810～860与图7中的710～760具有相同的功能和结构，此处不再赘述。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本申请实施例提出的语音识别处理装置，通过获取预置语气词集合，将语音识别结果与预置语气词集合中各语气词进行匹配，并将语音识别结果中匹配到的文本作为语气词进行替换处理，实现了语音识别结果中语气词的替换，进一步地提高了语音识别效果。

根据本申请的实施例，本申请还提供了一种电子设备、一种存储有计算机指令的非瞬时计算机可读存储介质以及一种计算机程序产品。

如图9所示，是根据本申请实施例的语音识别处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。

存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的语音识别处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的语音识别处理方法。本申请的计算机程序产品，包括计算机程序，该计算机程序再被处理器901执行时，实现本申请所提出的语音识别处理方法。

存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的语音识别处理方法对应的程序指令/模块(例如，附图6所示的第一确定模块610、第一获取模块620、第二确定模块630、第一替换模块640和热词配置模块650)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语音识别处理方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音识别处理的电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至语音识别处理方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

语音识别处理方法的电子设备还可以包括：输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置903可接收输入的数字或字符信息，以及产生与语音识别处理方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如，led)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

语音识别处理方法、装置、电子设备以及存储介质与流程

相关文章

最热文献