一种语音识别方法、装置及终端设备与流程

2021-09-07 21:17:00 来源：中国专利 TAG：语音识别终端设备装置方法

1.本发明涉及语音识别技术领域，尤其涉及一种语音识别方法、装置及终端设备。

背景技术：

2.在ai(artificial intelligence，人工智能)设备的交互设计中，语音识别是重要部分，当用户需要与ai设备进行交互时，ai设备首先对用户的输出语音进行语音识别。而语音识别的关键技术包括语义识别和断句分词。其中，对于断句识别，通常在ai设备的交互上进行设计，使用户主动请求断句结束，如点击或释放按键；或者使用静音检测，当一段时间内没有检测到用户有语音指示，则认为触发断句。
3.但是，上述的第一种方式不适用于特定环境，如车载语音识别，而第二种方式中静音检测的时间判定很难有确切标准，存在识别提前结束的情况。

技术实现要素：

4.本发明的主要目的在于提出一种语音识别方法、装置及终端设备，以解决现有ai设备的语音识别设计中，断句方式的设置适用范围窄、断句效果较差的问题。
5.为实现上述目的，本发明实施例第一方面提供一种语音识别方法，包括：
6.采集目标在当前时刻的第一输出语音，并对所述第一输出语音进行识别获得识别结果；
7.根据所述识别结果判断所述第一输出语音的完整性；
8.对所述判断结果进行完整置信度评分；
9.所述完整置信度满足预设条件时，对所述第一输出语音做出响应。
10.结合本发明实施例第一方面，本发明第一实施方式中，对所述第一输出语音进行识别获得识别结果，包括：
11.将所述第一输出语音转换为文本信息；
12.对所述文本信息进行分词处理，将分词处理结果作为所述识别结果。
13.结合本发明实施例第一方面第一实施方式，本发明第二实施方式中，根据所述识别结果判断所述第一输出语音的完整性之前，包括：
14.获取完整用户语料；
15.对n条所述完整用户语料进行拆分，其中，基于第n条所述完整性用户语料获得k组拆分语料；
16.对每组所述拆分语料进行语料完整性分类，所述拆分语料的数量与所述语料完整性的数值成正比；
17.基于进行语料完整性分类后的完整用户语料构建完整用户语料库。
18.结合本发明实施例第一方面第二实施方式，本发明第三实施方式中，根据所述识别结果判断所述第一输出语音的完整性，包括：
19.将所述识别结果在所述完整用户语料库中进行匹配，获得基于所述识别结果的语
料完整性；
20.所述识别结果的语料完整性大于预设数值时，所述第一输出语音完整。
21.结合本发明实施例第一方面，本发明第四实施方式中，所述完整置信度不满足预设条件时，获取目标在下一时刻的第二输出语音，并对所述第二输出语音进行识别获得补充识别结果；
22.将所述补充结果和所述补充识别结果拼接，并根据所述拼接结果判断所述第一输出语音和所述第二输出语音的完整性；
23.所述第一输出语音和所述第二输出语音完整时根据拼接结果进行响应。
24.结合本发明实施例第一方面第四实施方式，本发明第五实施方式中，所述第一输出语音和所述第二输出语音不完整时删除基于所述第一输出语音的识别结果。
25.结合本发明实施例第一方面第四实施方式，本发明第六实施方式中，若无法获取到目标在下一时刻的第二输出语音，则删除所述第一输出语音及基于所述第一输出语音的识别结果。
26.本发明实施例第二方面提供一种语音识别装置，包括：
27.第一输出语音获取模块，用于采集目标在当前时刻的第一输出语音，并对所述第一输出语音进行识别获得识别结果；
28.完整性判断模块，用于根据所述识别结果判断所述第一输出语音的完整性；
29.置信度评分模块，用于对所述判断结果进行完整置信度评分；
30.语音响应模块，用于所述完整置信度满足预设条件时，对所述第一输出语音做出响应。
31.本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现如上第一方面所提供的方法的步骤。
32.本发明实施例的第四方面提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现如上第一方面所提供的方法的步骤。
33.本发明实施例提出一种语音识别方法，将用户作为目标，采集目标在当前时刻的第一输出语音，并对第一输出语音进行完整性判断及完整置信度分析，进而分析用户是否已经完整表达其意图，与用户主动请求断句结束的方式相比，其不需要用户手动进行交互操作，不受限于应用场景，适用范围广；与静音检测的断句方式相比，避免了静音检测的时间判定难以设置而使得语音识别提前结束，无法识别用户完整意图的情况。
附图说明
34.图1为本发明实施例提供的语音识别方法的实现流程示意图；
35.图2为本发明实施例提供的语音识别装置的组成结构示意图。
36.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
37.应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
38.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
39.在本文中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，"模块"与"部件"可以混合地使用。
40.如图1所示，本发明实施例提供一种语音识别方法，应用于ai设备，其包括但不限于如下步骤：
41.s101、采集目标在当前时刻的第一输出语音，并对所述第一输出语音进行识别获得识别结果。
42.在上述步骤s101中，目标为当前使用ai设备的用户，则可以想到的是，采集目标在当前时刻的第一输出语音之前，还应识别当前目标是否为具有使用权限的用户。
43.在具体应用中，如在车载语音识别的环境中，具有使用权限的用户可以限定为驾驶员，在家庭语音识别的环境中，具有使用权限的用户可以为使用预设指示语句的用户。
44.在上述步骤s101中，第一输出语音的识别为自然语音识别，即将第一输出语音转换为机器可识别的文本信息。
45.在一个实施例中，上述步骤s101的一种实现方式可以为：
46.将所述第一输出语音转换为文本信息；
47.对所述文本信息进行分词处理，将分词处理结果作为所述识别结果。
48.在本发明实施例中，通过分词处理一方面模拟用户对句子的理解，达到语义分析的效果，另一方面如下述步骤s102所示，用于判断所述第一输出语音的完整性。
49.s102、根据所述识别结果判断所述第一输出语音的完整性。
50.在上述步骤s102中，通过判断第一输出语音的完整性，获取目标是否断句结束的信息，详细地说，判断出第一输出语音完整时，目标断句结束，即用户已经给出了完整的语音指示；判断第一输出语音不完整时，目标断句未结束，即用户还未给出完整的语音指示。
51.在本发明实施例中，识别结果为经过分词处理的文本信息，在根据识别结果对第一输出语音的完整性进行判断时，使用完整用户语料库对识别结果的完整性进行评估，则实现上述步骤s102之前，还需构建完整用户语料库，其实现方式为：
52.根据所述识别结果判断所述第一输出语音的完整性之前，包括：
53.获取完整用户语料；
54.对n条所述完整用户语料进行拆分，其中，基于第n条所述完整用户语料获得k组拆分语料；
55.对每组所述拆分语料进行语料完整性分类，所述拆分语料的数量与所述语料完整性的数值成正比；
56.基于进行语料完整性分类后的完整用户语料构建完整用户语料库。
57.本实施例以具体数据对上述的完整用户语料库进行说明，假设当前有完整用户语料导航到a地点，导航到b地点以及导航到c地点，则对其进行拆分后，可以获得基于第1条完整用户语料的3组拆分语料，表示为：{导航到，a地点}，{导航到}，{a地点}；以及基于第2条
完整用户语料的3组拆分语料，表示为：{导航到，b地点}，{导航到}，{b地点}；以及基于第3条完整用户语料的3组拆分语料，表示为：{导航到，c地点}，{导航到}，{c地点}。且其中，{导航到，a地点}、{导航到，b地点}、{导航到，c地点}的语料完整性的数值可以假设为2，{导航到}、{a地点}、{b地点}、{c地点}的语料完整性的数值可以假设为1。
58.基于上述的完整用户语料库，上述步骤s102的实现方式包括：
59.将所述识别结果在所述完整用户语料库中进行匹配，获得基于所述识别结果的语料完整性；
60.所述识别结果的语料完整性大于预设数值时，所述第一输出语音完整。
61.通过上述的匹配，可以获得识别结果的语料完整性，结合上述的具体数据，设置预设数值为1，因为根据完整用户语料拆分获得的拆分语料中，{导航到}、{a地点}、{b地点}、{c地点}为不完整语料，其语料完整性的数值均为1。则当第一输出语音为导航到时，根据上述步骤s101及其详细实现方式，识别结果为{导航到}，将其在完整用户语料库中进行匹配，而在完整性语料数据库中，其与上述的3条完整用户语料的匹配结果均表示其语料完整性的数值为1，因此，此时可以判断第一输出语音不完整。当第一输出语音为导航到a地点时，根据上述步骤s101及其详细实现方式，识别结果为{导航到，a地点}，将其在完整用户语料库中进行匹配，而在完整性语料数据库中，其与上述的3条完整用户语料的匹配结果表示其语料完整性的数值分别为2，1，1，均值大于1，因此，此时可以判断第一输出语音完整。
62.s103、对所述判断结果进行完整置信度评分。
63.s104、所述完整置信度满足预设条件时，对所述第一输出语音做出响应。
64.通过上述步骤s101至步骤s104，对第一输出语音的完整性进行分析和完整置信度判断，进而分析用户是否已经完整表达其意图，如果完整则ai设备做出响应。上述的语音识别方法，与用户主动请求断句结束的方式相比，其不需要用户手动进行交互操作，不受限于应用场景，适用范围广；与静音检测的断句方式相比，避免了静音检测的时间判定难以设置而使得语音识别提前结束，无法识别用户完整意图的情况。
65.在具体应用中，若完整置信度不满足预设条件，即判断结果表示第一输出语音不完整时，可以继续等待用户表达完整，如继续获取目标的输出语音并根据完整的输出语音进行识别及完整性分析。
66.因此，在一个实施例中，所述完整置信度不满足预设条件时，获取目标在下一时刻的第二输出语音，并对所述第二输出语音进行识别获得补充识别结果；
67.将所述补充结果和所述补充识别结果拼接，并根据所述拼接结果判断所述第一输出语音和所述第二输出语音的完整性；
68.所述第一输出语音和所述第二输出语音完整时根据拼接结果进行响应。
69.其中，第一输出语音和第二输出语音之间的间隔不影响是否将第一输出语音和第二输出语音作为完整的输出语音，因此，克服了静音检测实现断句所导致的识别提前结束的问题。
70.在一个实施例中，所述第一输出语音和所述第二输出语音不完整时删除基于所述第一输出语音的识别结果。
71.在本发明实施例中，上述的第一输出语音和所述第二输出语音不完整，表示第一输出语音和第二输出语音不能作为完整的输出语音。此时，删除基于第一输出语音的识别
结果，以将第二输出语音作为新的第一输出语音，并返回上述步骤s101，通过上述步骤s101至步骤s104重新进行语音识别，
72.在一个实施例中，若无法获取到目标在下一时刻的第二输出语音，则所述第一输出语音及基于所述第一输出语音的识别结果。
73.在具体应用中，无法获取到目标在下一时刻的第二输出语音的情况可以为预设时间内未获取到目标的输出语音，则当前时刻加上预设时间所得时刻之前的时刻均可以为上述的下一时刻。
74.其中，上述的预设时间至少为一个小时，或者其他区别于静音检测断句的时间间隔，本发明实施例中不对其进行限定。
75.如图2所示，本发明实施例提供一种语音识别装置20，包括：
76.第一输出语音获取模块21，用于采集目标在当前时刻的第一输出语音，并对所述第一输出语音进行识别获得识别结果；
77.完整性判断模块22，用于根据所述识别结果判断所述第一输出语音的完整性；
78.置信度评分模块23，用于对所述判断结果进行完整置信度评分；
79.语音响应模块24，用于所述完整置信度满足预设条件时，对所述第一输出语音做出响应。
80.本发明实施例还提供一种终端设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如实施例一中所述的语音识别方法中的各个步骤。
81.本发明实施例还提供一种存储介质，所述存储介质为计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如实施例一中所述的语音识别方法中的各个步骤。
82.以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种颈部环主动噪声控制装置的制作方法

一种语音识别方法、装置及终端设备与流程

相关文章

最热文献