语音识别方法、装置、计算机设备及存储介质与流程

2021-09-08 00:02:00 来源：中国专利 TAG：语音装置语音识别计算机方法

1.本发明涉及语音处理技术领域，尤其涉及一种语音识别方法、装置、计算机设备及存储介质。

背景技术：

2.目前销售人员和客户进行语音沟通时，会推荐一些产品给客户，销售人员会向客户介绍产品的基本情况，销售卖点等，客户会根据销售人员的推销进行语音反馈，语音记录系统会记录下销售人员与客户对话时的语音信息，然后通过语音识别模型对记录的语音信息进行语音识别处理，得到对应的文本信息，以便后续查看。
3.但是，由于通话时通话人员周围有时会存在噪音，导致这部分的语音信息的噪声高，在识别时很容易导致这部分语音识别不准确，所以现有技术中的语音识别技术的识别准确度还有待提高。

技术实现要素：

4.本发明实施例提供了一种语音识别方法、装置、计算机设备及存储介质，可以提高语音识别的准确度。
5.第一方面，本发明实施例提供了一种语音识别方法，其包括：
6.获取待识别语音；
7.将所述待识别语音输入训练后的语音识别模型进行语音识别处理，得到初始语音识别结果，所述初始语音识别结果包括多个分词预测结果，每个所述分词预测结果包括多个分词预测文本及每个所述分词预测文本对应的分词置信度；
8.确定所述初始语音识别结果中的所述分词预测文本中是否存在相对应的第一分词预测文本以及第二分词预测文本；
9.若存在相对应的第一分词预测文本以及第二分词预测文本，则根据所述第二分词预测文本的第二分词置信度对所述第一分词预测文本的第一分词置信度进行调整，得到调整后的分词置信度，所述第二分词置信度高于所述第一分词置信度；
10.根据所述分词预测文本以及所述调整后的分词置信度确定所述待识别语音的目标语音识别结果。
11.第二方面，本发明实施例还提供了一种语音识别装置，其包括：
12.获取单元，用于获取待识别语音；
13.处理单元，用于将所述待识别语音输入训练后的语音识别模型进行语音识别处理，得到初始语音识别结果，所述初始语音识别结果包括多个分词预测结果，每个所述分词预测结果包括多个分词预测文本及每个所述分词预测文本对应的分词置信度；
14.第一确定单元，用于确定所述初始语音识别结果中的所述分词预测文本中是否存在相对应的第一分词预测文本以及第二分词预测文本；
15.调整单元，用于当存在相对应的第一分词预测文本以及第二分词预测文本时，根
据所述第二分词预测文本的第二分词置信度对所述第一分词预测文本的第一分词置信度进行调整，得到调整后的分词置信度，所述第二分词置信度高于所述第一分词置信度；
16.第二确定单元，用于根据所述分词预测文本以及所述调整后的分词置信度确定所述待识别语音的目标语音识别结果。
17.第三方面，本发明实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法。
18.第四方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时可实现上述方法。
19.本发明实施例提供了一种语音识别方法、装置、计算机设备及存储介质。其中，所述方法包括：获取待识别语音；然后将所述待识别语音输入训练后的语音识别模型进行语音识别处理，得到初始语音识别结果，所述初始语音识别结果包括多个分词预测结果，每个所述分词预测结果包括多个分词预测文本及每个所述分词预测文本对应的分词置信度；再确定所述初始语音识别结果中的所述分词预测文本中是否存在相对应的第一分词预测文本以及第二分词预测文本；若存在相对应的第一分词预测文本以及第二分词预测文本，则根据所述第二分词预测文本的第二分词置信度对所述第一分词预测文本的第一分词置信度进行调整，得到调整后的分词置信度，其中，所述第二分词置信度高于所述第一分词置信度；最后根据所述分词预测文本以及所述调整后的分词置信度确定所述待识别语音的目标语音识别结果。本方案在识别出初始语音识别结果之后，还会对初始语音识别结果中的分词预测文本进行进一步处理，提高语音识别的准确度。
附图说明
20.为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
21.图1为本发明实施例提供的语音识别方法的应用场景示意图；
22.图2为本发明实施例提供的语音识别方法的流程示意图；
23.图3为本发明实施例提供的语音识别方法的一子流程示意图；
24.图4为本发明实施例提供的语音识别方法的另一子流程示意图；
25.图5为本发明实施例提供的语音识别方法的另一子流程示意图；
26.图6为本发明另一实施例提供的语音识别方法的流程示意图；
27.图7为本发明实施例提供的语音识别装置的示意性框图；
28.图8为本发明另一实施例提供的语音识别装置的示意性框图；以及
29.图9为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
30.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施
例，都属于本发明保护的范围。
31.应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
32.还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。
33.还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
34.本发明实施例提供了一种语音识别方法、装置、计算机设备及存储介质。
35.该语音识别方法的执行主体可以是本发明实施例提供的语音识别装置，或者集成了该语音识别装置的计算机设备，其中，该语音识别装置可以采用硬件或者软件的方式实现，该计算机设备可以为终端或服务器，该终端可以是智能手机、平板电脑、掌上电脑、或者笔记本电脑等。
36.请参阅图1，图1为本发明实施例提供的语音识别方法的应用场景示意图。该语音识别方法应用于图1中的计算机设备10中，该计算机设备10首先获取待识别语音；然后将待识别语音输入训练后的语音识别模型进行语音识别处理，得到初始语音识别结果，其中，初始语音识别结果包括多个分词预测结果，每个分词预测结果包括多个分词预测文本及每个分词预测文本对应的分词置信度；然后对初始语音识别结果进行分词预测文本处理，得到最终的目标语音识别结果，具体地，确定初始语音识别结果中的分词预测文本中是否存在相对应的第一分词预测文本以及第二分词预测文本；若存在相对应的第一分词预测文本以及第二分词预测文本，则根据第二分词预测文本的第二分词置信度对第一分词预测文本的第一分词置信度进行调整，得到调整后的分词置信度，第二分词预测文本的分词置信度高于第一分词预测文本的分词置信度；最后根据分词预测文本以及调整后的分词置信度确定所述待识别语音的目标语音识别结果。
37.图2是本发明实施例提供的语音识别方法的流程示意图，该实施例以服务器为执行主体进行举例说明。如图2所示，该方法包括以下步骤s110
‑
160。
38.s110、获取待识别语音。
39.本实施例中，待识别语音可以为用户(例如销售人员与客户)进行电话沟通时的通话语音，也可以为用户在即时通信应用(application，app)上进行沟通的语音信息，还可以为在数据库(本地数据库或云数据库)中存储的历史语音信息，具体此处不做限定。
40.其中，本实施例可以在线进行语音识别。
41.s120、将待识别语音输入训练后的语音识别模型进行语音识别处理，得到初始语音识别结果。
42.本实施例中，当获取待识别语音之后，将该待识别语音输入训练后的语音识别模型，得到初始语音识别结果，其中，该初始语音识别结果为还需要进行改善的语音文本结果。
43.其中，该初始语音识别结果包括多个分词预测结果，并且每个该分词预测结果包括多个分词预测文本及每个该分词预测文本对应的分词置信度。
44.即，根据语音识别模型输出的文本由多个分词结果组成，例如，语音识别模型对一句话进行文本识别的时候，具体地，会将这句话分成多个分词，例如，将语音a输入语音识别模型，输出由分词预测结果a、分词预测结果b以及分词预测结果c组成的初始语音识别结果，其中，每个分词预测结果均包括多个可能的分词预测文本以及每个分词预测文本分别对应的置信度，即针对语音中的每个分词预测结果都存在多种可能的结果预测，最后再将每个分词预测结果中置信度值最高的分词预测文本确定为最终的预测文本。
45.但是，由于在用户通话的时候周围有时可能会产生噪音，录音设备会将噪音也录进去，又或者有一方用户说话发音不标准或不清楚，都会导致需要识别的语音存在噪声，导致通过语音识别模型输出的文本中存在分词识别不准确的问题，这个时候我们就需要依赖语音文本的上下文(包括双方用户的语音文本的上下文)对初始语音识别结果进行校正。
46.其中，本实施中训练后的语音识别模型为经过语音识别训练并收敛的语音识别模型，其中，本实施例中的语音识别模型具体可以为卷积神经网络(convolutional neural network，cnn)或者深度神经网络(deep neural networks，dnn)。
47.s130、确定初始语音识别结果中的分词预测文本中是否存在相对应的第一分词预测文本以及第二分词预测文本，若是，执行步骤s140，若否，则执行步骤s160。
48.其中，待识别的语音中通常会包括多个语句，前后文的表达中往往会出现相同的词语。初始语音识别结果中包括由分词预测结果组成，并且每个分词预测结果都包括多个可能的分词预测文本，即初始语音识别结果也包括多个可能的分词预测文本，具体地，本实施例中，需要找出初始语音识别结果中预测的分词文本相同的分词文本，例如，本实施例中，第一分词预测文本以及第二分词预测文本的预测结果是相同的，例如都是“不走”，但是其对应的分词置信度可能是不一样的。
49.在一些实施例中，第二分词预测文本的置信度比第一分词预测文本的置信度高，并且，第一分词预测文本可以包括多个分词预测文本，并且这多个分词预测文本的预测结果均与第二分词预测文本相同，并且对应的置信度也比第二分词预测文本低，即本实施例可以同时对多个分词预测文本进行校正处理。
50.s140、根据第二分词预测文本的第二分词置信度对第一分词预测文本的第一分词置信度进行调整，得到调整后的分词置信度。
51.本实施例中，第二分词置信度为第二分词预测文本对应的分词置信度，第一分词置信度为第一分词预测文本对应的分词置信度，第二分词置信度比第一分词置信度高，并且第二分词预测文本与第一分词预测文本相同，第一分词预测文本对应的语音存在的噪声可能比较大，导致识别出来的结果不准确，例如，此时第一分词预测文本对应的分词预测结果包括“步骤”(对应的置信度为0.5)以及“不走”(对应的置信度为0.4)，若不进行校正处理，则根据置信度的高低，第一分词预测文本对应的分词预测结果最终输出的文本为“步骤”，此时第二分词预测文本“不走”(对应的置信度为0.8)，此时，说明第二分词预测文本对应的语音的噪声比较低，识别的结果较为准确，所以此时，可以将第一分词预测文本对应的置信度调整为0.8，此时，第一分词预测文本对应的分词预测结果最终输出的文本为“不走”，提高了最终的识别文本的准确度。
52.在一些实施例中，请参阅图3，步骤s140包括：
53.s141、确定第一分词置信度是否大于预设的置信度阈值。
54.本实施例中，虽然分词预测文本中存在相同的第一分词预测文本以及第二分词预测文本，但是，此时第一分词预测文本的置信度非常低，例如第一分词预测文本“不走”的置信度为0.1，而此时第一分词预测文本对应的分词预测结果包括“步骤”(对应的置信度为0.7)以及“不走”(对应的置信度为0.1)，很明显，此时第一分词预测文本的准确更加倾向于“步骤”，如果将该结果修改为置信度很低的“不走”，会导致修改出错，所以，此时，当确定了分词预测文本中存在相同的第一分词预测文本以及第二分词预测文本之后，还需要确定第一分词预测文本对应的置信度是否大于置信度阈值(例如为0.3)。
55.其中，本实施例将低于或等于置信度阈值的第一分词预测文本确定为不信任文本，将大于置信度阈值的第一分词预测文本对应的分词预测结果确定为可能识别错误的文本，所以本技术只需要对第一分词置信度是否大于预设的置信度阈值的情况进行文本校正处理。
56.s142、若第一分词置信度大于置信度阈值，则将第一分词预测文本的第一分词置信度替换为第二分词置信度，得到调整后的分词置信度。
57.此时，如果第一分词置信度大于置信度阈值，则对该第一分词预测文本对应的置信度进行修改，如果第一分词置信度不大于置信度阈值，则不需要进行修改。
58.在一些实施例中，请参阅图4，步骤s142包括：
59.s1421、确定第二分词置信度是否大于目标分词预测结果中值最高的置信度。
60.其中，目标分词预测结果为第一分词预测文本对应的分词预测结果。
61.本实施例中，如果第二分词置信度不大于目标分词预测结果中值最高的置信度的话，那其实就算对第一分词预测文本对应的置信度进行了修改，但是最终得到的结果其实是没有改变的，例如，第一分词预测文本对应的分词预测结果包括“步骤”(对应的置信度为0.8)以及“不走”(对应的置信度为0.4)，而第二分词置信度为0.6，此时，就算对第一分词预测文本的第一分词置信度进行了替换，得到修改后的分词预测结果为：“步骤”(对应的置信度为0.8)以及“不走”(对应的置信度为0.6)，此时并不影响第一分词预测文本对应的分词预测结果最终的输出结果(最终输出还是为“步骤”)。
62.此时，第一分词预测文本对应的分词预测结果中的“步骤”(对应的置信度为0.8)，其准确性已经足够高，即使存在与第一分词预测文本相同的分词预测文本，也不需要对第一分词预测文本对应的置信度进行修改。
63.s1422、若第二分词置信度大于目标分词预测结果中值最高的置信度，则将第一分词预测文本的第一分词置信度替换为第二分词置信度，得到调整后的分词置信度。
64.本实施例中，如果第二分词置信度大于目标分词预测结果中值最高的置信度，则此时执行本方案中的校正才有效果，若第二分词置信度不大于目标分词预测结果中值最高的置信度，则此时不需要对分词文本进行校正，降低服务器的消耗。
65.s150、根据分词预测文本以及调整后的分词置信度确定待识别语音的目标语音识别结果。
66.在一些实施例中，请参阅图5，步骤s150包括：
67.s151、基于调整后的分词置信度，将每个分词预测结果中置信度最大的分词预测文本确定为目标分词预测文本。
68.对分词预测结果中的分词预测文本对应的分词置信度进行调整之后，本实施例将
每个分词预测结果中置信度最大的分词预测文本确定为目标分词预测文本。
69.s152、根据目标分词预测文本确定目标语音识别结果。
70.确定目标分词预测文本之后，根据目标分词预测文本对应的待识别语音的时序顺序，确定目标语音识别结果。
71.s160、将初始语音识别结果确定为目标语音识别结果。
72.本实施例中，当根据步骤s130确定初始语音识别结果中的分词预测文本中不存在相对应的第一分词预测文本以及第二分词预测文本时，则此时不需要对分词预测文本进行调整，直接将初始语音识别结果确定为目标语音识别结果。
73.综上所述，本实施例获取待识别语音；然后将所述待识别语音输入训练后的语音识别模型进行语音识别处理，得到初始语音识别结果，所述初始语音识别结果包括多个分词预测结果，每个所述分词预测结果包括多个分词预测文本及每个所述分词预测文本对应的分词置信度；再确定所述初始语音识别结果中的所述分词预测文本中是否存在相对应的第一分词预测文本以及第二分词预测文本；若存在相对应的第一分词预测文本以及第二分词预测文本，则根据所述第二分词预测文本的第二分词置信度对所述第一分词预测文本的第一分词置信度进行调整，得到调整后的分词置信度，其中，所述第二分词置信度高于所述第一分词置信度；最后根据所述分词预测文本以及所述调整后的分词置信度确定所述待识别语音的目标语音识别结果。本方案在识别出初始语音识别结果之后，还会对初始语音识别结果中的分词预测文本进行进一步处理，提高语音识别的准确度。
74.图6是本发明另一实施例提供的一种语音识别方法的流程示意图。如图6所示，本实施例的语音识别方法包括步骤s210
‑
s280。其中步骤s210
‑
s260与上述实施例中的步骤s110
‑
s160类似，在此不再赘述。下面详细说明本实施例中所增加的步骤s270
‑
s280。
75.在一些实施例中，确定待识别语音的目标语音识别结果之后，还会根据目标语音识别结果自动生成数据提取表，其中，该数据提取表包含有待识别语音中的中提及的产品信息以及该产品信息对应的意向信息，具体如下：
76.s270、根据预设的产品词库以及预设的意向词库，分别从目标语音识别结果中提取目标产品信息以及目标意向信息。
77.本实施例中，产品词库中预设有多种产品的名称，该产品为销售人员向客户推荐的产品，意向词库中存储有多种意向信息，其中，该意向信息包括正面向意向信息以及负面意向信息，正面意向信息包括：购买100万、考虑购买以及有意向等，负面意向信息包括：没有打算、不想购买及没有计算等。
78.具体地，步骤s270包括：对目标语音识别结果进行分词处理，得到多个分词；将多个分词中与产品词库的产品词相匹配的分词确定为目标产品信息；将多个分词中与意向词库的意向词相匹配的分词确定为目标意向信息。
79.本实施例中，上述将多个分词中与意向词库的意向词相匹配的分词确定为目标意向信息，具体包括：将多个分词中与意向词库的意向词相匹配的分词确定为意向信息，确定该目标意向信息对应的语音主体，若语音主体为客户，则直接确定的意向信息确定为目标意向信息，若语音主体为销售人员，则此时，进一步识别客户的回答，若识别到客户为肯定回答，则此时，将意向信息确定为目标意向信息，若客户为否定回答，则根据客户的否定回答生成负面意向信息，并将该负面意向信息确定为目标意向信息。
80.s280、根据目标产品信息以及目标意向信息生成数据提取表。
81.在一些实施例中，具体地，步骤s280包括：提取目标产品信息在目标语音识别结果中的产品信息位置信息，以及提取目标意向信息在目标语音识别结果中的意向信息位置信息；根据产品信息位置信息以及意向信息位置信息确定目标产品信息以及目标意向信息的关联关系；根据关联关系生成数据提取表。
82.例如，如果一条待识别语音中存在多个产品的推荐信息，则此时，需要分别对每个产品信息以及每个产品信息对应的意向信息进行关联，具体地，将与产品信息右边相邻的(识别出多个产品信息以及意向信息，将位置最近的信息称为相邻信息)意向信息确定为该产品信息对应的意向信息，其中，右边相邻，即对应的语音发生时间晚于该产品信息的意向信息。
83.在一些实施例中，在将数据提取表录入系统之前，还需要接收销售人员的确认信息，接收到该确认信息之后，再将该数据提取表录入系统，以保证信息的准确性。
84.本实施例，可以精准识别出待识别语音对应的文字信息，并且根据识别出来的文字信息自动生成数据提取表，不需要销售人员进行手动记录，可以减少销售人员的操作，提升销售人员的产能，并且方便后续追踪数据。
85.图7是本发明实施例提供的一种语音识别装置的示意性框图。如图7所示，对应于以上语音识别方法，本发明还提供一种语音识别装置。该语音识别装置包括用于执行上述语音识别方法的单元，该装置可以被配置于台式电脑、平板电脑、手提电脑、等终端中。具体地，请参阅图7，该语音识别装置包括获取单元701、处理单元702、第一确定单元703、调整单元704以及第二确定单元705。
86.获取单元701，用于获取待识别语音；
87.处理单元702，用于将所述待识别语音输入训练后的语音识别模型进行语音识别处理，得到初始语音识别结果，所述初始语音识别结果包括多个分词预测结果，每个所述分词预测结果包括多个分词预测文本及每个所述分词预测文本对应的分词置信度；
88.第一确定单元703，用于确定所述初始语音识别结果中的所述分词预测文本中是否存在相对应的第一分词预测文本以及第二分词预测文本；
89.调整单元704，用于当存在相对应的第一分词预测文本以及第二分词预测文本时，根据所述第二分词预测文本的第二分词置信度对所述第一分词预测文本的第一分词置信度进行调整，得到调整后的分词置信度，所述第二分词置信度高于所述第一分词置信度；
90.第二确定单元705，用于根据所述分词预测文本以及所述调整后的分词置信度确定所述待识别语音的目标语音识别结果。
91.在一些实施例中，所述调整单元704具体用于：
92.确定所述第一分词置信度是否大于预设的置信度阈值；
93.若所述第一分词置信度大于所述置信度阈值，则将所述第一分词预测文本的所述第一分词置信度替换为所述第二分词置信度，得到所述调整后的分词置信度。
94.在一些实施例中，所述调整单元704进一步具体用于：
95.确定所述第二分词置信度是否大于目标分词预测结果中值最高的置信度，所述目标分词预测结果为所述第一分词预测文本对应的分词预测结果；
96.若所述第二分词置信度大于目标分词预测结果中值最高的置信度，则将所述第一
分词预测文本的所述第一分词置信度替换为所述第二分词置信度，得到所述调整后的分词置信度。
97.在一些实施例中，所述第二确定单元705具体用于：
98.基于所述调整后的分词置信度，将每个所述分词预测结果中置信度最大的分词预测文本确定为目标分词预测文本；
99.根据所述目标分词预测文本确定所述目标语音识别结果。
100.图8是本发明另一实施例提供的一种语音识别装置的示意性框图。如图8所示，本实施例的语音识别装置是上述实施例的基础上增加了提取单元706以及生成单元707。
101.提取单元706，用于根据预设的产品词库以及预设的意向词库，分别从所述目标语音识别结果中提取目标产品信息以及目标意向信息；
102.生成单元707，用于根据所述目标产品信息以及所述目标意向信息生成数据提取表。
103.在一些实施例中，所述提取单元706具体用于：
104.对所述目标语音识别结果进行分词处理，得到多个分词；
105.将所述多个分词中与所述产品词库的产品词相匹配的分词确定为所述目标产品信息；
106.将所述多个分词中与所述意向词库的意向词相匹配的分词确定为所述目标意向信息。
107.在一些实施例中，所述生成单元707具体用于：
108.提取所述目标产品信息在所述目标语音识别结果中的产品信息位置信息，以及提取所述目标意向信息在所述目标语音识别结果中的意向信息位置信息；
109.根据所述产品信息位置信息以及所述意向信息位置信息确定所述目标产品信息以及所述目标意向信息的关联关系；
110.根据所述关联关系生成所述数据提取表。
111.需要说明的是，所属领域的技术人员可以清楚地了解到，上述语音识别装置和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。
112.上述语音识别装置可以实现为一种计算机程序的形式，该计算机程序可以在如图9所示的计算机设备上运行。
113.请参阅图9，图9是本技术实施例提供的一种计算机设备的示意性框图。该计算机设备900可以是终端，也可以是服务器，其中，终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。
114.参阅图9，该计算机设备900包括通过系统总线901连接的处理器902、存储器和网络接口905，其中，存储器可以包括非易失性存储介质903和内存储器904。
115.该非易失性存储介质903可存储操作系统9031和计算机程序9032。该计算机程序9032包括程序指令，该程序指令被执行时，可使得处理器902执行一种语音识别方法。
116.该处理器902用于提供计算和控制能力，以支撑整个计算机设备900的运行。
117.该内存储器904为非易失性存储介质903中的计算机程序9032的运行提供环境，该
计算机程序9032被处理器902执行时，可使得处理器902执行一种语音识别方法。
118.该网络接口905用于与其它设备进行网络通信。本领域技术人员可以理解，图9中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备900的限定，具体的计算机设备900可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
119.其中，所述处理器902用于运行存储在存储器中的计算机程序9032，以实现如下步骤：
120.获取待识别语音；
121.将所述待识别语音输入训练后的语音识别模型进行语音识别处理，得到初始语音识别结果，所述初始语音识别结果包括多个分词预测结果，每个所述分词预测结果包括多个分词预测文本及每个所述分词预测文本对应的分词置信度；
122.确定所述初始语音识别结果中的所述分词预测文本中是否存在相对应的第一分词预测文本以及第二分词预测文本；
123.若存在相对应的第一分词预测文本以及第二分词预测文本，则根据所述第二分词预测文本的第二分词置信度对所述第一分词预测文本的第一分词置信度进行调整，得到调整后的分词置信度，所述第二分词置信度高于所述第一分词置信度；
124.根据所述分词预测文本以及所述调整后的分词置信度确定所述待识别语音的目标语音识别结果。
125.在一实施例中，处理器902在实现所述根据所述第二分词预测文本的第二分词置信度对所述第一分词预测文本的第一分词置信度进行调整，得到调整后的分词置信度步骤时，具体实现如下步骤：
126.确定所述第一分词置信度是否大于预设的置信度阈值；
127.若所述第一分词置信度大于所述置信度阈值，则将所述第一分词预测文本的所述第一分词置信度替换为所述第二分词置信度，得到所述调整后的分词置信度。
128.在一实施例中，处理器902在实现所述将所述第一分词预测文本的所述第一分词置信度替换为所述第二分词置信度，得到所述调整后的分词置信度步骤时，具体实现如下步骤：
129.确定所述第二分词置信度是否大于目标分词预测结果中值最高的置信度，所述目标分词预测结果为所述第一分词预测文本对应的分词预测结果；
130.若所述第二分词置信度大于目标分词预测结果中值最高的置信度，则将所述第一分词预测文本的所述第一分词置信度替换为所述第二分词置信度，得到所述调整后的分词置信度。
131.在一实施例中，处理器902在实现所述根据所述分词预测文本以及所述调整后的分词置信度确定所述待识别语音的目标语音识别结果步骤时，具体实现如下步骤：
132.基于所述调整后的分词置信度，将每个所述分词预测结果中置信度最大的分词预测文本确定为目标分词预测文本；
133.根据所述目标分词预测文本确定所述目标语音识别结果。
134.在一实施例中，处理器902在实现所述根据所述分词预测文本以及所述调整后的分词置信度确定所述待识别语音的目标语音识别结果步骤之后，具体实现如下步骤：
135.根据预设的产品词库以及预设的意向词库，分别从所述目标语音识别结果中提取目标产品信息以及目标意向信息；
136.根据所述目标产品信息以及所述目标意向信息生成数据提取表。
137.在一实施例中，处理器902在实现所述根据预设的产品词库以及预设的意向词库，分别从所述目标语音识别结果中提取目标产品信息以及目标意向信息步骤时，具体实现如下步骤：
138.对所述目标语音识别结果进行分词处理，得到多个分词；
139.将所述多个分词中与所述产品词库的产品词相匹配的分词确定为所述目标产品信息；
140.将所述多个分词中与所述意向词库的意向词相匹配的分词确定为所述目标意向信息。
141.在一实施例中，处理器902在实现所述根据所述目标产品信息以及所述目标意向信息生成数据提取表步骤时，具体实现如下步骤：
142.提取所述目标产品信息在所述目标语音识别结果中的产品信息位置信息，以及提取所述目标意向信息在所述目标语音识别结果中的意向信息位置信息；
143.根据所述产品信息位置信息以及所述意向信息位置信息确定所述目标产品信息以及所述目标意向信息的关联关系；
144.根据所述关联关系生成所述数据提取表。
145.应当理解，在本技术实施例中，处理器902可以是中央处理单元(central processing unit，cpu)，该处理器902还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field
‑
programmable gatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
146.本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。
147.因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中计算机程序包括程序指令。该程序指令被处理器执行时使处理器执行如下步骤：
148.获取待识别语音；
149.将所述待识别语音输入训练后的语音识别模型进行语音识别处理，得到初始语音识别结果，所述初始语音识别结果包括多个分词预测结果，每个所述分词预测结果包括多个分词预测文本及每个所述分词预测文本对应的分词置信度；
150.确定所述初始语音识别结果中的所述分词预测文本中是否存在相对应的第一分词预测文本以及第二分词预测文本；
151.若存在相对应的第一分词预测文本以及第二分词预测文本，则根据所述第二分词预测文本的第二分词置信度对所述第一分词预测文本的第一分词置信度进行调整，得到调
整后的分词置信度，所述第二分词置信度高于所述第一分词置信度；
152.根据所述分词预测文本以及所述调整后的分词置信度确定所述待识别语音的目标语音识别结果。
153.在一实施例中，所述处理器在执行所述程序指令而实现所述根据所述第二分词预测文本的第二分词置信度对所述第一分词预测文本的第一分词置信度进行调整，得到调整后的分词置信度步骤时，具体实现如下步骤：
154.确定所述第一分词置信度是否大于预设的置信度阈值；
155.若所述第一分词置信度大于所述置信度阈值，则将所述第一分词预测文本的所述第一分词置信度替换为所述第二分词置信度，得到所述调整后的分词置信度。
156.在一实施例中，所述处理器在执行所述程序指令而实现所述将所述第一分词预测文本的所述第一分词置信度替换为所述第二分词置信度，得到所述调整后的分词置信度步骤时，具体实现如下步骤：
157.确定所述第二分词置信度是否大于目标分词预测结果中值最高的置信度，所述目标分词预测结果为所述第一分词预测文本对应的分词预测结果；
158.若所述第二分词置信度大于目标分词预测结果中值最高的置信度，则将所述第一分词预测文本的所述第一分词置信度替换为所述第二分词置信度，得到所述调整后的分词置信度。
159.在一实施例中，所述处理器在执行所述程序指令而实现所述根据所述分词预测文本以及所述调整后的分词置信度确定所述待识别语音的目标语音识别结果步骤时，具体实现如下步骤：
160.基于所述调整后的分词置信度，将每个所述分词预测结果中置信度最大的分词预测文本确定为目标分词预测文本；
161.根据所述目标分词预测文本确定所述目标语音识别结果。
162.在一实施例中，所述处理器在执行所述程序指令而实现所述根据所述分词预测文本以及所述调整后的分词置信度确定所述待识别语音的目标语音识别结果步骤之后，具体实现如下步骤：
163.根据预设的产品词库以及预设的意向词库，分别从所述目标语音识别结果中提取目标产品信息以及目标意向信息；
164.根据所述目标产品信息以及所述目标意向信息生成数据提取表。
165.在一实施例中，所述处理器在执行所述程序指令而实现所述根据预设的产品词库以及预设的意向词库，分别从所述目标语音识别结果中提取目标产品信息以及目标意向信息步骤时，具体实现如下步骤：
166.对所述目标语音识别结果进行分词处理，得到多个分词；
167.将所述多个分词中与所述产品词库的产品词相匹配的分词确定为所述目标产品信息；
168.将所述多个分词中与所述意向词库的意向词相匹配的分词确定为所述目标意向信息。
169.在一实施例中，所述处理器在执行所述程序指令而实现所述根据所述目标产品信息以及所述目标意向信息生成数据提取表步骤时，具体实现如下步骤：
170.提取所述目标产品信息在所述目标语音识别结果中的产品信息位置信息，以及提取所述目标意向信息在所述目标语音识别结果中的意向信息位置信息；
171.根据所述产品信息位置信息以及所述意向信息位置信息确定所述目标产品信息以及所述目标意向信息的关联关系；
172.根据所述关联关系生成所述数据提取表。
173.所述存储介质可以是u盘、移动硬盘、只读存储器(read
‑
only memory，rom)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
174.本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
175.在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。
176.本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。
177.该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
178.以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种自动转换的语音通道的装置及其方法与流程

语音识别方法、装置、计算机设备及存储介质与流程

相关文章

最热文献