语音识别方法、装置、计算机设备及存储介质与流程

2022-04-16 12:38:47 来源：中国专利 TAG：

1.本技术涉及语音处理技术领域，特别是涉及一种语音识别方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术：

2.金融机构通常会设置客户服务中心，由专门的客户服务人员为广大用户提供例如为业务咨询、业务办理等语音服务。那么，为了提高金融机构的服务质量，同时为了检验客户服务人员是否按照规范、标准等为客户提供优质服务，在客户服务人员与用户进行语音通话期间会进行全程的录音，金融机构后续会依据该录音对客户服务人员的服务进行质量检查。
3.那么，在通过录音对客户服务人员进行质检的过程中，通常会将录音转化成文本形式，以便向质检部门提供更加直观的质量检查依据，方便质检部门的质量检查操作。
4.但是，目前金融机构使用的语音识别模型多为通用语音识别模型，该模型对金融机构中的专有词汇的识别准确率较低，以致于不能为质检部门提供准确的文本信息，导致对客户服务人员服务进行质检的效果较差。

技术实现要素：

5.本技术提供了一种语音识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品，基于多模型对金融机构的待识别语音进行通用识别以及专业识别，以提高对金融机构待识别语音的识别准确率。
6.第一方面，本技术提供了一种语音识别方法，该方法包括：
7.将待识别语音对应的初始识别文本的多个候选分词输入至第一模型进行识别，获得多个候选分词对应的多个目标分词，第一模型用于识别金融机构的专有词汇；
8.对多个目标分词和初始分词进行排列获得多个中间文本，初始分词为初始识别文本中除多个候选分词外的其它分词；
9.将多个中间文本输入至第二模型中，获得多个中间文本对应的逻辑评分；
10.基于多个中间文本对应的逻辑评分确定待识别语音的目标识别文本。
11.第二方面，本技术还提供了一种语音识别装置，该装置包括：
12.第一输入获得模块，用于将待识别语音对应的初始识别文本的多个候选分词输入至第一模型进行识别，获得多个候选分词对应的多个目标分词，第一模型用于识别金融机构的专有词汇；
13.排列模块，用于对多个目标分词和初始分词进行排列获得多个中间文本，初始分词为初始识别文本中除多个候选分词外的其它分词；
14.第二输入获得模块，用于将多个中间文本输入至第二模型中，获得多个中间文本对应的逻辑评分；
15.确定模块，用于基于多个中间文本对应的逻辑评分确定待识别语音的目标识别文
本。
16.第三方面，本技术还提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述任一项的方法的步骤：
17.第四方面，本技术还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一项的方法的步骤。
18.第五方面，本技术还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现上述任一项的方法的步骤。
19.本技术提供了一种语音识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品，该方法包括：将待识别语音对应的初始识别文本的多个候选分词输入至第一模型进行识别，获得多个候选分词对应的多个目标分词；对多个目标分词和初始分词进行排列获得多个中间文本；将多个中间文本输入至第二模型中，获得多个中间文本对应的逻辑评分；基于多个中间文本对应的逻辑评分确定待识别语音的目标识别文本。本技术提供的语音识别方法，在通过通用模型对金融机构的待识别语音识别之后，进一步基于识别金融机构专有词汇的第一模型再对通用模型中无法识别的专有词汇进行识别，然后将通用模型识别的文本以及第一模型识别的文本进行排列，再将获得的多个中间文本通过逻辑评分的第二模型进行逻辑性评分，以通过逻辑性评分从多个中间文件中挑选更加符合逻辑性语序的文本，以提高对金融机构语音的识别准确性，进而提升金融机构对客户服务人员服务质量的质检效果。
附图说明
20.图1为一个实施例中语音识别方法的应用环境图；
21.图2为一个实施例中语音识别方法的流程示意图；
22.图3为另一个实施例中语音识别方法的流程示意图；
23.图4为另一个实施例中语音识别方法的流程示意图；
24.图5为另一个实施例中语音识别方法的流程示意图；
25.图6为一个实施例中语音识别方法的结构框图；
26.图7为一个实施例中计算机设备的内部结构图。
具体实施方式
27.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
28.本技术实施例提供的语音识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。终端102采集所有客户服务人员在进行客户服务时的语音，通过网络发送给服务器104，服务器104将待识别语音对应的初始识别文本的多个候选分词输入至第一模型进行识别，获得所述多个候选分词对应的多个目标分词；对所述多个目标分词和初始分词进行排列获得多个中间文本；将所述多个中间文本输入至第二模型中，获得所述多个中间文本对应的逻辑评分；基
于所述多个中间文本对应的逻辑评分确定所述待识别语音的目标识别文本，能够提高对金融机构语音的识别准确性。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、扫描仪、录音笔和便携式可穿戴设备。便携式可穿戴设备可为智能手表、智能眼镜、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
29.在一个实施例中，如图2所示，提供了一种语音识别方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：
30.步骤s202，将待识别语音对应的初始识别文本的多个候选分词输入至第一模型进行识别，获得多个候选分词对应的多个目标分词，第一模型用于识别金融机构的专有词汇。
31.其中，待识别语音可以是通过金融机构的客户服务中心内设置的用于客户服务人员向用户提供金融机构的客户服务的座机在客户服务人员在进行客户服务时录制的通话语音。待识别语音包括用户向客户服务人员提出的咨询问题、售后问题等，以及，客户服务人员针对客户提出的问题进行的相应的回答。金融机构为了更好的为用户提供服务，在客户服务人员上岗前需要进行相关的培训，以便客户服务人员为客户提供符合金融机构相关规定的。所以金融机构需要根据客户服务人员和用户之间的通话记录来对客户服务人员是否按照金融机构的相关规定服务进行判断。服务器在获得了从客户服务人员使用的座机中存储的语音后，需要将该语音转化为文本，以更直观的对客户服务人员进行质检，那么服务器则需要将语音翻译成文本，文本翻译是否准确影响对客户服务人员质检的准确性。所以，当服务器将待识别语音输入至通用识别模型对待识别语音进行识别后，由于通用识别模型对通用分词识别较为准确，例如对我需要、办理、银行卡、信用卡、身份证、姓名、年龄、性别等各个金融机构都会使用的一些名词，或者，在实际的生产生活中常见的词识别较为准确。但是，对各个金融机构的一些专有词汇识别不准确，无法为客户服务人员的质检提供准确的依据。
32.所以，服务器将待识别语音输入至通用识别模型中识别，获得多个初始识别文本后，将通用识别模型识别有误的一些金融机构的专有词汇进行筛选，再通过第一模型对专有词汇进行识别，以获得专有词汇对应的正确的文本表达。因为第一模型是根据金融机构中已有的所有专有词汇经过训练获得的，所以第一模型对金融机构的专有词汇的识别准确率较高，通过第一模型的识别，能够提高对待识别语音的识别准确性。例如通用识别模型识别得到的文本为：我要咨询招招包的收益，确定候选分词为“招招包”，通过第一模型再对候选分词“招招包”进行识别获得对应的目标分词“朝朝宝”。
33.在这里需要说明的是，第一模型可以是独立于通用识别模型的另一模型，第一模型与通用识别模型可以是一个识别模型，那么第一模型作为通用识别模型中的一部分，可以是在服务器将待识别语音输入至通用识别模型后，对发音与专有词汇相似或者相同的进行识别，对通用识别模型中识别的专有词汇进行替换，输出多个中间文本。本技术对此不加以限定。
34.步骤s204，对多个目标分词和初始分词进行排列获得多个中间文本，初始分词为初始识别文本中除多个候选分词外的其它分词。
35.其中，服务器通过通用识别模型以及上述第一模型获得了多个分词，下面需要对多个分词进行组合，获得便于阅读的完整文本，多个分词可以由多种不同的组合方式，那么
就可以得到多个中间文本。例如排列得到多个中间文本为：我要朝朝宝咨询的收益、朝朝宝我要咨询的收益、我要咨询朝朝宝的收益、我要的收益朝朝宝咨询等。通过对多个分词进行多种可能的排列获得多个中间文本，以便于从多个中间文本中筛选出目标文本，进一步的提高对待识别语音识别的准确性。
36.步骤s206，将多个中间文本输入至第二模型中，获得多个中间文本对应的逻辑评分。
37.其中，第二模型用于对中间文本的表达逻辑进行评分，以输出最符合逻辑性表达的中间文本。第二模型可以是根据大量常见的通用表达语句训练获得，从而对文本逻辑性的判断较为准确。例如，将上述多个中间文本输入至第二模型中，经过第二模型的识别，获得多个中间文本对应的评分为：我要朝朝宝咨询的收益5分、朝朝宝我要咨询的收益3分、我要咨询朝朝宝的收益8分、我要的收益朝朝宝咨询4分。通过第二模型输出的逻辑评分，服务器可以更好的从多个中间文本中筛选出最终对待识别语音的识别结果。
38.步骤s208，基于多个中间文本对应的逻辑评分确定待识别语音的目标识别文本。
39.其中，服务器基于上述第二模型输出的对多个中间文本的逻辑评分，可以是选择逻辑评分最高的中间文本作为待识别语音的目标识别文本。由于逻辑评分越高，表征该文本的表达方式更符合规范的逻辑表达，所以服务器可以是将逻辑评分最高的文本作为对对应客户服务人员进行服务质检的依据。
40.本技术提供了一种语音识别方法，该方法包括：将待识别语音对应的初始识别文本的多个候选分词输入至第一模型进行识别，获得多个候选分词对应的多个目标分词；对多个目标分词和初始分词进行排列获得多个中间文本；将多个中间文本输入至第二模型中，获得多个中间文本对应的逻辑评分；基于多个中间文本对应的逻辑评分确定待识别语音的目标识别文本。本技术提供的语音识别方法，在通过通用模型对金融机构的待识别语音识别之后，进一步基于识别金融机构专有词汇的第一模型再对通用模型中无法识别的专有词汇进行识别，然后将通用模型识别的文本以及第一模型识别的文本进行排列，再将获得的多个中间文本通过逻辑评分的第二模型进行逻辑性评分，以通过逻辑性评分从多个中间文件中挑选更加符合逻辑性语序的文本，以提高对金融机构语音的识别准确性，进而提升金融机构对客户服务人员服务质量的质检效果。
41.在一个实施例中，本实施例是获得初始识别文本的一种可选的方法实施例，该方法包括：
42.将待识别语音输入至通用识别模型，获得初始识别文本，通用识别模型用于识别通用分词。
43.其中，据上描述，一般情况下，客户服务人员与用户之间的通话大部分还是属于通用的分词，常见的一些语句，所以在服务器获得待识别语音后，需要先将待识别语音输入至通用识别模型中进行通用分词的识别，得到初始识别文本，若该语音中不存在金融机构的专有词汇，那么也就不需要第一模型参与对该待识别语音进行识别。
44.本技术提供的语音识别方法，通过通用识别模型对待识别语音进行识别得到多个初始识别文本，通用识别模型对通用分词的识别准确率高，且待识别语音中一般通用分词的占比较大，对待识别语音的识别效率高。
45.在一个实施例中，如图3所示，本实施例是对初始文本进行分词的一种可选的方法
实施例，该方法实施例包括如下步骤：
46.步骤s302，将初始识别文本与字典库进行匹配，基于匹配结果对初始识别文本进行划分获得多个初始分词。
47.其中，服务器中可以是设置有字典库，该字典库可以是根据通用分词和金融机构的专有词汇生成的，当服务器基于上述通用识别模型对待识别语音进行识别获得初始识别文本，例如为我要咨询招招包的收益。然后，将该文本与字典库进行匹配，获得初始识别文本的多个初始分词，以达到对整体性文本的划分，便于后续确定候选分词。
48.步骤s304，基于待识别语音的语音特征对待识别语音进行标注，获得多个标注文本。
49.其中，基于上述对初始识别文本划分获得的多个初始分词，可以是通过人工基于待识别语音对每一个初始分词进行正确文本的标注；还可以是服务器基于待识别语音的语音特征，对多个初始分词进行可能的文本表达，获得多个标注文本，例如对我要、咨询、招招包、的、收益，进行标注得到：我要、咨询、朝朝宝、的、收益。
50.步骤s306，将多个标注文本与多个初始分词进行比对，根据比对结果从多个初始分词中确定多个候选分词，候选分词与标注文本的相似度小于相似度阈值。
51.其中，基于上述对多个初始分词进行标注获得的与多个初始分词对应的标注文本，服务器可以是根据标注文本与通用识别模型识别得到的多个初始分词进行比对，计算二者的相似度，基于相似度的计算结果，从多个初始分词中确定候选分词，例如筛选获得的候选分词为招招包。
52.本技术提供的语音识别方法，通过字典库对初始识别文本进行分词，将初始识别文本进行了词力度的划分，便于后续从多个初始分词中筛选出候选分词，提高对候选分词的筛选效率，进一步的提高对待识别语音的识别效率。
53.在一个实施例中，如图4所示，本实施例是对第一模型进行训练的一种可选的方法实施例，该方法实施例包括如下步骤：
54.步骤s402，获取金融机构的多个专有词汇，为多个专有词汇中的每一个专有词汇设置多个模型权重；
55.步骤s404，基于多个专有词汇以及与多个专有词汇中每一个专有词汇对应的多个模型权重进行模型训练，获得多个专有词汇对应的目标模型权重；
56.步骤s406，基于多个专有词汇以及与多个专有词汇对应的目标模型权重，获得第一模型。
57.其中，多个专有词汇可以是从金融机构的服务器中获得的，本技术获得第一模型的原理为：每一个专有词汇会对应多个不同的文本表达，多个文本表达对应的语音相似或者相同，也就是音同字不同的多个词汇，通过不断提高正确的专有词汇在多个音同字不同的词汇中的权重，以将金融机构中的所有专有词汇在识别模型中的权重提高，那么后续若输入与金融机构中专有词汇语音相同文本不同的文本进行识别时，由于金融机构中该专有词汇的权重大于多个音同字不同其它多个词汇，所以，可以将正确的金融机构的专有词汇的文本表达输出，以实现对专有词汇的文本校正。当然，在通过神经网络模型进行训练时，不能一次性将金融机构中专有词汇的正确文本表达的权重调整合适，所以需要基于每一个训练输出的结果不断的调整专有词汇的权重，以获得专有词汇对应的目标模型权重。需要
说明的是，由于每一个专有词汇的相似文本、相似文本的数量、相似程度等有所差别，所以每一个专有词汇的权重可以是不同的，这样，能够精准的设置金融机构中每一个专有词汇的权重，以提高第一模型的识别精度。
58.在一个实施例中，如图5所示，本实施例是对第二模型进行训练的一种可选的方法实施例，该方法实施例包括如下步骤：
59.步骤502，获取金融机构的多个历史行业文本以及多个基础文本；
60.步骤504，对多个历史行业文本以及多个基础文本进行预处理；
61.步骤506，基于预处理后的多个历史行业文本以及多个基础文本进行模型训练，获得第二模型。
62.其中，第二模型用于对文本进行逻辑评分，所以第二模型需要通过大量的正确逻辑表达的文本进行训练，因为本技术中的文本中还包括大量的金融机构的专有词汇，所以不仅需要基础文本，例如：我要办卡，我要咨询，我想问一下怎么开通，我想问一下怎么操作，我想问一下业务怎么办理，我需要给与指引，能不能发个指引，能不能发个短信教程，能不能帮我取消等。还需要金融机构的历史行业文本，例如：朝朝宝的收益，朝朝宝的持有期限，浦发银行信用卡、浦发银行借记卡、浦发基金、浦发黄金、浦发股票、浦发理财、浦发如意基金、浦发鹏发理财产品等。通过历史行业文本以及基础文本对神经网络模型训练，获得第二模型。
63.其中服务器在获得多个历史行业文本以及多个基础文本以后，可以是将多个历史行业文本以及多个基础文本进行组合，获得包含金融机构准有词汇的整体化文本，以基于该整体化的文本训练获得第二模型。
64.本技术提供的语音识别方法，通过金融机构的历史行业文本以及基础文本训练获得第二模型，以将第二模型训练位适用于金融机构中的文本逻辑表达评分的需求，以进一步的通过第二模型获得与待识别语音更加匹配的文本。
65.需要说明的是，第一模型和第二模型的训练过程可以是在终端中进行，也可以是在服务器中进行，若模型训练过程是在终端中进行，那么服务器可以是从终端中下载训练好的第一模型和第二模型，以进行专有词汇的识别，以及中间文本的逻辑评分。本技术对此不加以限定。
66.可选地，服务器可以是将第二模型中输出的逻辑评分最高的中间文本确定为待识别语音的目标识别文本。由于逻辑评分越高表征该文本越符合正确文本的逻辑表达方式，所以服务器根据逻辑评分最高的中间文本对客户服务人员的客户服务进行质检，能够提高对客户服务人员客户服务质检的准确性。
67.应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
68.基于同样的发明构思，本技术实施例还提供了一种用于实现上述所涉及的语音识
别方法的语音识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个语音识别装置实施例中的具体限定可以参见上文中对于语音识别方法的限定，在此不再赘述。
69.在一个实施例中，如图6所示，提供了一种语音识别装置，包括：第一输入获得模块602、排列模块604、第二输入获得模块606和确定模块608，其中：
70.第一输入获得模块602，用于将待识别语音对应的初始识别文本的多个候选分词输入至第一模型进行识别，获得多个候选分词对应的多个目标分词，第一模型用于识别金融机构的专有词汇；
71.排列模块604，用于对多个目标分词和初始分词进行排列获得多个中间文本，初始分词为初始识别文本中除多个候选分词外的其它分词；
72.第二输入获得模块606，用于将多个中间文本输入至第二模型中，获得多个中间文本对应的逻辑评分；
73.确定模块608，用于基于多个中间文本对应的逻辑评分确定待识别语音的目标识别文本。
74.在一个实施例中，上述第一输入获得模块602，还用于将所述待识别语音输入至通用识别模型，获得所述初始识别文本，所述通用识别模型用于识别通用分词。
75.在一个实施例中，上述第一输入获得模块602还包括筛选单元，
76.筛选单元，用于将初始识别文本与字典库进行匹配，基于匹配结果对初始识别文本进行划分获得多个初始分词；基于待识别语音的语音特征对待识别语音进行标注，获得多个标注文本；将多个标注文本与多个初始分词进行比对，根据比对结果从多个初始分词中确定多个候选分词，候选分词与标注文本的相似度小于相似度阈值。
77.在一个实施例中，上述装置还包括训练模块，
78.训练模块，用于获取金融机构的多个专有词汇，为多个专有词汇中的每一个专有词汇设置多个模型权重；基于多个专有词汇以及与多个专有词汇中每一个专有词汇对应的多个模型权重进行模型训练，获得多个专有词汇对应的目标模型权重；基于多个专有词汇以及与多个专有词汇对应的目标模型权重，获得第一模型。
79.在一个实施例中，上述训练模块，还用于获取金融机构的多个历史行业文本以及多个基础文本；对多个历史行业文本以及多个基础文本进行预处理；基于预处理后的多个历史行业文本以及多个基础文本进行模型训练，获得第二模型。
80.在一个实施例中，上述确定模块608，具体用于将多个中间文本中逻辑评分最高的中间文本确定为待识别语音的目标识别文本。
81.在一个实施例中，上述装置还包括质检模块，
82.质检模块，用于根据待识别语音的目标识别文本对客户服务进行质检。
83.上述语音识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
84.在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易
失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储坐标信息、文本信息数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别方法。
85.本领域技术人员可以理解，图7中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
86.在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：
87.将待识别语音对应的初始识别文本的多个候选分词输入至第一模型进行识别，获得多个候选分词对应的多个目标分词，第一模型用于识别金融机构的专有词汇；
88.对多个目标分词和初始分词进行排列获得多个中间文本，初始分词为初始识别文本中除多个候选分词外的其它分词；
89.将多个中间文本输入至第二模型中，获得多个中间文本对应的逻辑评分；
90.基于多个中间文本对应的逻辑评分确定待识别语音的目标识别文本。
91.在一个实施例中，处理器执行计算机程序时还实现以下步骤：
92.将所述待识别语音输入至通用识别模型，获得所述初始识别文本，所述通用识别模型用于识别通用分词。
93.在一个实施例中，处理器执行计算机程序时还实现以下步骤：
94.将初始识别文本与字典库进行匹配，基于匹配结果对初始识别文本进行划分获得多个初始分词；基于待识别语音的语音特征对待识别语音进行标注，获得多个标注文本；将多个标注文本与多个初始分词进行比对，根据比对结果从多个初始分词中确定多个候选分词，候选分词与标注文本的相似度小于相似度阈值。
95.在一个实施例中，处理器执行计算机程序时还实现以下步骤：
96.获取金融机构的多个专有词汇，为多个专有词汇中的每一个专有词汇设置多个模型权重；基于多个专有词汇以及与多个专有词汇中每一个专有词汇对应的多个模型权重进行模型训练，获得多个专有词汇对应的目标模型权重；基于多个专有词汇以及与多个专有词汇对应的目标模型权重，获得第一模型。
97.在一个实施例中，处理器执行计算机程序时还实现以下步骤：
98.获取金融机构的多个历史行业文本以及多个基础文本；对多个历史行业文本以及多个基础文本进行预处理；基于预处理后的多个历史行业文本以及多个基础文本进行模型训练，获得第二模型。
99.在一个实施例中，处理器执行计算机程序时还实现以下步骤：
100.将多个中间文本中逻辑评分最高的中间文本确定为待识别语音的目标识别文本。
101.在一个实施例中，处理器执行计算机程序时还实现以下步骤：
102.根据待识别语音的目标识别文本对客户服务进行质检。
103.在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：
104.将待识别语音对应的初始识别文本的多个候选分词输入至第一模型进行识别，获
得多个候选分词对应的多个目标分词，第一模型用于识别金融机构的专有词汇；
105.对多个目标分词和初始分词进行排列获得多个中间文本，初始分词为初始识别文本中除多个候选分词外的其它分词；
106.将多个中间文本输入至第二模型中，获得多个中间文本对应的逻辑评分；
107.基于多个中间文本对应的逻辑评分确定待识别语音的目标识别文本。
108.在一个实施例中，计算机程序被处理器执行时还实现以下步骤：
109.将所述待识别语音输入至通用识别模型，获得所述初始识别文本，所述通用识别模型用于识别通用分词。
110.在一个实施例中，计算机程序被处理器执行时还实现以下步骤：
111.将初始识别文本与字典库进行匹配，基于匹配结果对初始识别文本进行划分获得多个初始分词；基于待识别语音的语音特征对待识别语音进行标注，获得多个标注文本；将多个标注文本与多个初始分词进行比对，根据比对结果从多个初始分词中确定多个候选分词，候选分词与标注文本的相似度小于相似度阈值。
112.在一个实施例中，计算机程序被处理器执行时还实现以下步骤：
113.获取金融机构的多个专有词汇，为多个专有词汇中的每一个专有词汇设置多个模型权重；基于多个专有词汇以及与多个专有词汇中每一个专有词汇对应的多个模型权重进行模型训练，获得多个专有词汇对应的目标模型权重；基于多个专有词汇以及与多个专有词汇对应的目标模型权重，获得第一模型。
114.在一个实施例中，计算机程序被处理器执行时还实现以下步骤：
115.获取金融机构的多个历史行业文本以及多个基础文本；对多个历史行业文本以及多个基础文本进行预处理；基于预处理后的多个历史行业文本以及多个基础文本进行模型训练，获得第二模型。
116.在一个实施例中，计算机程序被处理器执行时还实现以下步骤：
117.将多个中间文本中逻辑评分最高的中间文本确定为待识别语音的目标识别文本。
118.在一个实施例中，计算机程序被处理器执行时还实现以下步骤：
119.根据待识别语音的目标识别文本对客户服务进行质检。
120.在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：
121.将待识别语音对应的初始识别文本的多个候选分词输入至第一模型进行识别，获得多个候选分词对应的多个目标分词，第一模型用于识别金融机构的专有词汇；
122.对多个目标分词和初始分词进行排列获得多个中间文本，初始分词为初始识别文本中除多个候选分词外的其它分词；
123.将多个中间文本输入至第二模型中，获得多个中间文本对应的逻辑评分；
124.基于多个中间文本对应的逻辑评分确定待识别语音的目标识别文本。
125.在一个实施例中，计算机程序被处理器执行时还实现以下步骤：
126.将所述待识别语音输入至通用识别模型，获得所述初始识别文本，所述通用识别模型用于识别通用分词。
127.在一个实施例中，计算机程序被处理器执行时还实现以下步骤：
128.将初始识别文本与字典库进行匹配，基于匹配结果对初始识别文本进行划分获得
多个初始分词；基于待识别语音的语音特征对待识别语音进行标注，获得多个标注文本；将多个标注文本与多个初始分词进行比对，根据比对结果从多个初始分词中确定多个候选分词，候选分词与标注文本的相似度小于相似度阈值。
129.在一个实施例中，计算机程序被处理器执行时还实现以下步骤：
130.获取金融机构的多个专有词汇，为多个专有词汇中的每一个专有词汇设置多个模型权重；基于多个专有词汇以及与多个专有词汇中每一个专有词汇对应的多个模型权重进行模型训练，获得多个专有词汇对应的目标模型权重；基于多个专有词汇以及与多个专有词汇对应的目标模型权重，获得第一模型。
131.在一个实施例中，计算机程序被处理器执行时还实现以下步骤：
132.获取金融机构的多个历史行业文本以及多个基础文本；对多个历史行业文本以及多个基础文本进行预处理；基于预处理后的多个历史行业文本以及多个基础文本进行模型训练，获得第二模型。
133.在一个实施例中，计算机程序被处理器执行时还实现以下步骤：
134.将多个中间文本中逻辑评分最高的中间文本确定为待识别语音的目标识别文本。
135.在一个实施例中，计算机程序被处理器执行时还实现以下步骤：
136.根据待识别语音的目标识别文本对客户服务进行质检。
137.需要说明的是，本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。
138.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory，rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory，mram)、铁电存储器(ferroelectric random access memory，fram)、相变存储器(phase change memory，pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory，ram)或外部高速缓冲存储器等。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory，sram)或动态随机存取存储器(dynamic random access memory，dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。
139.以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
140.以上实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本技术专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，
在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：信息处理方法、装置、电子设备、介质及计算机程序产品与流程

语音识别方法、装置、计算机设备及存储介质与流程

相关文献

最热文献