语音核验方法、装置、电子设备及介质与流程

2022-02-19 05:38:03 来源：中国专利 TAG：

1.本发明涉及人工智能技术领域，尤其涉及一种语音核验方法、装置、电子设备及计算机可读存储介质。

背景技术：

2.随着人工智能的进一步推进，在很多线上业务的开展都采用人工智能进行代替，特别是在资料审核后的向客户回电复核阶段，通过人工智能和客户进行对话再次确认是否本人及资料是否真实统一，最后判断业务审批是否通过。
3.现有的语音核验技术在将客户口述的内容转化为文本信息时，由于客户户复核口述将存在字符串较短的，语义不丰富的短句(例如客户单位名称、工作地址等文本实体)，使得基于全文和句子的语义识别存在困难，无法准确识别语音中的文本实体。

技术实现要素：

4.本发明提供一种语音核验方法、装置、电子设备及计算机可读存储介质，其主要目的在于提高对语音中文本实体识别的准确性。
5.为实现上述目的，本发明提供的一种语音核验方法，包括：
6.获取原始语音数据，利用预设的语音识别方法识别所述原始语音数据，得到多个语音文本；
7.获取对比文本，并对所述对比文本和多个所述语音文本进行标准化处理，得到标准对比文本和多个标准语音文本；
8.利用预训练的实体识别模型识别所述标准对比文本和多个所述标准语音文本包含的实体，得到标准文本实体集和多个语音文本实体集；
9.将所述标准文本实体集中的各个标准文本实体分别与所有所述语音文本实体集中的各个语音文本实体对齐，计算对齐后所述标准文本实体集和各个语音文本实体集的相似度，并将相似度最高的语音文本实体集作为所述标准文本实体集的标准对应实体集；
10.基于预设的相似度公式计算所述标准对应实体集和所述标准文本实体集的相似度总分；
11.若所述相似度总分小于预设的分数阈值，则确定语音核验不通过；
12.若所述相似度总分大于等于所述分数阈值，则确定语音核验通过。
13.可选地，所述利用预设的语音识别方法识别所述原始语音数据，得到多个语音文本，包括：
14.将所述原始语音数据降噪，得到降噪语音数据；
15.利用语音特征提取算法提取所述降噪语音数据中的语音特征，得到语音数据特征；
16.利用预训练的声学模型和预训练的语言模型以及字典构建语音识别网络；
17.通过所述语音识别网络识别所述语音数据特征，得到多个语音文本。
18.可选地，所述将所述原始语音数据降噪，得到降噪语音数据，包括：
19.解压所述原始语音数据，得到所述原始语音数据的波形文件；
20.对所述原始语音数据的波形文件进行静音切除，得到降噪语音数据。
21.可选地，所述利用语音特征提取算法提取所述降噪语音数据中的语音特征，得到语音数据特征，包括：
22.对所述降噪语音数据进行预加重，得到加重语音数据；
23.对所述加重语音数据进行分帧和加窗，得到语音波形图；
24.利用所述语音特征提取算法中的滤波器提取所述语音波形图的特征，得到语音数据特征。
25.可选地，所述对所述对比文本和多个所述语音文本进行标准化处理，得到标准对比文本和多个标准语音文本，包括：
26.将所述对比文本和多个所述语音文本的格式标准化，得到标准格式文本和多个标准格式语音文本；
27.对所述标准格式文本和各个所述标准格式语音文本进行分词和词性标注，并去除通过词性标注得到的非关键词，得到标准文本词语集和多个语音文本词语集；
28.对所述标准文本词语集中的词语和各个所述语音文本词语集中的词语进行去重操作，得到去重标准词语集和多个去重语音词语集，并组合所述去重标准词语集中的词语和各个所述去重语音词语集中的词语，得到所述标准对比文本和多个所述标准语音文本。
29.可选地，所述将所述标准文本实体集中的各个标准文本实体分别与所有所述语音文本实体集中的各个语音文本实体对齐，计算对齐后所述标准文本实体集和各个语音文本实体集的相似度，包括：
30.将所述标准文本实体集中的各个标准文本实体和所有所述语音文本实体集中的各个语音文本实体输入预构建的多语言bert模型，得到标准实体矩阵和多个语义实体矩阵；
31.将所述标准实体矩阵和各个所述语义实体矩阵相乘，得到相乘矩阵，并对所述相乘矩阵进行归一化，得到多个对齐实体组；
32.利用余弦相似度公式计算各个所述对齐实体组的相似度，得到所述标准文本实体集和各个所述语音文本实体集的相似度。
33.可选地，所述基于预设的相似度公式计算所述标准对应实体集和所述标准文本实体集的相似度总分，包括：
34.将所述标准对应实体集中的多个标准对应实体进行划分，得到前缀实体、后缀实体、地址实体、名称实体；
35.在所述标准文本实体集中查找所述名称实体和所述地址实体；
36.若所述标准文本实体集中存在相同的名称实体和地址实体，则确定所述名称实体和所述地址实体的相似度得分；
37.若所述标准文本实体集中不存在相同的名称实体和所述地址实体，则从所述标准文本实体集中获取对应名称实体和对应地址实体，并将所述名称实体、所述地址实体、所述对应名称实体和对应地址实体转化为拼音，并利用编辑距离公式计算所述名称实体和所述对应名称实体以及所述地址实体和所述对应地址实体的相似度，得到所述名称实体和所述
地址实体的相似度得分；
38.基于所述前缀实体和所述后缀实体从所述标准文本实体集中获取所述对应前缀实体和对应后缀实体；
39.将所述前缀实体和所述对应前缀实体以及所述后缀实体和所述对应后缀实体转化为词向量，并利用余弦相似度公式计算所述前缀实体和所述对应前缀实体以及所述后缀实体和所述对应后缀实体的相似度，得到所述前缀实体和所述后缀实体的相似度得分；
40.利用所述相似度总分公式计算所述名称实体、所述地址实体、所述前缀实体和所述后缀实体的相似度总分，并将所述相似度总分作为所述所述标准对应实体集和所述标准文本实体集的相似度总分。
41.为了解决上述问题，本发明还提供一种语音核验装置，所述装置包括：
42.语音识别模块，用于获取原始语音数据，利用预设的语音识别方法识别所述原始语音数据，得到多个语音文本；
43.文本对比模块，用于获取对比文本，并对所述对比文本和多个所述语音文本进行标准化处理，得到标准对比文本和多个标准语音文本；
44.实体识别模块，用于利用预训练的实体识别模型识别所述标准对比文本和多个所述标准语音文本包含的实体，得到标准文本实体集和多个语音文本实体集；
45.实体对齐模块，用于将所述标准文本实体集中的各个标准文本实体分别与所有所述语音文本实体集中的各个语音文本实体对齐，计算对齐后所述标准文本实体集和各个语音文本实体集的相似度，并将相似度最高的语音文本实体集作为所述标准文本实体集的标准对应实体集；
46.总分获取模块，用于基于预设的相似度公式计算所述标准对应实体集和所述标准文本实体集的相似度总分；
47.确定模块，用于若所述相似度总分小于预设的分数阈值，则确定语音核验不通过，若所述相似度总分大于等于所述分数阈值，则确定语音核验通过。
48.为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：
49.至少一个处理器；以及，
50.与所述至少一个处理器通信连接的存储器；其中，
51.所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的语音核验方法。
52.为了解决上述问题，本发明还提供一种计算机可读存储介质，包括存储数据区和存储程序区，存储数据区存储创建的数据，存储程序区存储有计算机程序；其中，所述计算机程序被处理器执行时实现如上所述的语音核验方法。
53.本发明实施例中，获取原始语音数据，利用预设的语音识别方法识别原始语音数据，得到多个语音文本，对预设的对比文本和多个语音文本进行标准化处理，得到多个标准对比问文本和多个标准语音文本，达到去除噪声干扰的作用，之后利用预训练的实体识别模型识别标准对比文本和多个标准语音文本包含的实体，得到标准文本实体集和多个语音文本实体集，计算标准文本实体集和各个语音文本实体集的相似度，从多个语音文本实体集中筛选出标准对应实体集，利用预设的相似度总分公式计算标准对应实体集和标准文本
实体集的相似度，并基于预设分数阈值以及对应实体集和标准文本实体集的相似度判断语音核验是否通过，避免了直接用语音文本和标准对比文本计算相似度导致文本理解度不够及实体识别不准确的问题，因此，本发明实施例可以实现提高语音中文本实体识别的准确性的目的。
附图说明
54.图1为本发明一实施例提供的一种语音核验方法的流程示意图；
55.图2为本发明一实施例提供一种语音核验方法中一个步骤的详细流程示意图；
56.图3为本发明一实施例提供的语音核验装置的模块示意图；
57.图4为本发明一实施例提供的实现语音核验方法的电子设备的内部结构示意图；
58.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
59.应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
60.本技术实施例提供一种语音核验方法。所述语音核验方法的执行主体包括但不限于服务端、终端等能够被配置为执行本技术实施例提供的该方法的电子设备中的至少一种。其中，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。换言之，所述语音核验方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。
61.参照图1所示，为本发明一实施例提供的一种语音核验方法的流程示意图。在本实施例中，所述语音核验方法包括：
62.s1、获取原始语音数据，利用预设的语音识别方法识别所述原始语音数据，得到多个语音文本。
63.本发明实施例中，所述语音识别方法即自动语音识别方法(automatic speech recognition，asr)是一种将语音数据转化为文本信息的方法，由于语音数据的多样性和复杂性，自动语音识别方法只能在一定的限制条件下获得满意的识别结果，其中，识别词汇表、单人说话还是多人说话、硬件等方面都将影响转化得到的文本的准确性。
64.本发明实施例所述原始语音数据可以为利用人工智能客服和客户进行对话获取的语音数据。所述语音文本为语音识别所述原始语音数据得到的文本。
65.详细地，如图2所示，本发明实施例中，所述利用预设的语音识别方法识别所述原始语音数据，得到多个语音文本，包括：
66.s101、将所述原始语音数据降噪，得到降噪语音数据；
67.进一步地，所述将所述原始语音数据降噪，得到降噪语音数据，包括：
68.解压所述原始语音数据，得到所述原始语音数据的波形文件；
69.对所述原始语音数据的波形文件进行静音切除，得到降噪语音数据。
70.本发明实施例中，获取的所述原始语音数据的格式为mp3、wmv等压缩格式，需要通
过解压将所述原始语音数据转化成非压缩的纯波形文件，例如wav文件格式。
71.本发明实施例中，在利用语音特征提取算法提取语音特征之前，需要对所述原始语音数据的波形文件进行首尾端的静音切除，降低文件大小，避免无意义的数据对提取语音特征造成干扰，即降噪。其中，所述预处理语音数据为波形文件的格式。
72.s102、利用语音特征提取算法提取所述降噪语音数据中的语音特征，得到语音数据特征；
73.本发明实施例中，所述语音特征提取算法为梅尔频率倒谱(mel
‑
frequency cepstrum、mfcc)算法。
74.进一步地，所述利用语音特征提取算法提取所述降噪语音数据中的语音特征，得到语音数据特征，包括：
75.对所述降噪语音数据进行预加重，得到加重语音数据；
76.对所述加重语音数据进行分帧和加窗，得到语音波形图；
77.利用所述语音特征提取算法中的滤波器提取所述语音波形图的特征得到语音数据特征。
78.本发明实施例通过高通滤波器对所述降噪语音数据进行预加重，增强所述降噪语音数据中的高频数据，用于消除发声过程中声带和嘴唇的振动干扰效应，补偿再发音系统中所抑制的高频部分。
79.本发明实施例中，分帧通过对所述加重语音数据按照固定时间长度进行分割实现，加窗通过预设的窗口函数hamming实现。
80.本发明实施例中，所述滤波器为所述梅尔频率倒谱算法中的梅尔滤波器(mel filterbank)。
81.s103、利用预训练的声学模型和预训练的语言模型以及字典构建语音识别网络；
82.本发明实施例中，可以通过隐马尔可夫模型(hmm)进行声学模型建模，得到声学模型，然后根据预构建的训练语音库中的特征参数训练所述声学模型得到预训练的声学模型。其中，所述训练语音库可以为利用爬虫等技术从网络上爬取已公开的语音数据得到的。
83.进一步地，所述预训练的语言模型为对预构建的训练文本库进行语法、语义分析，并基于统计模型训练得到的语言模型，所述预训练的语言模型用于约束根据语音搜索的单词的范围。相同的，所述训练文本库也可为利用爬虫网络爬从网络爬取已公开的数据得到。
84.本发明实施例利用预训练的语言模型在所述字典中根据语音搜索单词。
85.s104、通过所述语音识别网络识别所述语音数据特征，得到多个语音文本。
86.本发明实施例中，根据所述语音识别网络识别所述语音数据特征具体表现为根据语音识别网络中查找每个特征对应的单词范围，其中每个特征可能对应多个单词，即通过所述语音识别网络识别所述语音数据特征，将得到多个语音文本。
87.s2、获取对比文本，并对所述对比文本和多个所述语音文本进行标准化处理，得到标准对比文本和多个标准语音文本。
88.本发明实施例中，所述对比文本为预设的用于对比验证的文本，例如在银行资料审查时，先让用户预留标准的文本，之后复审将根据预留的标准文本和复审时的语音数据转化的标准语音文本进行对比。
89.本技术实施例可以基于人工智能技术对所述对比文本进行获取和处理。其中，人
工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
90.本发明实施例中，所述对所述对比文本和多个所述语音文本进行标准化处理，得到标准对比文本和多个标准语音文本，包括：
91.将所述对比文本和多个所述语音文本的格式标准化，得到标准格式文本和多个标准格式语音文本；
92.对所述标准格式文本和各个所述标准格式语音文本进行分词和词性标注，并去除通过词性标注得到的非关键词，得到标准文本词语集和多个语音文本词语集；
93.对所述标准文本词语集中的词语和各个所述语音文本词语集中的词语进行去重操作，得到去重标准词语集和多个去重语音词语集，并组合所述去重标准词语集中的词语和各个所述去重语音词语集中的词语，得到所述标准对比文本和多个所述标准语音文本。
94.本发明实施例中，将所述对比文本和多个所述语音文本的格式标准化，包括去除所述对比文本和多个所述语音文本中的标点以及其他特殊符号，将中文数字转换成阿拉伯数字，将大小写字母统一转化为小写字母。
95.本发明实施例通过进行机械分词算法对所述标准格式文本和各个所述标准格式语音文本进行分词，所述机械分词算法又称之为基于字符串匹配的分词算法。
96.本发明实施例中，利用预设的词性标注表进行词性标注，所述词性标注表中存在所述标准格式文本和所述标准格式语音文本中所有的单词以及单词的词性。
97.具体的，所述非关键词为介词、连词、助词、代词、副词等，通过去除非关键词可以凸显文本的主体内容。
98.本发明实施例中，所述去重操作为去除所述标准文本词语集中重复的词语以及去除所述语音文本词语集中重复的词语。其中，若标准文本词语集中存在复数个第一词语，则将第一词语只保留一个，其余全部去除，若语音文本词语集中存在复数个第二词语，则将第二词语只保留一个，其余全部去除，若多个语音文本词语集中每个语音文本词语集中都存在一个第三词语，则不构成重复条件，不进行去除。
99.本发明实施例中，通过文本比对算法查找出所述标准文本词语集和各个所述语句文本词语集中的重复词语，其中，所述文本比对算法可以为基于相似度的文本比对算法。
100.s3、利用预训练的实体识别模型识别所述标准对比文本和多个所述标准语音文本包含的实体，得到标准文本实体集和多个语音文本实体集。
101.本发明实施例中，所述实体识别模型为序列标注(bilstm crf)模型。其中，bilstm层中包含双向lstm层，可以结合所述标准对比文本和所述标准语音文本的上下文更准确的查找到实体，crf层用于筛选查找到的实体。
102.本发明实施例中，所述利用预训练的实体识别模型识别所述标准对比文本本和多个所述标准语音文本包含的实体之前，所述方法还包括：
103.获取训练数据集对预构建实体识别模型进行训练，得到训练后的实体识别模型。
104.详细地，所述训练数据集为经过人工标注实体的文本数据集。
105.本发明实施例中，所述文本实体是语句中具有明确含义的名词。
106.进一步地，所述获取训练数据集对预构建实体识别模型进行训练，得到训练后的
实体识别模型，包括：
107.获取训练数据集，并将所述训练数据集划分为训练集和测试集；
108.将所述训练集中的数据输入所述预构建实体识别模型的神经网络进行正向传播，得到输出得分；
109.将所述输出得分输入误差函数得到函数值，并将所述函数值与预设的期待值进行比较，得到误差值；
110.获取所述预构建实体识别模型的梯度向量，并根据所述梯度向量不断调整所述预构建实体识别模型的参数，使所述误差值趋于零，并在所述误差值不再降低时得到初步实体识别模型；
111.利用所述测试集对所述初步实体识别模型进行测试，当测试通过时得到所述训练后的实体识别模型。
112.本发明另一实施例中，若利用所述测试集对所述初步实体识别模型进行测试，测试不通过时重新获取训练数据集对所述预构建实体识别模型进行训练。
113.本发明实施例中，所述误差函数(loss function)为防止模型的过度拟合的函数，所述梯度向量为表示模型变化快慢的向量。
114.本发明实施例正向传播(forward propagation)是指对神经网络沿着从输入层到输出层的顺序，依次计算并存储模型的中间变量。
115.s4、将所述标准文本实体集中的各个标准文本实体分别与所有所述语音文本实体集中的各个语音文本实体对齐，计算对齐后所述标准文本实体集和各个语音文本实体集的相似度，并将相似度最高的语音文本实体集作为所述标准文本实体集的标准对应实体集。
116.本发明实施例中，在利用预训练的实体识别模型识别所述标准文本实体集和多个所述语音文本实体的实体时，由于接收用户的原始语音数据可能存在表述不清晰的情况，因此导致得到得实体顺序并不对齐，所以需要再对标准文本实体集中得实体分别与所有所述语音文本实体集中的实体进行依次对齐，避免对比文本和语音文本之前不为相互对应关系。
117.本发明实施例中，通过所述标准文本实体集和所述语音文本实体集之间的名词属性进行对齐，例如标准文本实体集中包含的标准文本实体为“平安”、“银行”、“股份”、“有限公司”，语音文本实体集中包含的语音文本实体为“平安”、“保险”、“集团”，则得到的对齐结果为“平安”＝“平安”、“银行”＝“保险”、“股份”＝“集团”、“有限公司”＝“集团”。
118.本发明实施例中，所述将所述标准文本实体集中的各个标准文本实体分别与所有所述语音文本实体集中的各个语音文本实体对齐，计算对齐后所述标准文本实体集和各个语音文本实体集的相似度，包括：
119.将所述标准文本实体集中的各个标准文本实体和各个所述语音文本实体集中的各个语音文本实体输入预构建的多语言bert模型，得到标准实体矩阵和多个语义实体矩阵；
120.将所述标准实体矩阵和各个所述语义实体矩阵相乘，得到相乘矩阵，并对所述相乘矩阵进行归一化，得到多个对齐实体组；
121.利用余弦相似度公式计算各个所述对齐实体组的相似度，得到所述标准文本实体集和各个所述语音文本实体集的相似度。
122.本发明实施例中，所述多语言bert模型为用于机器翻译领域的mbert模型。
123.本发明实施例中，所述利用余弦相似度公式计算各个所述对齐实体组的相似度之前还包括利用将所述对齐实体组中的两个矩阵转化为向量形式。
124.s5、基于预设的相似度总分计算公式计算所述标准对应实体集和所述标准文本实体集的相似度总分。
125.本发明实施例中，所述标准对应实体集中存在多个标准对应实体。
126.本发明实施例中，所述基于预设的相似度总分计算公式计算所述标准对应实体集和所述标准文本实体集的相似度总分，包括：
127.将所述标准对应实体集中的多个标准对应实体进行划分，得到前缀实体、后缀实体、地址实体、名称实体；
128.在所述标准文本实体集中查找所述名称实体和所述地址实体；
129.若所述标准文本实体集中存在相同的名称实体和地址实体，则确定所述名称实体和所述地址实体的相似度得分；
130.若所述标准文本实体集中不存在相同的名称实体和所述地址实体，则从所述标准文本实体集中获取对应名称实体和对应地址实体，并将所述名称实体、所述地址实体、所述对应名称实体和对应地址实体转化为拼音，并利用编辑距离公式计算所述名称实体和所述对应名称实体以及所述地址实体和所述对应地址实体的相似度，得到所述名称实体和所述地址实体的相似度得分；
131.基于所述前缀实体和所述后缀实体从所述标准文本实体集中获取所述对应前缀实体和对应后缀实体；
132.将所述前缀实体和所述对应前缀实体以及所述后缀实体和所述对应后缀实体转化为词向量，并利用余弦相似度公式计算所述前缀实体和所述对应前缀实体以及所述后缀实体和所述对应后缀实体的相似度，得到所述前缀实体和所述后缀实体的相似度得分；
133.利用所述相似度总分公式计算所述名称实体、所述地址实体、所述前缀实体和所述后缀实体的相似度总分，并将所述相似度总分作为所述所述标准对应实体集和所述标准文本实体集的相似度总分。
134.本实施例中，若标准文本实体集中存在相同的名称实体和地址实体，直接确定名称实体和地址实体的相似度得分为预设分数，例如确定名称实体和地址实体的相似度得分为1。
135.本发明实施例中，所述相似度总分计算公式为：
136.相似度总分＝w1*地址实体的相似度得分 w2*前缀实体的相似度得分 w3*名称实体的相似度得分 w4*后缀实体的相似度得分
137.其中，wn为权重系数。
138.s6、若所述相似度总分小于预设的分数阈值，则确定语音核验不通过。
139.本发明实施例中，所述若所述相似度总分小于预设的分数阈值，则语音核验不通过，之前，所述方法还包括：获取预设的分数阈值，将所述相似度总分和所述分数阈值进行对比，判断所述相似度总分是否小于预设的分数阈值。
140.本发明名实施例中，所述分数阈值为用于判断所述原始语音数据的语音核验是否通过的分数。
141.进一步地，所述分数阈值可以随用户需求进行灵活调整。
142.s7、若所述相似度总分大于等于所述分数阈值，则确定语音核验通过。
143.进一步地，例如，在用户申请信用贷款时，若语音核验不通过，则申请失败，若语音核验通过，则申请成功。
144.本发明实施例中，获取原始语音数据，利用预设的语音识别方法识别原始语音数据，得到多个语音文本，对预设的对比文本和多个语音文本进行标准化处理，得到多个标准对比问文本和多个标准语音文本，达到去除噪声干扰的作用，之后利用预训练的实体识别模型识别标准对比文本和多个标准语音文本包含的实体，得到标准文本实体集和多个语音文本实体集，计算标准文本实体集和各个语音文本实体集的相似度，从多个语音文本实体集中筛选出标准对应实体集，利用预设的相似度总分公式计算标准对应实体集和标准文本实体集的相似度，并基于预设分数阈值以及对应实体集和标准文本实体集的相似度判断语音核验是否通过，避免了直接用语音文本和标准对比文本计算相似度导致文本理解度不够及实体识别不准确的问题，因此，本发明实施例可以实现提高语音中文本实体识别的准确性的目的。
145.如图3所示，是本发明语音核验装置的模块示意图。
146.本发明所述语音核验装置100可以安装于电子设备中。根据实现的功能，所述语音核验装置可以包括语音识别模块101、文本对比模块102、实体识别模块103、实体对齐模块104、总分获取模块105和确定模块106。本发明所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。
147.在本实施例中，关于各模块/单元的功能如下：
148.所述语音识别模块101，用于获取原始语音数据，利用预设的语音识别方法识别所述原始语音数据，得到多个语音文本。
149.本发明实施例中，所述语音识别方法即自动语音识别方法(automatic speech recognition，asr)是一种将语音数据转化为文本信息的方法，由于语音数据的多样性和复杂性，自动语音识别方法只能在一定的限制条件下获得满意的识别结果，其中，识别词汇表、单人说话还是多人说话、硬件等方面都将影响转化得到的文本的准确性。
150.本发明实施例所述原始语音数据可以为利用人工智能客服和客户进行对话获取的语音数据。所述语音文本为语音识别所述原始语音数据得到的文本。
151.进一步的，本发明另一可选实施例中，所述语音识别模块101具体包括降噪单元、特征提取单元、识别网络构建单元和语音识别单元：
152.所述降噪单元用于将所述原始语音数据降噪，得到降噪语音数据。
153.进一步地，所述降噪单元具体用于：
154.解压所述原始语音数据，得到所述原始语音数据的波形文件；
155.对所述原始语音数据的波形文件进行静音切除，得到降噪语音数据。
156.本发明实施例中，获取的所述原始语音数据的格式为mp3、wmv等压缩格式，需要通过解压将所述原始语音数据转化成非压缩的纯波形文件，例如wav文件格式。
157.本发明实施例中，在利用语音特征提取算法提取语音特征之前，需要对所述原始语音数据的波形文件进行首尾端的静音切除，降低文件大小，避免无意义的数据对提取语
音特征造成干扰，即降噪。其中，所述预处理语音数据为波形文件的格式。
158.所述特征提取单元，用于利用语音特征提取算法提取所述降噪语音数据中的语音特征，得到语音数据特征。
159.本发明实施例中，所述语音特征提取算法为梅尔频率倒谱(mel
‑
frequency cepstrum、mfcc)算法。
160.进一步地，所述特征提取单元具体用于：
161.对所述降噪语音数据进行预加重，得到加重语音数据；
162.对所述加重语音数据进行分帧和加窗，得到语音波形图；
163.利用所述语音特征提取算法中的滤波器提取所述语音波形图的特征得到语音数据特征。
164.本发明实施例通过高通滤波器对所述降噪语音数据进行预加重，增强所述降噪语音数据中的高频数据，用于消除发声过程中声带和嘴唇的振动干扰效应，补偿再发音系统中所抑制的高频部分。
165.本发明实施例中，分帧通过对所述加重语音数据按照固定时间长度进行分割实现，加窗通过预设的窗口函数hamming实现。
166.本发明实施例中，所述滤波器为所述梅尔频率倒谱算法中的梅尔滤波器(mel filterbank)。
167.所述识别网络构建单元，用于利用预训练的声学模型和预训练的语言模型以及字典构建语音识别网络。
168.本发明实施例中，可以通过隐马尔可夫模型(hmm)进行声学模型建模，得到声学模型，然后根据预构建的训练语音库中的特征参数训练所述声学模型得到预训练的声学模型。其中，所述训练语音库可以为利用爬虫等技术从网络上爬取已公开的语音数据得到的。
169.进一步地，所述预训练的语言模型为对预构建的训练文本库进行语法、语义分析，并基于统计模型训练得到的语言模型，所述预训练的语言模型用于约束根据语音搜索的单词的范围。相同的，所述训练文本库也可为利用爬虫网络爬从网络爬取已公开的数据得到。
170.本发明实施例利用预训练的语言模型在所述字典中根据语音搜索单词。
171.所述语音识别单元用于，通过所述语音识别网络识别所述语音数据特征，得到多个语音文本。
172.本发明实施例中，根据所述语音识别网络识别所述语音数据特征具体表现为根据语音识别网络中查找每个特征对应的单词范围，其中每个特征可能对应多个单词，即通过所述语音识别网络识别所述语音数据特征，将得到多个语音文本。
173.所述文本对比模块102，用于获取对比文本，并对所述对比文本和多个所述语音文本进行标准化处理，得到标准对比文本和多个标准语音文本。
174.本发明实施例中，所述对比文本为预设的用于对比验证的文本，例如在银行资料审查时，先让用户预留标准的文本，之后复审将根据预留的标准文本和复审时的语音数据转化的标准语音文本进行对比。
175.本技术实施例可以基于人工智能技术对所对比文本述进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术
及应用系统。
176.本发明实施例中，所述文本对比模块102具体用于：
177.将所述对比文本和多个所述语音文本的格式标准化，得到标准格式文本和多个标准格式语音文本；
178.对所述标准格式文本和各个所述标准格式语音文本进行分词和词性标注，并去除通过词性标注得到的非关键词，得到标准文本词语集和多个语音文本词语集；
179.对所述标准文本词语集中的词语和各个所述语音文本词语集中的词语进行去重操作，得到去重标准词语集和多个去重语音词语集，并组合所述去重标准词语集中的词语和各个所述去重语音词语集中的词语，得到所述标准对比文本和多个所述标准语音文本。
180.本发明实施例中，将所述对比文本和多个所述语音文本的格式标准化，包括去除所述对比文本和多个所述语音文本中的标点以及其他特殊符号，将中文数字转换成阿拉伯数字，将大小写字母统一转化为小写字母。
181.本发明实施例通过进行机械分词算法对所述标准格式文本和各个所述标准格式语音文本进行分词，所述机械分词算法又称之为基于字符串匹配的分词算法。
182.本发明实施例中，利用预设的词性标注表进行词性标注，所述词性标注表中存在所述标准格式文本和所述标准格式语音文本中所有的单词以及单词的词性。
183.具体的，所述非关键词为介词、连词、助词、代词、副词等，通过去除非关键词可以凸显文本的主体内容。
184.本发明实施例中，所述去重操作为去除所述标准文本词语集中重复的词语以及去除所述语音文本词语集中重复的词语。其中，若标准文本词语集中存在复数个第一词语，则将第一词语只保留一个，其余全部去除，若语音文本词语集中存在复数个第二词语，则将第二词语只保留一个，其余全部去除，若多个语音文本词语集中每个语音文本词语集中都存在一个第三词语，则不构成重复条件，不进行去除。
185.本发明实施例中，通过文本比对算法查找出所述标准文本词语集和各个所述语句文本词语集中的重复词语，其中，所述文本比对算法可以为基于相似度的文本比对算法。
186.所述实体识别模块103，用于利用预训练的实体识别模型识别所述标准对比文本和多个所述标准语音文本包含的实体，得到标准文本实体集和多个语音文本实体集。
187.本发明实施例中，所述实体识别模型为序列标注(bilstm crf)模型。其中，bilstm层中包含双向lstm层，可以结合所述标准对比文本和所述标准语音文本的上下文更准确的查找到实体，crf层用于筛选查找到的实体。
188.本发明实施例中，所述利用预训练的实体识别模型识别所述标准对比文本本和多个所述标准语音文本包含的实体之前，所述方法还包括：
189.获取训练数据集对预构建实体识别模型进行训练，得到训练后的实体识别模型。
190.详细地，所述训练数据集为经过人工标注实体的文本数据集。
191.本发明实施例中，所述文本实体是语句中具有明确含义的名词。
192.进一步地，所述获取训练数据集对预构建实体识别模型进行训练，得到训练后的实体识别模型，包括：
193.获取训练数据集，并将所述训练数据集划分为训练集和测试集；
194.将所述训练集中的数据输入所述预构建实体识别模型的神经网络进行正向传播，
得到输出得分；
195.将所述输出得分输入误差函数得到函数值，并将所述函数值与预设的期待值进行比较，得到误差值；
196.获取所述预构建实体识别模型的梯度向量，并根据所述梯度向量不断调整所述预构建实体识别模型的参数，使所述误差值趋于零，并在所述误差值不再降低时得到初步实体识别模型；
197.利用所述测试集对所述初步实体识别模型进行测试，当测试通过时得到所述训练后的实体识别模型。
198.本发明另一实施例中，若利用所述测试集对所述初步实体识别模型进行测试，测试不通过时重新获取训练数据集对所述预构建实体识别模型进行训练。
199.本发明实施例中，所述误差函数(loss function)为防止模型的过度拟合的函数，所述梯度向量为表示模型变化快慢的向量。
200.本发明实施例正向传播(forward propagation)是指对神经网络沿着从输入层到输出层的顺序，依次计算并存储模型的中间变量。
201.所述实体对齐模块104，用于将所述标准文本实体集中的各个标准文本实体分别与所有所述语音文本实体集中的各个语音文本实体对齐，计算对齐后所述标准文本实体集和各个语音文本实体集的相似度，并将相似度最高的语音文本实体集作为所述标准文本实体集的标准对应实体集。
202.本发明实施例中，在利用预训练的实体识别模型识别所述标准文本实体集和多个所述语音文本实体的实体时，由于接收用户的原始语音数据可能存在表述不清晰的情况，因此导致得到得实体顺序并不对齐，所以需要再对标准文本实体集中得实体分别与所有所述语音文本实体集中的实体进行依次对齐，避免对比文本和语音文本之前不为相互对应关系。
203.本发明实施例中，通过所述标准文本实体集和所述语音文本实体集之间的名词属性进行对齐，例如标准文本实体集中包含的标准文本实体为“平安”、“银行”、“股份”、“有限公司”，语音文本实体集中包含的语音文本实体为“平安”、“保险”、“集团”，则得到的对齐结果为“平安”＝“平安”、“银行”＝“保险”、“股份”＝“集团”、“有限公司”＝“集团”。
204.本发明实施例中，可以通过下述操作实现将所述标准文本实体集中的各个标准文本实体分别与所有所述语音文本实体集中的各个语音文本实体对齐，计算对齐后所述标准文本实体集和各个语音文本实体集的相似度：
205.将所述标准文本实体集中的各个标准文本实体和各个所述语音文本实体集中的各个语音文本实体输入预构建的多语言bert模型，得到标准实体矩阵和多个语义实体矩阵；
206.将所述标准实体矩阵和各个所述语义实体矩阵相乘，得到相乘矩阵，并对所述相乘矩阵进行归一化，得到多个对齐实体组；
207.利用余弦相似度公式计算各个所述对齐实体组的相似度，得到所述标准文本实体集和各个所述语音文本实体集的相似度。
208.本发明实施例中，所述多语言bert模型为用于机器翻译领域的mbert模型。
209.本发明实施例中，所述利用余弦相似度公式计算各个所述对齐实体组的相似度之
前还包括利用将所述对齐实体组中的两个矩阵转化为向量形式。
210.所述总分获取模块105，用于基于预设的相似度公式计算所述标准对应实体集和所述标准文本实体集的相似度总分。
211.本发明实施例中，所述标准对应实体集中存在多个标准对应实体。
212.本发明实施例中，所述总分获取模块105具体用于：
213.将所述标准对应实体集中的多个标准对应实体进行划分，得到前缀实体、后缀实体、地址实体、名称实体；
214.在所述标准文本实体集中查找所述名称实体和所述地址实体；
215.若所述标准文本实体集中存在相同的名称实体和地址实体，则确定所述名称实体和所述地址实体的相似度得分；
216.若所述标准文本实体集中不存在相同的名称实体和所述地址实体，则从所述标准文本实体集中获取对应名称实体和对应地址实体，并将所述名称实体、所述地址实体、所述对应名称实体和对应地址实体转化为拼音，并利用编辑距离公式计算所述名称实体和所述对应名称实体以及所述地址实体和所述对应地址实体的相似度，得到所述名称实体和所述地址实体的相似度得分；
217.基于所述前缀实体和所述后缀实体从所述标准文本实体集中获取所述对应前缀实体和对应后缀实体；
218.将所述前缀实体和所述对应前缀实体以及所述后缀实体和所述对应后缀实体转化为词向量，并利用余弦相似度公式计算所述前缀实体和所述对应前缀实体以及所述后缀实体和所述对应后缀实体的相似度，得到所述前缀实体和所述后缀实体的相似度得分；
219.利用所述相似度总分公式计算所述名称实体、所述地址实体、所述前缀实体和所述后缀实体的相似度总分，并将所述相似度总分作为所述所述标准对应实体集和所述标准文本实体集的相似度总分。
220.本实施例中，若标准文本实体集中存在相同的名称实体和地址实体，直接确定名称实体和地址实体的相似度得分为预设分数，例如确定名称实体和地址实体的相似度得分为1。
221.本发明实施例中，所述相似度总分计算公式为：
222.相似度总分＝w1*地址实体的相似度得分 w2*前缀实体的相似度得分 w3*名称实体的相似度得分 w4*后缀实体的相似度得分
223.其中，wn为权重系数。
224.所述语音核验模块106，用于若所述相似度总分小于预设的分数阈值，则确定语音核验不通过，若所述相似度总分大于等于所述分数阈值，则确定语音核验通过。
225.本发明实施例中，所述若所述相似度总分小于预设的分数阈值，则语音核验不通过，之前，所述方法还包括：获取预设的分数阈值，将所述相似度总分和所述分数阈值进行对比，判断所述相似度总分是否小于预设的分数阈值。
226.本发明名实施例中，所述分数阈值为用于判断所述原始语音数据的语音核验是否通过的分数。
227.进一步地，所述分数阈值可以随用户需求进行灵活调整。
228.进一步地，例如，在用户申请信用贷款时，若语音核验不通过，则申请失败，若语音
核验通过，则申请成功。
229.如图4所示，是本发明实现语音核验方法的电子设备的结构示意图。
230.所述电子设备可以包括处理器10、存储器11、通信总线12以及通信接口13，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如语音核验程序。
231.其中，所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(central processing unit，cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(control unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块(例如执行语音核验程序等)，以及调用存储在所述存储器11内的数据，以执行电子设备的各种功能和处理数据。
232.所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元，例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备，例如电子设备上配备的插接式移动硬盘、智能存储卡(smart media card，smc)、安全数字(secure digital，sd)卡、闪存卡(flash card)等。进一步地，所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据，例如语音核验程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。
233.所述通信总线12可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
234.所述通信接口13用于上述电子设备与其他设备之间的通信，包括网络接口和用户接口。可选地，所述网络接口可以包括有线接口和/或无线接口(如wi
‑
fi接口、蓝牙接口等)，通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(display)、输入单元(比如键盘(keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light
‑
emitting diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
235.图4仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图4示出的结构并不构成对所述电子设备的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。
236.例如，尽管未示出，所述电子设备还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示
器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、wi
‑
fi模块等，在此不再赘述。
237.应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。
238.所述电子设备中的所述存储器11存储的语音核验程序是多个计算机程序的组合，在所述处理器10中运行时，可以实现：
239.获取原始语音数据，利用预设的语音识别方法识别所述原始语音数据，得到多个语音文本；
240.获取对比文本，并对所述对比文本和多个所述语音文本进行标准化处理，得到标准对比文本和多个标准语音文本；
241.利用预训练的实体识别模型识别所述标准对比文本和多个所述标准语音文本包含的实体，得到标准文本实体集和多个语音文本实体集；
242.将所述标准文本实体集中的各个标准文本实体分别与所有所述语音文本实体集中的各个语音文本实体对齐，计算对齐后所述标准文本实体集和各个语音文本实体集的相似度，并将相似度最高的语音文本实体集作为所述标准文本实体集的标准对应实体集；
243.基于预设的相似度公式计算所述标准对应实体集和所述标准文本实体集的相似度总分；
244.若所述相似度总分小于预设的分数阈值，则确定语音核验不通过；
245.若所述相似度总分大于等于所述分数阈值，则确定语音核验通过。
246.具体地，所述处理器10对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。
247.进一步地，所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读存储介质可以是易失性的，也可以是非易失性的。例如，所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read
‑
only memory)。
248.本发明还提供一种计算机可读存储介质，所述可读存储介质存储有计算机程序，所述计算机程序在被电子设备的处理器所执行时，可以实现：
249.获取原始语音数据，利用预设的语音识别方法识别所述原始语音数据，得到多个语音文本；
250.获取对比文本，并对所述对比文本和多个所述语音文本进行标准化处理，得到标准对比文本和多个标准语音文本；
251.利用预训练的实体识别模型识别所述标准对比文本和多个所述标准语音文本包含的实体，得到标准文本实体集和多个语音文本实体集；
252.将所述标准文本实体集中的各个标准文本实体分别与所有所述语音文本实体集中的各个语音文本实体对齐，计算对齐后所述标准文本实体集和各个语音文本实体集的相似度，并将相似度最高的语音文本实体集作为所述标准文本实体集的标准对应实体集；
253.基于预设的相似度公式计算所述标准对应实体集和所述标准文本实体集的相似度总分；
254.若所述相似度总分小于预设的分数阈值，则确定语音核验不通过；
255.若所述相似度总分大于等于所述分数阈值，则确定语音核验通过。
256.在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。
257.所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
258.另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。
259.对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。
260.因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
261.本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
262.此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。
263.最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于音频特征的最适歌唱音域检测方法与流程

语音核验方法、装置、电子设备及介质与流程

相关文献

最热文献