一种人工智能语音识别分析方法、系统、装置及存储介质与流程

2021-10-29 22:51:00 来源：中国专利 TAG：语音识别人工智能装置方法分析

1.本发明涉及语音识别技术领域，尤其涉及一种人工智能语音识别分析方法、系统、装置及存储介质。

背景技术：

2.人工智能，是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品，将会是人类智慧的“容器”。
3.目前，人工智能产品在识别语音识别的准确率方面仍然有待提高，在人工智能交互的过程中并不能十分准确的识别语音信息，因此，本技术提出了一种人工智能语音识别分析方法、系统、装置及存储介质。

技术实现要素：

4.本发明的目的在于提供一种人工智能语音识别分析方法、系统、装置及存储介质，以解决目前的语音识别的准确率较低的问题。
5.为实现上述目的，本发明提供如下技术方案：
6.一种人工智能语音识别分析方法，所述方法包括：
7.获取语音数据，生成第一结果；
8.获取口型数据，生成第二结果，其中所述口型数据与所述语音数据的起始时间和结束时间相同；
9.对比第一结果和第二结果，生成最终结果并输出。
10.进一步的，所述生成第一结果的具体步骤包括：
11.对所述语音数据预处理，生成语音频谱；
12.剪辑所述语音频谱，生成具有相同时间长度的频谱片段；
13.向量化所述频谱片段，生成所述频谱片段的特征向量；
14.计算所述特征向量与模板库内的各单词所映射特征向量的相似度，输出相似度最高的特征向量所映射的单词作，其中，所述特征向量与模板库内的各单词所映射特征向量的相似度记为第一相似度；
15.按照时间顺序组合单词，生成第一结果并输出。
16.进一步的，所述生成第一结果的具体步骤包括：
17.按照所述语音频谱的端点时间和起点时间截取口型数据；
18.剪辑截取后的所述口型数据，生成具有相同时间长度的口型片段；
19.逐帧提取所述口型片段的图像，获取口型图像集合，向量化所述口型图像集合内的图像，生成所述口型图像内各图像的特征向量；
20.计算所述口型图像内各图像的特征向量与模板库内各单词所映射口型数据的特
征向量的相似度，输出相似度最高的口型数据所映射的单词，其中，所述口型图像内各图像的特征向量与模板库内各单词所映射口型数据的特征向量的相似度记为第二相似度；
21.按照时间顺序组合单词，生成第二结果。
22.进一步的，生成所述口型图像内各图像的特征向量的具体步骤包括：
23.灰度处理对所述口型图像集合内的图片，并采用灰度共生矩阵提取图像纹理特征；
24.选择四组具有代表性纹理特征，即熵、工阶矩、对比度和逆差矩，计算出所述目标图像集合内的图片的特征值，使得所述图片的像素对在四个方向(0
°
、45
°
、90
°
、135
°
)上移动，并分别计算出4个特征值；最后把这4个方向上计算出来的特征值组合成一个大小为16的综合向量，定义综合向量定义为：g＝[g1k，g2k，g3k，g4k]，k∈(0
°
，45
°
，90
°
，135
°
)；其中，熵、工阶矩、对比度和逆差矩的表达式为：
[0025]
熵g1的表达式为：
[0026]
二阶矩g2的表达式为：
[0027]
对比度g3的表达式为：
[0028]
逆差矩g4的表达式为：
[0029]
其中，i，j分别表示像素对的灰度值，d表示像素对之间的距离，θ的取值为：0
°
，45
°
，90
°
，135
°
；
[0030]
输出综合向量g。
[0031]
进一步的，所述对比第一结果和第二结果的具体步骤包括；
[0032]
对比同一时间轴上的第一相似度和第二相似度；
[0033]
当第一相似度大于第二相似度时，选取该时间的第一结果内的单词；
[0034]
当第一相似度小于第二相似度时，选取该时间的第二结果的单词；
[0035]
按照时间顺序组合单词，生成最终结果并输出。
[0036]
进一步的，生成最终结果前还包括：
[0037]
语法检查，根据数据库内语法规则检查组合后的单词；
[0038]
消除不合规则的语法和歧义，生成最终结果并输出。
[0039]
一种人工智能语音识别分析系统，包括以下特征：
[0040]
获取单元，用于获取语音数据和口型数据；
[0041]
第一结果生成单元，用于生成第一结果；
[0042]
第二结果生成单元，用于生成第二结果；以及
[0043]
最终结果生成单元，用于对于第一结果和第二结果并生最终结果。
[0044]
进一步的，所述分析系统还包括：
[0045]
剪辑模块，用于剪辑语音数据和口型数据；
[0046]
计算模块，用于向量化语音数据和口型数据，并计算特征向量的相似度；
[0047]
对比模块，用于对比相似度大小。
[0048]
一种计算机装置，所述装置包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现上述任意一项所述方法的步骤：
[0049]
获取语音数据，生成第一结果；
[0050]
获取口型数据，生成第二结果，其中所述口型数据与所述语音数据的起始时间和结束时间相同；
[0051]
对比第一结果和第二结果，生成最终结果并输出。
[0052]
一种存储介质，其上存储有计算机程序(指令)，所述计算机程序(指令)被处理器执行时实现上述任意一项所述方法的步骤：
[0053]
获取语音数据，生成第一结果；
[0054]
获取口型数据，生成第二结果，其中所述口型数据与所述语音数据的起始时间和结束时间相同；
[0055]
对比第一结果和第二结果，生成最终结果并输出。
[0056]
综上所述，本发明与现有技术相比具有以下有益效果：
[0057]
本发明提供了一种人工智能语音识别分析方法、系统、装置及存储介质，其中，所述方法包括：获取语音数据，生成第一结果；获取口型数据，生成第二结果，其中所述口型数据与所述语音数据的起始时间和结束时间相同；对比第一结果和第二结果，生成最终结果并输出。本发明通过分别翻译语音数据和口型数据，并对比翻译结果，取正确率较高的翻译单词组成最终结果，提高了语音识别的正确率。
附图说明
[0058]
图1为本发明提供的人工智能语音识别分析方法一个实施例的流程图。
[0059]
图2为本发明提供的人工智能语音识别分析方法的一个子流程图。
[0060]
图3为本发明提供的人工智能语音识别分析方法的另一个子流程图。
[0061]
图4为本发明提供的人工智能语音识别分析方法的又一个子流程图。
[0062]
图5为本发明提供的人工智能语音识别分析方法的再一个子流程图。
[0063]
图6为本发明提供的人工智能语音识别分析方法的还一个子流程图。
[0064]
图7为本发明提供的人工智能语音识别分析系统的结构框图。
[0065]
图8为本发明提供的人工智能语音识别分析系统另一个实施例的结构框图。
具体实施方式
[0066]
除非另有定义，本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本技术；本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本技术的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。
[0067]
在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
[0068]
为了使本技术领域的人员更好地理解本技术方案，下面将结合附图，对本技术实
施例中的技术方案进行清楚、完整地描述。
[0069]
参考图1，示出了根据本技术的人工智能语音识别分析方法的一个实施例的流程图。
[0070]
一种人工智能语音识别分析方法，所述方法包括以下步骤：
[0071]
s100、获取语音数据，生成第一结果；
[0072]
具体的，在本发明实施例提供的步骤s100中，本技术首先获取语音数据，并将语音数据翻译成机器语言，生成第一结果；
[0073]
s200、获取口型数据，生成第二结果，其中所述口型数据与所述语音数据的起始时间和结束时间相同；
[0074]
具体的，在本发明实施例提供的步骤s200中，获取口型数据，所述口型数据为视频数据，本技术将获取的口型数据翻译成可识别的机器语言，生成第二结果；
[0075]
优选的，所述口型数据的开始时间及结束时间与所述语音数据的开始时间及结束时间相同，从而使得口型与语音可以对应，防止翻译错误；
[0076]
s300、对比第一结果和第二结果，生成最终结果并输出；
[0077]
具体的，在本发明实施例提供的步骤s300中，对比第一结果和第二结果，选取同一时间上第一结果和第二结果内正确了较高的单词，按照时间顺序将选取的单词组成最终结果，并输出。
[0078]
请参照图2，示出了本发明提供的人工智能语音识别分析方法的一个子流程图。
[0079]
本实施例中，所述生成第一结果的具体步骤包括：
[0080]
s110、对所述语音数据预处理，生成语音频谱；
[0081]
具体的，在本发明实施例提供的步骤s110中，对获取的语音数据进行滤波、a/d变换、预加重和端点检测等预处理；
[0082]
滤波的目的有两个:一是抑制输入信号中频率超出//2的所有分量(/：为采样频率)，以防止混叠干扰；二是抑制50hz的电源工频干扰，在一些示例中，滤波时采用的滤波器是带通滤波器；
[0083]
a/d变换是将语音模拟信号转换为数字信号；
[0084]
预加重处理的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，便于频谱分析；
[0085]
端点检测是从包含语音的一段信号中确定出语音的起点和终点，有效的端点检测不仅能减少处理时间，而且能排除无声段的噪声干扰；
[0086]
在一些示例中所述断电检测的方法主要包括时域特征方法和频域特征方法，时域特征方法是利用语音音量和过零率进行端点检测，计算量小，但对气音会造成误判，不同的音量计算也会造成检测结果不同；频域特征方法是用声音的频谱的变异和熵的检测进行语音检测，计算量较大；
[0087]
对所述语音数据进行频谱分析，生成语音频谱；
[0088]
s120、剪辑所述语音频谱，生成具有相同时间长度的频谱片段；
[0089]
具体的，在本发明实施例提供的步骤s120中，剪辑所述语音频谱，生成具有相同时间长度的频谱片段，其中，所述频谱片段的长度为0.24s；
[0090]
优选的，在时间轴上相邻的语音频谱具有重叠段，所述重叠段的长度优选0.12s；
[0091]
s130、向量化所述频谱片段，生成所述频谱片段的特征向量；
[0092]
具体的，在本发明实施例提供的步骤s130中，对所述频谱片段进行快速傅里叶变换，提取所述频谱片段特征向量；
[0093]
s140、计算所述特征向量与模板库内的各单词所映射特征向量的相似度，输出相似度最高的特征向量所映射的单词作，其中，所述特征向量与模板库内的各单词所映射特征向量的相似度记为第一相似度；
[0094]
进一步的，在本发明实施例提供的步骤s140中，连接所述模板库，所述模板库内设置有单词库和第一向量库，所述第一向量库内存储有各单词的发音对应的频谱片段提取的特征向量，所述单次库内的单词与所述第一向量库内的特征向量具有一一映射的关系，通过计算所提取的特征向量与所述第一向量库内的特征向量的相似度，并输出所述第一向量库内相似度最高的特征向量所映射的单词；
[0095]
s150、按照时间顺序组合单词，生成第一结果并输出。
[0096]
请参照图3，示出了本发明提供的人工智能语音识别分析方法的另一个子流程图。
[0097]
在本发明提供的实施例中，所述生成第一结果的具体步骤包括：
[0098]
s210、按照所述语音频谱的端点时间和起点时间截取口型数据；
[0099]
具体的，在本发明实施例提供的步骤s210中，根据所述步骤s110中预处理截取的所述语音数据的开始时间和结束时间重新截取所述口型数据的开始时间和结束时间，使得所述语音数据和所述口型数据的时间对应；
[0100]
s220、剪辑截取后的所述口型数据，生成具有相同时间长度的口型片段；
[0101]
具体的，在本发明实施例提供的步骤s220中，对所述步骤s220接触的口型数据分段，生成具有相同时间长度的口型片段；
[0102]
其中，所述口型片段的长度为0.24s；
[0103]
优选的，在时间轴上相邻的口型片段具有重叠段，所述重叠段的长度优选0.12s；
[0104]
s230、逐帧提取所述口型片段的图像，获取口型图像集合，向量化所述口型图像集合内的图像，生成所述口型图像内各图像的特征向量；
[0105]
具体的，在本发明实施例提供的步骤s320中，逐帧提取所述口型片段，生成所述口型图像集合，其中，所述口型图像为仅包括口型的图片，所述图像大小为52x52像素，向量化所述口型图像，生成单个口型图像所对应的特征向量；
[0106]
s240、计算所述口型图像内各图像的特征向量与模板库内各单词所映射口型数据的特征向量的相似度，输出相似度最高的口型数据所映射的单词，其中，所述口型图像内各图像的特征向量与模板库内各单词所映射口型数据的特征向量的相似度记为第二相似度；
[0107]
具体的，在本发明实施例提供的步骤s240中，所述模板库内还设置有第二向量库，所述第二向量库内存储有所述单词库内的单词发音形成的标准口型的图像提取的特征向量，所述第二向量库内的特征向量与所述单次库内的单词具有一一映射的关系；通过计算口型图像所提取的特征向量与第二向量库内的特征向量的相似度，选取所述第二向量库内相似度最高的特征向量所映射的单词并输出；
[0108]
s250、按照时间顺序组合单词，生成第二结果。
[0109]
请参照图4，示出了本发明提供的人工智能语音识别分析方法的又一个子流程图。
[0110]
进一步的，在本发明的一个实施例中，生成所述口型图像内各图像的特征向量的
具体步骤包括：
[0111]
s321、灰度处理对所述口型图像集合内的图片，并采用灰度共生矩阵提取图像纹理特征；
[0112]
具体的，所述灰度共生矩阵的构造过程为：假设灰度共生矩阵可以表示为从灰度值为i的点经过距离d＝(a，b)到达灰度值为j的点的概率，灰度共生矩阵用户＝(i，j，d，θ)(i，j＝0，1，2，
…
，k
‑
1)表示，i，j分别表示像素对的灰度值，d表示像素对之间的距离，θ的取值为：0
°
，45
°
，90
°
，135
°
；
[0113]
s322、选择四组具有代表性纹理特征，即熵、工阶矩、对比度和逆差矩，计算出所述目标图像集合内的图片的特征值，使得所述图片的像素对在四个方向(0
°
、45
°
、90
°
、135
°
)上移动，并分别计算出4个特征值；最后把这4个方向上计算出来的特征值组合成一个大小为16的综合向量，定义综合向量定义为：g＝[g1k，g2k，g3k，g4k]，k∈(0
°
，45
°
，90
°
，135
°
)；其中，熵、工阶矩、对比度和逆差矩的表达式为：
[0114]
熵g1的表达式为：
[0115]
二阶矩g2的表达式为：
[0116]
对比度g3的表达式为：
[0117]
逆差矩g4的表达式为：
[0118]
其中，i，j分别表示像素对的灰度值，d表示像素对之间的距离，θ的取值为：0
°
，45
°
，90
°
，135
°
；
[0119]
s323、输出综合向量g。
[0120]
请参照图5，示出了本发明提供的人工智能语音识别分析方法的再一个子流程图。
[0121]
进一步的，在本发明提供的一个实施例中，所述对比第一结果和第二结果的具体步骤包括；
[0122]
s310、对比同一时间轴上的第一相似度和第二相似度；
[0123]
s320、当第一相似度大于第二相似度时，选取该时间的第一结果内的单词；
[0124]
当第一相似度小于第二相似度时，选取该时间的第二结果的单词；
[0125]
s330、按照时间顺序组合单词，生成最终结果并输出。
[0126]
请参照图6，示出了本发明提供的人工智能语音识别分析方法的还一个子流程图。
[0127]
进一步的，在本发明提供的一个实施例中，生成最终结果前还包括：
[0128]
s331、语法检查，根据数据库内语法规则检查组合后的单词；
[0129]
具体的，在本发明实施例提供的步骤s331中，通过语义角色标注的方式赋予步骤s330所组成的句子中单词角色，包括核心语义角色(如施事者、受事者等)和附属语义角色(如地点、时间、方式、原因等)，根据语法库内的语法规则检查步骤s330所组成的句子是否存在语法错误；
[0130]
s332、消除不合规则的语法和歧义，生成最终结果并输出。
[0131]
请参照图7，示出了本发明提供的人工智能语音识别分析系统的结构框图。
[0132]
为解决此问题，本发明还提供了一种人工智能语音识别分析系统，包括以下特征：
[0133]
获取单元101，用于获取语音数据和口型数据；
[0134]
第一结果生成单元102，用于生成第一结果；
[0135]
第二结果生成单元103，用于生成第二结果；以及
[0136]
最终结果生成单元104，用于对于第一结果和第二结果并生最终结果。
[0137]
请参照图8，示出了本发明提供的人工智能语音识别分析系统另一个实施例的结构框图。
[0138]
进一步的，在本发明的一个实施例中，所述分析系统还包括：
[0139]
剪辑模块105，用于剪辑语音数据和口型数据；
[0140]
计算模块106，用于向量化语音数据和口型数据，并计算特征向量的相似度；
[0141]
对比模块107，用于对比相似度大小；
[0142]
具体的，所述第一结果生成单元102、第二结果生成单元103和最终结果生成单元104均包括剪辑模块105、计算模块106和对比模块107。
[0143]
为解决上述技术问题，本技术实施例还提供计算机装置。
[0144]
所述计算机装置包括通过总线相互通信连接的存储器、处理器、网络接口。需要指出的是，本实施例仅示出了具有组件存储器、处理器和网络接口的计算机装置，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机装置是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(applicationspecificintegratedcircuit，asic)、可编程门阵列(field－programmablegatearray，fpga)、数字处理器(digitalsignalprocessor，dsp)、嵌入式设备等。
[0145]
所述计算机装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机装置可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
[0146]
所述存储器至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器可以是所述计算机装置的内部存储单元，例如该计算机装置的硬盘或内存。在另一些实施例中，所述存储器也可以是所述计算机装置的外部存储设备，例如该计算机装置上配备的插接式硬盘，智能存储卡(smartmediacard，smc)，安全数字(securedigital，sd)卡，闪存卡(flashcard)等。当然，所述存储器还可以既包括所述计算机装置的内部存储单元也包括其外部存储设备。本实施例中，所述存储器通常用于存储安装于所述计算机装置的操作装置和各类应用软件，例如人工智能语音识别分析方法的计算机可读指令等。此外，所述存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。
[0147]
所述处理器在一些实施例中可以是中央处理器(centralprocessingunit，cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制所述计算机装置的总体操作。本实施例中，所述处理器用于运行所述存储器中存储的计算机可读指令或者处理数据，例如运行人工智能语音识别分析方法的计算机可读指令。
[0148]
所述网络接口可包括无线网络接口或有线网络接口，该网络接口通常用于在所述
计算机装置与其他电子设备之间建立通信连接。
[0149]
本技术公开了一种计算机装置，属于语音识别技术领域，人工智能语音识别分析方法以计算机可读指令的方式存储于计算机装置中的存储器中，当所述处理器运行所述计算机可读指令时实现上述的球幕相机校准方法的步骤：
[0150]
s100、获取语音数据，生成第一结果；
[0151]
s200、获取口型数据，生成第二结果，其中所述口型数据与所述语音数据的起始时间和结束时间相同；
[0152]
s300、对比第一结果和第二结果，生成最终结果并输出。
[0153]
具体地，所述处理器对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。
[0154]
本技术还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的球幕相机校准方法的步骤：
[0155]
s100、获取语音数据，生成第一结果；
[0156]
s200、获取口型数据，生成第二结果，其中所述口型数据与所述语音数据的起始时间和结束时间相同；
[0157]
s300、对比第一结果和第二结果，生成最终结果并输出。
[0158]
在本发明所提供的几个实施例中，应该理解到，所揭露的设备，系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。
[0159]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0160]
另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。
[0161]
对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。
[0162]
因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
[0163]
此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或系统也可以由一个单元或系统通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。
[0164]
最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：虚拟机器人形象优化方法、系统、存储介质及计算机设备与流程

一种人工智能语音识别分析方法、系统、装置及存储介质与流程

相关文献

最热文献