一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于人工智能的自动语音识别方法及系统与流程

2021-06-11 21:44:00 来源:中国专利 TAG:人工智能 语音识别 方法 系统

技术特征:

1.一种基于人工智能的自动语音识别方法,其特征在于,包括:

接收待识别的语音信号;

对所述待识别的语音信号进行预处理,获得语音输入信号;

将所述语音输入信号进行时域到频域的转换,提取语音特征参数;

对所述语音特征参数进行随机取样,获得若干个样本特征参数;

将所述样本特征参数输入至声学模型和语言模型,经过解码搜索获取识别结果;

将所述识别结果输入至词汇分类模板,将所述识别结果中的词汇于所述词汇分类模板中的专业词汇进行比对,获得识别结果中的词汇中专业词汇的占比;

判断所述占比是否超出预设值,若是,将所述语音特征参数输入至专业词汇声学模型和专业词汇语言模型,经过输出层的搜索对综合信息进行解码,输出对应的文本;所述专业词汇声学模型和专业词汇语言模型中对专业词汇的权重进行了重新匹配,提高获得专业词汇的概率;

若否,将所述语音特征参数输入至声学模型和语言模型,经过解码搜索获取识别结果,并输出对应的文本。

2.根据权利要求1所述的基于人工智能的自动语音识别方法,其特征在于,在所述并输出对应的文本之后,包括:

将输出的所述文本输入至拼写纠错模型,获得纠错后文本;

将纠错后的文本作为最终文本输出。

3.根据权利要求1所述的基于人工智能的自动语音识别方法,其特征在于,所述词汇分类模板构建方法包括:

获取大量分属于不同行业的专业词汇;

将所述专业词汇采用卷积神经网络按照专业词汇所属的行业进行分类训练;

获得分类结果,并将所述分类结果存储于分类数据库中,构成词汇分类模板。

4.根据权利要求3所述的基于人工智能的自动语音识别方法,其特征在于,所述专业词汇声学模型构建方法包括:

将词汇分类模板中的分类数据库设置为专业词汇字典;

基于音素或其组合优先从所述专业词汇字典中进行映射;

若所述专业词汇字典中无映射内容,则基于声学模型中的字典进行映射;

根据上述映射结果获取相应音素及其组合的声学得分。

5.根据权利要求3所述的基于人工智能的自动语音识别方法,其特征在于,所述专业词汇语言模型的构建方法包括:

基于词汇分类模板中分类数据库中存储的专业词汇,结合词典获取专业词汇的词序及连接词;所述词序及连接词的概率值排序为前五位;

将所述获取到的词序及连接词结合专业词汇记录在专业词汇语言数据库中;

基于所述声学得分及所述专业词汇语言数据库,确定语言得分。

6.根据权利要求1所述的基于人工智能的自动语音识别方法,其特征在于,所述对所述待识别的语音信号进行预处理的方法包括:

a1,获取环境中有规律噪声的频谱;

a2,获取收音装置噪声的频谱;

a3,基于环境噪声的频谱和收音装置噪声的频谱,结合最小方差无畸变响应滤波器增强后的信号采用下述公式确定:

其中,nt(f,t,n)为环境中有规律噪声的频谱;ni(f,t,n)为收音装置噪声的频谱;yi(f,t,n)为包含噪声的语音信号;wi(f)为滤波器的加权系数;s(f,t,n)是获得的语音输入信号;xi(f,t,n)为待降噪的信号;

f为当前频率,t为当前时间,n为当前帧,p为收音装置的数量,i=1,2...p,t为有规律噪声出现的次数,t=1,2...t,ri是训练误差取最小值时对应的初始系数,ε表示训练误差的最小值;

a4,基于所述获得的语音输入信号,采用下述公式对所述语音输入信号的噪声判定值,若每个信号数据的噪声判定值g大于预设的判定阈值,则将该信号数据判定为噪声点,其中g值的计算公式为:

其中,ak信号数据集合m中的第k个信号数据;ai代表信号据集合m中的第i个信号数据,aj代表信号数据集合m中的第j个信号数据,i=1,2,3...n,j=1,2,3...n;gi代表信号数据集合m中第i个信号数据的噪声判定值,π代表自然常数,exp代表指数函数,a代表信号数据集合m中信号数据的中值;

a5,将数据集合m中的每个信号数据都进行一一判定,当为噪声点时,则进行剔除,不为噪声点时,则进行保留,将保留后的信号数据形成最后处理后的信号。

7.一种基于人工智能的自动语音识别系统,其特征在于,包括:

接收装置,用于接收待识别的语音信号;

预处理装置,用于对所述待识别的语音信号进行预处理,获得语音输入信号;

提取装置,用于将所述语音输入信号进行时域到频域的转换,提取语音特征参数;

抽样装置,用于对所述语音特征参数进行随机取样,获得若干个样本特征参数;

结果获取装置,用于将所述样本特征参数输入至声学模型和语言模型,经过解码搜索获取识别结果;

专业词汇设置装置,用于将所述识别结果输入至词汇分类模板,将所述识别结果中的词汇于所述词汇分类模板中的专业词汇进行比对,获得识别结果中的词汇中专业词汇的占比;

判断装置,用于判断所述占比是否超出预设值;

第一输出装置,用于当判断装置的判断结果为是时,将所述语音特征参数输入至专业词汇声学模型和专业词汇语言模型,经过输出层的搜索对综合信息进行解码,输出对应的文本;所述专业词汇声学模型和专业词汇语言模型中对专业词汇的权重进行了重新匹配,提高获得专业词汇的概率;

第二输出装置,用于当判断装置的判断结果为否时,将所述语音特征参数输入至声学模型和语言模型,经过解码搜索获取识别结果,并输出对应的文本。

8.根据权利要求7所述的基于人工智能的自动语音识别系统,其特征在于,所述专业词汇设置装置中词汇分类模板包括:

获取子装置,用于获取大量分属于不同行业的专业词汇;

训练子装置,用于将所述专业词汇采用卷积神经网络按照专业词汇所属的行业进行分类训练;

分类结果获取子装置,用于获得分类结果,并将所述分类结果存储于分类数据库中,构成词汇分类模板。

9.根据权利要求7所述的基于人工智能的自动语音识别系统,其特征在于,所述第一输出装置中所述专业词汇声学模型包括:

分类子装置,用于将词汇分类模板中的分类数据库设置为专业词汇字典;

第一映射子装置,用于基于音素或其组合优先从所述专业词汇字典中进行映射;

第二映射子装置,用于当第一映射子装置中所述专业词汇字典中无映射内容时,则基于声学模型中的字典进行映射;

声学得分子装置,用于根据上述映射结果获取相应音素及其组合的声学得分。

10.根据权利要求1所述的基于人工智能的自动语音识别系统,其特征在于,所述预处理装置包括:

第一噪声频谱获取子装置,用于获取环境中有规律噪声的频谱;

第二噪声频谱获取子装置,用于获取收音装置噪声的频谱;

信号确定子装置,用于基于环境噪声的频谱和收音装置噪声的频谱,结合最小方差无畸变响应滤波器增强后的信号采用下述公式确定:

其中,nt(f,t,n)为环境中有规律噪声的频谱;ni(f,t,n)为收音装置噪声的频谱;yi(f,t,n)为包含噪声的语音信号;wi(f)为滤波器的加权系数;s(f,t,n)是获得的语音输入信号;xi(f,t,n)为待降噪的信号;

f为当前频率,t为当前时间,n为当前帧,p为收音装置的数量,i=1,2...p,t为有规律噪声出现的次数,t=1,2...t。ri是训练误差取最小值时对应的初始系数,ε表示训练误差的最小值;

判定值确定子装置,用于基于所述获得的语音输入信号,采用下述公式对所述语音输入信号的噪声判定值,若每个信号数据的噪声判定值g大于预设的判定阈值,则将该信号数据判定为噪声点,其中g值的计算公式为:

其中,ak信号数据集合m中的第k个信号数据;ai代表信号据集合m中的第i个信号数据,aj代表信号数据集合m中的第j个信号数据,i=1,2,3...n,j=1,2,3...n;gi代表信号数据集合m中第i个信号数据的噪声判定值,π代表自然常数,exp代表指数函数,a代表信号数据集合m中信号数据的中值;

判定子装置,用于将数据集合m中的每个信号数据都进行一一判定,当为噪声点时,则进行剔除,不为噪声点时,则进行保留,将保留后的信号数据形成最后处理后的信号。


技术总结
本发明公开了一种基于人工智能的自动语音识别方法及系统,该方法包括应用词汇分类模板,将所述识别结果中的词汇于所述词汇分类模板中的专业词汇进行比对,获得识别结果中的词汇中专业词汇的占比,结合占比判断是否需要专业词汇的语音识别,采用本发明提供的方案可以提高对专业词汇识别的精确度和准确率,特别是增强专业领域中视频会议记录的准确性、精准性,特别是专业性,提高企业在相关专业领域的专业性,更重要的是减少因为对专业词汇的自动识别语音识别时造成的词汇识别的误解,防止因为语音识别造成误解进而造成重大损失。同时,由于以词汇分类模板做基础,提高专业词汇的搜索速率,进而提高了针对专业词汇的自动语音的识别效率。

技术研发人员:张子奇;聂鹏
受保护的技术使用者:深圳奇实科技有限公司
技术研发日:2021.03.18
技术公布日:2021.06.11
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜