基于Kaldi的专业词汇语音识别方法与流程

2021-08-24 16:08:00 来源：中国专利 TAG：词汇语音识别方法人工智能专业

本发明涉及一种词汇语音识别方法，具体涉及一种基于kaldi的专业词汇语音识别方法，属于人工智能技术领域。

背景技术：

受益于数字化和智能化的发展，以及语音识别准确率普遍提高，语音识别应用近年来呈爆发式增长，已在智慧家居、智能车载等多方面发挥着重要作用。kaldi是当前最流行的语音识别工具，集成了大量的最新进展和最优脚本，极大地降低了语音识别技术的应用门槛，推动了语音识别在工业界的落地。虽然语音识别近年来取得了较大的发展，但在特定行业领域，专业词汇识别准确率低等问题限制了语音识别的应用。为了解决专业词汇识别问题，可以收集大量包含专业词汇的语音语料，进而去训练一个特定领域的语音识别模型。在实际应用中，由于专业领域语音语料收集难度较大，收集的语料数量往往不会太大，因此可以先利用大量的通用语料数据训练一个通用的语音识别模型，进而在专业领域语料上做迁移学习训练，得到一个适合专业领域需求的语音识别模型。但是，专业语音语料难以覆盖所有的专业词汇，尤其是一些涉及人名、地名的应用场景。

技术实现要素：

本发明目的是提供了一种基于kaldi的专业词汇语音识别方法，可以有效解决特定领域专业词汇的语音识别准确率低的问题。

本发明为实现上述目的，通过以下技术方案实现：

一种基于kaldi的专业词汇语音识别方法，包括以下步骤:

s1.通过迁移学习训练一个专业领域的语音识别模型;

s2.收集专业词汇并更新有限状态转录机l文件;

s3.更新语言模型有限状态转录机g文件;

s4.构建解码空间hclg文件;

s5.利用hclg文件进行解码和识别。

所述基于kaldi的专业词汇语音识别方法优选方案，s1具体过程如下：收集特定领域的语音识别训练语料数据，基于通用的语音识别模型，使用kaldi迁移学习的方式训练一个专业领域的语音识别模型。

所述基于kaldi的专业词汇语音识别方法优选方案，构建解码空间hclg文件具体过程如下：基于专业词汇，使用kaldi工具更新语言模型有限状态转录机g文件，并将l文件和g文件组合得到lg文件；基于更新的lg文件，利用kaldi工具动态生成clg文件，进而构建解码空间hclg文件。

本发明的优点在于：

能够提高特定领域专业词汇的语音识别准确率问题。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明实施例的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于kaldi的专业词汇语音识别方法，包括以下步骤:

s1.通过迁移学习训练一个专业领域的语音识别模型：收集特定领域的语音识别训练语料数据，基于通用的语音识别模型，使用kaldi迁移学习的方式训练一个专业领域的语音识别模型，该语音识别模型可以识别大部分专业领域词汇，但不能覆盖所有专业词汇；

s2.收集专业词汇并更新有限状态转录机l文件：按照特定语音识别需求，收集专业词汇，并按照kaldi格式要求整理专业词汇词典，使用kaldi工具更新词典有限状态转录机l文件；

s3.更新语言模型有限状态转录机g文件：基于专业词汇，使用kaldi工具更新语言模型有限状态转录机g文件，并将l文件和g文件组合得到lg文件；

s4.构建解码空间hclg文件：基于更新的lg文件，利用kaldi工具动态生成clg文件，进而生成解码空间hclg文件；

s5.利用新的hclg文件进行解码和识别：利用新的hclg文件，结合迁移学习的语音识别模型，进行解码和识别。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

技术特征：

1.一种基于kaldi的专业词汇语音识别方法，其特征在于：包括以下步骤:

s1.通过迁移学习训练一个专业领域的语音识别模型;

s2.收集专业词汇并更新有限状态转录机l文件;

s3.更新语言模型有限状态转录机g文件;

s4.构建解码空间hclg文件;

s5.利用hclg文件进行解码和识别。

2.根据权利要求1所述基于kaldi的专业词汇语音识别方法，其特征在于：s1具体过程如下：收集特定领域的语音识别训练语料数据，基于通用的语音识别模型，使用kaldi迁移学习的方式训练一个专业领域的语音识别模型。

3.根据权利要求1或2所述基于kaldi的专业词汇语音识别方法，其特征在于：构建解码空间hclg文件具体过程如下：基于专业词汇，使用kaldi工具更新语言模型有限状态转录机g文件，并将l文件和g文件组合得到lg文件；基于更新的lg文件，利用kaldi工具动态生成clg文件，进而构建解码空间hclg文件。

技术总结
本发明提供了一种基于Kaldi的专业词汇语音识别方法，可以有效解决特定领域专业词汇的语音识别准确率低的问题。一种基于Kaldi的专业词汇语音识别方法，包括以下步骤:S1.通过迁移学习训练一个专业领域的语音识别模型;S2.收集专业词汇并更新有限状态转录机L文件;S3.更新语言模型有限状态转录机G文件;S4.构建解码空间HCLG文件;S5.利用HCLG文件进行解码和识别。

技术研发人员：陈其宾;李锐;王建华
受保护的技术使用者：山东浪潮科学研究院有限公司
技术研发日：2021.05.12
技术公布日：2021.08.24

再多了解一些

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种可直接集成的离线语音识别模块的制作方法

基于Kaldi的专业词汇语音识别方法与流程

相关文章

最热文献