一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

检测和恢复语音到文本转录系统中的词汇表外字词的制作方法

2022-04-27 10:52:08 来源:中国专利 TAG:

技术特征:
1.一种用于恢复语音数据记录的转录中的词汇表外字词的方法,包括:接收用于转录为语音数据记录的文本表示的语音数据记录;使用字词识别模型将所述语音数据记录转录为所述文本表示;标识所述文本表示中的未知字词;基于由子单元识别模型生成的所述未知字词的子单元的识别来重构所述文本表示中的所述未知字词;通过用所述未知字词的所述重构替换所述未知字词来修改所述语音数据记录的所述文本表示;以及输出所述语音数据记录的修改的文本表示。2.根据权利要求1所述的方法,其中:所述字词识别模型包括使用整个字词和子字词的训练数据集训练的连接主义时间分类模型;以及所述子单元识别模型包括使用子字词训练的连接主义时间分类模型。3.根据权利要求2所述的方法,其中所述子单元包括字词的语音成分,并且其中重构所述未知字词包括:将识别的子单元合成为由所述未知字词之前的字词的结束时间和所述未知字词之后的字词的开始时间界定的单个单元;以及使用所述单个单元和反向语音字典来查找所述未知字词。4.根据权利要求2所述的方法,其中所述子单元包括能够从其构造字词的片段,每个片段包括字词符号的开始和字词符号的结束,并且其中重构所述未知字词包括通过将每个相应子单元的字词符号的结束连接到后续子单元的字词符号的开始来将识别的子单元组合成单个单元。5.根据权利要求2至4中任一项所述的方法,其中标识所述文本表示中的所述未知字词包括确定所述字词识别模型已经输出所述语音数据记录中的分段的子字词单元。6.根据权利要求2至5中任一项所述的方法,还包括调整所述字词识别模型的插值权重,以调整用于使用整个字词或子字词来生成所述文本表示的偏好。7.根据前述权利要求中任一项所述的方法,其中:所述字词识别模型包括使用整个字词的训练数据集训练的序列到序列模型;以及所述子单元识别模型包括使用子字词的训练数据集训练的序列到序列模型。8.根据权利要求7所述的方法,其中标识所述文本表示中的所述未知字词包括标识所述文本表示中的保留子单元,所述保留子单元指示所述字词识别模型已将所述未知字词标识为词汇表外字词。9.根据权利要求7或8所述的方法,其中重构所述未知字词包括:基于在与所述未知字词相关联的时间峰值之前的空白空间子单元和在与所述未知字词相关联的所述时间峰值之后的空白空间子单元的注意力峰值来标识所述语音数据记录中的所述未知字词的开始时间和结束时间;以及基于在与所述未知字词相关联的所述时间峰值之前的所述空白空间子单元和与所述未知字词相关联的所述时间峰值之后的所述空白空间子单元之间的每个时间峰值处由所述子单元识别模型识别的子单元来构造字词。
10.一种系统,包括:处理器;以及存储器,具有存储在其上的指令,所述指令在由所述处理器执行时执行用于恢复语音数据记录的转录中的词汇表外字词的操作,所述操作包括:接收用于转录为语音数据记录的文本表示的语音数据记录;使用字词识别模型将所述语音数据记录转录为所述文本表示;标识所述文本表示中的未知字词;基于由子单元识别模型生成的所述未知字词的子单元的识别来重构所述文本表示中的所述未知字词;通过用所述未知字词的所述重构替换所述未知字词来修改所述语音数据记录的所述文本表示;以及输出所述语音数据记录的修改的文本表示。11.根据权利要求10所述的系统,其中:所述字词识别模型包括使用整个字词和子字词的训练数据集训练的连接主义时间分类模型;以及所述子单元识别模型包括使用子字词训练的连接主义时间分类模型。12.根据权利要求11所述的系统,其中所述子单元包括字词的语音成分,并且其中重构所述未知字词包括:将识别的子单元合成为由所述未知字词之前的字词的结束时间和所述未知字词之后的字词的开始时间界定的单个单元;以及使用所述单个单元和反向语音字典来查找所述未知字词。13.根据权利要求11所述的系统,其中所述子单元包括能够从其构造字词的片段,每个片段包括字词符号的开始和字词符号的结束,并且其中重构所述未知字词包括通过将每个相应子单元的字词符号的结束连接到后续子单元的字词符号的开始来将识别的子单元组合成单个单元。14.根据权利要求11至13中任一项所述的系统,其中标识所述文本表示中的所述未知字词包括确定所述字词识别模型已经输出所述语音数据记录中的分段的子字词单元。15.根据权利要求11至14中任一项所述的系统,其中,所述操作还包括调整所述字词识别模型的插值权重,以调整用于使用整个字词或子字词来生成所述文本表示的偏好。16.根据权利要求10至15中任一项所述的系统,其中:所述字词识别模型包括使用整个字词的训练数据集训练的序列到序列模型;以及所述子单元识别模型包括使用子字词的训练数据集训练的序列到序列模型。17.根据权利要求16所述的系统,其中标识所述文本表示中的所述未知字词包括标识所述文本表示中的保留子单元,所述保留子单元指示所述字词识别模型已将所述未知字词标识为词汇表外字词。18.根据权利要求16或17所述的系统,其中重构所述未知字词包括:基于在与所述未知字词相关联的时间峰值之前的空白空间子单元和在与所述未知字词相关联的所述时间峰值之后的空白空间子单元的注意力峰值来标识所述语音数据记录中的所述未知字词的开始时间和结束时间;以及
基于在与所述未知字词相关联的所述时间峰值之前的所述空白空间子单元和与所述未知字词相关联的所述时间峰值之后的所述空白空间子单元之间的每个时间峰值处由所述子单元识别模型识别的子单元来构造字词。19.一种用于恢复语音数据记录的转录中的词汇表外字词的计算机程序产品,所述计算机程序产品包括:计算机可读存储介质,其由处理电路可读取并且存储用于由所述处理电路执行以用于执行根据权利要求1至9中任一项所述的方法的指令。20.一种存储在计算机可读介质上并且可加载到数字计算机的内部存储器中的计算机程序,包括软件代码部分,当所述程序在计算机上运行时,用于执行根据权利要求1至9中任一项所述的方法。

技术总结
提供了一种用于恢复语音数据记录的转录中的词汇表外字词的方法,包括:接收用于转录为语音数据记录的文本表示的语音数据记录;使用字词识别模型将所述语音数据记录转录为所述文本表示;标识所述文本表示中的未知字词;基于由子单元识别模型生成的所述未知字词的子单元的识别来重构所述文本表示中的所述未知字词;通过用所述未知字词的所述重构替换所述未知字词来修改所述语音数据记录的所述文本表示;以及输出所述语音数据记录的修改的文本表示。本表示。本表示。


技术研发人员:S.托马斯 K.奥德卡西 Z.图埃斯克 黄颖慧 M.A.皮切尼
受保护的技术使用者:国际商业机器公司
技术研发日:2020.09.10
技术公布日:2022/4/26
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献