一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音识别文本处理方法、装置、电子设备及存储介质与流程

2022-03-09 00:43:53 来源:中国专利 TAG:

技术特征:
1.一种语音识别文本处理方法,其特征在于,包括:获取语音识别得到的原始文本;对所述原始文本进行预设处理,得到预设处理结果,其中,所述预设处理包括标点添加处理和/或数字规整处理,所述预设处理结果包括标点添加处理结果和/或数字规整处理结果;通过注意力机制对所述原始文本进行文本顺滑处理,得到文本顺滑处理结果;基于所述文本顺滑处理结果与所述预设处理结果,得到所述原始文本的处理后文本。2.如权利要求1所述的方法,其特征在于,所述预设处理为标点添加处理和数据规整处理时,所述预设处理结果为标点添加处理结果和数字规整处理结果时,在所述得到预设处理结果之后,所述方法还包括:将所述标点添加处理结果与所述数字规整处理结果进行融合,得到融合数据;所述通过注意力机制对所述原始文本进行文本顺滑处理,得到文本顺滑处理结果,包括:基于所述融合数据,通过注意力机制对所述原始文本进行文本顺滑处理,得到文本顺滑处理结果。3.如权利要求1所述的方法,其特征在于,所述预设处理为标点添加处理时,所述对所述原始文本进行预设处理,得到预设处理结果,包括:基于预设的标点标签字典,对所述原始文本进行序列标注,得到所述标点添加处理结果作为所述预设处理结果。4.如权利要求1所述的方法,其特征在于,所述预设处理为数字规整处理时,所述对所述原始文本进行预设处理,得到预设处理结果,包括:基于预设的数字规整标签字典,对所述原始文本进行序列标注,得到所述数字规整处理结果作为所述预设处理结果。5.如权利要求2所述的方法,其特征在于,所述基于所述融合数据,通过注意力机制对所述原始文本进行文本顺滑处理,得到文本顺滑处理结果,包括:对所述原始文本进行文本顺滑特征提取,得到文本顺滑特征数据;对所述融合数据以及所述文本顺滑特征数据进行注意力机制计算,得到交互特征数据;基于所述交互特征数据以及所述文本顺滑特征数据,得到所述文本顺滑处理结果。6.如权利要求1-5任一项所述的方法,其特征在于,所述对所述原始文本进行预设处理,得到预设处理结果,以及所述通过注意力机制对所述原始文本进行文本顺滑处理,得到文本顺滑处理结果,包括:通过预设文本处理模型对所述原始文本进行所述预设处理以及所述文本顺滑处理;所述预设文本处理模型通过以下方式获得:构建所述预设文本处理模型的训练数据以及所述训练数据的标签信息,所述标签信息包括所述训练数据的标点标签、数字规整标签以及文本顺滑标签中的至少一种;基于所述训练数据以及所述训练数据的标签信息,对初始文本处理模型进行训练,得到训练好的文本处理模型,作为所述预设文本处理模型。7.如权利要求6所述的方法,其特征在于,所述构建所述预设文本处理模型的训练数据以及所述训练数据的标签信息,包括:获取第一语料文本;
过滤所述第一语料文本中的标点,得到所述训练数据;基于所述第一语料文本中每个标点的标点类型、标点位置、以及预设的标点标签字典,对所述训练数据进行序列标注,得到所述训练数据的标点标签。8.如权利要求6所述的方法,其特征在于,所述构建所述预设文本处理模型的训练数据以及所述训练数据的标签信息,包括:获取第二语料文本;将所述第二语料文本中的非汉字形式的数字转换为汉字形式,得到所述训练数据;基于所述第二语料文本中所述非汉字形式的数字的位置,以及预设的数字规整标签字典,对所述训练数据进行序列标注,得到所述训练数据的数字规整标签。9.如权利要求6所述的方法,其特征在于,所述构建所述预设文本处理模型的训练数据以及所述训练数据的标签信息,包括:获取第三语料文本;在所述第三语料文本中确定出插入冗余词的目标插入位置;基于所述第三语料文本中位于所述目标插入位置之前的文本,预测所述目标插入位置处插入的目标冗余词;将所述目标冗余词插入到所述目标插入位置,得到所述训练数据;基于所述目标冗余词、所述目标插入位置以及预设的文本顺滑标签字典,对所述训练数据进行序列标注,得到所述训练数据的文本顺滑标签。10.如权利要求9所述的方法,其特征在于,所述在所述第三语料文本中确定出插入冗余词的目标插入位置,包括:将所述第三语料文本输入到预设的顺滑位置确定模型中,得到所述目标插入位置;所述基于所述第三语料文本中位于所述目标插入位置之前的文本,预测所述目标插入位置处插入的目标冗余词,包括:将所述第三语料文本中位于所述目标插入位置之前的文本,输入到预设的冗余词生成模型中,得到所述目标冗余词。11.一种语音识别文本处理装置,其特征在于,包括:获取模块,用于获取语音识别得到的原始文本;第一处理模块,用于对所述原始文本进行预设处理,得到预设处理结果,其中,所述预设处理包括标点添加处理和/或数字规整处理,所述预设处理结果包括包括标点添加处理结果和/或数字规整处理结果;第二处理模块,用于通过注意力机制对所述原始文本进行文本顺滑处理,得到文本顺滑处理结果;第三处理模块,用于基于所述文本顺滑处理结果与所述预设处理结果,得到所述原始文本的处理后文本。12.如权利要求11所述的装置,其特征在于,所述预设处理为标点添加处理和数据规整处理时,所述装置还包括:数据融合模块,用于将所述标点添加处理结果与所述数字规整处理结果进行融合,得到融合数据;所述第二处理模块,用于基于所述融合数据,通过注意力机制对所述原始文本进行文
本顺滑处理,得到文本顺滑处理结果。13.如权利要求12所述的装置,其特征在于,所述第二处理模块,用于:对所述原始文本进行文本顺滑特征提取,得到文本顺滑特征数据;对所述融合数据以及所述文本顺滑特征数据进行注意力机制计算,得到交互特征数据;基于所述交互特征数据以及所述文本顺滑特征数据,得到所述文本顺滑处理结果。14.一种电子设备,其特征在于,包括有存储器,以及一个或者多个的程序,其中一个或者多个的程序存储于存储器中,且经配置以由一个或者多个的处理器执行所述一个或者多个的程序所包含的用于进行如权利要求1~10任一项所述方法对应的操作指令。15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~10任一项所述方法对应的步骤。

技术总结
本发明公开了一种语音识别文本处理方法、装置、电子设备及存储介质,所述方法包括:获取语音识别得到的原始文本;对所述原始文本进行预设处理,得到预设处理结果,其中,所述预设处理包括标点添加处理和/或数字规整处理,所述预设处理结果包括标点添加处理结果和/或数字规整处理结果;通过注意力机制对所述原始文本进行文本顺滑处理,得到文本顺滑处理结果;基于所述文本顺滑处理结果与所述预设处理结果,得到所述原始文本的处理后文本。上述方案中,引入了注意力机制的多目标交互,在输出文本顺滑处理结果的过程中,充分利用了标点添加处理和/或数字规整处理的特征,从而提供了语音识别文本处理的准确率。别文本处理的准确率。别文本处理的准确率。


技术研发人员:赵昂 余健
受保护的技术使用者:北京搜狗科技发展有限公司
技术研发日:2021.10.28
技术公布日:2022/3/7
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献