一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本纠错方法、装置、计算机设备及计算机可读存储介质与流程

2021-10-29 20:31:00 来源:中国专利 TAG:计算机 自然语言 纠错 装置 可读

技术特征:
1.一种文本纠错方法,其特征在于,所述方法包括:获取待纠错的第一文本,所述第一文本包括至少两个字符;分别基于每个字符的结构、读音以及在所述第一文本中的上下文信息,获取所述每个字符的字形特征、读音特征以及语义特征;分别对所述每个字符的字形特征、读音特征以及语义特征进行加权融合,得到所述每个字符的融合特征;对得到的至少两个融合特征进行解码,得到至少两个目标字符,将所述至少两个目标字符构成第二文本,所述第二文本是对所述第一文本中的错误字符进行纠正后的文本。2.根据权利要求1所述的方法,其特征在于,所述分别基于每个字符的结构、读音以及在所述第一文本中的上下文信息,获取所述每个字符的字形特征、读音特征以及语义特征,包括:通过文本纠错模型中的字形解析网络,基于所述至少两个字符的结构,分别提取所述至少两个字符的字形特征;通过所述文本纠错模型中的语音识别网络,基于所述至少两个字符的读音,分别提取所述至少两个字符的读音特征;通过所述文本纠错模型中的语义识别网络,基于所述至少两个字符在所述第一文本中的上下文信息,分别提取所述至少两个字符的语义特征。3.根据权利要求2所述的方法,其特征在于,所述通过文本纠错模型中的字形解析网络,基于所述至少两个字符的结构,分别提取所述至少两个字符的字形特征,包括:通过所述字形解析网络,基于任一字符的结构以及至少两个参考字符的结构,生成所述任一字符对应的字符节点图,所述字符节点图用于指示所述任一字符与所述至少两个参考字符在结构维度的关联关系;对所述任一字符所对应的字符节点图进行特征提取,得到所述任一字符对应的字形特征。4.根据权利要求2所述的方法,其特征在于,所述通过文本纠错模型中的字形解析网络,基于所述至少两个字符的结构,分别提取所述至少两个字符的字形特征,包括:获取所述每个字符对应的字符图像,所述字符图像用于指示字符的结构;通过所述字形解析网络对所述每个字符对应的字符图像进行图像特征提取,得到所述每个字符的字形特征。5.根据权利要求2所述的方法,其特征在于,所述通过所述文本纠错模型中的语音识别网络,基于所述至少两个字符的读音,分别提取所述至少两个字符的读音特征,包括:获取所述每个字符对应的拼音,所述拼音用于指示字符的读音;通过所述语音识别网络对所述每个字符对应的拼音进行编码,得到所述每个字符的读音特征。6.根据权利要求5所述的方法,其特征在于,所述通过所述语音识别网络对所述每个字符对应的拼音进行编码,得到所述每个字符的读音特征,包括:通过所述语音识别网络基于参考映射条件,对所述每个字符对应的拼音进行数据处理,所述参考映射条件包括将拼音中的翘舌音映射为对应的平舌音、将拼音中的鼻音映射为对应的边音、将拼音中的后鼻音映射为前鼻音和去除拼音的音调中的至少一项;
通过所述语音识别网络分别对数据处理后的所述拼音进行编码,得到所述每个字符的所述读音特征。7.根据权利要求2所述的方法,其特征在于,所述通过所述语音识别网络对所述每个字符对应的拼音进行编码,得到所述每个字符的读音特征,包括:获取所述每个字符对应的音频文件,一个所述音频文件包括对一个字符进行朗读的语音信息;通过所述语音识别网络对所述每个字符对应的音频文件进行音频特征提取,得到所述每个字符的读音特征。8.根据权利要求1所述的方法,其特征在于,所述分别对所述每个字符的字形特征、读音特征以及语义特征进行加权融合,得到所述每个字符的融合特征,包括:对于任一字符,通过所述文本纠错模型中的特征融合网络,对所述任一字符的字形特征、读音特征以及语义特征进行特征融合,得到所述任一字符对应的初始融合特征;基于所述任一字符对应的初始融合特征,分别确定所述任一字符的字形特征所对应的第一权重、读音特征对应的第二权重以及语义特征对应的第三权重;基于所述第一权重、第二权重、第三权重,对所述任一字符的字形特征、读音特征以及语义特征进行加权融合,得到所述任一字符的融合特征。9.根据权利要求8所述的方法,其特征在于,所述基于所述任一字符对应的初始融合特征,分别确定所述任一字符的字形特征所对应的第一权重、读音特征对应的第二权重以及语义特征对应的第三权重,包括:获取所述第一文本对应的文本语义特征;对于任一字符,对所述文本特征、所述初始融合特征以及所述任一字符的字形特征进行特征融合,得到第一中间特征;对所述文本特征、所述初始融合特征以及所述任一字符的读音特征进行特征融合,得到第二中间特征;对所述文本特征、所述初始融合特征以及所述任一字符的语义特征进行特征融合,得到第三中间特征;分别基于所述第一中间特征、所述第二中间特征以及所述第三中间特征确定所述第一权重、所述第二权重以及所述第三权重。10.根据权利要求9所述的方法,其特征在于,所述基于所述第一权重、第二权重、第三权重,对所述任一字符的字形特征、读音特征以及语义特征进行加权融合,得到所述任一字符的融合特征,包括:分别基于所述第一权重、所述第二权重以及所述第三权重,对所述第一中间特征、所述第二中间特征以及所述第三中间特征进行加权融合,得到所述融合特征。11.根据权利要求1

10中任一项所述的方法,其特征在于,所述对得到的至少两个融合特征进行解码,得到至少两个目标字符,包括:分别将每个融合特征解码为一个分类向量,所述分类向量中的一个元素用于指示所述融合特征对应于一个候选字符的概率;分别将每个所述分类向量中数值最大的元素所指示的候选字符,确定所述目标字符。12.根据权利要求1所述的方法,其特征在于,所述获取待纠错的第一文本之后,所述方
法还包括以下至少一项:将所述第一文本中的所述至少两个字符统一为参考字体;去除所述第一文本中的外文字符。13.一种文本纠错装置,其特征在于,所述装置包括:文本获取模块,用于获取待纠错的第一文本,所述第一文本包括至少两个字符;特征获取模块,用于分别基于每个字符的结构、读音以及在所述第一文本中的上下文信息,获取所述每个字符的字形特征、读音特征以及语义特征;特征融合模块,用于分别对所述每个字符的字形特征、读音特征以及语义特征进行加权融合,得到所述每个字符的融合特征;特征解码模块,用于对得到的至少两个融合特征进行解码,得到至少两个目标字符,将所述至少两个目标字符构成第二文本,所述第二文本是对所述第一文本中的错误字符进行纠正后的文本。14.一种计算机设备,其特征在于,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求12任一项所述的文本纠错方法所执行的操作。15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求12任一项所述的文本纠错方法所执行的操作。

技术总结
本申请公开了一种文本纠错方法、装置、计算机设备及计算机可读存储介质,属于自然语言处理技术领域。本申请通过在对第一文本纠错时,充分考虑第一文本中各个字符本身的字形特征、读音特征以及各个字符在第一文本中的上下文语义特征,融合这三个维度的特征进行正确字符的预测,对于第一文本中出现的任一字符均能够进行识别、纠正,能够有效扩大文本纠错的覆盖范围,且多维的特征融合也能够提高文本纠错的准确率。的准确率。的准确率。


技术研发人员:王帅 邓强 钟滨 徐进
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2021.01.29
技术公布日:2021/10/28
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜