一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本纠错的方法、装置、设备及计算机可读存储介质与流程

2022-04-09 07:45:32 来源:中国专利 TAG:

技术特征:
1.一种文本纠错的方法,其特征在于,所述方法包括:获取待纠错的第一文本以及至少一个对应领域的词典,所述词典中的词的词频满足要求;对所述第一文本进行拆分得到至少一个字,通过所述词典对所述至少一个字进行匹配,得到所述至少一个字中匹配成功的各个字的匹配字;获取第一匹配关系以及第二匹配关系,所述第一匹配关系为所述各个字之间的匹配关系,所述第二匹配关系为第一字的匹配字与第二字之间的匹配关系,所述第一字为所述至少一个字中的任一字,所述第二字为所述至少一个字中除所述第一字之外的字以及除所述第一字之外的字的匹配字;根据所述第一匹配关系及所述第二匹配关系确定所述第一文本的纠错文本。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一匹配关系及所述第二匹配关系确定所述第一文本的纠错文本,包括:根据所述第一匹配关系及所述第二匹配关系,获取至少一个备选文本;确定各个备选文本与所述第一文本的匹配度;根据所述各个备选文本与所述第一文本的匹配度,从所述至少一个备选文本中确定所述第一文本的纠错文本。3.根据权利要求2所述的方法,其特征在于,所述获取第一匹配关系以及第二匹配关系,包括:根据所述至少一个字以及所述各个字的匹配字得到单向图,所述单向图用于指示所述第一匹配关系和所述第二匹配关系;所述根据所述第一匹配关系及所述第二匹配关系,获取至少一个备选文本,包括:对所述单向图进行路径搜索,得到至少一条备选路径,不同的备选路径对应不同的备选文本。4.根据权利要求2所述的方法,其特征在于,所述确定各个备选文本与所述第一文本的匹配度,包括:基于打分指标对所述各个备选文本进行打分,得到所述各个备选文本的打分结果,任一备选文本的打分结果用于指示所述任一备选文本与所述第一文本的匹配度;其中,所述打分指标包括所述任一备选文本的合理度、所述任一备选文本与所述第一文本的拼音相似度、所述任一备选文本中命中所述词典的字的数量和所述任一备选文本中命中所述词典的字组成的词的长度中的至少一个,所述任一备选文本的合理度用于指示所述任一备选文本的语句通顺程度。5.根据权利要求2所述的方法,其特征在于,所述根据所述各个备选文本与所述第一文本的匹配度,从所述至少一个备选文本中确定所述第一文本的纠错文本,包括:根据所述各个备选文本与所述第一文本的匹配度,从所述至少一个备选文本中筛选出匹配度达到阈值的至少一个可选文本;确定各个可选文本的意图,基于所述各个可选文本的意图从所述至少一个可选文本中确定所述第一文本的纠错文本。6.根据权利要求5所述的方法,其特征在于,所述基于所述各个可选文本的意图从所述至少一个可选文本中确定所述第一文本的纠错文本之后,还包括:确定所述纠错文本的至少一个意图对应的纠错行为,任一意图对应零或者多个纠错行
为;通过所述任一意图对应的纠错行为对所述任一意图进行负反馈加权,得到所述纠错文本的至少一个意图的加权结果;响应于所述任一意图的加权结果高于加权阈值,执行所述任一意图对应的操作。7.根据权利要求1-6任一所述的方法,其特征在于,所述至少一个对应领域的词典基于词频-逆向文件频率tf-idf算法与人工标注得到。8.一种文本纠错的装置,其特征在于,所述装置包括:第一获取模块,用于获取待纠错的第一文本以及至少一个对应领域的词典,所述词典中的词的词频满足要求;匹配模块,用于对所述第一文本进行拆分得到至少一个字,通过所述词典对所述至少一个字进行匹配,得到所述至少一个字中匹配成功的各个字的匹配字;第二获取模块,用于获取第一匹配关系以及第二匹配关系,所述第一匹配关系为所述各个字之间的匹配关系,所述第二匹配关系为第一字的匹配字与第二字之间的匹配关系,所述第一字为所述至少一个字中的任一字,所述第二字为所述至少一个字中除所述第一字之外的字以及除所述第一字之外的字的匹配字;确定模块,用于根据所述第一匹配关系及所述第二匹配关系确定所述第一文本的纠错文本。9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以使所述计算机设备实现如权利要求1至7任一所述的文本纠错的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以使计算机实现如权利要求1至7任一所述的文本纠错的方法。11.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行如权利要求1至7任一所述的文本纠错的方法。

技术总结
本申请公开了文本纠错的方法、装置、设备及计算机可读存储介质,属于计算机技术领域。所述方法包括:获取第一文本以及至少一个对应领域的词典,词典中的词的词频满足要求;对第一文本进行拆分得到至少一个字,通过词典对至少一个字进行匹配,得到匹配字;获取第一匹配关系以及第二匹配关系;根据第一匹配关系及第二匹配关系确定纠错文本。本申请实施例通过至少一个对应领域的词典对待纠错的第一文本中的字进行匹配得到匹配字,该词典中的词的词频满足要求,提高了第一文本中的任一字与该字的匹配字之间的匹配关系对于对应领域的针对性,之后再根据该匹配关系确定纠错文本,不仅对对应领域的文本纠错进行强化,且提高了文本纠错结果的准确性。结果的准确性。结果的准确性。


技术研发人员:陈孝良 李良斌
受保护的技术使用者:北京声智科技有限公司
技术研发日:2021.12.17
技术公布日:2022/4/8
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献