一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

信息处理方法、设备、介质和程序产品与流程

2022-07-02 00:57:23 来源:中国专利 TAG:

技术特征:
1.一种信息处理方法,包括:从非文本文件识别出的文本序列中提取多个文本单元,每个文本单元包括所述文本序列中的至少一个字符;确定所述多个文本单元是否被包括在预定知识库中,所述预定知识库包括与所述文本序列相关的知识领域中使用的文本单元;如果确定所述多个文本单元被包括在所述预定知识库中,确定所述多个文本单元之间的相互依赖程度;以及如果确定所述相互依赖程度超过阈值依赖程度,将所述多个文本单元确定为所述文本序列的校正版本的至少一部分。2.根据权利要求1所述的方法,其中所述多个文本单元包括所述文本序列中连续的一对文本单元,并且确定所述相互依赖程度包括:确定所述一对文本单元之间的互信息,以指示所述相互依赖程度。3.根据权利要求1所述的方法,还包括:如果确定所述多个文本单元中至少一个文本单元未被包括在所述预定知识库中或者所述相互依赖程度不超过所述阈值依赖程度,校正所述多个文本单元以获得校正后的所述多个文本单元作为所述文本序列的所述校正版本的至少一部分。4.根据权利要求3所述的方法,其中校正所述多个文本单元包括:生成针对所述多个文本单元的组合的至少一个候选组合单元;将所述文本序列中与所述多个文本单元相邻的至少一个锚文本单元与所述至少一个候选组合单元合并,以组成至少一个候选文本序列,所述至少一个锚文本单元包括所述文本序列中被确定为正确的至少一个文本单元;确定所述至少一个候选文本序列各自的序列置信度;以及基于所确定的序列置信度,从所述至少一个候选组合单元确定针对所述多个文本单元的校正结果。5.根据权利要求4所述的方法,其中生成所述至少一个候选组合单元包括:确定所述多个文本单元的组合是否与错误词汇词典中的文本单元相匹配,所述错误词汇词典中的文本单元包括多个错误文本单元和针对每个错误文本单元的至少一个校正文本单元;如果所述多个文本单元的组合至少部分匹配于所述错误词汇词典中的目标文本单元,从所述错误词汇词典确定所匹配的目标文本单元对应的至少一个校正文本单元;以及基于所述至少一个校正文本单元来确定针对所述多个文本单元的组合的至少一个候选组合单元。6.根据权利要求5所述的方法,其中所述错误词汇词典中的所述错误文本单元是在多个参考文本序列中被标注为错误的文本单元,所述多个参考文本序列从多个非文本文件被识别出。7.根据权利要求5所述的方法,其中确定所述多个文本单元的组合是否与错误词汇词典中的文本单元相匹配包括:通过正向最大匹配和反向最大匹配中的至少一项,从所述错误词汇词典确定与所述多个文本单元的组合至少部分匹配的目标文本单元。
8.根据权利要求4所述的方法,其中生成所述至少一个候选组合单元包括:确定所述多个文本单元的组合所包括的多个字符中的至少一个字符的读音信息和字形信息中的至少一项;基于所确定的读音信息和字形信息中的所述至少一项,确定分别与所述至少一个字符具有相同或相似读音或字形的多个候选字符序列;以及基于所述多个候选字符序列来生成针对所述多个文本单元的组合的多个候选组合单元。9.根据权利要求8所述的方法,其中确定所述多个候选字符序列包括:利用输入法引擎,基于所述读音信息和所述字形信息来确定分别与所述至少一个字符具有相同或相似读音或字形的多个候选字符序列。10.根据权利要求8所述的方法,其中确定所述读音信息和字形信息中的所述至少一项包括:调整所述多个文本单元所包括的所述多个字符的顺序,以获得重排序的多个字符;以及确定所述重排序的多个字符中的至少一个字符的读音信息和字形信息中的至少一项。11.一种电子设备,包括:处理单元;以及存储器,耦合至所述处理单元并且包含存储于其上的指令,所述指令在由所述处理单元执行时使所述设备执行以下动作:从非文本文件识别出的文本序列中提取多个文本单元,每个文本单元包括所述文本序列中的至少一个字符;确定所述多个文本单元是否被包括在预定知识库中,所述预定知识库包括与所述文本序列相关的知识领域中使用的文本单元;如果确定所述多个文本单元被包括在所述预定知识库中,确定所述多个文本单元之间的相互依赖程度;以及如果确定所述相互依赖程度超过阈值依赖程度,将所述多个文本单元确定为所述文本序列的校正版本的至少一部分。12.根据权利要求11所述的设备,其中所述多个文本单元包括所述文本序列中连续的一对文本单元,并且确定所述相互依赖程度包括:确定所述一对文本单元之间的互信息,以指示所述相互依赖程度。13.根据权利要求11所述的设备,其中所述动作还包括:如果确定所述多个文本单元中至少一个文本单元未被包括在所述预定知识库中或者所述相互依赖程度不超过所述阈值依赖程度,校正所述多个文本单元以获得校正后的所述多个文本单元作为所述文本序列的所述校正版本的至少一部分。14.根据权利要求13所述的设备,其中校正所述多个文本单元包括:生成针对所述多个文本单元的组合的至少一个候选组合单元;将所述文本序列中与所述多个文本单元相邻的至少一个锚文本单元与所述至少一个候选组合单元合并,以组成至少一个候选文本序列,所述至少一个锚文本单元包括所述文本序列中被确定为正确的至少一个文本单元;
确定所述至少一个候选文本序列各自的序列置信度;以及基于所确定的序列置信度,从所述至少一个候选组合单元确定针对所述多个文本单元的校正结果。15.根据权利要求14所述的设备,其中生成所述至少一个候选组合单元包括:确定所述多个文本单元的组合是否与错误词汇词典中的文本单元相匹配,所述错误词汇词典中的文本单元包括多个错误文本单元和针对每个错误文本单元的至少一个校正文本单元;如果所述多个文本单元的组合至少部分匹配于所述错误词汇词典中的目标文本单元,从所述错误词汇词典确定所匹配的目标文本单元对应的至少一个校正文本单元;以及基于所述至少一个校正文本单元来确定针对所述多个文本单元的组合的至少一个候选组合单元。16.根据权利要求15所述的设备,其中所述错误词汇词典中的所述错误文本单元是在多个参考文本序列中被标注为错误的文本单元,所述多个参考文本序列从多个非文本文件被识别出。17.根据权利要求15所述的设备,其中确定所述多个文本单元的组合是否与错误词汇词典中的文本单元相匹配包括:通过正向最大匹配和反向最大匹配中的至少一项,从所述错误词汇词典确定与所述多个文本单元的组合至少部分匹配的目标文本单元。18.根据权利要求14所述的设备,其中生成所述至少一个候选组合单元包括:确定所述多个文本单元的组合所包括的多个字符中的至少一个字符的读音信息和字形信息中的至少一项;基于所确定的读音信息和字形信息中的所述至少一项,确定分别与所述至少一个字符具有相同或相似读音或字形的多个候选字符序列;以及基于所述多个候选字符序列来生成针对所述多个文本单元的组合的多个候选组合单元。19.根据权利要求18所述的设备,其中确定所述多个候选字符序列包括:利用输入法引擎,基于所述读音信息和所述字形信息来确定分别与所述至少一个字符具有相同或相似读音或字形的多个候选字符序列。20.根据权利要求18所述的设备,其中确定所述读音信息和字形信息中的所述至少一项包括:调整所述多个文本单元所包括的所述多个字符的顺序,以获得重排序的多个字符;以及确定所述重排序的多个字符中的至少一个字符的读音信息和字形信息中的至少一项。21.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据权利要求1至10中任一项所述的方法。22.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1至10中任一项所述的方法。

技术总结
本公开的实施例涉及信息处理方法、设备、介质和程序产品。根据各种实施例,一种信息处理方法包括:从非文本文件识别出的文本序列中提取多个文本单元,每个文本单元包括文本序列中的至少一个字符;确定多个文本单元是否被包括在预定知识库中,预定知识库包括与文本序列相关的知识领域中使用的文本单元;如果确定多个文本单元被包括在预定知识库中,确定多个文本单元之间的相互依赖程度;以及如果确定相互依赖程度超过阈值依赖程度,将多个文本单元确定为文本序列的校正版本的至少一部分。以此方式,可以确保所得到的文本序列的校正版本的高精确度。精确度。精确度。


技术研发人员:周云 李作峰 倪伟
受保护的技术使用者:皇家飞利浦有限公司
技术研发日:2020.12.31
技术公布日:2022/6/30
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献