一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于汉字知识图谱的多维度智能纠错方法与流程

2021-10-24 07:20:00 来源:中国专利 TAG:多维 汉字 图谱 纠错 智能


1.本发明涉及数据分析处理技术领域,尤其是一种基于汉字知识图谱的多维度智能纠错方法。


背景技术:

2.在技侦领域所涉及的短文本中,会有大量人为故意地将文本进行混淆的数据,例如短信中通过同音字、相近字、繁简字等方式将个别字替换,以达到干扰机器识别的目的,如将“微信”替换为“威信”,“好评”替换为“好坪”;除此之外也有部分文本中,由于输入错误造成的错别字。如果不对这类数据进行处理,必然导致相关算法模型(包括分类、要素提取、语义识别)的效果受到影响。
3.通过前期相关调研发现,目前现有的纠错模型对于音近字的纠正能力较好,对于形近字的纠正能力一般,而对于特殊符号、合字、多字连续错误则没有太多涉及。


技术实现要素:

4.本发明所要解决的技术问题在于,提供一种基于汉字知识图谱的多维度智能纠错方法,主要针对技侦领域内短文本的特点,最大程度消除错别字与人为混淆对文本分析造成的影响。
5.为解决上述技术问题,本发明提供一种基于汉字知识图谱的多维度智能纠错方法,包括如下步骤:
6.(1)为了表征汉字在读音、拼音、部首结构多角度上的联系,建立汉字之间的知识图谱;
7.(2)采用图神经网络gnn以及卷积神经网络cnn,将汉字知识图谱中不同类型的关系编码为“读音”、“字形”两种向量,再加现有的“语义”向量,共得到三个维度的特征向量;
8.(3)设计three

dimensional soft

masked bert纠错模型,将字符的三维特征向量分别引入纠错模型,最终的纠错结果为三个维度的加权和值。
9.优选的,步骤(2)中,采用图神经网络gnn,将汉字知识图谱中不同类型的关系编码得到汉字的“读音”向量,具体为:参考自然语言处理中的word2vec,将汉字知识图谱中能通过“读音”关联的汉字作为彼此的上下文,以此为目标进行迭代训练,最终对每个汉字得到一个表示向量,其向量的相似程度代表汉字读音之间的相似程度。
10.优选的,步骤(2)中,基于图神经网络gnn,将汉字知识图谱中不同类型的关系编码得到汉字的“字形”向量具体为:参考自然语言处理中的word2vec,将汉字知识图谱中能通过“字形结构”关联的汉字作为彼此的上下文,以此为目标进行迭代训练,最终对每个汉字得到一个表示向量,其向量的相似程度代表汉字字形结构之间的相似程度。
11.优选的,步骤(2)中,得到了所有字符的“补充字形向量”,具体为;基于卷积神经网络cnn,将所有字符的图片编码为一个向量,其表示字符的图形结构特征,称为补充字形向量,汉字的最终字形向量为补充字形向量与“字形”向量之和。
12.优选的,步骤(3)中,设计一种three

dimensional soft

masked bert纠错模型具体包括如下步骤:
13.(31)图谱构建与多维向量建立:完成图谱的构建与读音、字形维特征向量的训练,结合原有的语义向量,形成三个维度的向量空间,之后将文本中所有字符替换为其对应的三维度向量;
14.(32)三维度独立纠错:将三维度向量分别输入三个gru模型,gru模型捕捉文本上下文的特征,输出的结果为每个字符的错误概率,并将分别原始三维向量与错误概率相乘后,作为错别字的三维特征向量;
15.(33)三维度融合后召回:召回指的是已知文本中哪个字为错别字,并在常用汉字集中选择合适的字作为其纠正结果;基于错别字的三维特征向量,不同维度之间进行 attention加权求和,最终输出一个混合向量,接入后续bert模型,输出结果为其纠正结果。
16.本发明的有益效果为:经过多维度纠错后,对于短信中同音字、相近字等错别字的还原上,得到了更好的效果,能够最大程度消除错别字与人为混淆对文本分析造成的影响。
附图说明
17.图1为本发明汉字知识图谱中“读音”相关路径示例示意图。
18.图2为本发明读音向量二维化后的相似度展示例示意图。
19.图3为本发明汉字知识图谱中“字形”相关路径示例示意图。
20.图4为本发明补充字形向量的训练过程示意图。
21.图5为本发明补充字形向量的生成过程示意图。
22.图6为本发明字形向量二维化后的相似度展示示例示意图。
23.图7为本发明纠错模型的整体结构框架示意图。
具体实施方式
24.一种基于汉字知识图谱的多维度智能纠错方法,包括如下步骤:
25.(1)为了表征汉字在读音、拼音、部首结构多角度上的联系,建立汉字之间的知识图谱;
26.(2)采用图神经网络gnn以及卷积神经网络cnn,将汉字知识图谱中不同类型的关系编码为“读音”、“字形”两种向量,再加现有的“语义”向量,共得到三个维度的特征向量;
27.(3)设计three

dimensional soft

masked bert纠错模型,将字符的三维特征向量分别引入纠错模型,最终的纠错结果为三个维度的加权和值。
28.经过对大量的实际文本样例深入分析,之所以人类能够识别被混淆后的文本,是因为混淆的文本与原本的文本之间存在读音、字形上的联系,因此构建了汉字之间的知识图谱。
29.本发明中的汉字知识图谱将汉字、拼音、部首结构等常见汉字及其相关元素以图的形式进行呈现,其中包括了“节点”与“关系”两类数据,具体内容如表1所示:
30.表1汉字知识图谱内容
[0031][0032][0033]
现有nlp算法的成功几乎都基于词向量(word2vec),即将词汇的语义向量化,其结果是每个字都有自己的向量,且上下文间的词向量相似度较高,例如“知”与“道”常作为彼此的上下文,其语义向量相似度为0.89,而“知”与“龙”的向量相似度就只有0.13。
[0034]
此处参考词向量,本项目拟提出一种基于汉字知识图谱的读音向量。参考词向量训练时的上下文条件,将图谱中同一路径上的拼音音节作为彼此的上下文,如图1所示。
[0035]“zhang1”、“zang1”、“zi4”、“yi1”四个音节互为彼此的上下文,以此训练node2vec 直至收敛,最后为每个音节得到一个向量,为其读音向量。“zhang1”与“zang1”之间有多条路径且距离较近,而“zhang1”与“zi1”、“yi1”之间路径极少且距离较远,因此“zhang1”与“zang1”的向量相似度应该远大于“zhang1”与“zi4”、“yi1”,实际结果如表2所示:
[0036]
表2部分读音向量相似度结果示例
[0037]
ꢀ“
zang1”“zi1”“yi1”与“zhang1”相似度结果0.760.150.14
[0038]
该结果将结合下文中的语义、字形融合,直接影响纠错的效果。以“ 莪薇新,经晚给你溜盒号”为例,其中的“新”、“经”的发音与其纠正后的发音在读音向量空间内分布如图
2所示。其纠错结果与部分其他产品对比如表3所示:
[0039]
表3基于读音向量的音近字纠错结果
[0040][0041][0042]
对于汉字之间的字形结构的向量化是一个难点,本项目中采用两种方式对其进行编码,第一种是与读音向量相似,即知识图谱中有关字形关系的node2vec模型,例如图3 为图谱中一条有关字形关系的路径。
[0043]
在该路径中,“薇”、“微”、“山”、“出”四个汉字互为彼此的上下文,以此训练node2vec 直至收敛,可得到每个字符的结果向量,且也满足与读音向量相似的性质,即“薇”与“微”之间的向量相似度大于“薇”与“山”、“出”。
[0044]
但以上的字形向量只能针对汉字,无法解决特殊符号相似的问题,例如
“□”
(方框符号)与“口”应该相似程度很高,但
“□”
不属于汉字结构,现有图谱中的“分解”、“可合并”、“部首”等字形关系无法将其与汉字连接。基于上述原因,提出了一种基于 cnn(卷积神经网络)的补充字形向量。
[0045]
cnn最常被用来处理图像问题,其擅长捕捉图片的局部特征,而考虑到计算机系统的字符虽然很多,但组成字符的基本笔画的数量很少,因此只要捕捉字符的具体字形特征,就能够将其编码为向量。
[0046]
编码的第一步为训练cnn模型,此处使用3500个汉字的不同字体图片作为训练样本,每个字共8种字体,一共28000张训练样本,训练样本生成的过程如图4所示。模型目标是使模型忽略字体,正确识别图片中的汉字。
[0047]
最终迭代10轮后,模型识别的正确率达到99.3%,说明此时模型已经能够很好地捕捉汉字图形中的特征。此时需要训练好的cnn模型对所有字符图片进行一次预测,将结果的倒数第二层向量作为字符的字形向量,其预测的流程如图5所示。最终字符的字形向量为cnn补充字形向量与知识图谱中node2vec字形向量之和。
[0048]
以文本“今曰幚莪荬幚莪做事, 莪薇信”为例,图6为“幚”、“莪”、“荬”、“薇”、“曰”分别与其纠正结果在字形向量空间的分布情况。如表4所示,此处列出了部分汉字字形向量的两两相似度的结果:
[0049]
表4部分字形向量相似度结果示例
[0050]
[0051][0052]
可以看到字形向量确实表达了字符的字形结构,基于字形向量可以避免人工规则的带来的工作量与主观性,并在字形向量的基础上,结合文中的语义、字形融合纠错模型,其纠错结果与部分其他产品对比如表5所示:
[0053]
表5基于字形向量的形近字纠错结果
[0054][0055]
至此基于汉字知识图谱,得到了如下两个结果:字符的读音向量、字形向量,加上原有的词向量,每个字符均有三个维度的向量,下面将基于三个维度的特征向量建立纠错模型。(注:每个汉字都有“读音”、“字形”、“词义”三个维度的向量;但对于特殊符号如“ ”,仅有“读音”、“字形”两个向量,其“词义”向量为0;而对于某些连读音都没有的符号如
“┸”
(制表符),仅有“字形”向量,其“读音”、“词义”向量均为 0)。
[0056]
此处提出一种three

dimensional soft

masked bert模型,其模型主要分为以下几部分:
[0057]
1)图谱构建与向量建立:完成图谱的构建与三维特征向量的训练,之后文本中所有字符替换为其对应的三维度向量;
[0058]
2)三维度独立纠错:将三维度向量分别输入三个gru模型,gru模型可以捕捉文本上下文的特征,输出的结果为每个字符的错误概率,并将分别原始三维向量与错误概率相乘后,作为错别字的三维特征向量,此步骤主要是发现错误字的位置;
[0059]
3)三维度融合后召回:所谓召回指的是已知文本中哪个字为错别字,在常用汉字集中选择合适的字作为其纠正结果;基于错别字的三维特征向量,不同维度之间进行 attention加权求和,最终输出一个混合向量,接入后续bert模型,输出结果为其纠正结果。不同维度之间进行attention计算是为了学习“字形”与“语义”之间的相关关系,例如带有“木字旁”的字多与植物有关;
[0060]
该模型的架构图如图7所示。其中,“语义向量”即为常用的词向量,gru模型输出为每个词在每个维度的错误概率,而经过“语义”、“字形”、“读音”三个维度的错误概率融合后,通过将bert模型输出结果与原始语义向量做相似度计算,从备选集中选出最相似的字作为召回结果。
[0061]
经过多维度纠错后,对于短信中同音字、相近字等错别字的还原上,得到了更好的效果。以相同的500条短信语料训练spellgcn与本模型,再以相同的1200条数据进行测试,
人工校验的结果如表6所示:
[0062]
表6本模型与spellgcn的效果对比
[0063] spellgcn本模型纠错数量766707正确纠错数量516632纠错正确率62.4%89.5%错字召回率55%75%音近字纠错正确率95%95%形近字纠错正确率45%75%特殊字符纠错正确率55%80%
[0064]
而在实际应用中,更加关心短信中得到的实体(如微信号、qq号等),而经过模型对于错别字的纠正后,实体的提取效果提升如表7所示:
[0065]
表7实体提取的效果对比
[0066] 纠错前发现量纠错后发现量提升比例微信25938448.3%qq769221.1%url9549904.5%
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜