一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本不良信息识别方法、装置、电子设备及存储介质与流程

2021-10-20 00:46:00 来源:中国专利 TAG:自然语言 不良信息 电子设备 识别 装置

技术特征:
1.一种文本不良信息识别方法,其特征在于,所述方法包括:获取待识别文本;通过字符向量化方式和分词方式分别对所述待识别文本进行处理,得到字向量集合与词向量集合;将所述字向量集合中各个字向量作为节点进行连接,将所述词向量集合中词向量作为字与字的连接的边,将所有的节点与边都连接至预构建的中继节点上,得到文本结构图;利用预训练的文本识别模型对所述文本结构图进行分析,得到所述待识别文本中存在不良信息的得分值;判断所述得分值是否大于预设的第一阈值,当所述得分值大于所述第一阈值时,确定所述待识别文本中存在不良信息。2.如权利要求1所述的文本不良信息识别方法,其特征在于,所述将所述字向量集合中各个字向量作为节点进行连接,将所述词向量集合中词向量作为字与字的连接的边,将所有的节点与边都连接至预构建的中继节点上,得到文本结构图,包括:将所述字向量集合中多个字向量设置为节点,所述节点的初始值为所述节点对应的字向量;将所述词向量集合中各个词向量和组成各个词向量的字向量进行运算,通过运算结果更新各个字向量对应的节点中的初始值;将所述字向量集合中组成各个词向量的字向量分别连接,将连接字向量的边的值设置为由相连接的字向量组成的词向量;构建中继节点,将各个所述边及没有边连接的节点分别与所述中继节点进行连接,得到文本结构图。3.如权利要求1所述的文本不良信息识别方法,其特征在于,所述通过字符向量化方式和分词方式分别对所述待识别文本进行处理,得到字向量集合与词向量集合,包括:利用预构建的语言模型对所述待识别文本进行字符提取和向量化处理,得到所述字向量集合;利用预构建的分词工具将所述待识别文本进行分词处理,得到所述词向量集合。4.如权利要求1所述的文本不良信息识别方法,其特征在于,所述利用预训练的文本识别模型对所述文本结构图进行分析,得到所述待识别文本中存在不良信息的得分值,包括:对所述文本结构图进行特征提取,得到每个边或节点的特征值;对各个节点与连接各个所述节点的边的所述特征值进行加权运算,通过遍历所述文本结构图中每个节点,获取每个节点对于所述中继节点的相对关系向量;利用所述文本识别模型中的激活函数对所述相对关系向量进行不良信息识别,得到所述待识别文本中有不良信息的得分值。5.如权利要求1至4中任意一项的所述的文本不良信息识别方法,其特征在于,所述判断所述得分值是否大于预设的第一阈值,当所述得分值大于所述第一阈值,确定所述待识别文本中存在不良信息,包括:对所述得分值进行归一化运算,得到归一值;当所述归一值大于所述第一阈值时,确定对所述待识别文本中存在不良信息。6.如权利要求1至4中任一项所述的文本不良信息识别方法,其特征在于,所述利用预
训练的文本识别模型对所述文本结构图进行分析之前,所述方法还包括:步骤i、获取包含特征提取网络、多头注意力图神经网络的待训练文本识别模型;步骤ii、将预构建的训练样本集导入所述待训练文本识别模型中,利用所述特征提取网络对所述训练样本集进行特征提取,得到特征序列集及文本标签集;步骤iii、利用所述多头注意力图神经网络分析所述特征序列集,得到预测结果集;步骤iv、根据所述文本标签集,计算所述预测结果集的方差值,当所述方差值大于预设的第二阈值,调整所述待训练文本识别模型的内部参数,返回至步骤ii的操作,直至所述方差值小于所述第二阈值,得到所述预训练的文本识别模型。7.如权利要求6所述的文本不良信息识别方法,其特征在于,所述根据所述文本标签集,计算所述预测结果集的方差值,当所述方差值大于预设的第二阈值,调整所述待训练文本识别模型的内部参数,包括:通过将所述文本标签集及所述预测结果集映射至同一二维平面,计算所述文本标签集与所述预测结果集之间的方差值;当所述方差值大于所述第二阈值,判定所述方差值未收敛,利用所述方差值调整所述待训练文本识别模型中的回归函数。8.一种文本不良信息识别装置,其特征在于,所述装置包括:文本预处理模块,用于获取待识别文本,及通过字符向量化方式和分词方式分别对所述待识别文本进行处理,得到字向量集合与词向量集合;文本结构图构建模块,用于将所述字向量集合中各个字向量作为节点进行连接,将所述词向量集合中词向量作为字与字的连接的边,将所有的节点与边都连接至预构建的中继节点上,得到文本结构图;文本分析模块,用于利用预训练的文本识别模型对所述文本结构图进行分析,得到所述待识别文本中存在不良信息的得分值;结果判断模块,用于判断所述得分值是否大于预设的第一阈值,当所述得分值大于所述第一阈值时,确定所述待识别文本中存在不良信息。9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的文本不良信息识别方法。10.一种计算机可读存储介质,包括存储数据区和存储程序区,存储数据区存储创建的数据,存储程序区存储有计算机程序;其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的文本不良信息识别方法。

技术总结
本发明涉及自然语言处理的技术领域,揭露了一种文本不良信息识别方法,包括:通过字符向量化方式和分词方式分别对待识别文本进行处理,得到字向量集合与词向量集合;将字向量集合中各个字向量作为节点进行连接,将词向量集合中词向量作为字与字的连接的边,将所有的节点与边都连接至预构建的中继节点上,得到文本结构图;利用预训练的文本识别模型对文本结构图进行分析,得到待识别文本中存在不良信息的得分值;判断得分值是否大于预设的第一阈值,当得分值大于第一阈值时,确定待识别文本中存在不良信息。本发明还提出了文本不良信息识别装置、设备及计算机可读存储介质。本发明目的在于增加文本分析的灵活度、减小文本分析的计算量。的计算量。的计算量。


技术研发人员:颜泽龙 王健宗 于凤英 程宁
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2021.04.22
技术公布日:2021/10/19
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜