一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

提取文本的风险信息方法及装置、电子装置及存储介质与流程

2023-03-20 08:57:35 来源:中国专利 TAG:

技术特征:
1.一种提取文本的风险信息的方法,其特征在于,包括:获取待检测文本,并判断所述待检测文本是否包含陷落指标;在所述待检测文本包含陷落指标的情况下,对所述待检测文本进行分句,得到多个待检测句子;将每个待检测句子分别输入第一模型,得到用于表征待检测句子是否包含陷落指标的输出结果,其中,所述第一模型由多组第一样本数据训练得到,每组第一样本数据包含句子以及第一标注结果,所述第一标注结果用于指示句子是否包含陷落指标;将包含陷落指标的待检测句子输入第二模型,得到所述包含陷落指标的待检测句子的实体信息,并由所有包含陷落指标的待检测句子以及每个待检测句子的实体信息构成所述待检测文本的风险信息,其中,所述第二模型由多组第二样本数据训练得到,每组第二样本数据包含句子以及第二标注结果,所述第二标注结果用于指示句子包含的实体信息。2.根据权利要求1所述的方法,其特征在于,判断所述待检测文本是否包含陷落指标包括:将所述待检测文本中的各个句子转换为向量,得到多个向量;由所述多个向量确定所述待检测文本的相似矩阵,根据所述相似矩阵构建拉普拉斯矩阵,将所述拉普拉斯矩阵转换为特征矩阵,并将所述特征矩阵的每个行矩阵确定为一个样本,得到多个样本;将所述多个样本输入聚类模型,得到所述待检测文本所属的类别,其中,所述类别至少包含第一类别和第二类别,所述第一类别指示文本包含陷落指标,所述第二类别指示文本不包含陷落指标。3.根据权利要求2所述的方法,其特征在于,将所述待检测文本中的各个句子转换为向量,得到多个向量包括:对所述待检测文本的每个句子分别进行分词,得到多组词汇;计算每个词的词频和逆文本频率指数,将每个词的词频和逆文本频率指数的乘积确定为词对应的向量,并由每组词的向量构成一个句子的向量,其中,每个词的词频为初始词频和预设权重的乘积,标题词汇的预设权重大于非标题词汇的预设权重。4.根据权利要求1所述的方法,其特征在于,所述第一模型通过以下方式训练得到:获取多个样本文本,并从所述多个样本文本中提取包含陷落指标的句子;由所述包含陷落指标的句子和不包含陷落指标的句子确定所述多组第一样本数据;由所述多组第一样本数据训练双向编码表征模型,得到所述第一模型。5.根据权利要求4所述的方法,其特征在于,从所述多个样本文本中提取包含陷落指标的句子:对所述多个样本文本进行分句,得到多个样本句子;分别将所述多个样本句子转换为向量,得到多个句子的向量;对所述多个句子的向量进行聚类,得到聚类结果;从所述聚类结果中获取由包含陷落指标的句子构成的簇,并提取所述簇中的句子,得到所述包含陷落指标的句子。6.根据权利要求1所述的方法,其特征在于,所述第二模型通过以下方式训练得到:获取多个样本文本,并从所述多个样本文本中提取包含陷落指标的句子;
对所述包含陷落指标的句子进行命名实体识别标注,得到所述多组第二样本数据;由所述多组第二样本数据训练组合模型,得到所述第二模型,其中,所述组合模型由双向编码表征模型、双向长短期记忆网络模型、条件随机场模型串联构成。7.根据权利要求6所述的方法,其特征在于,将包含陷落指标的待检测句子输入第二模型,得到所述包含陷落指标的待检测句子的实体信息包含:将所述包含陷落指标的待检测句子输入所述双向编码表征模型,处理得到第一中间向量;由所述双向编码表征模型将所述第一中间向量传递至所述双向长短期记忆网络模型,处理得到第二中间向量;由所述双向长短期记忆网络模型将所述第二中间向量传递至所述条件随机场模型,处理得到所述包含陷落指标的待检测句子的实体信息。8.一种提取文本的风险信息装置,其特征在于,包括:获取单元,用于获取待检测文本,并判断待检测文本是否包含陷落指标;分句单元,用于在待检测文本包含陷落指标的情况下,对待检测文本进行分句,得到多个待检测句子;第一输入单元,用于将每个待检测句子分别输入第一模型,得到用于表征待检测句子是否包含陷落指标的输出结果,其中,第一模型由多组第一样本数据训练得到,每组第一样本数据包含句子以及第一标注结果,第一标注结果用于指示句子是否包含陷落指标;第二输入单元,用于将包含陷落指标的待检测句子输入第二模型,得到包含陷落指标的待检测句子的实体信息,并由所有包含陷落指标的待检测句子以及每个待检测句子的实体信息构成待检测文本的风险信息,其中,第二模型由多组第二样本数据训练得到,每组第二样本数据包含句子以及第二标注结果,第二标注结果用于指示句子包含的实体信息。9.一种计算机存储介质,其特征在于,所述计算机存储介质用于存储程序,其中,所述程序运行时控制所述计算机存储介质所在的设备执行权利要求1至7中任意一项的提取文本的风险信息方法。10.一种电子装置,其特征在于,包含处理器和存储器,所述存储器中存储有计算机可读指令,所述处理器用于运行所述计算机可读指令,其中,所述计算机可读指令运行时执行权利要求1至7中任意一项的提取文本的风险信息方法。

技术总结
本申请公开了一种提取文本的风险信息方法及装置、电子装置及存储介质。该方法包括:获取待检测文本,并判断待检测文本是否包含陷落指标;在待检测文本包含陷落指标的情况下,对待检测文本进行分句,得到多个待检测句子;将每个待检测句子分别输入第一模型,得到用于表征待检测句子是否包含陷落指标的输出结果;将包含陷落指标的待检测句子输入第二模型,得到包含陷落指标的待检测句子的实体信息,并由所有包含陷落指标的待检测句子以及每个待检测句子的实体信息构成待检测文本的风险信息。通过本申请,解决了相关技术中对文本风险信息的检测不够精确和完整的问题。检测不够精确和完整的问题。检测不够精确和完整的问题。


技术研发人员:杜关 万朝华 韦云川
受保护的技术使用者:山石网科通信技术股份有限公司
技术研发日:2022.12.21
技术公布日:2023/3/10
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献