提取文本的风险信息方法及装置、电子装置及存储介质与流程

2023-03-20 08:57:35 来源：中国专利 TAG：

1.本技术涉及网络安全领域，具体而言，涉及一种提取文本的风险信息方法及装置、电子装置及存储介质。

背景技术：

2.随着经济和社会的发展，例如涉网侵财、网络谣言、非法入侵、破坏计算机信息系统此类的网络安全事件时有发生，并且给社会造成的危害愈发严重。因此，如何对这类网络安全威胁进行有效预防，是急需解决的课题。
3.目前有两种检测网络安全威胁的方法，第一种是利用判断数据属于哪个计算机字段的特征码对安全威胁进行检测，但是该方法中所设置的特征码过于碎片化，面对安全威胁时比较被动；为了解决第一种方法存在的问题，研究出来了第二种方法，也即利用陷落指标(ioc：indicators of compromise)进行日志检测，以此发现内部被攻陷的主机等重要风险，该方法大多采用监督学习模型进行训练，基于训练好的模型对指标进行识别，进而对新的文本进行预测。但是该方法对于文本检测的精度很低，并且识别到的陷落指标信息完整度不够。
4.针对相关技术中对文本风险信息的检测不够精确和完整的问题，目前尚未提出有效的解决方案。

技术实现要素：

5.本技术提供一种提取文本的风险信息方法及装置、电子装置及存储介质，以解决相关技术中对文本风险信息的检测不够精确和完整的问题。
6.根据本技术的一个方面，提供了一种提取文本的风险信息方法。该方法包括：获取待检测文本，并判断待检测文本是否包含陷落指标；在待检测文本包含陷落指标的情况下，对待检测文本进行分句，得到多个待检测句子；将每个待检测句子分别输入第一模型，得到用于表征待检测句子是否包含陷落指标的输出结果，其中，第一模型由多组第一样本数据训练得到，每组第一样本数据包含句子以及第一标注结果，第一标注结果用于指示句子是否包含陷落指标；将包含陷落指标的待检测句子输入第二模型，得到包含陷落指标的待检测句子的实体信息，并由所有包含陷落指标的待检测句子以及每个待检测句子的实体信息构成待检测文本的风险信息，其中，第二模型由多组第二样本数据训练得到，每组第二样本数据包含句子以及第二标注结果，第二标注结果用于指示句子包含的实体信息。
7.可选地，判断待检测文本是否包含陷落指标包括：将待检测文本中的各个句子转换为向量，得到多个向量；由多个向量确定待检测文本的相似矩阵，根据相似矩阵构建拉普拉斯矩阵，将拉普拉斯矩阵转换为特征矩阵，并将特征矩阵的每个行矩阵确定为一个样本，得到多个样本；将多个样本输入聚类模型，得到待检测文本所属的类别，其中，类别至少包含第一类别和第二类别，第一类别指示文本包含陷落指标，第二类别指示文本不包含陷落指标。
8.可选地，将待检测文本中的各个句子转换为向量，得到多个向量包括：对待检测文本的每个句子分别进行分词，得到多组词汇；计算每个词的词频和逆文本频率指数，将每个词的词频和逆文本频率指数的乘积确定为词对应的向量，并由每组词的向量构成一个句子的向量，其中，每个词的词频为初始词频和预设权重的乘积，标题词汇的预设权重大于非标题词汇的预设权重。
9.可选地，第一模型通过以下方式训练得到：获取多个样本文本，并从多个样本文本中提取包含陷落指标的句子；由包含陷落指标的句子和不包含陷落指标的句子确定多组第一样本数据；由多组第一样本数据训练双向编码表征模型，得到第一模型。
10.可选地，从多个样本文本中提取包含陷落指标的句子包括：对多个样本文本进行分句，得到多个样本句子；分别将多个样本句子转换为向量，得到多个句子的向量；对多个句子的向量进行聚类，得到聚类结果；从聚类结果中获取由包含陷落指标的句子构成的簇，并提取簇中的句子，得到包含陷落指标的句子。
11.可选地，第二模型通过以下方式训练得到：获取多个样本文本，并从多个样本文本中提取包含陷落指标的句子；对包含陷落指标的句子进行命名实体识别标注，得到多组第二样本数据；由多组第二样本数据训练组合模型，得到第二模型，其中，组合模型由双向编码表征模型、双向长短期记忆网络模型、条件随机场模型串联构成。
12.可选地，将包含陷落指标的待检测句子输入第二模型，得到包含陷落指标的待检测句子的实体信息包含：将包含陷落指标的待检测句子输入双向编码表征模型，处理得到第一中间向量；由双向编码表征模型将第一中间向量传递至双向长短期记忆网络模型，处理得到第二中间向量；由双向长短期记忆网络模型将第二中间向量传递至条件随机场模型，处理得到包含陷落指标的待检测句子的实体信息。
13.根据本技术的另一方面，提供了一种提取文本的风险信息装置。该装置包括：获取单元，用于获取待检测文本，并判断待检测文本是否包含陷落指标；分句单元，用于在待检测文本包含陷落指标的情况下，对待检测文本进行分句，得到多个待检测句子；第一输入单元，用于将每个待检测句子分别输入第一模型，得到用于表征待检测句子是否包含陷落指标的输出结果，其中，第一模型由多组第一样本数据训练得到，每组第一样本数据包含句子以及第一标注结果，第一标注结果用于指示句子是否包含陷落指标；第二输入单元，用于将包含陷落指标的待检测句子输入第二模型，得到包含陷落指标的待检测句子的实体信息，并由所有包含陷落指标的待检测句子以及每个待检测句子的实体信息构成待检测文本的风险信息，其中，第二模型由多组第二样本数据训练得到，每组第二样本数据包含句子以及第二标注结果，第二标注结果用于指示句子包含的实体信息。
14.根据本发明实施例的另一方面，还提供了一种计算机存储介质，计算机存储介质用于存储程序，其中，程序运行时控制非易失性存储介质所在的设备执行一种提取文本的风险信息方法。
15.根据本发明实施例的另一方面，还提供了一种电子装置，包含处理器和存储器；存储器中存储有计算机可读指令，处理器用于运行计算机可读指令，其中，计算机可读指令运行时执行一种提取文本的风险信息方法。
16.通过本技术，采用以下步骤：获取待检测文本，并判断待检测文本是否包含陷落指标；在待检测文本包含陷落指标的情况下，对待检测文本进行分句，得到多个待检测句子；
将每个待检测句子分别输入第一模型，得到用于表征待检测句子是否包含陷落指标的输出结果，其中，第一模型由多组第一样本数据训练得到，每组第一样本数据包含句子以及第一标注结果，第一标注结果用于指示句子是否包含陷落指标；将包含陷落指标的待检测句子输入第二模型，得到包含陷落指标的待检测句子的实体信息，并由所有包含陷落指标的待检测句子以及每个待检测句子的实体信息构成待检测文本的风险信息，其中，第二模型由多组第二样本数据训练得到，每组第二样本数据包含句子以及第二标注结果，第二标注结果用于指示句子包含的实体信息，解决了相关技术中对文本风险信息的检测不够精确和完整的问题，利用多个模型对待检测文本的陷落指标和相关实体信息进行识别提取，进而达到了完善检测风险信息的精度和陷落指标信息完整度的效果。
附图说明
17.构成本技术的一部分的附图用来提供对本技术的进一步理解，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
18.图1是根据本技术实施例提供的提取文本的风险信息方法的流程图；
19.图2是根据本技术实施例提供的提取文本的风险信息方法中提取包含陷落指标文章的流程图；
20.图3是根据本技术实施例提供的提取文本的风险信息方法中通过bert模型提取包含陷落指标句子的示意图；
21.图4根据本技术实施例提供的提取文本的风险信息方法中获得含有陷落指标的样本句子的流程图；
22.图5是根据本技术实施例提供的提取文本的风险信息方法中通过组合模型识别实体信息的示意图；
23.图6是根据本技术实施例提供的可选的提取文本的风险信息方法的流程图；
24.图7是根据本技术实施例提供的提取文本的风险信息装置的示意图。
具体实施方式
25.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
26.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
27.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
28.需要说明的是，本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。
29.为了便于描述，以下对本技术实施例涉及的部分名词或术语进行说明：
30.ioc：陷落指标(indicators of compromise)；
31.bert：变换器的双向编码表征模型(bidirectional encoder representation from transformers)；
32.crf：条件随机场(conditional random field)；
33.bilstm：双向长短期记忆网络(bidirectional long short-term memory)。
34.根据本技术的实施例，提供了一种提取文本的风险信息方法。
35.图1是根据本技术实施例的提取文本的风险信息方法的流程图。如图1所示，该方法包括以下步骤：
36.步骤s102，获取待检测文本，并判断待检测文本是否包含陷落指标。
37.具体的，图2是根据本技术实施例提供的提取文本的风险信息方法中提取包含陷落指标文章的流程图，如图2所示，待检测文本可以包括安全类、科技类等公司管理的博客、论坛等社交媒体平台上发布的说明介绍、科技信息、通知等文本。陷落指标，也即ioc(indicators of compromise)，往往以域名、ip地址等形式存在，是指攻击者控制被害主机所使用的远程命令与控制服务器情报，用于捕获多种威胁的事件响应信息，包括病毒文件的属性、注册表改变的特征、虚拟内存等，是一种入侵后可以取证的指标，可以识别一台主机或整个网络，这种指标可以推送到不同的安全设备中进行检测发现，指导后续的安全响应工作。
38.具体的，该待检测文本是通过正则表达式获取得到，其中，正则表达式是一种文本模式，包括普通字符和特殊字符，正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式(规则)的文本。获取待检测文本后，为了判断待检测文本是否存在安全威胁，需要检测文本中是否包含陷落指标，需要利用向量化、聚类分析等相关技术对待检测文本进行识别检测，其中，通过向量化方法对待检测文本进行处理，得到了文本对应的向量数据，通过聚类分析将包含陷落指标的文本和未包含陷落指标的文本进行拆分组合，进而判断出文本中是否包含陷落指标。
39.步骤s104，在待检测文本包含陷落指标的情况下，对待检测文本进行分句，得到多个待检测句子。
40.当判断出待检测文本包含陷落指标时，需要将待检测的文本进行分句处理，得到多个待检测句子，将每个待检测句子输入到模型中进行判断是否包含陷落指标，确定待检测句子为包含陷落指标的时，通过正则表达式对句子进行提取。
41.步骤s106，将每个待检测句子分别输入第一模型，得到用于表征待检测句子是否包含陷落指标的输出结果，其中，第一模型由多组第一样本数据训练得到，每组第一样本数据包含句子以及第一标注结果，第一标注结果用于指示句子是否包含陷落指标。
42.具体的，将待检测文本分出多个句子进行聚类分析，得到含有不同类型的陷落指标的聚类结果，将多个聚类结果进行人工标注，可以得到多个含有不同类型的陷落指标句子候选集，对标注好的候选集进行情感分析处理，例如，对句子候选集中的某一句子进行情
感分析，通过情感分析判断出该句子是否定性质的语句，并体现出攻击型的文档属性，则说明该句是陷落指标类型的句子。将通过情感分析处理的多个句子输入到预设的第一模型中，得到待检测句子是否包含陷落指标的检测结果。其中，第一模型为预设的bert模型，也即转换器的双向编码表征模型，是一个捕获文本双向关系的预训练语言表示模型，具体的训练过程为获取数据、构建分词器、创建输入管道、训练模型四个步骤。
43.需要说明的是，为实现模型速度的提升，在训练模型的过程中使用蒸馏技术，也即利用大模型学习到的知识去指导小模型训练，使得bert模型具备了与大模型相当的性能，并且参数数量降低，更加便于部署使用。
44.步骤s108，将包含陷落指标的待检测句子输入第二模型，得到包含陷落指标的待检测句子的实体信息，并由所有包含陷落指标的待检测句子以及每个待检测句子的实体信息构成待检测文本的风险信息，其中，第二模型由多组第二样本数据训练得到，每组第二样本数据包含句子以及第二标注结果，第二标注结果用于指示句子包含的实体信息。
45.具体的，将第一模型中识别获取到的包含陷落指标的句子输入到第二模型中，通过第二模型获取该陷落指标相关的实体信息，具体的，实体信息可以包括技术、公司、组织等与陷落指标有关的信息，对于待检测文本需要检测的信息，也即文本的风险信息，是由包含陷落指标的待检测句子和每一陷落指标相关的实体信息构成。其中，第二模型为bert bilstm crf模型，也即由双向编码表征模型、双向长短期记忆网络模型、条件随机场模型串联构成的组合模型，组合模型通过多组含有不同类型的陷落指标的句子训练得到，第二样本数据为含有不同类型的陷落指标的句子和陷落指标相关的实体信息。
46.本技术实施例提供的提取文本的风险信息方法，通过获取待检测文本，并判断待检测文本是否包含陷落指标；在待检测文本包含陷落指标的情况下，对待检测文本进行分句，得到多个待检测句子；将每个待检测句子分别输入第一模型，得到用于表征待检测句子是否包含陷落指标的输出结果，其中，第一模型由多组第一样本数据训练得到，每组第一样本数据包含句子以及第一标注结果，第一标注结果用于指示句子是否包含陷落指标；将包含陷落指标的待检测句子输入第二模型，得到包含陷落指标的待检测句子的实体信息，并由所有包含陷落指标的待检测句子以及每个待检测句子的实体信息构成待检测文本的风险信息，其中，第二模型由多组第二样本数据训练得到，每组第二样本数据包含句子以及第二标注结果，第二标注结果用于指示句子包含的实体信息，解决了相关技术中对文本风险信息的检测不够精确和完整的问题，利用多个模型对待检测文本的陷落指标和相关实体信息进行识别提取，进而达到了完善检测风险信息的精度和陷落指标信息完整度的效果。对于如何检测文本中的风险信息，则需要判断文本是否包含陷落指标。
47.可选地，在本技术实施例提供的提取文本的风险信息方法中，判断待检测文本是否包含陷落指标包括：将待检测文本中的各个句子转换为向量，得到多个向量；由多个向量确定待检测文本的相似矩阵，根据相似矩阵构建拉普拉斯矩阵，将拉普拉斯矩阵转换为特征矩阵，并将特征矩阵的每个行矩阵确定为一个样本，得到多个样本；将多个样本输入聚类模型，得到待检测文本所属的类别，其中，类别至少包含第一类别和第二类别，第一类别指示文本包含陷落指标，第二类别指示文本不包含陷落指标。
48.具体的，提取待检测文本中的各个句子的词汇，对各个词汇进行向量化处理，得到与词汇存在映射关系的向量数值，每个句子包含的多个词汇向量值及顺序构成句子的向
量，由该多个句子的向量构成待检测文本的矩阵，并由该矩阵计算相似矩阵，根据相似矩阵构建得到邻接矩阵，进而计算得出相应的度矩阵，并基于邻接矩阵和度矩阵计算构建得到拉普拉斯矩阵，将拉普拉斯矩阵中的特征值通过计算得到对应的特征向量后，将拉普拉斯矩阵转变为特征矩阵。其中，矩阵的生成方式是指根据通过计算每个词的词频和逆文本频率指数的方式获得每个句子的向量，所有的向量构成所有样本的矩阵，也构成了样本点距离度量的相似矩阵。对于特征矩阵中的每一行，作为一个样本，由此可以得到多个样本，进而将样本进行聚类分析，也即将多个样本输入到聚类模型中，可以得到待检测文本中是否存在包含陷落指标的文章或段落，也即得到待检测文本所属的类别，将聚类分析得到的类别分为两类，将包含陷落指标的大多数文本归入第一类别中，将未包含陷落指标的大多数文本归入第二类别中。
49.对待检测文本进行向量化处理，需要采用乘积的方法，可选地，在本技术实施例提供的提取文本的风险信息方法中，将待检测文本中的各个句子转换为向量，得到多个向量包括：对待检测文本的每个句子分别进行分词，得到多组词汇；计算每个词的词频和逆文本频率指数，将每个词的词频和逆文本频率指数的乘积确定为词对应的向量，并由每组词的向量构成一个句子的向量，其中，每个词的词频为初始词频和预设权重的乘积，标题词汇的预设权重大于非标题词汇的预设权重。
50.具体的，将检测文本中的长句进行分词处理，得到包含多个词汇的对应词汇表，通过计算每个词的词频和逆文本频率指数，其中，每个词的词频为初始词频和预设权重的乘积，预设权重设置为数值1，在计算词频时，为突出待检测文本标题中词汇的重要性，将位于标题中的词汇赋予比文本中非标题词汇更高的权重，也即将标题中包含词汇的预设权重的数值设置为大于1的值。将词频和逆文本频率指数进行乘积计算，其中，词频记作tf，表示词条在待检测文本中出现的频率，用公式：tf＝该词汇在文本中出现的次数/文本中所有词汇出现的次数总和计算得到，逆文本频率指数用idf表示，可以由总文件数目除以包含该词语的文件的数目，再将得到的商取对数得到，如果包含某一个具体词汇的文本数量越少，则idf数值越大，说明该词汇具有很好的类别区分能力。得到某一具体词汇所对应的tf-idf数值，也即该词汇对应的向量，也即用多个向量值表示待检测文本。
51.如何检测文本中是否包含陷落指标可以采用双向编码表征模型实现，可选地，在本技术实施例提供的提取文本的风险信息方法中，第一模型通过以下方式训练得到：获取多个样本文本，并从多个样本文本中提取包含陷落指标的句子；由包含陷落指标的句子和不包含陷落指标的句子确定多组第一样本数据；由多组第一样本数据训练双向编码表征模型，得到第一模型。
52.具体的，获取多个样本文本可以为包含陷落指标的文章的集合，将获取的样本文本进行分句处理，得到多个样本分句，将样本分句进行tf-idf向量化处理，并对分句进行聚类分析后，得到包含不同类型的陷落指标的分句，并将包含陷落指标和不包含陷落指标的句子区分开，将陷落指标和不包含陷落指标的句子作为第一样本数据，将通过第一样本数据对初始的双向编码表征模型进行训练，进而得到可以有效识别陷落指标的bert模型，也即第一模型。图3是根据本技术实施例提供的提取文本的风险信息方法中通过bert模型提取包含陷落指标句子的示意图，如图3所示，将待测句子输入训练后的bert模型，处理即可得到句子是否包含陷落指标的结果。
53.可选地，在本技术实施例提供的提取文本的风险信息方法中，从多个样本文本中提取包含陷落指标的句子包括：对多个样本文本进行分句，得到多个样本句子；分别将多个样本句子转换为向量，得到多个句子的向量；对多个句子的向量进行聚类，得到聚类结果；从聚类结果中获取由包含陷落指标的句子构成的簇，并提取簇中的句子，得到包含陷落指标的句子。
54.具体的，图4是根据本技术实施例提供的提取文本的风险信息方法中获得含有陷落指标的样本句子的流程图，如图4所示，将获取的含有陷落指标样本文章去掉停用词后进行分句处理，得到多个样本分句，将样本分句进行tf-idf向量化处理，从而将分句转换为向量得到多个分句的向量数据，对多个分句进行聚类分析，得到包含不同类型的陷落指标的句子聚类以及不包含陷落指标的句子聚类，从中提取由陷落指标句子构成的簇，并提取簇中的句子，进而得到包含陷落指标的句子。
55.对待检测文本中所包含的陷落指标进行丰富完善，需要识别出与陷落指标相关的实体信息，可选地，在本技术实施例提供的提取文本的风险信息方法中，第二模型通过以下方式训练得到：获取多个样本文本，并从多个样本文本中提取包含陷落指标的句子；对包含陷落指标的句子进行命名实体识别标注，得到多组第二样本数据；由多组第二样本数据训练组合模型，得到第二模型，其中，组合模型由双向编码表征模型、双向长短期记忆网络模型、条件随机场模型串联构成。
56.需要说明的是，命名实体识别又称作专名识别，是指识别文本中具有特定意义的实体，通常包括两部分实体边界识别和确定实体类别两大类，而确定实体类别包括人名、地名、机构名等信息，是信息提取、问答系统、句法分析、机器翻译、元数据标注等应用领域的重要基础工具。双向长短期记忆网络模型，也即bilstm(bidirectional long short-term memory)，由前向lstm与后向lstm组合而成，该模型设计理念是使t时刻所获得特征数据同时拥有过去和将来之间的信息，通过bilstm可以更好的捕捉双向的语义依赖。条件随机场模型，也即crf(conditional random field)，是一种用于标注和切分有序数据的条件概率模型。
57.具体的，获取多个样本文本，其中，样本文本可以包括含有陷落指标的词汇、句子的集合，将获取的样本文本进行分句处理，得到多个样本分句，将分句进行向量化和聚类分析处理，得到不同类型的陷落指标的分句集，对分句集进行人工标注后，对其进行命名实体识别标注，得到多组样本数据，并通过多组样本数据训练组合模型，得到训练后的组合模型，组合模型由双向编码表征模型、双向长短期记忆网络模型、条件随机场模型串联构成，训练后的组合模型可以对包含陷落指标涉的句子及到的实体信息进行提取。
58.如何从待检测文本中识别出与陷落指标有关的实体信息可以通过模型来实现，可选地，在本技术实施例提供的提取文本的风险信息方法中，将包含陷落指标的待检测句子输入第二模型，得到包含陷落指标的待检测句子的实体信息包含：将包含陷落指标的待检测句子输入双向编码表征模型，处理得到第一中间向量；由双向编码表征模型将第一中间向量传递至双向长短期记忆网络模型，处理得到第二中间向量；由双向长短期记忆网络模型将第二中间向量传递至条件随机场模型，处理得到包含陷落指标的待检测句子的实体信息。
59.具体的，图5是根据本技术实施例提供的提取文本的风险信息方法中通过组合模
型识别实体信息的示意图，如图5所示，对待测文本提取出含有陷落指标的句子，将句子作为输入，输入到双向编码表征模型中，该模型提取文本特征作为输出模型向量，将模型向量记作第一中间向量；将第一中间向量作为双向长短期记忆网络模型的输入，输入到该模型中，提取双向的文本信息，进一步提取与陷落指标所需的相关的信息，输出第二中间向量出，再将第二中间向量作为输入，输入到条件随机场模型中，结合双向长短期记忆网络模型，最后输出与陷落指标最相关的实体信息，实体信息可以包括与陷落指标相关的地点、任务等信息。
60.通过本实施例，将包含陷落指标的待测句子输入到由双向编码表征模型、双向长短期记忆网络模型、条件随机场模型串联构成的组合模型中，通过组合模型对陷落指标涉及到的实体信息进行提取，最终的输出可以得到与陷落指标相关的实体信息，从而达到丰富陷落指标的作用。
61.需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
62.本技术实施例还提供了一种可选地提取文本的风险信息方法，图6是根据本技术实施例提供的可选的提取文本的风险信息方法的流程图，如图6所示，方法包括：
63.当搜集到一篇与安全有关的文章时，不确定该文章是否存在安全威胁，此时需要对该文章进行风险信息的识别提取，为可以更好的识别风险信息，需要对多个模型进行训练搭建。
64.具体的，可以收集多篇与安全有关的文章，将这些文章当作训练样本，以此训练识别模型。先将这些文章进行向量化处理，得到对应的向量数据，然后对这些文章做聚类分析处理，可以得到包含陷落指标的文章集合和不包含陷落指标的文章集合。
65.对包含陷落指标的文章进行分句处理和聚类分析，得到多个不同陷落指标类型的分句，根据聚类结果，对这些不同类型的分句进行人工标注，可以得到不同的包含陷落指标类型的句子候选集。一方面，通过句子候选集先训练bert模型，训练构建能够识别是否包含陷落指标的文本的模型；另一方面，将人工标注的句子候选集进行bio标注，进行命名实体识别标注，然后通过标注后的句子候选集训练由bert、bilstm、crf三个模型串联构成的模型中，训练得到可以有效识别与陷落指标有关的实体信息模型，也即命名实体识别模型。
66.训练得到的上述两个模型，可以将任意一篇文章中的句子先输入能够识别是否包含陷落指标的文本的模型，处理得到是否包含陷落指标的结果，若包含陷落指标，则将句子输入命名实体识别模型，从而得到与陷落指标有关的实体信息。
67.本技术实施例还提供了一种提取文本的风险信息装置，需要说明的是，本技术实施例的提取文本的风险信息装置可以用于执行本技术实施例所提供的用于提取文本的风险信息方法。以下对本技术实施例提供的提取文本的风险信息装置进行介绍。
68.图7是根据本技术实施例的提取文本的风险信息装置的示意图。如图7所示，该装置包括：获取单元70、分句单元71、第一输入单元72和第四输入单元73。
69.获取单元70，用于获取待检测文本，并判断待检测文本是否包含陷落指标；
70.分句单元71，用于在待检测文本包含陷落指标的情况下，对待检测文本进行分句，得到多个待检测句子；
71.第一输入单元72，用于将每个待检测句子分别输入第一模型，得到用于表征待检测句子是否包含陷落指标的输出结果，其中，第一模型由多组第一样本数据训练得到，每组第一样本数据包含句子以及第一标注结果，第一标注结果用于指示句子是否包含陷落指标；
72.第二输入单元73，用于将包含陷落指标的待检测句子输入第二模型，得到包含陷落指标的待检测句子的实体信息，并由所有包含陷落指标的待检测句子以及每个待检测句子的实体信息构成待检测文本的风险信息，其中，第二模型由多组第二样本数据训练得到，每组第二样本数据包含句子以及第二标注结果，第二标注结果用于指示句子包含的实体信息。
73.本技术实施例提供的提取文本的风险信息装置，通过获取单元70，用于获取待检测文本，并判断待检测文本是否包含陷落指标；分句单元71，用于在待检测文本包含陷落指标的情况下，对待检测文本进行分句，得到多个待检测句子；第一输入单元72，用于将每个待检测句子分别输入第一模型，得到用于表征待检测句子是否包含陷落指标的输出结果，其中，第一模型由多组第一样本数据训练得到，每组第一样本数据包含句子以及第一标注结果，第一标注结果用于指示句子是否包含陷落指标；第二输入单元73，用于将包含陷落指标的待检测句子输入第二模型，得到包含陷落指标的待检测句子的实体信息，并由所有包含陷落指标的待检测句子以及每个待检测句子的实体信息构成待检测文本的风险信息，其中，第二模型由多组第二样本数据训练得到，每组第二样本数据包含句子以及第二标注结果，第二标注结果用于指示句子包含的实体信息，解决了相关技术中对文本风险信息的检测不够精确和完整的问题，利用多个模型对待检测文本的陷落指标和相关实体信息进行识别提取，进而达到了完善检测风险信息的精度和陷落指标信息完整度的效果。
74.可选地，在本技术实施例提供的装置中，获取单元70包括：转换模块，用于将待检测文本中的各个句子转换为向量，得到多个向量；构成模块，用于由多个向量确定待检测文本的相似矩阵，根据相似矩阵构建拉普拉斯矩阵，将拉普拉斯矩阵转换为特征矩阵，并将特征矩阵的每个行矩阵确定为一个样本，得到多个样本；输入模块，用于将多个样本输入聚类模型，得到待检测文本所属的类别，其中，类别至少包含第一类别和第二类别，第一类别用于指示文本是否包含陷落指标，第二类别指示文本不包含陷落指标。
75.可选地，在本技术实施例提供的提取文本的风险信息装置中，获取单元70包括：分词模块，用于对待检测文本的每个句子分别进行分词，得到多组词汇；计算模块，用于计算每个词的词频和逆文本频率指数，将每个词的词频和逆文本频率指数的乘积确定为词对应的向量，并由每组词的向量构成一个句子的向量，其中，每个词的词频为初始词频和预设权重的乘积，标题词汇的预设权重大于非标题词汇的预设权重。
76.可选地，在本技术实施例提供的提取文本的风险信息装置中，第一输入单元72包括：第一获取模块，用于获取多个样本文本，并从多个样本文本中提取包含陷落指标的句子；确定模块，用于由包含陷落指标的句子和不包含陷落指标的句子确定多组第一样本数据；第一训练模块，用于由多组第一样本数据训练双向编码表征模型，得到第一模型。
77.可选地，在本技术实施例提供的提取文本的风险信息装置中，第一输入单元72包括：分句模块，用于对多个样本文本进行分句，得到多个样本句子；转换模块，用于分别将多个样本句子转换为向量，得到多个句子的向量；聚类模块，用于对多个句子的向量进行聚
类，得到聚类结果；第二获取模块，用于从聚类结果中获取由包含陷落指标的句子构成的簇，并提取簇中的句子，得到包含陷落指标的句子。
78.可选地，在本技术实施例提供的提取文本的风险信息装置中，第二输入单元73包括：第三获取模块，用于获取多个样本文本，并从多个样本文本中提取包含陷落指标的句子；标注模块，用于对包含陷落指标的句子进行命名实体识别标注，得到多组第二样本数据；第二训练模块，用于由多组第二样本数据训练组合模型，得到第二模型，其中，组合模型由双向编码表征模型、双向长短期记忆网络模型、条件随机场模型串联构成。
79.可选地，在本技术实施例提供的提取文本的风险信息装置中，第二输入单元73包括：输入模块，用于将包含陷落指标的待检测句子输入双向编码表征模型，处理得到第一中间向量；第一传递模块，用于由双向编码表征模型将第一中间向量传递至双向长短期记忆网络模型，处理得到第二中间向量；第二传递模块，用于由双向长短期记忆网络模型将第二中间向量传递至条件随机场模型，处理得到包含陷落指标的待检测句子的实体信息。
80.上述提取文本的风险信息装置包括处理器和存储器，上述获取单元70、分句单元71、第一输入单元72和第四输入单元73等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
81.处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决相关技术中检测文本风险信息的精度和识别陷落指标信息的完整度不够的问题。
82.存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)，存储器包括至少一个存储芯片。
83.本技术实施例还提供了一种计算机存储介质，计算机存储介质用于存储程序，其中，程序运行时控制非易失性存储介质所在的设备执行一种提取文本的风险信息方法。
84.本技术实施例还提供了一种电子装置，包含处理器和存储器；存储器中存储有计算机可读指令，处理器用于运行计算机可读指令，其中，计算机可读指令运行时执行一种提取文本的风险信息方法。本文中的电子装置可以是服务器、pc、pad、手机等。
85.本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
86.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
87.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指
令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
88.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
89.在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
90.存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)。存储器是计算机可读介质的示例。
91.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
92.还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
93.以上仅为本技术的实施例而已，并不用于限制本技术。对于本领域技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本技术的权利要求范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种半结构化果园田垄区域的检测方法

提取文本的风险信息方法及装置、电子装置及存储介质与流程

相关文献

最热文献