一种对象类别评估方法及装置与流程

2022-02-22 19:09:17 来源：中国专利 TAG：

1.本发明涉及人工智能领域，具体提供一种对象类别评估方法及装置。

背景技术：

2.目前，人工智能在公安领域的应用越来越广泛，最为显著的是以机器学习算法为主的分析系统。以机器学习算法为主的分析系统主要是利用小规模的正例样本对神经网络进行训练，进而使用训练好的神经网络对文本进行分析以得到分析结果。然而这种基于小规模的正例样本直接训练获得的神经网络精确度较低，对于涉毒人员、逃窜人员、盗窃人员等具有异常活动规律的对象类别的评估只能由专家去实现，难以满足实际需求。
3.为此，本领域需要一种新的方案来解决上述问题。

技术实现要素：

4.为了克服上述缺陷，提出了本发明，以提供解决或至少部分地解决现有的方法基于小规模的正例样本直接训练获得的神经网络精确度较低的技术问题。本发明提供了一种对象类别评估方法及装置。
5.在第一方面，本发明提供一种对象类别评估方法，包括：获取训练样本和待分析样本；基于所述训练样本生成决策流；基于所述决策流训练生成对抗网络，得到训练好的生成对抗网络；基于所述训练好的生成对抗网络对所述待分析样本进行评估，得到对象类别。
6.在一些实施例中，基于所述训练样本生成决策流进一步包括：提取所述训练样本中的实体以及实体之间的关系；基于所述实体以及实体之间的关系建立知识库；基于建立的所述知识库生成决策流。
7.在一些实施例中，所述知识库包括嵌入特征向量和决策流子模型；基于所述实体以及实体之间的关系建立知识库进一步包括：基于所述实体获得实体对应的专题库；基于所述实体以及实体之间的关系获得知识图谱；基于所述知识图谱提取嵌入特征向量并保存；基于所述嵌入特征向量和实体对应的专题库获得决策流子模型并保存。
8.在一些实施例中，基于所述知识图谱提取嵌入特征向量进一步包括：基于社区发现算法获取所述知识图谱中的社区结构；对所述社区结构中的每个节点进行评估，得到每个节点对应的特征向量中心度和点度中心度；基于所述每个节点对应的特征向量中心度和点度中心度获得嵌入特征向量。
9.在一些实施例中，基于所述每个节点对应的特征向量中心度和点度中心度获得嵌入特征向量，进一步包括：基于所述每个节点对应的特征向量中心度和点度中心度，获取所述社区结构中的每个节点的权重以及每条边的权重；基于所述每个节点的权重以及每条边的权重构造所述社区结构的邻接矩阵；对所述邻接矩阵进行分解，得到所述社区结构中每个节点的向量表示；对所述每个节点的向量表示进行向量扩充，得到扩充向量；对所述扩充向量进行属性约简，得到嵌入特征向量。
10.在第二方面，本发明提供一种对象类别评估装置，包括：获取模块，被配置为获取
训练样本和待分析样本；生成模块，被配置为基于所述训练样本生成决策流；训练模块，被配置为基于所述决策流训练生成对抗网络，得到训练好的生成对抗网络；评估模块，被配置为基于所述训练好的生成对抗网络对所述待分析样本进行评估，得到对象类别。
11.在一些实施例中，所述生成模块进一步包括：实体及关系提取模块，被配置为提取所述训练样本中的实体以及实体之间的关系；知识库建立模块，被配置为基于所述实体以及实体之间的关系建立知识库；决策流生成模块，被配置为基于建立的所述知识库生成决策流。
12.在一些实施例中，所述知识库包括嵌入特征向量和决策流子模型；所述知识库建立模块进一步包括：专题库获取模块，被配置为基于所述实体获得实体对应的专题库；知识图谱获取模块，被配置为基于所述实体以及实体之间的关系获得知识图谱；向量提取模块，被配置为基于所述知识图谱提取嵌入特征向量并保存；决策流子模型获取模块，被配置为基于所述嵌入特征向量和实体对应的专题库获得决策流子模型并保存。
13.在一些实施例中，向量提取模块进一步包括：社区结构获取模块，被配置为基于社区发现算法获取所述知识图谱中的社区结构；中心度获取模块，被配置为对所述社区结构中的每个节点进行评估，得到每个节点对应的特征向量中心度和点度中心度；嵌入特征向量获取模块，被配置为基于所述每个节点对应的特征向量中心度和点度中心度获得嵌入特征向量。
14.在一些实施例中，嵌入特征向量获取模块进一步包括：权重获取模块，被配置为基于所述每个节点对应的特征向量中心度和点度中心度，获取所述社区结构中的每个节点的权重以及每条边的权重；构造模块，被配置为基于所述每个节点的权重以及每条边的权重构造所述社区结构的邻接矩阵；分解模块，被配置为对所述邻接矩阵进行分解，得到所述社区结构中每个节点的向量表示；向量扩充模块，被配置为对所述每个节点的向量表示进行向量扩充，得到扩充向量；属性约简模块，被配置为对所述扩充向量进行属性约简，得到嵌入特征向量。
15.在第三方面，提供一种控制装置，该控制装置包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行前述任一项所述的对象类别评估方法。
16.在第四方面，提供一种计算机可读存储介质，该计算机可读存储介质其中存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行前述任一项所述的对象类别评估方法。
17.本发明上述一个或多个技术方案，至少具有如下一种或多种有益效果：
18.本发明通过对训练样本进行处理，从而生成决策流，再利用决策流对神经网路进行训练，获得了精确度较高的神经网络，进而提高了后期对对象类别评估的精度。
19.通过提取的训练样本中的实体以及实体之间的关系，进而建立知识库，通过基于该知识库中的实体、实体之间的关系以及决策流子模型来获取决策流，进而利用该决策流实现对神经网络的训练，与现有的直接利用小规模的正例样本对神经网络进行训练的方法相比，提高了神经网络的精确度，有利于后期对象类别评估。
20.通过每个节点对应的特征向量中心度和点度中心度进而获得嵌入特征向量，方法新颖，为后期进行对象类别评估提供了基础。
附图说明
21.参照附图，本发明的公开内容将变得更易理解。本领域技术人员容易理解的是：这些附图仅仅用于说明的目的，而并非意在对本发明的保护范围组成限制。此外，图中类似的数字用以表示类似的部件，其中：
22.图1是根据本发明的一个实施例的对象类别评估方法的主要步骤流程示意图；
23.图2是根据本发明的一个实施例的语法树的示意图；
24.图3是根据本发明的一个实施例的对象类别评估装置的主要结构框图示意图。
25.附图标记列表：
26.11：获取模块；12：生成模块；13：训练模块；14：评估模块。
具体实施方式
27.下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。
28.在本发明的描述中，“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路，各种合适的感应器，通信端口，存储器，也可以包括软件部分，比如程序代码，也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“a和/或b”表示所有可能的a与b的组合，比如只是a、只是b或者a和b。术语“至少一个a或b”或者“a和b中的至少一个”含义与“a和/或b”类似，可以包括只是a、只是b或者a和b。单数形式的术语“一个”、“这个”也可以包含复数形式。
29.这里先解释本发明涉及到的一些术语。
30.生成对抗网络：生成对抗网络是生成模型的一种，主要结构包括一个生成器g(generator)和一个判别器d(discriminator)，通过使用样本分布去拟合真实的样本分布，来达到以假乱真的目的。
31.特征向量中心度：根据相邻节点的重要性来衡量该节点的价值。
32.点度中心度：在某个节点上连接有多少条线，即该节点的入度和出度之和。
33.目前传统的以机器学习算法为主的分析系统主要是基于小规模的正例样本直接训练获得的神经网络精确度较低，对于涉毒人员、逃窜人员、盗窃人员等具有异常活动规律的对象类别的评估只能由专家去实现，难以满足实际需求。为此，本技术提出了一种对象类别评估方法及装置，通过对训练样本进行处理，从而生成决策流，再利用决策流对神经网路进行训练，获得了精确度较高的神经网络，进而提高了后期对对象类别评估的精度。
34.参阅附图1，图1是根据本发明的一个实施例的对象类别评估方法的主要步骤流程示意图。如图1所示，本发明实施例中的对象类别评估方法主要包括下列步骤s101-步骤s104。
35.步骤s101：获取训练样本和待分析样本，训练样本包括训练文本，待分析样本包括待分析文本。具体来说，这里的训练文本可以是包含对象类别的历史卷宗或者历史数据，对象类别可以是涉毒人员、逃窜人员、盗窃人员等。待分析文本可以是需要对其进行分析或者
处理的一系列文本、音频或者视频等。
36.步骤s102：基于训练样本生成决策流。具体来说，该步骤具体可通过下述步骤s1021-s1023来实现这里不赘述。通过该步骤生成决策流，进而利用该决策流实现对神经网络的训练，与现有的直接利用小规模的正例样本对神经网络进行训练的方法相比，提高了神经网络的精确度，有利于提高对后期对象类别评估的精度。
37.步骤s1021：提取训练样本中的实体以及实体之间的关系。具体来说，本技术中可以利用ocr技术和自然语言处理技术来提取训练样本中的实体以及实体之间的关系。更进一步，实体是指按照管控对象维度对数据的组合，包含标识id和实体属性，实体属性可以是年龄、性别等，所述管控对象包括但不限于人、事件、组织等。实体之间的关系可以用关系id和关系属性表示。
38.步骤s1022：基于实体以及实体之间的关系建立知识库，知识库包括嵌入特征向量和决策流子模型。
39.在一些实施例中，基于实体以及实体之间的关系建立知识库的步骤具体包括：首先基于实体获得实体对应的专题库，其中专题库可以包括人员通话记录专题库、人员资金交易专题库、人员出行记录专题库、人员日常活动专题库以及人员虚拟身份专题库等，本技术中主要采用流失计算的方法对实体进行处理从而得到实体对应的专题库。在获得实体对应的专题库的基础上，进一步基于实体以及实体之间的关系获得知识图谱，该实施例中主要是将实体以及实体之间的关系两者对应存储即可得到知识图谱。在获得知识图谱的基础上，可以进一步利用图嵌入算法提取嵌入特征向量并保存。最后可以基于嵌入特征向量和实体对应的专题库获得决策流子模型并保存。
40.具体来说，本技术中所用的图嵌入算法是自研图嵌入算法，但是图嵌入算法还可以是metapath2vec、随机游走等算法，但是不限于此。本技术中利用自研图嵌入算法提取嵌入特征向量的步骤具体包括：首先利用社交网络分析算法中的社区发现算法获取知识图谱中的社区结构，其中这里的“社区发现算法”可以是k-l算法、gn算法等，但是不限于此。其次，对社区结构中的每个节点进行评估，得到每个节点对应的特征向量中心度和点度中心度。在获取每个节点对应的特征向量中心度和点度中心度的基础上可以进一步获得嵌入特征向量，具体包括下述步骤。
41.首先根据每个节点对应的特征向量中心度和点度中心度，获取社区结构中的每个节点的权重以及每条边的权重。这里的每个节点的权重以及每条边的权重均可以利用1/(1-xe-αβ
)计算得到，α为特征向量中心度，β为点度中心度，x为缩放参数。
42.接着基于每个节点的权重以及每条边的权重构造社区结构的邻接矩阵，本实施例中由两个节点组成边的权值等于构成两个节点之间最短路径的边的权值和节点的权值的乘积来获得邻接矩阵。
43.在得到邻接矩阵后利用图的因式分解方法对邻接矩阵进行分解，得到社区结构中每个节点的向量表示yi，其中上述所说的图的因式分解方法包括但不限于拉普拉斯图嵌入、柯西图嵌入等。
44.对每个节点的向量表示yi进行向量扩充，得到扩充向量。具体是通过每个节点的向量表示、每个节点自身的标签以及实体属性对其进行扩充，形成新的向量yi,从而得到扩充向量w＝[y1,y2,
…
,yn]。
[0045]
对上述得到的扩充向量进行属性约简，得到嵌入特征向量。其中这里的属性约简主要是粗糙集的属性约简，具体是先将所述扩充向量的第一列属性去掉，随后剩余的属性进行查询时，相同的条件属性的决策属性没有冲突，则说明去掉的第一列并没有不一致的数据产生，则说明扩充向量的第一列属性可以去掉，如此循环，直至扩充向量中的每一个属性都被判断完毕，即可得到嵌入特征向量。通过每个节点对应的特征向量中心度和点度中心度进而获得嵌入特征向量，方法新颖，为后期进行对象类别评估提供了基础。
[0046]
本技术在基于嵌入特征向量和实体对应的专题库获得决策流子模型的过程主要是通过有监督模型和无监督模型来实现，其中，这里的有监督模型可以包括但不限于dnn、wide-deep、逻辑回归模型等。具体来说，这里的决策流子模型包括人员异常度模型和人员活动离散度模型。在该步骤中，首先利用有监督模型对嵌入特征向量和实体对应的专题库进行模拟，从而得到人员异常度模型，接着利用无监督模型从实体对应的专题库中的人员活动轨迹中获得人员活动离散度模型。
[0047]
步骤s1023：基于建立的知识库生成决策流。具体来说，在建立知识库后，用户可以通过拖拽或者人机对话的方式来形成决策流。示例性的，下面将以人机对话的方式进行举例说明。具体是对于提供的一段对涉毒人员排查的音频，首先利用nlp技术将所述音频解析为文本，并基于所述文本生成语法树。具体地，对音频解析后的得到的“首先从专题库中找到最近一个月昼伏夜出的人员并输出；然后从昼伏夜出的人员中找到行为异常的人员，输出重点排查对象”这段文本，利用nlp技术可以生成如图2所示的语法树。其中nlp技术包括但不限于lstm、bert等。最后利用树的后序遍历解析所述语法树，即可得到决策流。其中，后序遍历(lrd)是二叉树遍历的一种，主要是首先遍历左子树，然后遍历右子树，最后访问根结点的方法从而得到决策流。
[0048]
通过对训练样本进行处理，从而生成决策流，再利用决策流对神经网路进行训练，获得了精确度较高的神经网络，进而提高了后期对对象类别评估的精度。
[0049]
步骤s103：基于上述步骤生成的决策流训练生成对抗网络，得到训练好的生成对抗网络。
[0050]
步骤s104：基于训练好的生成对抗网络对待分析样本进行评估，得到对象类别。具体来说，在该步骤利用训练好的生成对抗网络对待分析样本进行评估之前，先对该待分析样本进行处理以生成决策流，再将该决策流输入至训练好的生成对抗网络即可得到对象类别，对象类别可以是涉毒人员、逃窜人员、盗窃人员等，其中，这里的“对该待分析样本进行处理以生成决策流”的方法可参考前述步骤s101-步骤s102，这里不赘述。另外，该步骤的待分析样本以及对象类别还可以保存至知识库中以进行数据增强。利用生成对抗网络对待分析样本进行评估，方便简洁，能够有效提高对人员分类评估的效率。
[0051]
基于上述步骤s101-步骤s104，提取了训练样本中的实体以及实体之间的关系，进而建立知识库，并通过建立的知识库来获取决策流，进而利用该决策流实现对神经网络的训练，与现有的直接利用小规模的正例样本对神经网络进行训练的方法相比，提高了神经网络的精确度，有利于后期对象类别评估。
[0052]
需要指出的是，尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述，但是本领域技术人员可以理解，为了实现本发明的效果，不同的步骤之间并非必须按照这样的顺序执行，其可以同时(并行)执行或以其他顺序执行，这些变化都在本发明的保护范
围之内。
[0053]
进一步，本发明还提供了一种对象类别评估装置。
[0054]
参阅附图3，图3是根据本发明的一个实施例的对象类别评估装置的主要结构框图。如图3所示，本发明实施例中的对象类别评估装置主要包括获取模块11、生成模块12和训练模块13和评估模块14。在一些实施例中，获取模块11、生成模块12和训练模块13和评估模块14中的一个或多个可以合并在一起成为一个模块。在一些实施例中获取模块11可以被配置成获取训练样本和待分析样本，训练样本包括训练文本，待分析样本包括待分析文本。生成模块12可以被配置成基于训练样本生成决策流。训练模块13可以被配置成基于决策流训练生成对抗网络，得到训练好的生成对抗网络。评估模块14可以被配置为基于训练好的生成对抗网络对待分析样本进行评估，得到对象类别。
[0055]
在一个实施方式中，生成模块进一步包括实体及关系提取模块、知识库建立模块和决策流生成模块，其中实体及关系提取模块被配置为提取训练样本中的实体以及实体之间的关系；知识库建立模块被配置为基于实体以及实体之间的关系建立知识库；决策流生成模块被配置为基于建立的知识库生成决策流。
[0056]
在一个实施方式中，知识库建立模块进一步包括专题库获取模块、知识图谱获取模块、向量提取模块和决策流子模型获取模块。其中专题库获取模块被配置为基于实体获得实体对应的专题库；知识图谱获取模块被配置为基于实体以及实体之间的关系获得知识图谱；向量提取模块被配置为基于知识图谱提取嵌入特征向量并保存；决策流子模型获取模块被配置为基于嵌入特征向量和实体对应的专题库获得决策流子模型并保存。
[0057]
在一个实施方式中，向量提取模块进一步包括社区结构获取模块、中心度获取模块和嵌入特征向量获取模块。其中社区结构获取模块被配置为基于社区发现算法获取知识图谱中的社区结构；中心度获取模块被配置为对社区结构中的每个节点进行评估，得到每个节点对应的特征向量中心度和点度中心度；嵌入特征向量获取模块被配置为基于每个节点对应的特征向量中心度和点度中心度获得嵌入特征向量。
[0058]
在一个实施方式中，嵌入特征向量获取模块进一步包括权重获取模块、构造模块、分解模块、向量扩充模块和属性约简模块。其中权重获取模块被配置为基于每个节点对应的特征向量中心度和点度中心度，获取社区结构中的每个节点的权重以及每条边的权重；构造模块被配置为基于所述每个节点的权重以及每条边的权重构造社区结构的邻接矩阵；分解模块被配置为对邻接矩阵进行分解，得到社区结构中每个节点的向量表示；向量扩充模块被配置为对每个节点的向量表示进行向量扩充，得到扩充向量；属性约简模块被配置为对扩充向量进行属性约简，得到嵌入特征向量。
[0059]
上述对象类别评估装置以用于执行图1所示的对象类别评估方法实施例，两者的技术原理、所解决的技术问题及产生的技术效果相似，本技术领域技术人员可以清楚地了解到，为了描述的方便和简洁，对象类别评估装置的具体工作过程及有关说明，可以参考对象类别评估方法的实施例所描述的内容，此处不再赘述。
[0060]
本领域技术人员能够理解的是，本发明实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、
对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。
[0061]
进一步，本发明还提供了一种控制装置。在根据本发明的一个控制装置实施例中，控制装置包括处理器和存储装置，存储装置可以被配置成存储执行上述方法实施例的对象类别评估方法的程序，处理器可以被配置成用于执行存储装置中的程序，该程序包括但不限于执行上述方法实施例的对象类别评估方法的程序。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该控制装置可以是包括各种电子设备形成的控制装置设备。
[0062]
进一步，本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中，计算机可读存储介质可以被配置成存储执行上述方法实施例的对象类别评估方法的程序，该程序可以由处理器加载并运行以实现上述对象类别评估方法。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备，可选的，本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。
[0063]
进一步，应该理解的是，由于各个模块的设定仅仅是为了说明本发明的装置的功能单元，这些模块对应的物理器件可以是处理器本身，或者处理器中软件的一部分，硬件的一部分，或者软件和硬件结合的一部分。因此，图中的各个模块的数量仅仅是示意性的。
[0064]
本领域技术人员能够理解的是，可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理，因此，拆分或合并之后的技术方案都将落入本发明的保护范围内。
[0065]
至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种对象类别评估方法及装置与流程

相关文献

最热文献