一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

涉网事件线索搜集方法、系统、电子装置和存储介质与流程

2021-11-05 23:10:00 来源:中国专利 TAG:


1.本技术涉及互联网安全技术领域,特别是涉及涉网事件线索搜集方法、系 统、电子装置和存储介质。


背景技术:

2.随着信息化程度的不断提高,涉及计算机信息领域的违法现象越来越多。 网络违法行为存在快速性、隐蔽性、随机性、不可恢复性,难以进行有效的侦 查和证据收集。
3.目前,打击涉网事件的形式都是通过线下人工举报,然后根据受害形式反 推幕后组织的相关产业链形式,达到打击涉网事件的目的。其中,大量数据比 对、分析都是通过人工完成,费时费力,查找周期相对较长,并且这对打击涉 网事件人员的网络侦查技术能力要求高,通过举报的形式进行反侦查,有一定 的滞后性,在取证阶段丢失较多证据,提高了打击涉网事件的难度。
4.针对相关技术中存在的打击涉网事件取证难的问题,目前还没有提出有效 的解决方案。


技术实现要素:

5.在本实施例中提供了一种涉网事件线索搜集方法、系统、电子装置和存储 介质,以解决相关技术中存在的打击涉网事件取证难的问题。
6.第一个方面,在本实施例中提供了一种涉网事件线索搜集方法,包括:
7.获取待处理信息,根据所述待处理信息获取多个目标网站的源码,所述待 处理信息包括ip、域名和网站信息;
8.根据源码规则提取各所述目标网站的源码所携带的网页要素,以及将所述 多个目标网站按照所述多个源码之间的相似程度进行分类,聚合同属于一个类 别的不同目标网站的ip、域名和网页要素,生成以目标网站类别为单位的多个 网站情报;
9.获取涉网事件的特征信息,根据所述特征信息确定所述多个网站情报中的 有效网站情报,并将所述有效网站情报作为线索和所述涉网事件进行关联。
10.在其中一些实施例中,所述网页要素还包括感兴趣词汇,在根据源码规则 提取各所述目标网站的源码所携带的网页要素之后,所述方法还包括:
11.根据所述感兴趣词汇对相应的目标网站进行标记,确定各所述目标网站的 网站性质。
12.在其中一些实施例中,所述涉网事件的特征信息包括网站性质,根据所述 特征信息确定所述多个网站情报中的有效网站情报,并将所述有效网站情报作 为线索和所述涉网事件进行关联包括:确定各所述目标网站的网站性质,将各 所述目标网站的网站性质和所述涉网事件的网站性质进行匹配,确定匹配成功 的目标网站的网站情报为所述有效网站情报,并将所述有效网站情报作为线索 和所述涉网事件进行关联;和/或,
13.所述涉网事件的特征信息包括网页要素类型,根据所述特征信息确定所述 多个
网站情报中的有效网站情报,并将所述有效网站情报作为线索和所述涉网 事件进行关联包括:将各所述目标网站的网页要素和所述涉网事件的网页要素 类型进行匹配,确定匹配成功的网页要素对应的网站情报为所述有效网站情报, 并将所述有效网站情报作为线索和所述涉网事件进行关联。
14.在其中一些实施例中,根据源码规则提取各所述目标网站的源码所携带的 网页要素包括:
15.根据正则匹配规则截取所述源码中包含有阿拉伯数字的源码切片;
16.根据预设关键词对所述源码切片进行语义分析,得到所述网页要素,所述 网页要素包括以下至少之一:社交账号、社交名称、通讯号码、外链。
17.在其中一些实施例中,在根据预设关键词对所述源码切片进行语义分析, 得到所述网页要素之前,所述方法还包括:获取多种类型的涉网事件,并从对 应于所述多种类型的涉网事件的网站源码中提取所述预设关键词;以及,
18.在根据预设关键词对所述源码切片进行语义分析,得到所述网页要素之后, 所述方法还包括:获取多种类型的涉网事件,并从对应于所述多种类型的涉网 事件的网站源码中提取实时关键词,根据所述实时关键词校正所述预设关键词。
19.在其中一些实施例中,将所述多个目标网站按照所述多个源码之间的相似 程度进行分类包括:
20.获取多个网站源码模版,将所述多个目标网站的源码和所述多个网站源码 模版进行一一匹配,并将和同一网站源码模版匹配成功的多个目标网站确定为 互为相似的目标网站。
21.在其中一些实施例中,所述方法还包括:
22.根据所述待处理信息获取多个目标网站的网页截图;
23.聚合同属于一个类别的不同目标网站的ip、域名、网页要素和网页截图, 生成以目标网站类别为单位的网站情报。
24.第二个方面,在本实施例中提供了一种涉网事件线索搜集系统,包括:靶 向分析模块、侦查模块和初查事件模块,所述靶向分析模块与所述侦查模块、 所述初查事件模块耦合;其中,
25.所述靶向分析模块用于执行上述第一个方面所述的涉网事件线索搜集方法;
26.所述侦查模块用于核查所述靶向分析模块中的待处理信息;
27.所述初查事件模块用于创建涉网事件和/或将所述靶向分析模块生成的网站 情报转化成初查事件。
28.第三个方面,在本实施例中提供了一种电子装置,包括存储器、处理器以 及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执 行所述计算机程序时实现上述第一个方面所述的涉网事件线索搜集方法。
29.第四个方面,在本实施例中提供了一种存储介质,其上存储有计算机程序, 该程序被处理器执行时实现上述第一个方面所述的涉网事件线索搜集方法。
30.与相关技术相比,在本实施例中提供的涉网事件线索搜集方法、系统、电 子装置和存储介质,通过获取待处理信息,根据待处理信息获取多个目标网站 的源码,待处理信息包括ip、域名和网站信息;根据源码规则提取各目标网站 的源码所携带的网页要素,以
及将多个目标网站按照多个源码之间的相似程度 进行分类,聚合同属于一个类别的不同目标网站的ip、域名和网页要素,生成 以目标网站类别为单位的多个网站情报;获取涉网事件的特征信息,根据特征 信息确定多个网站情报中的有效网站情报,并将有效网站情报作为线索和涉网 事件进行关联,解决了相关技术中存在的打击涉网事件取证难的问题,提升了 打击涉网事件的取证效率。
31.本技术的一个或多个实施例的细节在以下附图和描述中提出,以使本技术 的其他特征、目的和优点更加简明易懂。
附图说明
32.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分, 本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限 定。在附图中:
33.图1是本实施例的涉网事件线索搜集方法的终端的硬件结构框图;
34.图2是本实施例的涉网事件线索搜集方法的流程图;
35.图3是本技术实施例的涉网事件线索搜集系统的结构示意图;
36.图4是本优选实施例的涉网事件线索搜集系统的运行原理图;
37.图5是本优选实施例的靶向分析模块提取网页源码的原理图。
具体实施方式
38.为更清楚地理解本技术的目的、技术方案和优点,下面结合附图和实施例, 对本技术进行了描述和说明。
39.除另作定义外,本技术所涉及的技术术语或者科学术语应具有本技术所属 技术领域具备一般技能的人所理解的一般含义。在本技术中的“一”、“一个”、
ꢀ“
一种”、“该”、“这些”等类似的词并不表示数量上的限制,它们可以是单数 或者复数。在本技术中所涉及的术语“包括”、“包含”、“具有”及其任何变体, 其目的是涵盖不排他的包含;例如,包含一系列步骤或模块(单元)的过程、 方法和系统、产品或设备并未限定于列出的步骤或模块(单元),而可包括未列 出的步骤或模块(单元),或者可包括这些过程、方法、产品或设备固有的其他 步骤或模块(单元)。在本技术中所涉及的“连接”、“相连”、“耦接”等类似的 词语并不限定于物理的或机械连接,而可以包括电气连接,无论是直接连接还 是间接连接。在本技术中所涉及的“多个”是指两个或两个以上。“和/或”描述 关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示: 单独存在a,同时存在a和b,单独存在b这三种情况。通常情况下,字符“/
”ꢀ
表示前后关联的对象是一种“或”的关系。在本技术中所涉及的术语“第一”、
ꢀ“
第二”、“第三”等,只是对相似对象进行区分,并不代表针对对象的特定排 序。
40.在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置 中执行。比如在终端上运行,图1是本实施例的涉网事件线索搜集方法的终端 的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个) 处理器102和用于存储数据的存储器104,其中,处理器102可以包括但不限于 微处理器mcu或可编程逻辑器件fpga等的处理装置。上述终端还可以包括用 于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理 解,图1所示的结构仅为示意,其并不对上述终端的结构造成限制。例
如,终 端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同 配置。
41.存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块, 如在本实施例中的涉网事件线索搜集方法对应的计算机程序,处理器102通过 运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理, 即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存 储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。 在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器, 这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联 网、企业内部网、局域网、移动通信网及其组合。
42.传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端 的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适 配器(network interface controller,简称为nic),其可通过基站与其他网络设 备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频 (radio frequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。
43.在本实施例中提供了一种涉网事件线索搜集方法,图2是本实施例的涉网 事件线索搜集方法的流程图,如图2所示,该流程包括如下步骤:
44.步骤s201,获取待处理信息,根据待处理信息获取多个目标网站的源码, 待处理信息包括ip、域名和网站信息。
45.在根据ip(internet protocol,网际互连协议)获取目标网站的源码时,先获 取该ip的端口的开放信息和历史绑定域名,再根据端口开放信息和历史绑定域 名获取目标网站的源码。其中,如果端口中有映射网站,则还可以查询出该端 口对应的网站url(uniform resource locator,统一资源定位系统)和网页的 首页截图。
46.在根据域名和网站信息获取目标网站的源码时,可直接根据域名和网站信 息获取得到目标网站的源码。此外,还可根据域名和网站信息获取得到网页的 首页截图、域名whois(域名查询协议)信息和解析ip。
47.步骤s202,根据源码规则提取各目标网站的源码所携带的网页要素,以及 将多个目标网站按照多个源码之间的相似程度进行分类,聚合同属于一个类别 的不同目标网站的ip、域名和网页要素,生成以目标网站类别为单位的网站情 报。
48.一般涉网事件中的目标网站会部署在各个域名、ip上,以达到广撒网的目 的,为了节约成本和精力,这些目标网站采用同一网站模板,基于同一网站模 板进行网站名称或其他信息的修改,得到多个目标网站,根据源码规则可以比 较得到多个互为相似的目标网站,将多个互为相似的目标网站的ip、域名和网 页要素进行聚合,以扩展同源网站的网站情报。具体实施时,可以通过获取多 个网站源码模版,将多个目标网站的源码和多个网站源码模版进行一一匹配, 并将和同一网站源码模版匹配成功的多个目标网站确定为互为相似的目标网站。
49.其中,源码规则包括但不限于正则匹配规则和语义分析规则。可以先根据 正则匹配规则截取源码中包含有阿拉伯数字的源码切片,考虑到正则匹配的不 准确性,再根据预设关键词对源码切片进行语义分析,得到较为准确的网页要 素。其中,网页要素包括但不限于社交账号、社交名称、通讯号码、外链。
50.例如,以提取qq号码为例,根据qq号码的特性设立正则匹配规则:
ꢀ“
^[1

9][0

9]
{4,12}$”,该正则匹配规则满足以下条件:第一位不能是0,从10000 开始,最少5位,最多2位,阿拉伯数字。通过正则匹配规则可以提取得到源 码中符合该条件的包含有阿拉伯数字的源码切片,但是通常情况下,仅仅根据 正则匹配规则提取的阿拉伯数字是无意义的,可能只是网页中代码的一串参数 而已。
[0051]
一般涉及特定性质网站都会留下咨询的联系方式,可以以“qq:”、“qq”、
ꢀ“
qq”作为预设关键词对源码切片进行语义分析,得到较为准确的网页要素。 由于不同的目标网站,其网页展示形式不一样,语义也会不一样,可以根据网 页的具体展示形式事先配置预设关键词。
[0052]
步骤s203,获取涉网事件的特征信息,根据特征信息确定多个网站情报中 的有效网站情报,并将有效网站情报作为线索和涉网事件进行关联。
[0053]
对于特定的涉网事件而言,并非所有搜集的网站情报都是有效的,因此, 需要核实网站情报的有效性,网站情报的有效性可以根据涉网事件的特征信息 来判定,将和涉网事件的特征信息相匹配的网站情报作为线索和涉网事件关联。
[0054]
在一些实施例中,涉网事件的特征信息可以是网站性质,通过确定各目标 网站的网站性质,将各目标网站的网站性质和涉网事件的网站性质进行匹配, 确定匹配成功的目标网站的网站情报为有效网站情报,并将有效网站情报作为 线索和涉网事件进行关联。
[0055]
在一些实施例中,涉网事件的特征信息可以是网页要素类型,例如社交账 号类型、社交名称类型、通讯号码类型、链接类型,通过将各目标网站的网页 要素和涉网事件的网页要素类型进行匹配,确定匹配成功的网页要素对应的网 站情报为有效网站情报,并将有效网站情报作为线索和涉网事件进行关联。
[0056]
通过上述步骤s201至s203,聚合涉网事件线索,将线索具体化,辅助涉网 事件打击,解决了相关技术中存在的打击涉网事件取证难的问题,提升了打击 涉网事件的取证效率。
[0057]
在其中一些实施例中,网页要素还包括感兴趣词汇,在根据源码规则提取 各目标网站的源码所携带的网页要素之后,还将根据感兴趣词汇对相应的目标 网站进行标记,确定各目标网站的网站性质。如此设置,可以将网站性质作为 索引检索相应的网站情报。
[0058]
在其中一些实施例中,在根据预设关键词对源码切片进行语义分析,得到 网页要素之前,获取多种类型的涉网事件,并从对应于多种类型的涉网事件的 网站源码中提取预设关键词。如此设置,能够根据涉网事件的实际需求配置预 设关键词,根据预设关键词筛选有效的网站情报。
[0059]
在根据预设关键词对源码切片进行语义分析,得到网页要素之后,获取多 种类型的涉网事件,并从对应于多种类型的涉网事件的网站源码中提取实时关 键词,根据实时关键词校正预设关键词。如此设置,便于在事件侦查中获取了 其他线索的情况下,可以通过线索录入的形式进行补充完善,校正包含有预设 关键词的语义库。
[0060]
在其中一些实施例中,除了根据待处理信息获取多个目标网站的源码之外, 还将根据待处理信息获取多个目标网站的网页截图;聚合同属于一个类别的不 同目标网站的ip、域名、网页要素和网页截图,生成以目标网站类别为单位的 网站情报。
[0061]
其中,网页截图包括网页的首页截图,网页截图可以为举证提供可视化证 据。
[0062]
结合上述实施例的涉网事件线索搜集方法,在本实施例中还提供了一种涉 网事
件线索搜集系统,图3是本技术实施例的涉网事件线索搜集系统的结构示 意图,如图3所示,该系统包括:
[0063]
靶向分析模块31、侦查模块32和初查事件模块33,靶向分析模块31与侦 查模块32、初查事件模块33耦合。
[0064]
靶向分析模块31用于执行上述任一实施例的涉网事件线索搜集方法。其中, 分为ip搜索和网站(域名)搜索。当搜索的是ip时可获取该ip的端口开放信 息、曾绑定域名,如果端口中有映射网站,则同时查询出该端口对应的网站url 和首页截图。当搜索的是域名或网站时可获取该网站对应的源码、首页截图、 域名whois信息、解析ip、网页要素和同源信息。
[0065]
侦查模块32用于核查靶向分析模块31中的待处理信息。例如,对目标网 站的ip、域名whois信息、手机号、身份证归属地进行属地核查。
[0066]
初查事件模块33用于创建涉网事件和/或将靶向分析模块31生成的网站情 报转化成初查事件。初查案件分为线索仓库、案件画像和初查报告,在将网站 情报转化为初查事件时,会从网站情报中获取特定网页要素汇集到线索仓库, 这些特定网页要素包括但不限于手机号、身份证、ip、站内外url、qq、固定 电话、微信、支付宝、相关域名、同源网站信息。
[0067]
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以 通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言, 上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合 的形式分别位于不同的处理器中。
[0068]
下面通过优选实施例介绍该涉网事件线索搜集系统。
[0069]
图4是本优选实施例的涉网事件线索搜集系统的运行原理图,如图4所示, 涉网事件线索搜集系统获取待处理信息,待处理信息包括ip、域名和网站信息; 对待处理信息进行数据处理,得到ip情报和初级网站情报;通过侦查工具处理 初级网站情报,获取源码;采用源码规则判断源码,得到中级网站情报;将中 级网站情报转化为初查事件。
[0070]
图5是本优选实施例的靶向分析模块提取网页源码的原理图,如图5所示, 靶向分析模块结合正则匹配、语义分析和相似度匹配来处理网页源码,分别得 到目标网站的标签、网页要素和同源信息。
[0071]
在本实施例中还提供了一种电子装置,包括存储器和处理器,该存储器中 存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法 实施例中的步骤。
[0072]
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该 传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
[0073]
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以 下步骤:
[0074]
s1,获取待处理信息,根据待处理信息获取多个目标网站的源码,待处理 信息包括ip、域名和网站信息。
[0075]
s2,根据源码规则提取各目标网站的源码所携带的网页要素,以及将多个 目标网站按照多个源码之间的相似程度进行分类,聚合同属于一个类别的不同 目标网站的ip、域名和网页要素,生成以目标网站类别为单位的多个网站情报。
[0076]
s3,获取涉网事件的特征信息,根据特征信息确定多个网站情报中的有效 网站情报,并将有效网站情报作为线索和涉网事件进行关联。
[0077]
需要说明的是,在本实施例中的具体示例可以参考上述实施例及可选实施 方式中所描述的示例,在本实施例中不再赘述。
[0078]
此外,结合上述实施例中提供的涉网事件线索搜集方法,在本实施例中还 可以提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程 序被处理器执行时实现上述实施例中的任意一种涉网事件线索搜集方法。
[0079]
应该明白的是,这里描述的具体实施例只是用来解释这个应用,而不是用 来对它进行限定。根据本技术提供的实施例,本领域普通技术人员在不进行创 造性劳动的情况下得到的所有其它实施例,均属本技术保护范围。
[0080]
显然,附图只是本技术的一些例子或实施例,对本领域的普通技术人员来 说,也可以根据这些附图将本技术适用于其他类似情况,但无需付出创造性劳 动。另外,可以理解的是,尽管在此开发过程中所做的工作可能是复杂和漫长 的,但是,对于本领域的普通技术人员来说,根据本技术披露的技术内容进行 的某些设计、制造或生产等更改仅是常规的技术手段,不应被视为本技术公开 的内容不足。
[0081]“实施例”一词在本技术中指的是结合实施例描述的具体特征、结构或特 性可以包括在本技术的至少一个实施例中。该短语出现在说明书中的各个位置 并不一定意味着相同的实施例,也不意味着与其它实施例相互排斥而具有独立 性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是,本技术中 描述的实施例在没有冲突的情况下,可以与其它实施例结合。
[0082]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细, 但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的 普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改 进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要 求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献