一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据智能识别分发执行方法及系统与流程

2022-11-28 11:39:08 来源:中国专利 TAG:


1.本发明涉及数据处理和人工智能技术领域,尤其涉及一种数据智能识别分发执行方法及 系统。


背景技术:

2.由于网络的开放性,会导致网络舆情形成迅速,对社会影响巨大。特别是当出现负面的 网络舆情时,若不及时控制,很容易形成舆论危机,严重时甚至影响公共安全。对相关部门 来说,如何及时控制负面内容、有效引导,成为网络舆情管理的一大难点。在这种情况下, 建设能够迅速进行舆情数据分发的系统十分必要。
3.目前在传统的业务系统中,针对舆情数据的下发,需要业务员人工根据舆情数据的url 判断该条数据下发给哪个属地,这种方式耗时时间太长而且准确率低。
4.因此,就需要一种能够自动进行属地下发、方便快捷、准确率高的数据智能识别分发执 行方法及系统。


技术实现要素:

5.本发明的目的是为了解决现有数据识别系统分发属地耗时长、不能自动向属地分发、分 发准确率低的缺陷,提供了一种能够自动进行属地下发、方便快捷、准确率高的数据智能识 别分发执行方法及系统。
6.本发明所述的一种数据智能识别分发执行方法,包括以下步骤:
7.s1、采用采集取证模块对用户提交的数据进行采集;
8.s2、将采集到的数据进行分段得到分段矩阵;
9.s3、采用属地识别模块对分段矩阵进行识别;
10.s4、将识别结果通过数据分发模块按照区域进行划分,得到识别结果矩阵;
11.s5、根据识别结果矩阵中每列非零元素的个数自适应的开辟缓存空间,将数据分发至接 收地管理模块。
12.进一步地:所述采集取证模块包括监控单元、采集单元、抽取单元、截图单元和下载单 元;在s1中,具体包括以下步骤:
13.s11、通过所述采集单元对用户提交的数据进行多进程采集取证,所述数据为url数据; 采用所述监控单元对采集过程进行实时监控;
14.s12、利用所述截图单元对url数据页面进行截图;
15.s13、在采集过程中,采用所述抽取单元对用户提交的url数据进行实时抽取,同时采 用下载单元对抽取的数据进行下载。
16.进一步地:在s1中,所述采集单元、截图单元和抽取单元均采用restful服务的方式。
17.进一步地:所述属地识别模块包括域名提取单元、策略管理单元和属地识别单元;在 s3中,具体包括以下步骤:
18.s31、将分段矩阵传送至域名提取单元;
19.s32、对分段矩阵中元素提取有效的数据,采用所述域名提取单元对数据按照粒度从细 到粗的顺序进行提取,并将提取到的域名放入域名池中;
20.s33、对域名池中的域名进行统计,通过所述策略管理单元设定阈值,如果用户上传的 总数据量达到阈值,则批量调用所述属地识别单元,如果未达到阈值,则单个调用所述属地 识别单元;
21.s34、所述属地识别单元根据提取到的域名获取对应的属地信息。
22.进一步地:所述域名管理模块包括缓存管理单元、数据库管理单元、备案地查询单元和 地域显示单元;在s32中,具体包括以下步骤:
23.s321、调用所述缓存管理单元识别当前缓存库中是否有与所述数据对应的地域信息,若 未发现地域信息,则调用所述数据库管理单元识别当前数据库中是否有与所述数据对应的地 域信息;若仍未发现,则调用备案地查询单元通过备案地查询网站进行识别与所述数据对应 的地域信息,并将查询到的地域信息新建至所述数据库和所述缓存库;
24.s322、根据识别到的地域信息和用户手动新增的地域信息发送至所述地域显示单元显示, 所述地域信息包括域名、属地和/或网站。
25.进一步地:所述数据分发模块包括数据分发单元、异常检测单元和重复性检测单元;在 s4中,具体包括以下步骤:
26.s41、所述分发单元对所述识别结果进行分发;
27.s42、所述异常检测单元实时对分发过程进行检测,若检测到属地信息为空或属地不在 接收地列表中,则标记该识别结果并阻止分发单元进行分发;
28.s43、所述重复性监测单元实时将已分发的识别结果放入分发池中,并将下一待分发的 识别结果与所述分发池进行对比,若所述分发池中已包含该识别结果,则阻止分发单元进行 分发。
29.进一步地:在s5中,根据所述识别结果矩阵列的向量元素的差异性得到重塑矩阵,根 据重塑矩阵每列非零元素个数,采用接收地管理模块自适应的开辟缓存空间进行数据分发, 同时调用所述接收地管理模块中的接收地列表与识别出的属地进行对比,确保接收地的名称 与属地保持一致,则允许数据分发至接收地。
30.本发明所述的一种数据智能识别分发系统,包括采集取证模块、属地识别模块、数据分 发模块、域名管理模块和接收地管理模块,所述采集取证模块的输出端与属地识别模块的输 入端通讯连接,所述属地识别模块的输出端与所述数据分发模块的输入端通讯连接,所述域 名管理模块的输出端与所述属地识别模块的输入端通讯连接,所述接收地管理模块的输出端 与所述数据分发模块的输入端通讯连接;
31.所述采集取证模块,用于对用户提交的数据进行采集取证;
32.所述属地识别模块,用于将采集到的数据进行分段和识别;
33.所述数据分发模块,用于将完成识别的数据分发给对应的接收地;
34.所述域名管理模块,用于提供域名的属地信息,并为所述属地识别模块的数据识别提供 数据支撑;
35.所述接收地管理模块,用于对所有的接收地进行管理,并根据所述数据分发模块的分发 任务提供数据支撑。
36.进一步地:所述采集取证模块包括监控单元、采集单元、抽取单元、截图单元和下载单 元;所述采集单元用于对用户提交的数据进行采集,所述监控单元用于对所述采集模块的采 集过程进行监控,所述抽取单元用于对用户提交的数据进行抽取,所述截图单元用于对数据 页面进行截图,所述下载单元用于对抽取的数据进行下载;
37.所述属地识别模块包括域名提取单元、策略管理单元和属地识别单元;所述域名提取单 元用于对数据进行提取并将提取到的域名放入域名池中,所述策略管理单元用于设置阈值并 根据当前域名的总数据量与阈值的对比结果按预设规则调用所述属地识别单元,所述属地识 别单元用于根据提取到的域名获取敌营的属地信息;
38.所述域名管理模块包括缓存管理单元、数据库管理单元、备案地查询单元和地域显示单 元;所述缓存管理单元用于识别当前缓存库中是否有与所述数据对应的地域信息,所述数据 库管理单元用于识别当前数据库中是否有与所述数据对应的地域信息,所述备案地查询单元 用于通过备案地查询网址进行识别与所述数据对应的地域信息,并将查询到的地域信息新建 至所述数据库和所述缓存库;
39.所述数据分发模块包括数据分发单元、异常检测单元和重复性检测单元;所述分发单元 用于对识别结果进行分发,所述异常检测单元用于对分发过程进行检测,所述重复性监测单 元用于待分发的识别结果与分发池进行对比。
40.本发明的有益效果是:
41.本发明能够有效解决url(统一资源定位符)数据分发耗时太长且准确率低技术问题, 并且经过一系列的效果调研,通过在监控单元中引入空间调制算法,对部分线程进行抽取检 测,降低了工作量,减少了运行时间,进一步提高了系统的效率,同时采用多进程运行,可 支持多点部署以及批量url数据的采集取证;通过引入包含缓存管理单元、数据库管理单 元、备案地查询单元的域名管理模块供属地识别模块调用,提高属地识别的准确率和效率, 避免频繁访问数据库和备案地查询网站造成的延迟;属地识别模块运行时依次调用缓存管理 单元、数据库管理单元、备案地查询单元是为了提高属地识别的效率,避免频繁访问数据库 和备案地查询网站造成的延迟。按照从细到粗的粒度进行属地的识别可以精准的定位域名对 应的属地,解决大的厂商不同网站下发属地不同的问题;本发明通过将批量识别结果进行区 域划分得到属地识别矩阵,并根据属地识别矩阵每列非零元素数量来开辟缓存空间,合理分 配缓存资源,避免资源浪费,进一步提高系统分发效率。
附图说明
42.图1为数据智能识别分发系统框图;
43.图2为属地识别流程图;
44.图3为数据分发流程图。
具体实施方式
45.以下仅为本发明较佳的具体实施例,但本发明的保护范围并不局限于此,任何熟悉本技 术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发 明的保护范围之内。以下所述实施例仅用于解释本发明,而不能解释为对本发明的限制,本 发明的保护范围应该以权利要求的保护范围为准。下面详细描述本发明的实施
例,为了便于 描述本发明和简化描述,本发明的说明书中使用的技术术语应当做广义解读,包括但不限于 本技术未提及的常规替换方案,同时包括直接实现方式和间接实现方式。
46.实施例1
47.结合图1说明本实施例,本实施例公开的一种数据智能识别分发执行方法,包括以下 步骤:
48.s1、采用采集取证模块对用户提交的数据进行采集;
49.s2、将采集到的数据进行分段得到分段矩阵;对url的域名进行分段处理,为进一步 识别做准备;将采集到的url进行分段得到分段矩阵,将分段矩阵传送至域名提取单元, 对分段矩阵中元素提取有效的url数据,根据url协议对数据按照粒度从细到粗的顺序进 行提取,并将提取到的域名放入域名池中,所述域名池由域名构成,并对域名池中的域名进 行统计得到统计量c,由策略管理单元设定阈值μ,如果用户上传的url数据统计量c达到 阈值,则批量调用属地识别单元,如果未达到阈值,则单个调用属地识别单元;
50.s3、采用属地识别模块对分段矩阵进行识别;按照细粗准则对用户编码后的url数据 进行识别;属地识别单元负责根据域名获取对应的属地、网站,首先调用域名管理模块的缓 存管理单元;如果缓存管理单元未发现数据则调用数据库管理单元;如果数据库管理单元也 未发现数据则调用备案地查询单元,进一步,根据用户提交的url识别的域名和用户手动 新增的域名由域名显示单元显示,显示的域名信息包括域名、属地、网站等信息;
51.s4、将识别结果通过数据分发模块按照区域进行划分,得到识别结果矩阵;将属地识 别结果传送至数据分发模块中的数据分发单元,在分发单元将批量识别结果进行区域划分, 得到识别结果矩阵地址;
52.s5、根据识别结果矩阵中每列非零元素的个数自适应的开辟缓存空间,将数据分发至接 收地管理模块。将识别结果通过数据分发模块按照区域进行划分得到识别结果矩阵,根据识 别结果矩阵每列非零元素个数自适应的开辟缓存空间进行url数据分发最终分发至接收地。 根据矩阵地址每列非零元素个数自适应的开辟缓存空间进行url数据分发。
53.实施例2
54.结合实施例1说明本实施例,本实施例公开的一种数据智能识别分发执行方法,所述 采集取证模块包括监控单元、采集单元、抽取单元、截图单元和下载单元;在s1中,具体 包括以下步骤:
55.s11、通过所述采集单元对用户提交的数据进行多进程采集取证,所述数据为url数 据;采用所述监控单元对采集过程进行实时监控;通过采集模块中的采集单元和截图单元对 用户提交的数据进行采集,本实施例使用haproxy(是一个使用c语言编写的自由及开放源 代码软件)实现多进程和多机部署,区别与传统的slimer js组件(slimerjs是服务器端的 javascriptapi工具)部署只能进行单进程部署,系统中使用haproxy实现多进程和多机部署, 提升了采集的并发性,能够同时采集取证更多的url数据。
56.s12、利用所述截图单元对url数据页面进行截图;利用截图单元(现有的slimerjs 组件技术)对url页面进行采集和截图功能;采集单元和截图单元在进行url采集时消耗 系统资源较多,会出现程序意外终止的情况,本实施例开发监控程序,设定进程活跃门限数 量σ,当检测到进程数量为σ时,σ≥0,自动重启所有程序节点。
57.s13、在采集过程中,采用所述抽取单元对用户提交的url数据进行实时抽取,同时 采用下载单元对抽取的数据进行下载。所述采集单元、截图单元和抽取单元均采用restful 服务(restful是一种网络应用程序的设计风格和开发方式)的方式,支持jpg、png格 式截图,支持javascript(简称“js”,是一种具有函数优先的轻量级,解释型或即时编译型的 编程语言)解析。抽取单元采用restful服务的方式,起多个服务进程,对网页的标题、作者、 发布时间、来源、内容进行抽取,同时由统一的httpd(是apache超文本传输协议服务器的 主程序)服务对外提供服务,当服务进程意外终止后会自动重启;对经抽取单元处理后的 url相关内容(采集内容和截图)利用下载单元执行一键下载,下载时以压缩包的形式进行 下载,下载内容包括excel表和截图图片,excel表中包含url的标题、正文、发布日期等。 压缩包的生成非常消耗cpu资源,因此系统限定一个用户只能同时下载一个,单个服务器 压缩的空间不能超过30g。
58.实施例3
59.结合实施例1说明本实施例,本实施例公开的一种数据智能识别分发执行方法,在s1 中,采用监控单元对采集过程进行实时监控;所述采集单元、截图单元和抽取单元均采用 restful服务(restful是一种网络应用程序的设计风格和开发方式,基于http,可以使用 xml格式定义或json格式定义)的方式。同时通过开发引入空间调制算法的监控程序对 采集过程进行监控;对部分线程进行抽取检测,降低了工作量,减少了运行时间,进一步提 高了系统的效率,同时采用多进程运行,可支持多点部署以及批量url的采集取证。有效 的提高了监控程序运行的速率和准确度,更准确的对进程的活跃度进行监控,对线程活跃度 计算的具体过程如下:
60.对创建的进程进行编码,记所有进程集合为process,process={p1,p2,

,pn}, 其中n表示进程总数,pj表示第j个进程,j∈[1,n],在监控程序运行时,利用空间调制算法 针对程序中的进程有选择的进行检测,具体检测过程如下:
[0061]
对任意m个进程进行num次状态检测,其中m≤n,num≤int(n/m),int(
·
)表示取整, 记检测到活跃进程的编码集合为a={a1,a2,

,a
num
};
[0062]
第一次:检测到活跃进程编码集合为:a1表示第一次检测集合的 元素个数,令b1=a1,b1=crad(b1)对应检测活跃的进程个数为c1=crad(b1)=crad(a1)= b1=a1,其中crad(
·
)表示集合的元素个数;
[0063]
第二次:检测到活跃进程编码集合为:a2表示第二次检测集合的 元素个数,令b2=a1∪a2,b2=crad(b2),对应检测活跃的进程个数为c2=crad(b2)
‑ꢀ
crad(a1)=b
2-a1,若c2<c时,则重新选择m个进程进行检测,其中c值根据多次试验仿真 得到,∪表示两集合并集;
[0064]
第三次:检测到活跃进程编码集合为:a3表示第三次检测集合的 元素个数,令b3=a3∪b2=a1∪a2∪a3,b3=crad(b3),对应检测活跃的进程个数为 c3=crad(b3)-crad(b2)=b
3-b2,若c2<c时,则重新选择m个进程进行检测;
[0065]
……
[0066]
第i次:检测到活跃进程编码集合为:ai表示第i次检测集合
的元素 个数,令bi=ai∪b
i-1
=a1∪a2∪a3…
∪ai,bi=crad(bi),对应检测活跃的进程个数为 ci=crad(bi)-crad(b
i-1
)=b
i-b
i-1
,若ci<c时,则重新选择m个进程进行检测,其中, i∈[1,num];
[0067]
……
[0068]
第num次:检测到活跃进程编码集合为:a
num
表示第 num次检测集合的元素个数,令b
num
=a
num
∪b
num-1
=a1∪a2∪a3…
∪a
num
, b
num
=crad(b
num
),对应检测活跃的进程个数为c
num
=crad(b
num
)-crad(b
num-1
)= b
num-b
num-1
,若c
num
<c时,则重新选择m个进程进行检测;
[0069]
特别地,在进行检测时,当ci<c时,重新选择m个进程进行检测时,若重新选择的次 数大于β,则自动重启所有程序节点,其中β根据多次试验仿真取得。
[0070]
优选地,根据检测程序中对任意m个进程状态检测的检测随机性,允许存在一定程度的 活跃进程个数误差,记误差为δ,δ值由多次试验仿真获得。
[0071]
本实施例计算检测到的活跃进程个数为:
[0072][0073]
最后对检测到的活跃进程个数α进行判定,设定进程活跃个数判定门限为σ,σ≥0,本 实施例定义进程活跃个数判定门限为:
[0074]
σ=[σ1,σ2]
[0075][0076]
其中,mod(
·
)表示取余,若检测到活跃的进程个数α>σ2时,则继续执行监控程序,若 检测到活跃的进程个数α≤σ1时,自动重启所有程序节点,若检测到活跃的进程个数 σ1<α≤σ2时,重复监测γ次得到α值仍落入区间(σ1,σ2]中则自动重启所有程序节点,γ根据 多次试验仿真获得。
[0077]
定义检测到的活跃进程个数α,设定进程活跃个数判定门限σ=[σ1,σ2],对检测到的活 跃进程个数α进行判定,若检测到活跃的进程个数α>σ2时,则继续执行监控程序,若检测 到活跃的进程个数α≤σ1时,自动重启所有程序节点,若检测到活跃的进程个数σ1<α≤σ2时,重复监测γ次得到α值仍落入区间(σ1,σ2]中则自动重启所有程序节点,γ根据多次试验仿 真获得。
[0078]
实施例4
[0079]
结合图2和实施例1说明本实施例,本实施例公开的一种数据智能识别分发执行方法, 所述属地识别模块包括域名提取单元、策略管理单元和属地识别单元;在s3中,具体包括 以下步骤:
[0080]
s31、将分段矩阵传送至域名提取单元;具体识别过程如下:
[0081]
首先按照url的语法及协议对用户提交的url利用ja进行分段处理,记data为所有 提交的url集合,data={d1,d2,

,ds},s表示提交的url个数,dj表示第j个url数据, j∈[1,s],对每个dj做分段处理,有做分段处理,有表示第j个url的第i个分段, i∈[1,
n];即可获得用户提交的url分段矩阵表示:
[0082][0083]
s32、对分段矩阵中元素提取有效的数据,采用所述域名提取单元对数据按照粒度从细 到粗的顺序进行提取,并将提取到的域名放入域名池中;将矩阵data传送至域名提取单元, 对矩阵data中元素提取有效的url数据,根据url协议对数据按照粒度从细到粗的顺序进 行提取,并将提取到的域名放入域名池中,所述域名池由域名构成,并对域名池中的域名进 行统计得到统计量c;
[0084]
s33、对域名池中的域名进行统计,通过所述策略管理单元设定阈值,如果用户上传的 总数据量达到阈值,则批量调用所述属地识别单元,如果未达到阈值,则单个调用所述属地 识别单元;由策略管理单元设定阈值μ,如果用户上传的url量c达到阈值,则批量调用属 地识别单元,如果未达到阈值,则单个调用属地识别单元;
[0085]
s34、所述属地识别单元根据提取到的域名获取对应的属地信息。属地识别单元负责根 据域名获取对应的属地、网站,以下述url数据为例,用户输入url: https://developers.weixin.qq.com/doc/oplatform/service_market/intro.html,按照从细到粗的粒度 的提取域名为developers.weixin.qq.com,weixin.qq.com,qq.com,然后送至属地识别模块进 行属地识别,在识别时首先调用域名管理模块的缓存管理单元,在缓存管理单元查到对应域 名数据则识别成功,得到识别结果x地区,将相应的url下发给x地区。
[0086]
实施例5
[0087]
结合图3和实施例4说明本实施例,本实施例公开的一种数据智能识别分发执行方法, 所述域名管理模块包括缓存管理单元、数据库管理单元、备案地查询单元和地域显示单元; 在s32中,具体包括以下步骤:
[0088]
s321、调用所述缓存管理单元识别当前缓存库中是否有与所述数据对应的地域信息, 若未发现地域信息,则调用所述数据库管理单元识别当前数据库中是否有与所述数据对应的 地域信息;若仍未发现,则调用备案地查询单元通过备案地查询网站进行识别与所述数据对 应的地域信息,并将查询到的地域信息新建至所述数据库和所述缓存库;首先调用域名管理 模块的缓存管理单元,所述缓存管理单元负责对缓存中域名池由无到有的构建,提供对域名 在缓存管理单元中的增删改查接口;如果缓存管理单元未发现数据则调用数据库管理单元, 所述数据库管理单元负责对数据库中域名池由无到有的构建,提供对域名在数据库管理单元 中的增删改查接口,同时负责调用缓存管理单元的增删改查接口,同步更新缓存的数据;如 果数据库管理单元也未发现数据则调用备案地查询单元,所述备案网站查询单元负责对未在 缓存管理单元和数据库管理单元中的域名远程调用备案地查询网站,同时调用数据库管理单 元中的增删改查接口和缓存管理单元中的增删改查接口,对数据库管理单元和缓存管理单元 中域名信息进行更新;本实施例中的属地识别模块运行时依次调用缓存管理单元、数据库管 理单元、备案地查询单元是为了提高属地识别的效率,避免频繁访问数据库和备案地查询网 站造成的延迟。按照从细到粗的粒度进行属地的识别可以精准的定位域名对应的属地,解决 大的厂商不同网站下发属地不同的问题。
[0089]
优选的,调用数据库管理单元命中时需要将该条域名信息写入缓存,调用备案地
查询 单元命中时将该条域名信息分别写入缓存和数据库,这样下次再查询相同域名的信息时可以 直接从缓存中命中。如果最终缓存、数据库、备案地查询网站都未命中该条域名信息时,则 该条域名的属地网站设置为空,用户可以手动进行编辑属地网站信息。
[0090]
优选的,针对系统自动识别的域名如果存在属地不正确的情况,用户可以对域名的属 地进行修改。用户对域名进行增删改后,会同步修改缓存、数据库中的域名信息
[0091]
s322、根据识别到的地域信息和用户手动新增的地域信息发送至所述地域显示单元显 示,所述地域信息包括域名、属地和/或网站。系统自动根据用户提交的url识别的域名和 用户手动新增的域名由域名显示单元显示,显示的域名信息包括域名、属地、网站等信息。
[0092]
实施例6
[0093]
结合实施例1说明本实施例,本实施例公开的一种数据智能识别分发执行方法,所述 数据分发模块包括数据分发单元、异常检测单元和重复性检测单元;在s4中,具体包括以 下步骤:
[0094]
s41、所述分发单元对所述识别结果进行分发;将属地识别结果传送至数据分发模块中 的数据分发单元,在分发单元将批量识别结果进行区域划分,得到识别结果矩阵address,
[0095][0096]
其中,x表示属地总数,y表示url个数,ad
xy
表示第x个属地的第y个url, x∈[1,x],y∈[1,y];
[0097]
特别的,当该属地url识别结果数量小于y时,该属地对应的行向量中的含有0元素, 即若第x1个属地有y1个url,且0<y1<y,x1∈[1,x],则对应到矩阵address的第x1列取 值为
[0098]
根据矩阵address每列非零元素个数自适应的开辟缓存空间进行url数据分发;同时 调用接收地管理模块与识别出的属地进行对比,确保接收地的名称与属地保持一致,url 识别出的属地必须在接收地列表中,才允许数据分发,以确定每条数据都有相应的组织进行 接收。本实施例通过将批量识别结果进行区域划分得到属地识别矩阵,并根据属地识别矩阵 每列非零元素数量来开辟缓存空间,合理分配缓存资源,避免资源浪费,进一步提高系统分 发效率。
[0099]
s42、所述异常检测单元实时对分发过程进行检测,若检测到属地信息为空或属地不在 接收地列表中,则标记该识别结果并阻止分发单元进行分发;在分发过程中由异常监测单元 进行检测,所述异常检测单元主要针对url的属地特性进行检测,若检测到url的属地为 空或者属地不在接收地列表中,则url标红显示,此条url不可以进行分发,特别地,用 户必须手动编辑url的属地,确保属地在接收地列表中时才可以进行数据分发。优选的, 用户编辑url属地后会同步更新域名管理模块中的缓存管理单元和数据库管理单元,进一 步,下次用户上传相同域名的url时,会识别成用户编辑后的属地;
[0100]
s43、所述重复性监测单元实时将已分发的识别结果放入分发池中,并将下一待分
发的 识别结果与所述分发池进行对比,若所述分发池中已包含该识别结果,则阻止分发单元进行 分发。优选的,利用重复性监测单元将用户已经分发的url生成的md5值放入分发池中, 将用户待分发的url生成md5值与分发池进行比对,提示用户url是否已下发过。
[0101]
实施例7
[0102]
结合实施例1说明本实施例,本实施例公开的一种数据智能识别分发执行方法,在s5 中,根据所述识别结果矩阵列的向量元素的差异性得到重塑矩阵,根据重塑矩阵每列非零元 素个数,采用接收地管理模块自适应的开辟缓存空间进行数据分发,同时调用所述接收地管 理模块中的接收地列表与识别出的属地进行对比,确保接收地的名称与属地保持一致,则允 许数据分发至接收地。
[0103]
将识别结果通过数据分发模块按照区域进行划分得到识别结果矩阵,根据识别结果矩 阵列向量元素的差异性得到重塑矩阵,根据重塑矩阵每列非零元素个数自适应的开辟缓存空 间进行url数据分发最终分发至接收地;根据识别结果矩阵每列非零元素个数自适应的开 辟缓存空间进行url数据分发最终分发至接收地;
[0104]
实施例8
[0105]
结合实施例1说明本实施例,本实施例公开的一种数据智能识别分发系统,包括采集 取证模块、属地识别模块、数据分发模块、域名管理模块和接收地管理模块,所述采集取证 模块的输出端与属地识别模块的输入端通讯连接,所述属地识别模块的输出端与所述数据分 发模块的输入端通讯连接,所述域名管理模块的输出端与所述属地识别模块的输入端通讯连 接,所述接收地管理模块的输出端与所述数据分发模块的输入端通讯连接;
[0106]
所述采集取证模块,用于对用户提交的数据进行采集取证;提供url的采集取证功能, 方便后续查看url的原始内容;
[0107]
所述属地识别模块,用于将采集到的数据进行分段和识别;用于提供url的域名的属 地、网站识别功能;根据属地识别模块识别出的属地下发给对应的接收地;
[0108]
所述数据分发模块,用于将完成识别的数据分发给对应的接收地;根据属地识别模块 识别出的属地下发给对应的接收地;
[0109]
所述域名管理模块,用于提供域名的属地信息,并为所述属地识别模块的数据识别提 供数据支撑;对域名的属地、网站信息进行管理,为属地识别模块提供数据支撑;
[0110]
所述接收地管理模块,用于对所有的接收地进行管理,并根据所述数据分发模块的分 发任务提供数据支撑。对所有的接收地进行管理,并为数据分发提供数据支撑。
[0111]
实施例9
[0112]
结合实施例1说明本实施例,本实施例公开的一种数据智能识别分发系统,所述采集 取证模块包括采集单元、抽取单元、截图单元和下载单元;所述采集单元用于对用户提交的 数据进行采集,所述抽取单元用于对用户提交的数据进行抽取,所述截图单元用于对数据页 面进行截图,所述下载单元用于对抽取的数据进行下载;
[0113]
所述属地识别模块包括域名提取单元、策略管理单元和属地识别单元;所述域名提取 单元用于对数据进行提取并将提取到的域名放入域名池中,所述策略管理单元用于设置阈值 并根据当前域名的总数据量与阈值的对比结果按预设规则调用所述属地识别单元,所述属地 识别单元用于根据提取到的域名获取敌营的属地信息;
[0114]
所述域名管理模块包括缓存管理单元、数据库管理单元、备案地查询单元和地域
显示 单元;所述缓存管理单元用于识别当前缓存库中是否有与所述数据对应的地域信息,所述数 据库管理单元用于识别当前数据库中是否有与所述数据对应的地域信息,所述备案地查询单 元用于通过备案地查询网址进行识别与所述数据对应的地域信息,并将查询到的地域信息新 建至所述数据库和所述缓存库;
[0115]
所述数据分发模块包括数据分发单元、异常检测单元和重复性检测单元;所述分发单 元用于对识别结果进行分发,所述异常检测单元用于对分发过程进行检测,所述重复性监测 单元用于待分发的识别结果与分发池进行对比。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献