一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种多源异构电网信息采集系统的制作方法

2022-02-20 06:29:12 来源:中国专利 TAG:


1.本发明涉及电网资讯收集技术领域,尤其涉及一种多源异构电网信息采集系统。


背景技术:

2.互联网型企业在发展过程中,要强化先进信息、通信、控制技术应用、全面建设信息支撑体系、价值创造体系之间的网络互连互通,构建泛在互联、高效互动、智能开放的电网规划资讯。时刻关注相关热点新闻、政策法规,把握发展方向。互联网企业的发展业务知识涉及面广,业务流程复杂,随着各类信息化系统建设的不断深入,数据汇聚不断丰富,企业需要准确判断国际竞争形势,把握发展方向。在抓取网络资讯的过程中,采用一种网络爬虫的技术,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
3.现有的技术中随着互联网的普及,各种信息资源铺天盖地而来,信息呈现了数据量大,数据格式不统一,信息密度和可靠性较低等问题,而电力分析相关信息需要的目标数据多样,所以这样就给采集造成了非常大的困难。


技术实现要素:

4.针对现有技术存在的不足,本发明目的是提供一种多源异构电网信息采集系统,能够快速准确的收集到电网所需的外网和内网的资讯,以解决现有的电网资讯获取的针对性不足、效率低下且获取的信息杂乱无序的问题。
5.为了实现上述目的,本发明是通过如下的技术方案来实现:一种多源异构电网信息采集系统,包括需求索引子系统、关联子系统、分布子系统、顺序子系统、采集子系统、文档采集库、音频采集库、视频采集库;
6.所述需求索引子系统包括特征提取模块以及采集划分模块;所述特征提取模块配置有特征提取策略,所述特征提取策略用于从采集任务清单中提取任务特征以生成采集子任务,所述采集划分模块量化采集子任务中的任务特征以生成任务采集值,当任务采集值落入预设的第一采集范围时,将采集子任务分配至关联子系统,当任务采集值落入预设的第二采集范围时,将采集子任务分配至分布子系统,当任务采集值落入预设的第三采集范围时,将采集子任务分配至顺序子系统;
7.所述采集子系统包括文档采集模块、音频采集模块和视频采集模块,所述文档采集模块配置文档采集策略,所述采集子系统通过文档采集策略筛选文档采集库内的文档信息以生成目标采集文档;所述音频采集模块配置音频采集策略,所述采集子系统通过音频采集策略筛选音频采集库内的音频信息以生成目标采集音频;所述视频采集模块配置视频采集策略,所述采集子系统通过视频采集策略筛选视频采集库内的视频信息以生成目标采集视频;
8.所述关联子系统包括文档关联模块、音频关联模块以及视频关联模块;所述文档关联模块从外部网络获取文档信息至所述文档采集库,并获取采集子系统输出的目标采集文档以生成文档扩展特征;所述音频关联采集模块以扩展文档特征为依据从外部网络获取
音频信息至所述音频采集库,并获取采集子系统输出的目标采集音频以生成音频扩展特征;所述视频采集模块以拓展音频特征为依据从外部网络获取视频信息至所述视频采集库;
9.所述分布子系统包括文档分布模块、音频分布模块以及视频分布模块;所述文档分布模块提取任务特征中的采集地址,所述文档分布模块根据采集地址从外部网络获取文档信息至所述文档采集库,所述音频分布模块提取任务特征中的音频标签,所述音频分布模块根据音频标签从外部网络获取音频信息至音频采集库,所述视频分布模块提取任务特征中的视频偏好,并根据视频偏好登录对应的视频账户,并采集视频账户获取的视频信息输入至视频采集库;
10.所述顺序子系统包括第一分类模块、第二分类模块,所述第一分类模块配置有预设的采集存储比,从外部网络获取文档信息、音频信息、视频信息至文档采集库、音频信息库、视频信息库,获取的每一文档信息、音频信息、视频信息的大小不超过所述的采集存储比;第二分类模块根据采集子系统生成的目标采集文档、目标采集音频、目标采集视频获取对应全部的文档信息、音频信息、视频信息至对应的文档采集库、音频信息库、视频信息库。
11.进一步的,信息存储子系统,所述信息存储子系统用于收集外部网络的信息并存储至对应的信息库,所述信息存储子系统包括收集分类更新模块(11)、外网收集模块(12)、外网处理模块(13)以及内网处理模块(14);
12.所述收集分类更新模块(11)用于对需要收集的资讯信息进行分类,然后对不同种类的资讯信息设置不同的收集特征,同时根据外网收集模块(12)和内网收集模块收集到的资讯信息进行类别更新,并更新对应的收集特征;
13.所述外网收集模块(12)用于根据收集分类更新模块(11)的收集特征对外网资讯进行收集;
14.所述外网处理模块(13)用于对外网收集模块(12)收集到的资讯信息进行分析处理,并筛选掉无用的外网资讯信息,将有用的外网资讯信息进行分类存储至对应的信息库;
15.所述内网处理模块(14)用于根据外网处理模块(13)处理后的外网资讯信息对内网资讯信息进行处理,并筛选掉无用的内网资讯信息,将有用的内网资讯信息进行分类存储至对应的信息库。
16.进一步的,所述文档采集策略包括从所述采集子任务中提取采集关键词,比对文档信息库中的文档信息对应采集关键词出现的频次,将不同采集关键词出现频次以加权的方式计算文档采集值,若文档采集值超过文档基准阈值,则确定对应的文档信息为目标采集文档。
17.进一步的,所述音频采集策略包括从所述采集子任务中提取采集关键词,根据采集关键词生成对应的采集特征音频,比对音频信息库中是否存在对应的采集特征音频,若存在采集特征音频,则确定对应的音频信息为目标采集音频。
18.进一步的,所述视频采集策略包括从所述采集子任务中提取采集关键词,根据采集关键词的重要程度将采集关键词划分为第一类关键词和第二类关键词,根据第一类采集关键词生成对应的采集特征音频,根据第二类关键词生成对应的采集特征图形,比对视频信息库中对应的视频信息的音频信息流中是否存对应的采集特征音频,若存在采集特征音频,则获取对应的视频信息并判断视频信息流中是否出现采集特征图形。
19.进一步的,所述收集分类更新模块(11)包括主分类单元(111),所述主分类单元(111)用于根据预设定的分类方式将需要收集的资讯信息进行分类;
20.所述主分类单元(111)配置有主分类策略,所述主分类策略包括:将需要采集的资讯信息分为视频类资讯、音频类资讯以及文档类资讯;
21.所述主分类策略还包括第一分类子策略、第二分类子策略以及第三分类子策略,所述第一分类子策略包括:根据视频类资讯的大小将视频信息划分为第一类视频资讯、第二类视频资讯和第三类视频资讯;
22.所述第二分类子策略包括:根据音频类资讯的大小将音频信息划分为第一类音频资讯、第二类音频资讯和第三类音频资讯;
23.所述第三分类子策略包括:根据文档类资讯的大小将文档信息划分为第一类文档资讯、第二类文档资讯和第三类文档资讯。
24.进一步的,所述收集分类更新模块(11)还包括更新单元(112),所述更新单元(112)用于对外网收集模块(12)以及内网处理模块(14)新产生的资讯类别进行更新;
25.所述更新单元(112)配置有更新策略,所述更新策略包括:将需要收集的资讯类别增加一个其他更新类别资讯,所述其他更新类别资讯包括若干子更新类别资讯,将若干子更新类别资讯根据更新的前后顺序进行标号,依次标记为lzg1至lzgn,其中,lzg1为第一个更新的子更新类别资讯,lzgn为第n个更新的子更新类别资讯,lzg为子更新类别资讯的代表符号,1至n依次对应子更新类别资讯的顺序。
26.进一步的,所述外网收集模块(12)包括第一外网收集单元(121)、第二外网收集单元(122)、第三外网收集单元(123)以及第四外网收集单元(124);所述第一外网收集单元(121)用于收集外网中的视频类资讯,所述第二外网收集单元(122)用于收集外网中的音频类资讯,所述第三外网收集单元(123)用于收集外网中的文档类资讯;
27.所述第一外网收集单元(121)配置有第一外网收集策略,所述第一外网收集策略包括:当采集到外网中的第一类视频资讯、第二类视频资讯以及第三类视频资讯时,将第一类视频资讯进行直接收集存储,将第二类视频资讯传输至外网处理模块(13),将第三类视频资讯传输至人工处理终端(2);
28.所述第二外网收集单元(122)配置有第二外网收集策略,所述第二外网收集策略包括:当采集到外网中的第一类音频资讯、第二类音频资讯以及第三类音频资讯时,将第一类音频资讯进行直接收集存储,将第二类音频资讯传输至外网处理模块(13),将第三类音频资讯传输至人工处理终端(2);
29.所述第三外网收集单元(123)配置有第三外网收集策略,所述第三外网收集策略包括:当采集到外网中的第一类文档资讯、第二类文档资讯以及第三类文档资讯时,将第一类文档资讯进行直接收集存储,将第二类文档资讯传输至外网处理模块(13),将第三类文档资讯传输至人工处理终端(2)。
30.进一步的,所述外网处理模块(13)包括第一处理单元(131)、第二处理单元(132)以及第三处理单元(133),所述第一处理单元(131)用于处理第二类视频资讯,所述第二处理单元(132)用于处理第二类音频资讯,所述第三处理单元(133)用于处理第二类文档资讯,所述第四处理单元用于对其他类资讯进行处理;
31.所述第一处理单元(131)配置有第一处理策略,所述第一处理策略包括:将第二类
视频资讯与预存储的视频进行重复视频帧比较,并通过第一比较公式得出视频相似值,当视频相似值小于等于第一视频阈值时,将该视频下载存储,当视频相似值大于第一视频阈值时,将该视频剔除;
32.所述第二处理单元(132)配置有第二处理策略,所述第二处理策略包括:将第二类音频资讯与预存储的音频进行转化文字后的比对,将一句话中的文字相似度大于第一音频文字比例的语句进行计数,并设定为音频相似语句数,并通过第二比较公式得出音频相似值,当音频相似值小于等于第一音频阈值时,将该音频下载存储,当音频相似值大于第一音频阈值时,将该音频剔除;
33.所述第三处理单元(133)配置有第三处理策略,所述第三处理策略包括:将第二类文档资讯与预存储的文档资讯进行比对,将一句话中的文字相似度大于第一文字比例的语句进行计数,并设定为文档相似语句数,并通过第三比较公式得出文档相似值,当文档相似值小于等于第一文档阈值时,将该文档下载存储,当文档相似值大于第一文档阈值时,将该文档剔除。
34.进一步的,所述第一比较公式配置为:所述第二比较公式配置为:所述第三比较公式配置为:其中,pspx为视频相似值,zcf为第二类视频资讯与预存储的视频的重复视频帧的数量,spz2为第二类视频资讯的视频长度,pypx为音频相似值,yyjx为音频相似语句数,yp2为第二音频资讯的音频长度,pwdx为文档相似值,ywdx为文档相似语句数,wd2为第二文档资讯的文档字数,k1、k2和k3分别为视频转换系数、音频转换系数以及文档转换系数。
35.本发明的有益效果:本发明在采集过程中,通过对不同格式的数据进行分类收集,根据不同特征要求设置分类方法,提高了整个系统的可靠性,通过对信息采集任务的不同情况的区分,通过不同的子系统选取对应的爬虫逻辑,以更高效、更精确为目标,完成信息采集,使电力信息的跨平台、多类型、多格式、分布离散导致的采集难点进行攻克,通过设置收集分类更新模块,能够对需要收集的资讯信息进行分类,然后对不同种类的资讯信息设置不同的收集特征,同时根据外网收集模块和内网收集模块收集到的资讯信息进行类别更新,并更新对应的收集特征,从而保证资讯收集的有针对性和有序性;
36.本发明通过外网收集模块能够根据收集分类更新模块的收集特征对外网资讯进行收集,通过外网处理模块能够对外网收集模块收集到的资讯信息进行分析处理,并筛选掉无用的外网资讯信息,将有用的外网资讯信息进行分类存储,通过内网处理模块能够根据外网处理模块处理后的外网资讯信息对内网资讯信息进行处理,并筛选掉无用的内网资讯信息,将有用的内网资讯信息进行分类存储,从而保证内网和外网的资讯获取的准确性和效率,提高电网资讯获取的针对性和有效性。
附图说明
37.通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
38.图1为本发明的系统原理框图;
39.图2位本发明信息存储子系统原理图。
40.图中:1、信息存储子系统;11、收集分类更新模块;111、主分类单元;112、更新单元;12、外网收集模块;121、第一外网收集单元;122、第二外网收集单元;123、第三外网收集单元;124、第四外网收集单元;13、外网处理模块;131、第一处理单元;132、第二处理单元;133、第三处理单元;14、内网处理模块;15、人工处理终端;2、需求索引子系统;21、特征提取模块;22、采集划分模块;3、关联子系统;31、文档关联模块;32、音频关联模块;33、视频关联模块;4、分布子系统;41、文档分布模块;42、音频分布模块;43、视频分布模块;5、顺序子系统;51、第一分类模块;52、第二分类模块;6、采集子系统;61、文档采集模块;62、音频采集模块;63、视频采集模块;7、文档采集库;8、音频采集库;9、视频采集库。
具体实施方式
41.为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
42.请参阅图1,一种多源异构电网信息采集系统,包括需求索引子系统2、关联子系统3、分布子系统4、顺序子系统5、采集子系统6、文档采集库7、音频采集库8、视频采集库9、信息存储子系统1;
43.所述需求索引子系统2包括特征提取模块21以及采集划分模块22;所述特征提取模块21配置有特征提取策略,所述特征提取策略用于从采集任务清单中提取任务特征以生成采集子任务,所述采集划分模块22量化采集子任务中的任务特征以生成任务采集值,当任务采集值落入预设的第一采集范围时,将采集子任务分配至关联子系统3,当任务采集值落入预设的第二采集范围时,将采集子任务分配至分布子系统4,当任务采集值落入预设的第三采集范围时,将采集子任务分配至顺序子系统5;首先,需求索引子系统2会根据目前的采集任务清单,例如采集关于节能环保的信息,或者采集低碳信息、限电信息等等,系统根据外部导入的清单,提取对应的采集特征,这个采集特征的提取是根据系统设置的需求特征数据库,数据库中存储有相关的关键词,然后根据关键词匹配对应的采集任务清单中的任务就可以提取任务特征,例如需求特征数据库中存储有“环保”“电量”“低碳”都记载在采集任务清单中,就根据这三个关键词生成对应的采集子任务,需求特征数据库根据每个关键词配置有权重,权重反映了这个关键词的相关度,这个权重值是以整个外网出现这些关键词的频次为变量实时调整的,而如果权重高,则表示外网中存在对应的关键词较多,所以这个相对来说信息较为容易收集,而较低则说明信息较难收集,所以通过量化加权的方式对整体上的采集子任务的信息收集的难易度进行划分,通过不同的采集逻辑完成对应的采集任务。
44.所述采集子系统6包括文档采集模块61、音频采集模块62和视频采集模块63,所述文档采集模块61配置文档采集策略,所述采集子系统6通过文档采集策略筛选文档采集库7内的文档信息以生成目标采集文档;所述音频采集模块62配置音频采集策略,所述采集子系统6通过音频采集策略筛选音频采集库8内的音频信息以生成目标采集音频;所述视频采集模块63配置视频采集策略,所述采集子系统6通过视频采集策略筛选视频采集库9内的视频信息以生成目标采集视频;采集子系统6的作用是将已经到采集库内的数据以一定的逻辑实现采集,得到最精确的采集结果,也就是目标采集文档、音频、视频等等。而需要说明的
是,关联子系统3、分布子系统4、顺序子系统5的作用都是判断外网中哪些数据应当被筛选至对应的采集库中,而采集工作由采集子系统6进行,采集完成后,可以清空采集库。所述文档采集策略包括从所述采集子任务中提取采集关键词,比对文档信息库中的文档信息对应采集关键词出现的频次,将不同采集关键词出现频次以加权的方式计算文档采集值,若文档采集值超过文档基准阈值,则确定对应的文档信息为目标采集文档。文档采集策略通过关键词出现的频次计算,若一个文档中出现的频次高,则说明相关度高,因为一个采集子任务中会存在多个关键词,所以以加权的方式进行判断,从而判断较为接近的采集目标。所述音频采集策略包括从所述采集子任务中提取采集关键词,根据采集关键词生成对应的采集特征音频,比对音频信息库中是否存在对应的采集特征音频,若存在采集特征音频,则确定对应的音频信息为目标采集音频。音频采集则难度较大,因为如果需要对音频进行文字特征化,则非常耗时,所以本发明通过对关键词进行音频化,然后提取对应音频的特征,然后通过直接比对判断音频是否可以作为目标音频,提高了采集系统的处理效率。所述视频采集策略包括从所述采集子任务中提取采集关键词,根据采集关键词的重要程度将采集关键词划分为第一类关键词和第二类关键词,根据第一类采集关键词生成对应的采集特征音频,根据第二类关键词生成对应的采集特征图形,比对视频信息库中对应的视频信息的音频信息流中是否存对应的采集特征音频,若存在采集特征音频,则获取对应的视频信息并判断视频信息流中是否出现采集特征图形。而视频则比音频更加复杂,决定视频采集对采集系统的采集负荷、存储负荷也较大,所以通过关联子系统3、分布子系统4、顺序子系统5分别对对不同情况进行采集,数据量大,分布是否离散未知的情况,则通过关联子系统3进行采集,数据量一般,分布离散性高的情况,通过分布子系统4采集,数据量大,单个文件大小较大的情况,则通过顺序子系统5进行采集。
45.所述关联子系统3包括文档关联模块31、音频关联模块32以及视频关联模块33;所述文档关联模块31从外部网络获取文档信息至所述文档采集库7,并获取采集子系统6输出的目标采集文档以生成文档扩展特征;所述音频关联采集模块以扩展文档特征为依据从外部网络获取音频信息至所述音频采集库8,并获取采集子系统6输出的目标采集音频以生成音频扩展特征;所述视频采集模块63以拓展音频特征为依据从外部网络获取视频信息至所述视频采集库9;关联子系统3的逻辑是通过文档采集的结果为音频采集提供依据,再通过音频采集的结果为视频采集提供依据,因为分析音频数据、视频数据的分析量,存储量都会成倍增长,所以在可靠数据较多的情况下,尽可能通过采集逻辑减少这类数据,所以先将文档发送到对应的文档采集库7,然后通过采集子系统6先从文档采集库7中确定采集目标文档,然后根据这个文档中扩展的其他关键词去筛选得到对应的音频信息,相比而言,如果直接获取音频信息,则需要分析的数据量很大,处理效率就会大大降低,而本发明对文档中的关键词进行索引的方式确定音频文件,然后通过音频特征索引的方式确定视频文件,这样数据采集效率较高,对数据量大的情况有较好的解决效果。
46.所述分布子系统4包括文档分布模块41、音频分布模块42以及视频分布模块43;所述文档分布模块41提取任务特征中的采集地址,所述文档分布模块41根据采集地址从外部网络获取文档信息至所述文档采集库7,所述音频分布模块42提取任务特征中的音频标签,所述音频分布模块42根据音频标签从外部网络获取音频信息至音频采集库8,所述视频分布模块43提取任务特征中的视频偏好,并根据视频偏好登录对应的视频账户,并采集视频
账户获取的视频信息输入至视频采集库9;分布子系统4分别对文档、音频、视频设置不同采集方式,例如文档信息可以通过信息交互平台、新闻平台、政务平台等获取,每个平台的类型不同对应的地址不同,所以通过任务目标确定对应的获取地址,然后针对性的获取这个网址对应的文档,提高获取的可靠性,而如果是音频,则可以通过音频标签的方式快速获取,比如说音频标签中包括“电”的关键词的音频,如果对应该采集任务,则可以直接获取到音频采集库8,而视频分布模块43根据视频偏好登录对应的视频账户,通过视频平台的偏好推送策略为技术依据,为每个视频账户提前配置好后台的偏好,例如对a用户只看环保的视频,那么则可以直接通过a用户的视频信息获取到对应的视频存储至视频采集库9,从而获取对应的视频信息。
47.所述顺序子系统5包括第一分类模块51、第二分类模块52,所述第一分类模块51配置有预设的采集存储比,从外部网络获取文档信息、音频信息、视频信息至文档采集库7、音频信息库、视频信息库,获取的每一文档信息、音频信息、视频信息的大小不超过所述的采集存储比;第二分类模块52根据采集子系统6生成的目标采集文档、目标采集音频、目标采集视频获取对应全部的文档信息、音频信息、视频信息至对应的文档采集库7、音频信息库、视频信息库,顺序子系统5通过先采集文档、音频、视频的部分信息,然后如果满足条件,则再采集所有的信息,这样在数据量较大的情况下,可以保证处理效率,快速筛选无用信息。
48.信息存储子系统,所述信息存储子系统用于收集外部网络的信息并存储至对应的信息库,所述信息存储子系统包括包括收集分类更新模块11、外网收集模块12、外网处理模块13以及内网处理模块14。
49.所述收集分类更新模块11用于对需要收集的资讯信息进行分类,然后对不同种类的资讯信息设置不同的收集特征,同时根据外网收集模块12和内网收集模块收集到的资讯信息进行类别更新,并更新对应的收集特征。
50.所述收集分类更新模块11包括主分类单元111和更新单元112,所述主分类单元111用于根据预设定的分类方式将需要收集的资讯信息进行分类;所述更新单元112用于对外网收集模块12以及内网处理模块14新产生的资讯类别进行更新。
51.所述主分类单元111配置有主分类策略,所述主分类策略包括:将需要采集的资讯信息分为视频类资讯、音频类资讯以及文档类资讯;
52.所述主分类策略还包括第一分类子策略、第二分类子策略以及第三分类子策略,所述第一分类子策略包括:将视频类资讯分为第一类视频资讯、第二类视频资讯以及第三类视频资讯;其中,所述第一类视频资讯的大小小于等于第一视频存储大小,所述第二类视频资讯的大小大于第一视频存储大小且小于等于第二视频存储大小,所述第三类视频资讯的大小大于第二视频存储大小,且第二视频存储大小大于第一视频存储大小;
53.所述第二分类子策略包括:将音频类资讯分为第一类音频资讯、第二类音频资讯以及第三类音频资讯;其中,所述第一类音频资讯的大小小于等于第一音频存储大小,所述第二类音频资讯的大小大于第一音频存储大小且小于等于第二音频存储大小,所述第三类音频资讯的大小大于第二音频存储大小,且第二音频存储大小大于第一音频存储大小;
54.所述第三分类子策略包括:将文档类资讯分为第一类文档资讯、第二类文档资讯以及第三类文档资讯;其中,所述第一类文档资讯的大小小于等于第一文档存储大小,所述第二类文档资讯的大小大于第一文档存储大小且小于等于第二文档存储大小,所述第三类
文档资讯的大小大于第二文档存储大小,且第二文档存储大小大于第一文档存储大小。
55.所述更新单元112配置有更新策略,所述更新策略包括:将需要收集的资讯类别增加一个其他更新类别资讯,所述其他更新类别资讯包括若干子更新类别资讯,将若干子更新类别资讯根据更新的前后顺序进行标号,依次标记为lzg1至lzgn,其中,lzg1为第一个更新的子更新类别资讯,lzgn为第n个更新的子更新类别资讯,lzg为子更新类别资讯的代表符号,1至n依次对应子更新类别资讯的顺序。更新后的资讯类别在下一次进行内网和外网资讯收集时执行。
56.所述外网收集模块12用于根据收集分类更新模块11的收集特征对外网资讯进行收集。
57.所述外网收集模块12包括第一外网收集单元121、第二外网收集单元122、第三外网收集单元123以及第四外网收集单元124;所述第一外网收集单元121用于收集外网中的视频类资讯,所述第二外网收集单元122用于收集外网中的音频类资讯,所述第三外网收集单元123用于收集外网中的文档类资讯,所述第四外网收集单元124用于收集外网中的其他类资讯;
58.所述第一外网收集单元121配置有第一外网收集策略,所述第一外网收集策略包括:当采集到外网中的第一类视频资讯、第二类视频资讯以及第三类视频资讯时,将第一类视频资讯进行直接收集存储,将第二类视频资讯传输至外网处理模块13,将第三类视频资讯传输至人工处理终端15;
59.所述第二外网收集单元122配置有第二外网收集策略,所述第二外网收集策略包括:当采集到外网中的第一类音频资讯、第二类音频资讯以及第三类音频资讯时,将第一类音频资讯进行直接收集存储,将第二类音频资讯传输至外网处理模块13,将第三类音频资讯传输至人工处理终端15;
60.所述第三外网收集单元123配置有第三外网收集策略,所述第三外网收集策略包括:当采集到外网中的第一类文档资讯、第二类文档资讯以及第三类文档资讯时,将第一类文档资讯进行直接收集存储,将第二类文档资讯传输至外网处理模块13,将第三类文档资讯传输至人工处理终端15;
61.所述第四外网收集单元124配置有第四外网收集策略,所述第四外网收集策略包括:检索外网资讯中除去视频类资讯、音频类资讯以及文档类资讯的其他类资讯,对其他类资讯中的标题关键词进行获取,将标题中存在预设的比对关键词的资讯进行获取,并传输至人工处理终端15。
62.所述外网处理模块13用于对外网收集模块12收集到的资讯信息进行分析处理,并筛选掉无用的外网资讯信息,将有用的外网资讯信息进行分类存储;
63.所述外网处理模块13包括第一处理单元131、第二处理单元132以及第三处理单元133,所述第一处理单元131用于处理第二类视频资讯,所述第二处理单元132用于处理第二类音频资讯,所述第三处理单元133用于处理第二类文档资讯,所述第四处理单元用于对其他类资讯进行处理;
64.所述第一处理单元131配置有第一处理策略,所述第一处理策略包括:将第二类视频资讯与预存储的视频进行重复视频帧比较,并通过第一比较公式得出视频相似值,当视频相似值小于等于第一视频阈值时,将该视频下载存储,当视频相似值大于第一视频阈值
时,将该视频剔除;
65.所述第二处理单元132配置有第二处理策略,所述第二处理策略包括:将第二类音频资讯与预存储的音频进行转化文字后的比对,将一句话中的文字相似度大于第一音频文字比例的语句进行计数,第一音频比例可根据实际比较情况进行设定,比如可设定为90%,即相互比较的两个语句中必须有占比为90%以上的数字一致,才说明二者为相似语句。
66.并设定为音频相似语句数,并通过第二比较公式得出音频相似值,当音频相似值小于等于第一音频阈值时,将该音频下载存储,当音频相似值大于第一音频阈值时,将该音频剔除;
67.所述第三处理单元133配置有第三处理策略,所述第三处理策略包括:将第二类文档资讯与预存储的文档资讯进行比对,将一句话中的文字相似度大于第一文字比例的语句进行计数,第一文字比例可根据实际比较进行设定,如将第一文字比例设定为95%,则相互比较的两句话中,必须有95%以上的文字相似,则说明二者为相似语句。
68.并设定为文档相似语句数,并通过第三比较公式得出文档相似值,当文档相似值小于等于第一文档阈值时,将该文档下载存储,当文档相似值大于第一文档阈值时,将该文档剔除。
69.所述第一比较公式配置为:所述第二比较公式配置为:所述第三比较公式配置为:其中,pspx为视频相似值,zcf为第二类视频资讯与预存储的视频的重复视频帧的数量,spz2为第二类视频资讯的视频长度,pypx为音频相似值,yyjx为音频相似语句数,yp2为第二音频资讯的音频长度,pwdx为文档相似值,ywdx为文档相似语句数,wd2为第二文档资讯的文档字数,k1、k2和k3分别为视频转换系数、音频转换系数以及文档转换系数。
70.所述内网处理模块14用于根据外网处理模块13处理后的外网资讯信息对内网资讯信息进行处理,并筛选掉无用的内网资讯信息,将有用的内网资讯信息进行分类存储。
71.所述内网处理模块14配置有内网处理策略,所述内网处理策略包括:根据外网处理模块13的处理结果对内网的资讯信息进行内网筛选模型的建立,根据内网筛选模型得出对应的内网中的视频类资讯、音频类资讯、文档类资讯以及其他类资讯。
72.所述人工处理终端15配置有人工处理策略,所述人工处理策略包括:将外网和内网中的其他类资讯进行人工筛选,将与电网资讯相符合的资讯依次设置为新类别资讯,并传输至更新单元112。
73.工作原理:在进行电网资讯收集时,通过通过设置收集分类更新模块11,能够对需要收集的资讯信息进行分类,然后对不同种类的资讯信息设置不同的收集特征,同时根据外网收集模块12和内网收集模块收集到的资讯信息进行类别更新,并更新对应的收集特征;在对外网资讯进行收集时,通过外网收集模块12能够根据收集分类更新模块11的收集特征对外网资讯进行收集,通过外网处理模块13能够对外网收集模块12收集到的资讯信息进行分析处理,并筛选掉无用的外网资讯信息,将有用的外网资讯信息进行分类存储;在对内网资讯进行收集时,通过内网处理模块14能够根据外网处理模块13处理后的外网资讯信息对内网资讯信息进行处理,并筛选掉无用的内网资讯信息,将有用的内网资讯信息进行
分类存储;同时对于内网和外网中的其他类资讯,可以通过人工处理终端15进行处理,生成新的资讯类别并穿出值更新单元112中进行其他更新类别资讯的更新,再次收集时,即会对更新后的类别资讯进行收集。
74.最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献