一种面向特定研发机构的服务平台的制作方法

2022-03-05 04:01:31 来源：中国专利 TAG：

1.本发明涉及大数据技术领域，尤其涉及一种面向特定研发机构的服务平台。

背景技术：

2.目前，新型研发机构在创新“土壤”上迅速成长，已成为产学研金深度融合的粘合剂，科技型企业的孵化器，高端人才的集聚地，颠覆性创新的发生器。
3.对于新型研发机构管理部门来讲，搭建新型研发机构数据库监测平台一方面有利于以线上的形式定期了解机构发展，有效监测机构运营，同时对于分析、统计机构的相关数据，掌握全省新型研发机构的发展趋势、特点，进而对接下来相关专项、政策的制定具有积极作用。
4.现有技术中研发机构管理部门只能通过人工对研发机构的数据进行管理，管理成本大，数据管理效率低。
5.因此，现有技术还有待于改进和发展。

技术实现要素：

6.鉴于上述现有技术的不足，本发明提供了一种面向特定研发机构的服务平台，旨在解决现有技术中研发机构管理部门只能通过人工对研发机构的数据进行管理，管理成本大的问题。
7.本发明的技术方案如下：
8.本发明第一实施例提供了一种面向特定研发机构的服务平台，包括：
9.机构风采模块，用于对特定研发机构列表进行展示，并生成企业自评表，所述企业自评表是企业进行特定研发机构评定的评估表；
10.数据采集模块，用于采集特定研发机构的相应指标数据；
11.数据源管理模块，用于显示数据的采集源列表，并对异常采集源进行预警；
12.统计中心模块，用于对特定研发机构对应的政策、标签及任务进行统计；
13.资讯管理模块，用于对特定研发机构的资讯进行管理；
14.机构管理模块，用于对特定研发机构的部门、账号及权限进行设置。
15.进一步地，所述平台包括：
16.政策智能采集模块，用于自动抓取特定研发机构相关的政策数据。
17.进一步地，所述平台还包括：
18.政策数据整合模块，用于对所述政策数据进行分类，并根据分类进行标签定义。
19.进一步地，所述政策智能采集模块包括：
20.数据抓取源设置单元，用于获取用户指定的政策采集源；
21.定时采集单元，用于根据用户设置的频率定时对政策采集源的政策数据进行采集。
22.进一步地，所述政策智能采集模块还包括：
23.政策采集源管理单元，用于对政策采集源对应的网站名称、url、归类栏目及采集状态进行管理，若检测到异常，则发送预警信息至管理人员终端。
24.进一步地，所述政策智能采集模块还包括：
25.政策采集分析单元，用于对政策采集情况、采集源异常情况、采集区域、政策发布情况、政策类别、使用率较高的标签、政策点击率排行及编辑政策统计进行分析。
26.进一步地，所述平台还包括：
27.研发机构运行表管理模块，用于根据第三方系统的数据字段，对平台的年度运行表字段进行修正和更新。
28.进一步地，所述研发机构运行表管理模块包括：
29.运行表填报时间设置单元，用于设定运行表的填报时间；
30.运行表填写提醒单元，用于检测到满足设定运行表的填报时间后，通过邮件或短信的形式通知特定研发机构进行填报；
31.运行表数据审查单元，用于对特定研发机构填报的数据进行形式审查，对形式审查检测的错误进行提醒；
32.数据监测单元，用于对特定研发机构的年度执行报告相关指标数据，进行监测和分析，若分析结果为不良数据，则进行标注提醒。
33.进一步地，机构管理模块包括：
34.账号列表信息查看单元，用于对系统中用户的账号列表信息进行查看，其中所述账号列表信息包括姓名、所属单位、角色、手机号码、电话号码、登录账号、登录手机号、最后一次登陆时间、账号状态。
35.进一步地，平台还包括：
36.日志获取模块，用于对平台的参数进行设置，并对系统日志进行记录。
37.有益效果：本发明实施例通过动态采集业务数据、运行情况信息，利用大数据技术进行关联分析、因果分析，实现智能统计、监测预警，降低管理成本，提高数据管理效率。
附图说明
38.下面将结合附图及实施例对本发明作进一步说明，附图中：
39.图1为本发明一种面向特定研发机构的服务平台的功能模块示意图；
40.图2为本发明一种面向特定研发机构的服务平台的具体应用实施例的数据采集过程示意图；
41.图3为本发明一种面向特定研发机构的服务平台的较佳实施例的数据采集应用示意图；
42.图4为本发明一种面向特定研发机构的服务平台的较佳实施例的数据处理与分析流程示意图；
43.图5为本发明一种面向特定研发机构的服务平台的较佳实施例的数据标准的组织架构示意图；
44.图6为本发明一种面向特定研发机构的服务平台的较佳实施例的数据标准化流程示意图。
具体实施方式
45.为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
46.以下结合附图对本发明实施例进行介绍。
47.本发明实施例提供了一种面向特定研发机构的服务平台，请参阅图1，图 1为本发明一种面向特定研发机构的服务平台较佳实施例的功能模块示意图。如图1所示，其包括：
48.机构风采模块11，用于对特定研发机构列表进行展示，并生成企业自评表，所述企业自评表是企业进行特定研发机构评定的评估表；
49.数据采集模块12，用于采集特定研发机构的相应指标数据；
50.数据源管理模块13，用于显示数据的采集源列表，并对异常采集源进行预警；
51.统计中心模块14，用于对特定研发机构对应的政策、标签及任务进行统计；
52.资讯管理模块15，用于对特定研发机构的资讯进行管理；
53.机构管理模块16，用于对特定研发机构的部门、账号及权限进行设置。
54.具体实施时，本发明实施例的特定研发机构是指新型研发机构，新型研发机构是聚焦科技创新需求，主要从事科学研究、技术创新和研发服务，投资主体多元化、管理制度现代化、运行机制市场化、用人机制灵活的独立法人机构，可依法注册为科技类民办非企业单位(社会服务机构)、事业单位和企业。
55.本发明实施例的面向特定研发机构的服务平台系列框架采用thinkphp框架来构建系统各层。thinkphp借鉴了国外很多优秀的框架和模式，使用面向对象的开发结构和mvc模式，采用单一入口模式等，融合了struts的action 思想和jsp的taglib(标签库)、ror的orm映射和activerecord模式，封装了curd和一些常用操作，在项目配置、类库导入、模版引擎、查询语言、自动验证、视图模型、项目编译、缓存机制、seo支持、分布式数据库、多数据库连接和切换、认证机制和扩展性方面均有独特的表现。每层在应用程序中都有明确的责任，不应该和其它层混淆功能，从而减低系统各层代码的耦合程度，提高了系统的稳定性和可扩展性。
56.本发明实施例的机构风采模块主要是对新型研发机构进行展示，还可生成企业自评表。机构风采模块包括会员管理、机构列表、企业自评三个子单元，会员管理子单元用于对加入服务平台的会员进行管理。机构列表子单元用于对新型研发机构的列表进行展示，企业自评表子单元用于生成评估表，评估表包括新型研发机构的认定条件，企业可登录平台后根据自身情况，进行特定研发机构的评估。
57.数据采集模块用于采集特定研发机构的相应指标数据，并将相应指标数据进行展示。数据采集模块包括采集列表、待审核类表和通知列表三个子单元，采集列表子单元用于对采集到的新型研发机构的相应指标数据且经过审核的指标数据进行展示，待审查类表子单元用于对已采集的新型研发机构的相应指标数据且待管理员进行审核的指标数据类表进行展示，通知列表子单元用于对通知数据进行展示。
58.数据源管理模块用于显示数据的采集源列表，并对异常采集源进行预警。数据源管理模块包括全部采集源列表、异常采集源和采集源预警三个子单元，全部采集源列表用于获取数据来源的全部并显示，其中数据的采集源指的是采集特定研发机构的相应指标数据的来源，异常采集源单元，用于对异常采集源进行判定，采集源预警用于对判定为异
常采集源时，将异常信息发送至管理人员终端。
59.统计中心模块用于对特定研发机构相关的数据进行统计，进一步的，对采集、政策、标签及任务进行统计。统计中心模块具体用于供机构统计、执行表统计、系统日志等数据统计功能，另外新增政策资讯统计，统计内容包含但不限于政策采集情况，采集源异常分析，采集区域分析、政策的发布情况、政策地区/类别结构、热门标签、政策点击率排行，编辑员编辑政策统计等。
60.优化数据图表统计功能，提供个性化的图表展示方式。平台采用echarts 可视化工具展示统计数据，采用json数据格式，能够在不同的终端设备上流畅运行。echarts遵循系统整体开发的原则，具有高可扩展性而言简单易用。echarts可以将获取到数据以散点图、柱状图、折线图、饼状图等各类可视化图表呈现，该类图表形式多样化并且可读性强。动态数据的可视化技术可以很清晰地将一些复杂的数据以图形化的方式呈现。
61.资讯管理模块用于对采集到的新型研发机构相关的资讯进行管理。其中资讯包括对采集到的新型研发机构的政策数据。资讯管理模块包括对政策的编辑、审核、退回编辑以及自动分配。
62.机构管理模块用于对新型研发机构平台的账号、部门及权限进行设置。机构管理模块还包括企业管理子单元、机构管理子单元和异常机构列表展示子单元。企业管理子单元用于统一管理所有已注册企业，可管理和维护企业基本信息，包含但不限于：企业logo、企业名称、注册地址、注册时间、注册资金、统一社会信用代码、企业类型、所属分类、所属行业、所属领域、负责人及其联系方式、企业简介等；普通注册企业可转化为新型研发机构。机构管理子单元用于统一管理已成为新型研发机构的用户列表；可针对机构分类、入库年份、技术领域、成立年份、销售规模、人员规模、知识产权情况、经营产品、企业关键字等条件进行多重检索。可查看机构自评表与年度运行表。异常机构列表显示子单元用地展示年度运行表数据出现异常的机构；动态监测机构年度运行表相关指标并进行分析，对异常数据进行标注提醒。例如：多个指标数据为零的，进行异常标注；多个指标数据连续两年未发生变化的，进行异常标注。
63.本发明实施例的面向特定研发机构的服务平台可实现一套账号登录平台办理所有事务服务，有效提升管理效能。用信息化手段实现业务管理的“信息公开、申报平等、论证充分、审批制衡、责任追究”，有效提升业务管理的效率和公共服务能力。
64.实现治理精准化。动态采集业务数据、运行情况信息，利用大数据技术进行关联分析、因果分析，实现智能统计、监测预警，达到治理的精准化。
65.实现决策科学化。以全局科技数据信息为基础，从宏观、中观、微观层面对新型研发机构科技发展情况和趋势进行统计分析、监测预警，全面提升科技决策的科学化。
66.进一步地，资讯管理模块还包括信息资讯管理单元和科技成果管理单元，信息资讯管理单元用于管理政策及资讯的发布、排序、删除和修改，科技成本管理单元用于对科技成果及技术的发布进行管理。
67.进一步地，本发明实施例的数据源对应数据库主要包含指标库、项目库、政策库、成果库、案例库和动态新闻库等6个子库，系统运行数据主要涵盖结构化数据、非结构化数据和半结构化数据三种类型，包括电子文档和纸质文档两种形式。非结构化数据包括视频、音频、图片、图像、文档、文本等形式，半结构化数据包括邮件、html、报表、资源库等。
68.进一步地，数据采集模块根据不同的数据源以及不同的分析目的，新型研发机构数据库建设，数据采集的方法主要采用集中式采集、分布式采集、实时采集和离线采集等4类。前两者是按采集方式进行划分，后两者则是根据分析方式进行划分。集中式采集即从一个或多个数据源采集数据，并集中到一个文件或一个数据库中。而分布式采集则是从多个数据源同时采集数据，但采集到的数据并不是存储于一个单一的存储对象中，而是分撒存储于由多个计算机组成的计算集群中，其内容的一致性和完整性则由集群中的控制服务器来维护。采集过程如图2所示。
69.实时采集和离线采集则对应于实时分析和离线分析两种方式，这两种方式最大的区别在于，实时采集会将数据转换成流的方式直接参与实时分析，属于采集与分析同时进行，一般用于对时效性要求很高的实时监控场合。而离线采集则只将数据存储于计算机或集群中，这种存储既可以是集中式也可以是分布式，但其采集本身并不与离线分析进行直接对接，离线采集多用于案例分析、趋势分析等。在技术实现上，这4种方式在第一阶段均需要使用网络爬虫技术和传感器技术来实现，而与传统采集最大的区别，在于数据量巨大而引起的后续集成与存储的问题。因此，数据采集必须使用大数据采集技术来实现。而在现有的大数据技术中，flume是较为理想的数据采集框架，在与网络爬虫和传感器采集程序建立数据连接后，其采集的数据既可以直接离线存储至数据集群或单一的文件及数据库中，也可以通过kafka框架，将数据以流式的方式直接输出至大数据实时计算框架storm中，参与实时计算。应用过程如图3所示。
70.一是接入数据管理。接入数据主要包括新型研发机构运行相关指标数据。接入数据管理实现把原来零散、格式不一的数据收集起来，通过平台统一标准、格式的数据表单，导入到系统的数据库中，把数据有机地整合起来，提高数据的共享性和查询效率。其功能主要包括系统交换接入的数据和系统直报的数据进行统一维护、存储管理。
71.二是交换接入数据管理。接入数据的抽取、检查、整理、转换、加载入库管理；交换接入数据的分类台账管理。交换接入数据管理主要功能包括定义设计交换接入数据规范模板；交换接入数据的抽取、检查、整理、转换、加载入库管理；交换接入数据的分类台账管理。
72.三是系统直报数据管理。系统直报数据管理功能主要是针对无法通过交换接入的部门和重点机构，提供在线数据直报功能和批量数据导入功能。新型研发机构运行相关指标数据，通过系统统一格式的表单录入到系统数据库中，系统会根据系统内部预设的字段分类对数据进行归类，方便上层应用系统使用。系统提供对数据的导入、导出功能。利用excel表格，按照指定的格式录入，实现数据的批量导入；数据导出是把系统中需要提取的数据，导出到excel 当中,或者把统计、分析后的数据和图例按系统设定的格式导出，方便编辑或供其他需要使用。
73.四是互联网数据采集。对于互联网信息的采集，利用互联网信息爬虫技术，采集新型研发机构相关运行数据，根据数据采集客户的需求，配置好采集规则 (网页下载规则，网页解析规则等)，从互联网的海量数据中采集用户自己感兴趣的数据。主要功能包括：
74.网页下载配置：根据需求拟定下载规则，登录设置，下载策略设置。主要供网页下载进程使用；
75.网页下载进程：依据已经制定的规则从网页下载数据。等待网页解析进程进行解
析；
76.网页解析配置：制定解析规则，选择修正模型，对网页解析配置进行数据采集测试；
77.网页解析进程：对已经下载到的网页解析修正，通过插件输入到指定的存储方式；
78.采集任务配置：网页的下载配置和解析配置的相互组合，接着设定不同的输出方式；
79.数据的导入，导出，备份等：将采集任务及下载好的数据进行备份，对数据进行导入或者导出，以便发布在系统或其他平台中。
80.新型研发机构数据资源与大数据的“4v”特征即：数据体量巨大(volume)、数据类型繁多(variety)、价值密度低(value)、处理速度快(velocity)完全相符，运用这大量复杂的数据难度较大，必须经过数据结构化处理、数据质量评估及数据清洗、数据规范化、数据融合与摘取等一系列复杂技术的处理。首先要进行数据结构化处理，对原始数据进行解析，提取出需要的信息，再进一步将其转换成结构化数据。处理后的数据还要进行质量评估，如果发现数据中存在问题，则采取进一步的数据清洗措施。用户可以定义一些数据清洗规则，批量化地处理数据中存在的质量问题，提高数据清洗的效率。从多个数据源采集到数据，其类型、结构各不相同，因此将其集成统一成一种数据，才能进入后续的数据分析工作。数据集成涉及的工作主要有数据异构性的消除以及数据存储两项。异构性消除一般通过数据标注方法来完成，当然在标注之前还需要进行去重、去冗余等数据清洗的预处理工作。目前本体标注是常用的自动化数据标注技术。
81.数据清洗还有一项重要的内容是数据规范化，这也是数据准备中常见的问题。规范化有简单的底层数据层面的，如数据类型转换、单位变换、格式表换等，也有较为复杂的数据项规范化处理，如电话号码、邮编、地址等。数据的规范化处理需要根据应用的需求特点，确定数据粒度和表达方式。构建统一的监测信息采集配给中心,实现对各个监测领域所需的监测资源集中的采集管理。各个领域监测服务将需要监测的目标站点提交给监测信息采集配给中心,其中控服务器统一对这些目标站点进行管理,并根据站点特征合并重复的采集站点和站点栏目。采集任务管理器根据每个监测领域对目标站点的采集频次要求, 一天之内按一定的频次,启动相应的采集任务。这些采集任务被分配给各个分布式的采集器。各采集器从互联网上按要求获取目标站点的数据。所采集到的目标站点的数据被统一存储到监测信息采集配给中心的数据仓储中,经过数据的查重对比等处理,识别出新的信息资源。之后,按照每个监测领域提交的目标站点信息,分别分散配给相关的监测领域,以进一步实现特定领域的情报价值计算。
82.将多个数据集(很可能来自于多个数据源)融合到一起，可使数据内容更丰富。数据融合是数据集整合的过程，有些分析任务未必需要全部整合后的数据，可能仅需要一部分数据支撑分析任务。在这种情况下，需要从数据集中提取部分数据(如一些样本或者数据片段)，降低数据量，供数据分析模型实现分析操作。这一过程称作数据摘取，它需要根据任务的特点摘取相关数据。数据融合最早用于军事领域，数据集成后的多源数据是数据融合的加工对象，协调优化和综合处理是数据融合的核心。比较常用的数据融合技术主要有：表决法、模糊衰退、贝叶斯汇集技术、bp神经网络、卡尔曼滤波法、d-s理论等方法。
83.进一步地，平台包括：
84.政策智能采集模块，用于自动抓取特定研发机构相关的政策数据。
85.具体实施时，为了进一步提升服务平台的实用性，本发明实施例可实现一个自动抓取政策的政策智能采集模块。管理人员只需要对抓取后的政策进行简单编辑、贴标签并选择发布，大大减少政策采集时间，提高政策发布效率，并方便用户掌握及时、全面掌握最新政策动态。
86.进一步地，平台还包括：
87.政策数据整合模块，用于对所述政策数据进行分类，并根据分类进行标签定义。
88.具体实施时，为提高政策采集后的处理效率，政策数据整合模块对采集的政策进行简单预处理，采用lda模型对政策文本主题进行挖掘，对政策进行标签处理及简单初步分类，管理员用户无需过多的编辑工作，审核后即可发布需要发布的政策。最终实现用户可以通过政策分类、适用地区、关键词搜索等功能查询到所需的政策信息。
89.政策数据整合模块对采集的政策进行简单预处理可采用可以智能分析所提取出来的基础信息。而数据挖掘结构本身却会受经济信息影响，难以构建数据收集机制，所以，在实际应用方面，数据信息的预处理是不容小觑的管理机制与控制措施。通过经济统计预处理，可以统筹划定并分析数据差距、不真实性以及不正确性。而数据清理的过程则是处理基础数据问题的过程，可以选择使用均值法清理方法、平滑方法或者是预测方法。
90.中，在选用均值法数据处理的过程中，可以均值处理基础数据当中的噪声数据以及数据点空值，以保证数据库可以借助属性均值填充并补足数据方面的空白。只有在确保数据挖掘系统在基础数据分析结构方面足够到位，才能够使统计分析数据更加具有实效性与完整性。而在分析数据点取值方面，一般会选择使用的方式。
91.i-k而在选用平滑法对数据进行处理的时候，即可统一化地计算基础数据空值和噪声数据，并与加权平均数处理机制相互结合，进一步分析所提取数据的影响权重值，以确保实际计算的结果更为真实。可以选用真实。可以选用式针对数据点取值展开分析。在公式当中，wj代表了cj点实际权值。应用数据挖掘技术以后，即便是同一地区数据信息，如果统计主体与标准不同，也一定要采用相应的数据集成体系，保证数据集成效果得以优化，增强数据统计的准确程度，而这同样也是数据挖掘技术始终追求的目标。
92.一方面，应深度整合模式集成结构。因经济活动当中的数据量较大且种类相对复杂，所以有必要系统且深入地处理经济数据信息集成结果及其数据的呈现模式。其中，使用数据挖掘技术的时候，为对比分析std-id与std-no，需游侠地对比含有元数据模块，确保实体识别效率得到保障，满足质量标准要求。另一方面，应深入分析人冗余的问题，因数据挖掘技术从本质上来讲就是深加工数据的过程。在这种情况下，要想确保经济统计价值完整，就必须保证技术模型处于最简的状态，并针对正相关关系数据实时集中化精简性地操作，综合考虑冗余属性，细化处理问题数据。其中，以人均国民生产总值为例，数据信息主要是利用国内生产总值与人口属性进行计算并得出，所以数据必须要经过精简操作，借助公式即判定冗余属性。在公式当中，主要表示的属性就是a与b属性平均值。对于σa与σb而言，则表示两种不同属性标准方差。如果存在r
ab
》0的情况，那
么两种属性是呈正相关关系的。如果存在r
ab
＝0的情况，那么两种属性并不存在直接的关系，也就是说两者是互相独立的。如果存在r
ab
《0的情况，那么两种属性就是呈负相关关系的，而且r
ab
绝对值越大，就越证明两者的关系紧密。
93.对数据挖掘技术进行应用的过程中，需要针对其展开系统化地分析以及总结，以确保数据的输出效果更加完整，并且输出的形式和经济管理人员所制定的决策需求相适应。值得注意的是，决策树属于快速且能够对数据信息进行直观分类的措施，并且形成数据模型，深化处理数据信息。
94.其中，应借助训练集对决策树进行构建，并结合具体问题以及参数要求科学合理地构建具有可行性的分析策略，并且在短时间内输出数据分析的模型。与此同时，要通过既有决策树来分类数据信息，保证递归过程优势的有效发挥，并且在决策树树根的位置发展至树干与树丫等，最终会输出与分类条件相适应的数据。但应当注意的是，分类条件要求相对严格，在节点全部数据都隶属相同类别的情况下，就处于最常见的停止条件，而另外一种则是在具备分类属性的情况下，在二次分割输入数据的时候，即可停止进行分类。在整个过程中，借助决策树实施经济数据统计过程中，应定期采取剪枝操作程序，尽可能规避起伏影响，有效增强数据的实效性与稳定性。
95.所谓的遗传算法就是将生物自然与遗传机理相互结合，随意抽取算法。在实践应用方面，综合考虑社会问题，有效采集被指定人群的信息，在隐含信息整合与分析的基础上获取最终的结果。因遗传算法具有一定的隐含性，所以能够与其他模型有效结合，对隐含数据加以采集。随后，深入分析既有挖掘数据信息，并应用在实践中。需要注意的是，经济问题是发展变化问题，所以内部的联系十分复杂，将遗传算法作为重要参考依据，即可在源头处向下延伸，并有效地获取数据，整体分析数据信息，即可保证经济问题更为直接与具体，确保相关工作人员在处理问题方面也更为直观，切实地表现出隐性的问题。这样一来，即可保证统计工作更为直接与简单。如图4所示：
96.数据标准化方法分为线性标准化和非线性标准化，包括z-score方法、极差化方法、极大化法、极小化法、均值化法、比重法、向量归一法、功效系数法等。不同方法具体特征如下：
97.(1)z-score方法
[0098][0099]
其中，为指标j的平均值，sj为指标j的方差，下同。
[0100]
特点：标准化后指标的均值为0，方差为1，并且此方法不适用于样本量较少的情况，一般来说，样本数大于30才能用。
[0101]
(2)极差化方法
[0102][0103]
其中，为指标j的最小值，为指标j的最大值，下同。
[0104]
特点：标准化后指标最小值为0，最大值为1，且对于指标值恒定的情况不适用。
[0105]
(3)极大化法
[0106][0107]
特点：标准化后指标有最大值为1，无固定最小值。
[0108]
(4)极小化法
[0109][0110]
特点：标准化后指标有最小值1，无固定最大值。
[0111]
(5)均值化法
[0112][0113]
特点：标准化后各指标的均值都为1，方差是变异系数的平方，均值化保留了各指标变异程度的信息。
[0114]
(6)比重法
[0115][0116]
特点：此标准化方法要求当样本值大于等于0时，标准化后的样本值在0和1之间，并且总和为1，即
[0117]
(7)向量归一法
[0118][0119]
特点:当样本值大于等于0时，标准化后的样本值在0和1之间，并且 [0120]
(8)功效系数法
[0121][0122]
其中，mj和mj分别表示指标j的满意值和不容许值，c、d为已知的正常数，c是平移指数，d是缩放指数，由评价值根据实际需求设定。
[0123]
特点：标准化后指标的最大值为c d，最小值为c。但是此方法中满意值和不容许值较难确定，通常用极大值和极小值来代替。
[0124]
根据同一指标内部数据相对差距不变、不同指标之间的相对差距不确定、区间稳定性、总量恒定性、单调性、差异比不变性、平移无关性、缩放无关性等八大数据标准化处理原则，新型研发机构数据库采用正态标准化、极差标准化、均值标准化、中位数标准化、中心化、总强度标准化方法处理数据，采用多重插补法填补缺失值后的数据进行以上各种
标准化方法计算，然后进行拟合、预测、分类效果检验，得出一种最优标准化方法。
[0125]
为了能灵活稳定的支持新型研发机构的语义化表达，面向运维的数据标准将信息组织过程进行了逻辑分层，分为三层，如图5所示。底层确定每一条数据怎么表达，包含数据的基本结构设定，信息交互相关的各种规约，以及数据表达的物理性规范。中间层确定通用抽象模型，即定义底层数据组织的标准范式，分为三种：对象，关系和属性。新型研发机构的所有数据和概念均由这三类范式所确定。顶层是新型研发机构的标准语义模型，按照领域、专业、系统、设备的层级划分模式，逐个定义。
[0126]
数据分类时，需要对数据进行标准化处理，初次提取出的数据存在一系列不同的问题，还不能够满足数据库监测应用的要求，因此需要进行数据的标准化处理，如图6所示，具体流程如下：
[0127]
(1)初次导出的数据中有一部分参数在监测活动中没有要求，需要将这这部分参数删除；
[0128]
(2)初次导出数据部分变量的量纲和仿真数据不一致，如不同机构相同指标的单位不一致，需要加以统一。另外，部分参数需要计算，比如人均数据需要根据总量和人数进行计算等；
[0129]
(3)为了便于分析，需要将原始数据的参数顺序进行调整；
[0130]
(4)原始数据中偶尔会有数据错误，如部分数据出现无穷大等现象，需要对这部分错误数据进行处理；
[0131]
(5)原始数据中有些数据波动异常，不利于分析，需要进行数据的滤波处理。
[0132]
进一步地，政策智能采集模块包括：
[0133]
数据抓取源设置单元，用于获取用户指定的政策采集源；
[0134]
定时采集单元，用于根据用户设置的频率定时对政策采集源的政策数据进行采集。
[0135]
具体实施时，数据抓取源设置单元获取用户指定的政策采集源，定时采集单元实现利用python技术对指定政策采集源进行定时采集，采用多线程爬虫，减少服务器的压力。主要监测全国各地已公开的关于新型研发机构的政策资讯，利用程序进行智能挖掘采集入库，需采集政策源应少于150个。
[0136]
进一步地，政策智能采集模块还包括：
[0137]
政策采集源管理单元，用于对政策采集源对应的网站名称、url、归类栏目及采集状态进行管理，若检测到异常，则发送预警信息至管理人员终端。
[0138]
具体实施时，政策采集源管理单元对所跟踪监测的目标网站的名称、url、归类栏目及采集状态等进行管理，并建立监控、预警、自动修复等机制，若发现数据采集异常，系统能发送预警信息给相关人员，方便及时进行维护。
[0139]
进一步地，政策智能采集模块还包括：
[0140]
政策采集分析单元，用于对政策采集情况、采集源异常情况、采集区域、政策发布情况、政策类别、使用率较高的标签、政策点击率排行及编辑政策统计进行分析。
[0141]
具体实施时，政策采集分析单元可实现政策的可统计分析，可分析近期的政策采集情况，采集源异常分析，采集区域分析，政策的发布情况，政策地区 /类别结构，热门标签，政策点击率排行，编辑员编辑政策统计等。
[0142]
进一步地，平台还包括：
[0143]
研发机构运行表管理模块，用于根据第三方系统的数据字段，对平台的年度运行表字段进行修正和更新。
[0144]
具体实施时，本发明实施例的服务平台还包括研发机构运行表管理模块。研发机构运行表管理模块根据第三方系统的数据字段，进行年度运行表字段的修正和更新。以第三方系统为广东省阳光政务平台为例，研发机构运行表管理模块可参照广东省阳光政务平台的相关数据字段，对本平台的年度运行表字段进行修正和更新。
[0145]
进一步地，研发机构运行表管理模块包括：
[0146]
运行表填报时间设置单元，用于设定运行表的填报时间；
[0147]
运行表填写提醒单元，用于检测到满足设定运行表的填报时间后，通过邮件或短信的形式通知特定研发机构进行填报；
[0148]
运行表数据审查单元，用于对特定研发机构填报的数据进行形式审查，对形式审查检测的错误进行提醒；
[0149]
数据监测单元，用于对特定研发机构的年度执行报告相关指标数据，进行监测和分析，若分析结果为不良数据，则进行标注提醒。
[0150]
具体实施时，实现对年度运行表数据的统一管理，运行表填报时间设置单元用于手动设置设定运行表的开放时间，运行表填写提醒单元用于到达开放时间后由系统通过邮件、短信等方式通知新型研发机构进行填报，运行表填写提醒单元用于对填报数据进行智能形式审查及错误提醒等，另外针对新型研发机构年度执行报告相关指标数据，数据监测单元用于进行动态数据监测和数据分析，对不良数据进行标注提醒。
[0151]
进一步地，机构管理模块包括：
[0152]
账号列表信息查看单元，用于对系统中用户的账号列表信息进行查看，其中所述账号列表信息包括姓名、所属单位、角色、手机号码、电话号码、登录账号、登录手机号、最后一次登陆时间、账号状态。
[0153]
具体实施时，账号列表信息查看单元可添加各级管理部门人员账号，可进行删除与重置密码等操作，可查系统中所有单位的人员。可查看的账号列表信息有：姓名、所属单位、角色、手机号码、电话号码、登录账号、登录手机号、最后一次登陆时间、账号状态等信息。
[0154]
进一步地，平台还包括：
[0155]
日志获取模块，用于对平台的参数进行设置，并对系统日志进行记录。
[0156]
具体实施时，日志获取模块主要是对平台的参数进行设置，并对系统日志进行记录。日志获取模块包括参数设置子单元和系统日志获取子单元，参数设置子单元用于平台的运行参数进行设置，系统日志获取子单元，用于获取平台运行过程中的系统日志进行记录，在检测到用户的系统日志查询指令时，进行展示。
[0157]
进一步地，本发明实施例的服务平台还包括存储数据库，存储数据库用于对平台中的数据进行存储。
[0158]
具体地，对海量数据，采用nosql数据库进行数据存储，同时进行数据的分析与共享。nosql数据库大致可以分为如下四类：(1)键值型数据库：该类型数据库的存储方式是以key-value的形式，使用hash表进行存储，其映射方式是一对多的方式。由于其数据结构
简单且不需要严格遵守acid，因此该类型数据库读写速度在所有nosql数据库中是最快的，但缺点是仅能通过 key的完全匹配来进行查询，不能通过value或其他组合方式来进行复合搜索。 (2)列存储数据库：该类型数据库不同于传统数据库的存储方式，在使用上也有较大的不同，其主要以列为数据局操作的主要对象。列存储数据库与键值型数据库在部分概念上存在重叠，其主要区别在于列存储数据库可以基于列来进行局部更新，这对于在大数据环境下的很多业务形态的实现具有极高的价值。 (3)文档型数据库：该类型数据库依赖文件来构建对应的数据结构，通常使用json、xml等不严格定义的数据组装方式来进行，由于文件结构自由化程度很高，因此文档型数据库几乎可以适用于任何数据结构，具有非常良好的适配性。(4)图形数据库:该类型数据库利用图论的三大基本要素(节点、关系、属性)来进行构建，基于这三大属性构建数据间的关联信息，是nosql数据库中最接近关系数据库的一种类型，但由于设计比较复杂，通常适用于大型社交网络系统的构建。
[0159]
本发明实施例采用分布式架构的nosql的数据库系统进行存储，由于众多的数据库系统中，采用分布式架构的nosql的数据库系统，该数据库框架结构比较松散，数据模型不固定，但却能够有效地解决其他数据库在解决非结构优化的资源不足等方面的问题，具备超高的拓展性及伸缩性。采用分布式架构的nosql系统非常适合处理大量的科学数据，同时解决了大量数据的存储问题。
[0160]
在一些其他实施例中，本发明实施例的面向特定研发机构的服务平台采用b/s(浏览器/服务器)框架模型，和eucalyptus云存储技术架构，应该支持各种类型的数据的高效传输。新型研发机构数据的云存储是把数据存储在云端，大量的数据库服务器相互关联，为了实现数据在云存储服务器的共享任务和批处理任务，不同的云存储终端服务器采用相同协议的通信模式。考虑存储在云端的新型研发机构数据的保密性和安全性，用户读写数据库服务器的数据需要客户端密钥加密，服务器也辅助加密，网关也做好防火墙运行功能避免数据泄露和外部人员对数据进行攻击。数据的云存储要做好存储结构的统一和兼容，同时要针对新型研发机构的不同数据类别进行系统化的归类存储，利用云计算来进行系统划分。避免本地计算机的崩溃或被攻击，用户所得到的数据应及时备份到云存储数据库，在云端进行数据存储和数据分析处理。
[0161]
由以上实施例可知，本发明实施例公开了一种面向特定研发机构的服务平台，包括：机构风采模块，用于对特定研发机构列表进行展示，并生成企业自评表，所述企业自评表是企业进行特定研发机构评定的评估表；数据采集模块，用于采集特定研发机构的相应指标数据；数据源管理模块，用于显示数据的采集源列表，并对异常采集源进行预警；统计中心模块，用于对特定研发机构对应的政策、标签及任务进行统计；资讯管理模块，用于对特定研发机构的资讯进行管理；机构管理模块，用于对特定研发机构的部门、账号及权限进行设置。本发明通过动态采集业务数据、运行情况信息，利用大数据技术进行关联分析、因果分析，实现智能统计、监测预警，降低管理成本，提高数据管理效率。
[0162]
除了其他之外，诸如"能够'、"能"、"可能"或"可以"之类的条件语言除非另外具体地陈述或者在如所使用的上下文内以其他方式理解，否则一般地旨在传达特定实施方式能包括(然而其他实施方式不包括)特定特征、元件和/或操作。因此，这样的条件语言一般地还旨在暗示特征、元件和/或操作对于一个或多个实施方式无论如何都是需要的或者一个或多个实施方式必须包括用于在有或没有输入或提示的情况下判定这些特征、元件
和/或操作是否被包括或者将在任何特定实施方式中被执行的逻辑。
[0163]
已经在本文中在本说明书和附图中描述的内容包括能够提供信息分发方法及装置的示例。当然，不能够出于描述本公开的各种特征的目的来描述元件和/或方法的每个可以想象的组合，但是可以认识到，所公开的特征的许多另外的组合和置换是可能的。因此，显而易见的是，在不脱离本公开的范围或精神的情况下能够对本公开做出各种修改。此外，或在替代方案中，本公开的其他实施例从对本说明书和附图的考虑以及如本文中所呈现的本公开的实践中可能是显而易见的。意图是，本说明书和附图中所提出的示例在所有方面被认为是说明性的而非限制性的。尽管在本文中采用了特定术语，但是它们在通用和描述性意义上被使用并且不用于限制的目的。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种数据查询方法、装置、平台和存储介质与流程

一种面向特定研发机构的服务平台的制作方法

相关文献

最热文献