一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种监测市场监管数据开放水平的大数据模型与计算方法与流程

2022-11-30 15:29:44 来源:中国专利 TAG:


1.本发明属于大数据技术领域,尤其涉及一种监测市场监管数据开放水平的大数据模型与计算方法。


背景技术:

2.目前,复旦大学的“开放数林指数”,是评价地方数据开放平台的通用模型和算法,是对各级数据开放水平的通用监测,侧重于对数据开放政策、数据开放平台及开放数据的评价,不对各部门的具体业务做评价,不具备市场监管行业特点。此外,“数林开放指数”对开放数据数量的评价指标中,数据集的绝对数量占比较大。各地经济规模不一,各省、市的市场主体数量差异较大,以绝对数量考核开放数据数量对经济规模较小的地区不科学,所以该模型和算法没有针对市场监管业务特点的指标,不能准确反映市场监管部门的数据开放水平,并且当前也还没有专门监测评价市场监管数据开放水平的模型与算法。


技术实现要素:

3.本发明针对上述在检测市场监管数据开放方面所存在的技术问题,提出一种设计合理、逻辑较强、科学性和准确性较好的一种监测市场监管数据开放水平的大数据模型与计算方法。
4.为了达到上述目的,本发明采用的技术方案为,本发明提供的一种监测市场监管数据开放水平的大数据模型与计算方法,其大数据模型包括市场监管数据开放指数,所述市场监管数据开放指数的计算流程包括以下步骤:s1、数据存储;s2、原始数据采集;s3、数据处理;s4、市场监管数据开放指数计算,以部门为单位并计算各部门的3个子指数,包括业务覆盖指数、开放数量指数和开放质量指数,3个子指数相加即市场监管数据开放指数,其中:业务覆盖指数,用来评价各市场监管部门开放数据的全面性,包括业务大类覆盖率和环节小类覆盖率;开放数量指数,用来评价各市场监管部门数据开放的工作量,包括开放数据集数量、开放数据项数量和开放数据容量;开放质量指数,用来评价各市场监管部门开放数据的准确性、规范性和及时性,包括平均数据容量、开放接口数量、无条件开放率和更新及时率。
5.作为优选,s1按照数据采集处理过程分类存放各种数据,从各数据开放平台采集的数据以数据集为单位存储到原始数据库,并且指数计算过程中的中间数据及结果数据,以部门为单位存储到分类汇总库。
6.作为优选,s2以各级市场监管部门为单位,采集本级所有开放数据集的开放单位
名称、数据集名称、数据项描述、数据项数量、开放数据量、开放形式、开放属性和最后更新日期。
7.作为优选,所述开放形式包括数据集下载形式和api接口形式。
8.作为优选,所述开放属性包括无条件开放和有条件开放。
9.作为优选,所述数据处理包括以下步骤:s4-1、数据清洗,包括数据项数量清洗、开放属性清洗和开放形式清洗;s4-2、数据分类,针对各开放数据集增加业务大类和环节小类两个数据项,确定各数据集的业务大类和环节小类属性,其中业务大类根据市场监管业务划分数量大于10,环节小类根据监管环节划分数量大于50;s4-1数据转换,其一是通过计算开放数据集数量和开放数据项数量来计算无条件下载数据集的开放数据容量,其二是根据最后更新时间计算各数据集的更新及时率。
10.一种监测市场监管数据开放水平的计算方法,业务大类覆盖率x1和环节小类覆盖率x2计算公式如下:计算公式如下:其中,n为全部业务大类或环节小类总数;业务覆盖指数bc计算公式如下:其中,wt为相应指标的权重;开放数据集数量x3、开放数据项数量x4和无条件下载数据集的开放数据容量x5计算公式如下:算公式如下:算公式如下:其中,n为所有开放数据的市场监管部门的数量;开放数量指数oqt计算公式如下:开放质量指数包括平均数据容量x6、接口开放数量x7、无条件开放率x8和更新及时
率x9的计算公式如下:的计算公式如下:的计算公式如下:的计算公式如下:开放数据质量指数oql计算公式如下:市场监管数据开放指数amrodi的计算公式如下:与现有技术相比,本发明的优点和积极效果在于:1、本发明提供的一种监测市场监管数据开放水平的大数据模型与计算方法,专注市场监管数据开放工作,根据大数据模型且计算开放数据的业务覆盖指数、开放数量指数、开放质量指数,解决了以下4个方面的技术问题,其一是市场监管数据开放水平没有监测评价方法的问题,其二是市场监管开放数据业务覆盖情况没有监测评价方法的问题,其三是市场监管开放数据数量情况没有监测评价方法的问题,其四是市场监管开放数据质量情况没有监测评价方法的问题。本发明利用大数据技术,聚焦市场监管业务工作,合理构建了逻辑较强、科学性和准确性较好的一种监测评价市场监管数据开放水平的大数据模型和计算方法,适合大规模推广。
附图说明
11.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
12.图1为实施例提供的市场监管数据开放指数指标体系;图2为实施例提供的开放数据集更新及时率分段表;图3为实施例提供的市场监管数据开放指数指标体系及其权重分配示意图;图4为实施例提供的市场监管业务分类表。
具体实施方式
13.为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和实施例
对本发明做进一步说明。需要说明的是,在不冲突的情况下,本技术的实施例及实施例中的特征可以相互组合。为叙述方便,下文如出现“上”、“下”、“左”、“右”字样,仅表示与附图本身的上、下、左、右方向一致,并不对结构起限定作用。
14.在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开说明书的具体实施例的限制。
15.实施例,如图1、图2和图3所示,本发明提供的一种监测市场监管数据开放水平的大数据模型与计算方法其大数据模型包括市场监管数据开放指数,所述市场监管数据开放指数的计算流程包括以下步骤:s1、数据存储;s2、原始数据采集;s3、数据处理;s4、市场监管数据开放指数计算,以部门为单位并计算各部门的3个子指数,包括业务覆盖指数、开放数量指数和开放质量指数,3个子指数相加即市场监管数据开放指数,其中:业务覆盖指数,用来评价各市场监管部门开放数据的全面性,包括业务大类覆盖率和环节小类覆盖率。经过对全国各市场监管部门的开放数据研究分析后发现,各单位开放的数据中,市场主体登记、行政许可等静态数据较多,监督检查、抽检等动态数据比较少,而动态数据能更及时、准确的反映市场主体的经营状况。本发明将市场监管工作分为17个业务大类及75个环节小类,通过业务覆盖指数鼓励各部门全面开放数据。
16.开放数量指数,用来评价各市场监管部门数据开放的工作量,包括开放数据集数量、开放数据项数量和开放数据容量;开放质量指数,用来评价各市场监管部门开放数据的准确性、规范性和及时性,包括平均数据容量、开放接口数量、无条件开放率和更新及时率。因全国各地经济规模不同,各地市场主体数量差异较大,市场监管开放数据以市场主体为主,以数据集的绝对数据量评价数据开放工作不科学。本发明的开放数量指数使用开放数据集数量、开放数据项数量和开放数据容量等3个指标进行评价,仅开放数据容量与市场主体绝对数量有关,且比较低,所述多指标设计也有效地解决了这一问题。
17.更具体地,步骤s1按照数据采集处理过程分类存放各种数据,从各数据开放平台采集的数据以数据集为单位存储到原始数据库,并且在之后完成清洗、分类、转换等处理过程的数据以数据集为单位存储到基础数据库,指数计算过程中的中间数据及结果数据,以部门为单位存储到分类汇总库。
18.s2以各级市场监管部门为单位,采集本级所有开放数据集的开放单位名称、数据集名称、数据项描述、数据项数量、开放数据量、开放形式、开放属性和最后更新日期。所需原始数据均从各政府数据开放平台采集,采集范围包括市场监管及单独开放数据的药品监管、知识产权监管等部门开放的数据集信息。所需数据大部分是使用python爬取,无法自动采集的数据如无条件下载数据集的数据量等,采取人工方式下载的方式统计。关于开放形式的话,其包括数据集下载形式和api接口形式;开放属性则包括无条件开放和有条件开放。
19.进一步地,在数据项采集方面,本发明需要采集各开放数据集的数据项数量,如平
台未公布数据集的数据项数量,则需要采集数据项的描述信息,下一步提取计算数据项数量。数据量采集:部分平台未公布数据集的数据量,需要人工下载所有无条件下载数据集并统计其数据量。开放形式,如一个数据集支持数据集下载和api接口两种开放形式,按两个数据集分别采集信息。开放属性,无需申请,登录后即可下载的数据集,视为无条件下载。
20.数据处理包括以下步骤:s4-1、数据清洗,包括数据项数量清洗、开放属性清洗和开放形式清洗;其中,数据项数量清洗是指,部分数据开放平台未提供数据集的数据项数量,需要从数据集描述中提取计算数据项数量;开放属性清洗,是因为各平台表述方式不同,为了提高统一规范,将开放属性划分为为“无条件”和“有条件”两种属性;开放形式清洗,则统一规范为“数据集下载”和“api接口”两种形式。
21.s4-2、数据分类,针对各开放数据集增加业务大类和环节小类两个数据项,确定各数据集的业务大类和环节小类属性,如图4所示,其中业务大类根据市场监管业务划分数量大于10,本实施例设计17个业务大类,环节小类根据监管环节划分数量大于50,本实施例设计75个环节小类。
22.s4-1数据转换,其一是通过计算开放数据集数量和开放数据项数量来计算无条件下载数据集的开放数据容量,其二是根据最后更新时间计算各数据集的更新及时率,如图2所示。
23.一种监测市场监管数据开放水平的计算方法,业务大类覆盖率x1和环节小类覆盖率x2计算公式如下:计算公式如下:其中,n为全部业务大类或环节小类总数;业务覆盖指数bc计算公式如下:其中,wt为相应指标的权重;开放数据集数量x3、开放数据项数量x4和无条件下载数据集的开放数据容量x5计算公式如下:算公式如下:算公式如下:
其中,n为所有开放数据的市场监管部门的数量;开放数量指数oqt计算公式如下:在开放质量指数中,数据集的数据容量=数据量
×
数据项数量。因部分数据开放平台未公布数据集的数据量,本发明仅计算无条件下载数据集的数据容量。数据项数量计算,从各数据开放平台爬取的数据项信息有两种,一种是提供了各数据集的数据项列表,可在采集过程中直接统计数据项数量;第二种是平台仅提供了数据项的描述文本,这种情况需要对文本进行分析,提取出其中的字段列表,然后统计数据项数量。
24.平均数据容量x6、接口开放数量x7、无条件开放率x8和更新及时率x9的计算公式如下:下:下:下:开放数据质量指数oql计算公式如下:市场监管数据开放指数amrodi的计算公式如下:本发明解决了对市场监管数据开放水平的监测评价问题,在市场监管业务方面,优化了数据开放数量和数据开放质量方面的指标,可准确、全面的监测市场监管部门的数据开放水平,填补了针对市场监管数据开放水平没有监测评价方法的空白。
25.本发明解决了对市场监管数据开放全面性的监测评价问题。本发明将市场监管业务划分为市场主体登记、食品、特种设备、工业产品质量、药品、医疗器械、化妆品、质量基础设施、质量发展、知识产权、信用、物价、投诉举报、行政执法、内部办公、公共服务、广告等17个业务大类,并按监管环节进一步细分为75个小类,可以对市场监管部门开放的数据集分别进行归类,解决了对市场监管数据开放全面性的监测评价问题。
26.本发明对市场监管开放数据数量的监测评价更科学,其设计对开放数量的考核指标时,与市场主体绝对数量相关的指标仅占三分之一,即考虑了经济规模大省数据开放工作量大的特点,又兼顾了经济规模较小省份的数据开放工作积极性,对开放数据数量的监
测评价更科学。
27.本发明对市场监管开放数据质量的监测评价更全面。经过对全国各地市场监管部门开放数据的研究分析,针对市场监管数据开放特点,本发明从无条件开放数据集平均数据容量、开放接口数量、无条件开放率、更新及时率等4个方面监测评价市场监管数据开放质量,对开放数据质量的监测评价更全面、更切合实际。
28.以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献