一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种人才数据库建立方法与流程

2022-04-27 00:06:01 来源:中国专利 TAG:


1.本发明涉及人才大数据挖掘、智能筛选领域,具体涉及一种人才数据库建立方法。


背景技术:

2.铜作为基础工业的大宗商品,广泛应用于国民经济的各行各业,铜产业涉及铜原料、冶炼、粗加工、精深加工及铜应用等多个领域,需要各类技术人才。
3.为推动铜产业转型升级,企业、政府、科研机构对人才需求特别是高端人才需求也十分迫切。建立一个全国性的铜产业强相关的人才资源库十分必要。
4.现有技术存在以下不足:
5.目前人才数据库偏重两种,一种类似招聘网模式,人才多为普通人才而非高端专家人才,信息偏重人力资源供需需求;一种类似知网等论文数据库模式,信息偏重论文查询,没有在人才领域建立以区域地址为索引的人才地图,没有集中在某产业人才领域做更细致的人才数据库建设。
6.现有的产业人才库,存在着以下几大问题:
7.1.人才数据库建立的通常方式是通过手工搜索录入或系统注册的方式进行,采用人力统计的方式或注册形式建立的数据库,在系统无法大规模推广的情况下,基本无有效渠道获取到行业及地区人才数据,难以真实反应行业或区域人才大数据情况;
8.2.因为侧重点的不同,现有方法建立的数据库一方面没有建立基于位置的人才机构信息,就无法有效地反应全国各省市、区域内人才信息;同时,没有针对特定领域建立人才数据库,难以精细地获得某一专业领域内人才基本数据。
9.因此,发明一种人才数据库建立方法并将其推广应用于各专业领域人才数据库建设很有必要。


技术实现要素:

10.为此,本发明提供一种人才数据库建立方法,通过建立专门的数据库,以解决现有人才管理领域基本无有效渠道获取到行业及地区人才数据,并且难以真实反应行业或区域人才大数据情况的问题。
11.为了实现上述目的,本发明提供如下技术方案:一种人才数据库建立方法,具体包括以下步骤:
12.s1,利用计算机网络爬虫技术、计算机网络接口api技术、大数据搜索技术等,从开放的互联网渠道,如:全国专利库、全国标准库、全国成果库、全国论文库等,提取产业相关的信息,如:人才、专利、论文、成果、标准、机构、机构地址等,初步筛选整理并进行保存,建立初步的行业主题相关的专利库、论文库、成果库、标准库等;
13.s2,对初步筛选整理的专利库、论文库、成果库、标准库等,再次利用计算机网络爬虫技术、计算机网络接口api技术,从相关平台、全国标准地址库、邮编库等获取详细信息,补充详细的人才、机构、地址信息;
14.s3,建立智能筛选系统,通过系统建立“包含”、“排除”、“and”、“or”等条件筛选的机制,利用程序再次合理筛选专利名、论文名、成果名、标准名、摘要、关键词等,得到更精准的专利库、论文库、成果库、标准库等;
15.s4,对第二步筛选的人才信息,即精准的专利库、论文库、成果库、标准库、机构库及人才库,分析数据字段表,围绕人才重构相关库,建立人才表以人才表为核心的人才库,人才表包括人才名、人才标签、人才简介、人才所属机构、人才地址、人才专业领域、人才成果名、人才合作者及单位等。
16.s5,采用数据层层关联、数据查重、数据合并、对地址完善精确等手段,对构建的人才表、关联的机构库、专利库、论文库、成果库、标准库再处理,建立完整的人才库。如定立机构命名标准,对机构曾用名、现用名进行合并,去除机构下附属二级机构名;对人名、机构名数据进行查重、合并;整理统计人才成果数、合作者、合作单位、人才层次等。
17.s6,依据人才库建立全国某产业的人才地图,通过大数据可视化,实现人才地域分布、人才分布排名、机构排名等直观展示,提供宏观及微观分析。
18.本发明的有益效果是:
19.1.通过爬虫及api等技术手段,能够快速生成规模数量的人才大数据,这种方法建立的产业人才数据,更加全面并反应现实情况;
20.2.本人才数据库建立的方法,能够通过计算机编程实现大数据挖掘及智能筛选算法,通过数据源、筛选条件的输入,自动化构建产业人才库;
21.3.本方法进一步提取了人才信息,延申人才地址详细信息,给人才打标签,真正解决了企业、机构、科研院所及政府部门对于产业和区域人才的宏观或微观把握;
22.4.通过本方法,可以给其他行业人才及机构数据库建立,人才综合管理平台的运维提供具体的指引。
附图说明
23.图1为本发明提供的智能筛选重构系统示意图;
24.图2为本发明提供的爬虫程序采集流程图结构示意图;
25.图3为本发明提供的筛选模块及方法图;
26.图4为本发明提供的人才地图第一示例图;
27.图5为本发明提供的人才地图第二示例图;
28.图6为本发明提供的人才地图第三示例图;
29.图7为本发明提供的利用相关平台进行搜索的第一示例图;
30.图8为本发明提供的利用相关平台进行搜索的第二示例图。
具体实施方式
31.以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
32.参照附图1-8,本发明提供的一种人才数据库建立方法,具体包括以下步骤:
33.s1,利用计算机网络爬虫技术、计算机网络接口api技术、大数据搜索技术等,从开放的互联网渠道,如:全国专利库、全国标准库、全国成果库、全国论文库等,提取产业相关
的信息(如图7、8中所示),如:人才、专利、论文、成果、标准、机构、机构地址等,初步筛选整理并进行保存,建立初步的行业主题相关的专利库、论文库、成果库、标准库等;
34.采用开放数据接口获取数据内容包括:
35.1)专利库:专利名、发明人、申请人(机构)、申请日、公开日、专利类型、详细邮编及地址、主权项、摘要等。
36.2)论文库:篇名、作者、单位、发表时间、合作者、合作单位、摘要、关键词、专题、分类号(中图查询)等。
37.3)标准库:标准名、标准号、标准更新日期、摘要、发布日期、起草人起草单位、标准分类号及名称等。
38.4)成果库:成果名、成果完成人、成果第一完成单位关键词、中图分类号、简介、时间。
39.上述技术方案中,为了适应不同的数据来源接口,个性化定制了不同的接口程序及爬虫算法。
40.同时为了尽量减少人工干预,我们建立了api接口及爬虫的自动化运行机制,自动转化和铜领域相关的关键词数据,获得初步数据库信息。
41.某一自动化运行的爬虫或接口程序实现步骤如下:
42.程序开始——》循环调用爬虫或api爬取关键词——》调用爬虫或api程序获取数据——》获得数据与数据库逐条比对,排除重复人员与机构——》若数据无重复,则加入初步数据库,以便后续筛选——》继续循环爬虫——》程序结束(如图2所示)。
43.s2,对初步筛选整理的专利库、论文库、成果库、标准库等,再次利用计算机网络爬虫技术、计算机网络接口api技术,从相关平台、全国标准地址库、邮编库等获取详细信息,补充详细的人才、机构、地址信息;
44.在上述第一步建立的专利库、论文库、标准库、成果库中,含有人才名、机构名、初略的地址信息等。以地址信息为例,采集到的地址信息有些只有省份、有些只有省市、有些为邮编、有些为完整地址。为了建立完整的人才库,需要获得地址详细信息及经纬度,并包括高端人才简介,机构简介等信息。
45.本步骤利用计算机网络接口及爬虫技术,将现有专利库、论文库、标准库、成果库中人名、机构名作为基础信息,以百度文库、企查查、邮编地址查询网等作为数据源,获取较为完备的人才名、人才简介、机构名、机构简介、机构详细地址等信息,作为人才简介库、机构库,补充到专利库、论文库、标准库、成果库中。机构详细地址通过百度地图等,获取机构地址经纬度,以便建立人才地图数据库。
46.具体的接口及爬虫方法实现方法,可以参考s1中的内容进行。
47.s3,建立智能筛选系统,通过系统建立“包含”、“排除”、“and”、“or”等条件筛选的机制,利用程序再次合理筛选专利名、论文名、成果名、标准名、摘要、关键词等,得到更精准的专利库、论文库、成果库、标准库等;
48.建立一套筛选逻辑,逻辑包括“字段包含”、“字段排除”、“and”、“or”、“not”等条件筛选的机制,将该套筛选逻辑转化为计算机程序,对第二步建立的专利库、论文库、标准库、成果库、人才库、机构库,再次进行细分筛选,获得精准的行业强相关的数据库。
49.以铜行业为例,筛选机制包括但不限于如下:
50.对论文名、成果名、标准名、专利名、关键词及摘要进行筛选,对其中不包含铜/cu关键字的数据进行排除。
51.对论文名、成果名、标准名、专利名、关键词及摘要中包含铜/cu,但含有铜/cu离子、铜氨、思想、政治、党、猪、羊、鸡、鸭、兔等的数据进行排除。
52.对机构进行筛选,排除论文名、成果名、标准名、专利名、关键词及摘要中含铜/cu,但机构中含林业、警察、畜牧业、医院、中学、小学等,研究领域不属于真实铜领域的人才数据。
53.增加其他铜加工,如上引、下拉、铸造、压延等领域的数据,并进行筛选等。
54.通过上述的筛选,我们已经获得较为精确的数据。
55.在后续进一步的筛查中,考虑到有些筛查参数及结果可能是模糊的,可以容忍一定的错误率,因此,我们建立了一套控制数据筛查的质量控制的方法,通过输入筛选参数、并对筛选目标进行管控,得到智能筛选模块。
56.模块包括筛选参数、结果目标、数据分析子模块。
57.筛选方法:
58.输入筛选条件参数及优先级,如论文名不含冶炼,优先级第一;机构名不含生物,优先级第二。系统会自动按照筛选条件和优先级执行。
59.输入筛选结果目标数,如80%,则结果筛选到80%停止运行。
60.数据分析查看筛选后数据,人工或系统修改筛选条件,获得最优参数结果。
61.筛选模块及方法图如图3所示。
62.s4,对s3筛选的人才信息,即精准的专利库、论文库、成果库、标准库、机构库及人才库,分析数据字段表,围绕人才重构相关库,建立人才表以人才表为核心的人才库,人才表包括人才名、人才标签、人才简介、人才所属机构、人才地址、人才专业领域、人才成果名、人才合作者及单位等;
63.在s3获得的精准专利库、论文库、标准库、成果库、人才库、机构库基础上,建立以人才表为核心的人才数据库。人才表涵盖人才层次,人才技术水平,人才所属细分领域、人才所属机构,人才详细地址,人才发表论文、专利、成果、标准果情况,人才研究领域,人才简介等;
64.人才层次,人才所属细分领域、人才所属机构,人才详细地址,人才发表论文、专利、成果、标准果情况,人才简介,人才合作单位及合作伙伴可通过数据库关联字段获得;
65.人才研究领域相当于给人才打标签,主要涉及人才自身专业领域,如人才所属专业、发表论文关键词、发表成果关键词、发表专利关键词、发表标准关键词,另外也可通过摘要内容提取标签等。
66.s5,采用数据层层关联、数据查重、数据合并、对地址完善精确等手段,对构建的人才表、关联的机构库、专利库、论文库、成果库、标准库再处理,建立完整的人才库;
67.首先采用一种机制,对人才所属机构进行整理。机构整理面临问题及处理方式如下:
68.不同年代机构命名不同。对比企查查曾用名等,比对不同年代的机构命名,并以最新命名为准;
69.机构命名不规范,有些有一级机构,有些含二级机构等,以大学为例,有些为一级
机构:xxx大学,有些为一级机构 二级机构:xxx大学xxx学院;以公司为例,有些为一级机构:xxx公司,有些为一级机构 二级机构:xxx公司xxx技术部。还有很多杂乱的机构命名,通过筛选机制建立一级机构;
70.对机构处理后,本发明获得唯一名称、机构的人才库;
71.后续对人才库再进行完善,包括且不限于如下措施:
72.1.采用一种机制,对人才,所属机构,发表论文、专利、成果、标准进行查重。再次去掉重复内容;
73.2.提取人才、所属机构等重复的内容,进行字段合并;
74.3.对人才层次、所属机构、论文、成果进行统计整理;
75.4.统计人才所属机构、论文、成果等数量;
76.5.对人才的合作伙伴,合作机构进行统计;
77.6.采用一种机制,对人才进行分层统计,按是否发表论文,人才论文及成果因子、从业时间、获得荣誉,分为高级人才、中级及初级人才,并对高级人才进行再次细分。
78.s6,依据人才库建立全国某产业的人才地图,通过大数据可视化,实现人才地域分布、人才分布排名、机构排名等直观展示,提供宏观及微观分析。
79.并且通过人才数据库,可以建立人才地图,通过中国地图、省地图、市地图,将产业人才一一进行数据可视化展示;
80.建立人才地图宏观模型,统计全国各省、各市人才、机构、技术成果数量,统计全国各省、各市人才、机构、技术成果排名及占比。通过地图、柱状图、折线图、列表图等可视化方法进行直观展示。
81.建立人才特定细分领域模型,如铜排、铜线、铜粉、铜板、铜带、铜箔、铜管、铜合金、铜基新材料、紫铜、青铜、黄铜、白铜、铜加工、铜应用等。统计全国、各省、各市人才、机构及成果数量及分布,通过地图、柱状图、折线图、列表图等可视化方法进行直观展示(如图4、5、6中所示)。
82.以上所述,仅是本发明的较佳实施例,任何熟悉本领域的技术人员均可能利用上述阐述的技术方案对本发明加以修改或将其修改为等同的技术方案。因此,依据本发明的技术方案所进行的任何简单修改或等同置换,尽属于本发明要求保护的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献