一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用户产业类别识别方法及系统与流程

2022-03-31 06:53:12 来源:中国专利 TAG:


1.本发明属于自然语言处理技术领域,尤其涉及一种用户产业类别识别方法及系统。


背景技术:

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.在高层次人才的研究过程中,需要将人才的研究领域与产业类别进行关联匹配,以实现人才的产业划分和统计分析,从而对区域产业战略发展规划提供辅助决策,更好服务人才。
4.目前,根据用户的研究领域进行产业划分时,大多数采用关键词相等匹配或者正则表达式匹配,此种方式会导致用户被匹配到多个产业上,匹配效果不佳,甚至需要人工介入,这就造成了用户产业划分的错误率较高、效率低下、匹配过程耗时较长等问题。


技术实现要素:

5.为了解决上述背景技术中存在的技术问题,本发明提供一种用户产业类别识别方法及系统,得出用户与产业类别的最佳匹配,有效提升了用户产业识别的准确率和效率。
6.为了实现上述目的,本发明采用如下技术方案:
7.本发明的第一个方面提供一种用户产业类别识别方法,其包括:
8.获取所有待识别用户的研究领域描述文本,并采用分词器进行分词,得到所有待识别用户的研究领域分词文本;
9.基于每个待识别用户的研究领域分词文本与产业分类字典中每个产业类别对应的关键词,计算每个待识别用户与每个产业类别的相关性得分;
10.对于每个待识别用户,选择与其相关性得分最高的产业类别作为最终所属的产业类别;
11.其中,某个待识别用户与某个产业类别的相关性得分与该产业类别对应的每个关键词在该待识别用户的研究领域分词文本中的出现频率、该产业类别对应的每个关键词的逆文档频率以及每个待识别用户的研究领域分词文本长度相关。
12.进一步的,还包括:构建产业分类字典;
13.所述产业分类字典中包含若干个产业类别,每个产业类别对应多个关键词。
14.进一步的,所述计算每个待识别用户与每个产业类别的相关性得分的具体步骤为:
15.基于所有待识别用户的研究领域分词文本,建立用户研究领域分词文本集合;
16.基于产业分类字典,建立产业分类字典集合;
17.基于用户研究领域分词文本集合和产业分类字典集合,使用笛卡尔乘积建立所有可能的有序对;
18.使用相关性算法,计算每个有序对中,产业类别和待识别用户的相关性得分。
19.进一步的,所述相关性算法为bm25相关性算法。
20.进一步的,每个有序对由一个待识别用户的所有研究领域分词文本和一个产业类别对应的所有关键词组成。
21.进一步的,所述分词器为ik中文分词器。
22.本发明的第二个方面提供一种用户产业类别识别系统,其包括:
23.分词模块,其被配置为:获取所有待识别用户的研究领域描述文本,并采用分词器进行分词,得到所有待识别用户的研究领域分词文本;
24.相关性得分计算模块,其被配置为:基于每个待识别用户的研究领域分词文本与产业分类字典中每个产业类别对应的关键词,计算每个待识别用户与每个产业类别的相关性得分;
25.识别模块,其被配置为:对于每个待识别用户,选择与其相关性得分最高的产业类别作为最终所属的产业类别;
26.其中,某个待识别用户与某个产业类别的相关性得分与该产业类别对应的每个关键词在该待识别用户的研究领域分词文本中的出现频率、该产业类别对应的每个关键词的逆文档频率以及每个待识别用户的研究领域分词文本长度相关。
27.进一步的,还包括产业分类字典构建模块,其被配置为:构建产业分类字典;
28.所述产业分类字典中包含若干个产业类别,每个产业类别对应多个关键词。
29.本发明的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的一种用户产业类别识别方法中的步骤。
30.本发明的第四个方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的一种用户产业类别识别方法中的步骤。
31.与现有技术相比,本发明的有益效果是:
32.本发明提供了一种用户产业类别识别方法,其利用产业关键词在用户研究领域的出现词频、在所有用户研究领域出现次数、用户研究领域字符串长度的信息,计算相关性得分,按照得分排序取最高分,得出用户与产业关键词的最佳匹配,从而实现用户与产业的最佳关联,有效提升了用户产业识别的准确率和匹配效率。
33.本发明提供了一种用户产业类别识别方法,其节省了大量的人工校验和纠偏工作,有效解决了以往用户产业划分方式粗略且准确率低的问题,提升了整体工作效率和用户产业分析的准确性和客观性。
附图说明
34.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
35.图1是本发明实施例一的一种用户产业类别识别方法的流程图。
具体实施方式
36.下面结合附图与实施例对本发明作进一步说明。
37.应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
38.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
39.术语解释:
40.笛卡尔乘积(cartesian product):笛卡尔乘积是指在数学中,两个集合x和y的笛卡尔积,又称直积,表示为x
×
y,第一个对象是x的成员而第二个对象是y的所有可能有序对的其中一个成员。
41.正则表达式(regular expression):描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。
42.实施例一
43.本实施例提供了一种用户产业类别识别方法,利用产业关键词在用户研究领域的出现词频、在所有用户研究领域出现次数、用户研究领域字符串长度的信息,使用bm25算法计算相关性得分,按照得分排序取最高分,得出用户与产业关键词的最佳匹配,从而实现用户与产业的最佳关联,有效提升了用户产业识别的准确率和匹配效率,如图1所示,主要包括以下步骤:
44.步骤1:构建产业分类字典。
45.具体的,将产业分为数个大类,每个产业类别对应多个关键词,得到的产业分类字典,字典中包含若干个产业类别,每个产业类别对应多个关键词。
46.例如:【高效农业】产业类别,对应【日光温室】、【滴灌节水】等关键词。
47.步骤2:获取所有待识别用户的研究领域描述文本,并进行分词,得到所有待识别用户的研究领域分词文本。
48.具体的,使用ik中文分词器对每个待识别用户的研究领域描述文本进行分词,得到每个用户的研究领域分词文本。
49.例如:对于待识别用户的研究领域描述文本【坦克车辆设计第三代主战坦克研制;武器系统与运用工程;武器系统总体设计与仿真】,使用ik中文分词器可分为【坦克车辆设计】、【主战坦克研制】、【武器系统运用工程】和【设计与仿真】研究领域分词文本。
50.步骤3:基于每个待识别用户的研究领域分词文本与产业分类字典中每个产业类别对应的关键词,计算每个待识别用户与每个产业类别的相关性得分。
51.步骤301、基于所有待识别用户的研究领域分词文本,建立用户研究领域分词文本集合a,如表1所示,用户研究领域分词文本集合a包含每一个待识别用户的研究领域分词文本,其中,研究领域分词文本1表示第1个待识别用户的研究领域分词文本,研究领域分词文本2表示第2个待识别用户的研究领域分词文本;基于产业分类字典,建立产业分类字典集合b,如表1所示,产业分类集合b中包含每个产业类别对应的关键词,其中,产业字典关键词1表示第1个产业类别对应的关键词,产业字典关键词2表示第2个产业类别对应的关键词。
基于用户研究领域分词文本集合和产业分类字典集合,使用笛卡尔乘积建立所有可能的有序对,如表1所示,每个有序对由一个待识别用户的所有研究领域分词文本x和一个产业类别对应的所有关键词y组成。
52.a
×
b={(x,y)|x∈a∧y∈b}
53.表1用户研究领域分词文本集合和产业分类字典集合表
[0054][0055][0056]
步骤302、使用bm25相关性算法,基于产业类别对应的关键词和待识别用户的研究领域分词文本,计算每个有序对中,产业类别q和待识别用户d的相关性得分,建立如表2所示的有序对和相关性得分的映射。
[0057]
某个待识别用户与某个产业类别的相关性得分与该产业类别对应的每个关键词在该待识别用户的研究领域分词文本中的出现频率、该产业类别对应的每个关键词的逆文档频率以及每个待识别用户的研究领域分词文本长度相关,具体的,相关性得分的计算公式为:
[0058][0059]
其中,q表示一个产业类别;qi表示一个语素,即一个产业类别对应的关键词中的第i个关键词,i=1,2,

,n;d表示一个搜索文档,即一个待识别用户;n表示一个产业类别对应的关键词总数;k1为调节因子,为2;b为调节因子,为0.75;fi为第i个关键词qi在待识别用户d的研究领域分词文本中的出现频率;dl为待识别用户d的研究领域分词文本的长度;avgdl为所有待识别用户d的研究领域分词文本的平均长度;idf表示第i个关键词qi的逆文档频率。
[0060]
表2有序对和相关性得分的映射表
[0061]
[0062][0063]
步骤4:对于每个待识别用户,选择与其相关性得分最高的产业类别作为最终所属的产业类别。具体包括:
[0064]
步骤401、取出上一步得到的映射中集合a某个研究领域文本的所有记录,按照得分进行倒序排列,取第一条记录,该记录中的有序对是相关性最高的。
[0065]
步骤402、根据上一个步骤得出的记录,取出有序对中的研究领域分词文本,产业字典关键词,将该研究领域分词文本对应的用户和该产业字典关键词对应的产业大类进行关联,即完成用户与产业类别的关联,关联的产业类别即为用户最终所属的产业类别。
[0066]
步骤403、重复步骤401和步骤402,直到将集合a中的元素循环一遍,完成所有用户与产业的关联。
[0067]
本实施例提供的一种用户产业类别识别方法,节省了大量的人工校验和纠偏工作,有效解决了以往用户产业划分方式粗略且准确率低的问题,提升了整体工作效率和用户产业分析的准确性和客观性,用于高层次人才所属产业类别识别,有利于促进了区域人才产业的长效发展。
[0068]
实施例二
[0069]
本实施例提供了一种用户产业类别识别系统,其具体包括如下模块:
[0070]
分类字典构建模块,其被配置为:构建产业分类字典;产业分类字典中包含若干个产业类别,每个产业类别对应多个关键词;
[0071]
分词模块,其被配置为:获取所有待识别用户的研究领域描述文本,并采用分词器进行分词,得到所有待识别用户的研究领域分词文本;
[0072]
相关性得分计算模块,其被配置为:基于每个待识别用户的研究领域分词文本与产业分类字典中每个产业类别对应的关键词,计算每个待识别用户与每个产业类别的相关性得分;
[0073]
识别模块,其被配置为:对于每个待识别用户,选择与其相关性得分最高的产业类别作为最终所属的产业类别;
[0074]
其中,某个待识别用户与某个产业类别的相关性得分与该产业类别对应的每个关键词在该待识别用户的研究领域分词文本中的出现频率、该产业类别对应的每个关键词的逆文档频率以及每个待识别用户的研究领域分词文本长度相关。
[0075]
此处需要说明的是,本实施例中的各个模块与实施例一中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
[0076]
实施例三
[0077]
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处
理器执行时实现如上述实施例一所述的一种用户产业类别识别方法中的步骤。
[0078]
实施例四
[0079]
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的一种用户产业类别识别方法中的步骤。
[0080]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0081]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0082]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0083]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0084]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random accessmemory,ram)等。
[0085]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献