一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用户产业类别识别方法及系统与流程

2022-03-31 06:53:12 来源:中国专利 TAG:

技术特征:
1.一种用户产业类别识别方法,其特征在于,包括:获取所有待识别用户的研究领域描述文本,并采用分词器进行分词,得到所有待识别用户的研究领域分词文本;基于每个待识别用户的研究领域分词文本与产业分类字典中每个产业类别对应的关键词,计算每个待识别用户与每个产业类别的相关性得分;对于每个待识别用户,选择与其相关性得分最高的产业类别作为最终所属的产业类别;其中,某个待识别用户与某个产业类别的相关性得分与该产业类别对应的每个关键词在该待识别用户的研究领域分词文本中的出现频率、该产业类别对应的每个关键词的逆文档频率以及每个待识别用户的研究领域分词文本长度相关。2.如权利要求1所述的一种用户产业类别识别方法,其特征在于,还包括:构建产业分类字典;所述产业分类字典中包含若干个产业类别,每个产业类别对应多个关键词。3.如权利要求1所述的一种用户产业类别识别方法,其特征在于,所述计算每个待识别用户与每个产业类别的相关性得分的具体步骤为:基于所有待识别用户的研究领域分词文本,建立用户研究领域分词文本集合;基于产业分类字典,建立产业分类字典集合;基于用户研究领域分词文本集合和产业分类字典集合,使用笛卡尔乘积建立所有可能的有序对;使用相关性算法,计算每个有序对中,产业类别和待识别用户的相关性得分。4.如权利要求3所述的一种用户产业类别识别方法,其特征在于,所述相关性算法为bm25相关性算法。5.如权利要求3所述的一种用户产业类别识别方法,其特征在于,每个有序对由一个待识别用户的所有研究领域分词文本和一个产业类别对应的所有关键词组成。6.如权利要求1所述的一种用户产业类别识别方法,其特征在于,所述分词器为ik中文分词器。7.一种用户产业类别识别系统,其特征在于,包括:分词模块,其被配置为:获取所有待识别用户的研究领域描述文本,并采用分词器进行分词,得到所有待识别用户的研究领域分词文本;相关性得分计算模块,其被配置为:基于每个待识别用户的研究领域分词文本与产业分类字典中每个产业类别对应的关键词,计算每个待识别用户与每个产业类别的相关性得分;识别模块,其被配置为:对于每个待识别用户,选择与其相关性得分最高的产业类别作为最终所属的产业类别;其中,某个待识别用户与某个产业类别的相关性得分与该产业类别对应的每个关键词在该待识别用户的研究领域分词文本中的出现频率、该产业类别对应的每个关键词的逆文档频率以及每个待识别用户的研究领域分词文本长度相关。8.如权利要求7所述的一种用户产业类别识别系统,其特征在于,还包括产业分类字典构建模块,其被配置为:构建产业分类字典;
所述产业分类字典中包含若干个产业类别,每个产业类别对应多个关键词。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述的一种用户产业类别识别方法中的步骤。10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一项所述的一种用户产业类别识别方法中的步骤。

技术总结
本发明提供了一种用户产业类别识别方法及系统,包括:获取所有待识别用户的研究领域描述文本,并采用分词器进行分词,得到所有待识别用户的研究领域分词文本;基于每个待识别用户的研究领域分词文本与产业分类字典中每个产业类别对应的关键词,计算每个待识别用户与每个产业类别的相关性得分;对于每个待识别用户,选择与其相关性得分最高的产业类别作为最终所属的产业类别;其中,某个待识别用户与某个产业类别的相关性得分与该产业类别对应的每个关键词在该待识别用户的研究领域分词文本中的出现频率、该产业类别对应的每个关键词的逆文档频率以及每个待识别用户的研究领域分词文本长度相关。有效提升了用户产业识别的准确率和效率。的准确率和效率。的准确率和效率。


技术研发人员:吴士伟 李慧娟 王兴华 彭志进 韩中玉 于杨 李娜 崔欣剑 纪丽萍
受保护的技术使用者:山东亿云信息技术有限公司
技术研发日:2021.12.24
技术公布日:2022/3/29
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献