一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种智能化企业标签提取方法与流程

2023-02-18 15:48:18 来源:中国专利 TAG:

技术特征:
1.一种智能化企业标签提取方法,其特征在于,包括以下步骤:步骤s1,对大量的企业信息,根据不同的数据源进行分类;步骤s2,对文本信息进行分词处理;对不同分类下的信息进行分词,分词要保证的是分词的全面性,利用全模式分词工具,将文本中的词都分出来;步骤s3,关键词清洗;步骤s4,关键词排序;利用标签评分模型对关键词进行评分,输出的模型结果,作为标签的权重;(1)生成维度系数;(2)评分模型;步骤s5,高层标签提取;通过聚类模型提取高层标签。2.根据权利要求1所述的一种智能化企业标签提取方法,其特征在于,在步骤s3中,关键词清洗主要运用如下策略:(1)词性过滤使用hanlp词性标注技术,识别出所有词的词性,准确度也非常高。去掉非常不合适做标签的词性,比如数词、介词、代词...,可以大大减少噪声词;(2)噪音词库过滤提取企业各个维度的文本,如果一个关键词在当前维度频次越高,而在其它维度频次越低,则此关键词越有可能是当前维度的固定用语,根据当前维度频次和其它维度频次生成噪音值,达到噪音值的关键词将被维护到噪音词库。3.根据权利要求1所述的一种智能化企业标签提取方法,其特征在于,在步骤s4中,(1)生成维度系数根据行业分类,对不同分类下标签重要程度进行评估,由于企业官网分类下的标签的关键词质量非常高,可以作为一个标准,通过分析其它维度是否出现这些官网标签及出现次数,来评估重要程度,从而生成维度系数;(2)评分模型基础评分模型公式:关键词基础得分=所有命中维度*维度系数/所有非空维度数*维度系数;当分值达到阈值,则此关键词作为企业的标签。4.根据权利要求3所述的一种智能化企业标签提取方法,其特征在于,调整策略:a.如果当前公司带有官网标签,则对官网标签的词进行加权,提升关键词的分值;b.计算关键词之间的相似度,如果一个关键词达到阈值被选中为标签,那么会动态地提升与该标签高相似度的关键词的分值。5.根据权利要求1所述的一种智能化企业标签提取方法,其特征在于,通过聚类模型提取高层标签的步骤如下:(1).对企业各维度的进行分词,清洗分词;(2).通过tf-idf技术将之前生成的标签转化成词向量;(3).确定主题数量及主题词总量限制,然后开始建模;
(4).将词向量带入lda模型进行训练,得到一个企业的聚类模型;(5).将待提取高层标签的企业数据进行分词、向量化以后,带入训练好的聚类模型,预测企业在各个主题上的概率分布情况;(6).概率最高的主题作为当前企业的归属分类(主题),其主题词作为高层次标签补充到此类企业中;(7).后续新公司也只需带入聚类模型,即可预测出其归属分类,从而得到对应的高层标签。

技术总结
本发明公开了一种智能化企业标签提取方法,对大量的企业信息,根据不同的数据源进行分类,对文本信息进行分词处理,对不同分类下的信息进行分词,分词要保证的是分词的全面性,利用全模式分词工具,将文本中的词都分出来,然后进行关键词的清洗和关键词的排序,利用标签评分模型对关键词进行评分,输出的模型结果,作为标签的权重,最后生成维度系数和评分模型,高层标签的提取,通过聚类模型提取高层标签,从而得到对应的高层标签,本发明一种智能化企业标签提取方法,标签分布的位置固定,同时适用于标签词典同行外企业,同时达到噪音值的关键词将被维护到噪音词库,减少噪音,综合提高了企业标签的提取质量。综合提高了企业标签的提取质量。


技术研发人员:李庆峰 孙永磊
受保护的技术使用者:珠海绘客科技有限公司
技术研发日:2022.11.19
技术公布日:2023/2/3
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献