一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种智能化企业标签提取方法与流程

2023-02-07 15:31:30 来源:中国专利 TAG:

1.本发明涉及人工智能领域,特别是涉及一种智能化企业标签提取方法。


背景技术:

2.随着企业数字化的发展,企业相关的信息在互联网上越来越丰富,人们在工作中需要一种方便快速的方式认识企业,企业标签是对企业的主要业务以及其他重要相关信息的高度抽象,通过企业标签可以快速的了解企业并找到自己感兴趣的企业,提升人们的工作效率。
3.目前,业界获取企业标签一种是依赖人工编写,先收集互联网上该公司的相关信息,然后进行筛选和总结,甚至需要对企业进行调研后才能给出标签,这种方式存在人工成本较大、效率很低、通常覆盖面不全,而且对于许多不太知名的企业通常没有提供足够的信息来生成标签。
4.此外还可以通过nlp技术生成企业标签,该方法也有较大的难度,一是企业标签不固定,无法使用处理标签分类方法来给企业打业务标签;二是企业的简介和业务相关的描述,需要在网上收集,且分布在位置不固定,所以使用单一的模型和算法,效果不佳。
5.标签词典方法是通过专业人士对样本企业的信息进行收集,根据人工提取标签形成标签词典;后续针对新的企业,使用精确匹配方式,将词典中那些出现在该企业简介以及其他描述文本中的词语提取出来作为企业标签,该方法主要是适用于跟标签词典同行的企业,无法应用于行业外企业。
6.针对企业多维度的文本信息,可以使用词性来生成标签,通过分词技术对文本进行分词,然后进行词法和词性判断,将满足要求的词提取出来,将作为企业标签,该方法虽然能够提取出足够的标签词,但通常引入过多的噪音,降低企业标签的质量。
7.鉴于此,为此,我们提供一种智能化企业标签提取方法。


技术实现要素:

8.为了克服现有技术的不足,本发明提供一种智能化企业标签提取方法,以解决上述背景技术中提出的问题。
9.为解决上述技术问题,本发明提供如下技术方案:一种智能化企业标签提取方法,包括以下步骤:
10.步骤s1,对大量的企业信息,根据不同的数据源进行分类;
11.步骤s2,对文本信息进行分词处理;
12.对不同分类下的信息进行分词,分词要保证的是分词的全面性,利用全模式分词工具,将文本中的词都分出来;
13.步骤s3,关键词清洗;
14.步骤s4,关键词排序;
15.利用标签评分模型对关键词进行评分,输出的模型结果,作为标签的权重;
16.(1)生成维度系数;
17.(2)评分模型;
18.步骤s5,高层标签提取;
19.通过聚类模型提取高层标签。
20.作为本发明的一种优选技术方案,在步骤s3中,关键词清洗主要运用如下策略:
21.(1)词性过滤
22.使用hanlp词性标注技术,识别出所有词的词性,准确度也非常高。去掉非常不合适做标签的词性,比如数词、介词、代词...,可以大大减少噪声词;
23.(2)噪音词库过滤
24.提取企业各个维度的文本,如果一个关键词在当前维度频次越高,而在其它维度频次越低,则此关键词越有可能是当前维度的固定用语,根据当前维度频次和其它维度频次生成噪音值,达到噪音值的关键词将被维护到噪音词库。
25.作为本发明的一种优选技术方案,在步骤s4中,
26.(1)生成维度系数
27.根据行业分类,对不同分类下标签重要程度进行评估,由于企业官网分类下的标签的关键词质量非常高,可以作为一个标准,通过分析其它维度是否出现这些官网标签及出现次数,来评估重要程度,从而生成维度系数;
28.(2)评分模型
29.基础评分模型公式:关键词基础得分=所有命中维度*维度系数/所有非空维度数*维度系数;
30.当分值达到阈值,则此关键词作为企业的标签。
31.作为本发明的一种优选技术方案,调整策略:
32.a.如果当前公司带有官网标签,则对官网标签的词进行加权,提升关键词的分值;
33.b.计算关键词之间的相似度,如果一个关键词达到阈值被选中为标签,那么会动态地提升与该标签高相似度的关键词的分值。
34.作为本发明的一种优选技术方案,通过聚类模型提取高层标签的步骤如下:
35.1.对企业各维度的进行分词,清洗分词;
36.2.通过tf-idf技术将之前生成的标签转化成词向量;
37.3.确定主题数量及主题词总量限制,然后开始建模;
38.4.将词向量带入lda模型进行训练,得到一个企业的聚类模型;
39.5.将待提取高层标签的企业数据进行分词、向量化以后,带入训练好的聚类模型,预测企业在各个主题上的概率分布情况;
40.6.概率最高的主题作为当前企业的归属分类(主题),其主题词作为高层次标签补充到此类企业中;
41.7.后续新公司也只需带入聚类模型,即可预测出其归属分类,从而得到对应的高层标签。
42.与现有技术相比,本发明能达到的有益效果是:
43.本发明通过对大量的企业信息,根据不同的数据源进行分类,对文本信息进行分词处理,对不同分类下的信息进行分词,分词要保证的是分词的全面性,利用全模式分词工
具,将文本中的词都分出来,然后进行关键词的清洗和关键词的排序,利用标签评分模型对关键词进行评分,输出的模型结果,作为标签的权重,最后生成维度系数和评分模型,高层标签的提取,通过聚类模型提取高层标签,从而得到对应的高层标签,该企业标签提取方法,标签分布的位置固定,同时适用于标签词典同行外企业,同时达到噪音值的关键词将被维护到噪音词库,减少噪音,综合提高了企业标签的提取质量。
具体实施方式
44.为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施例,进一步阐述本发明,但下述实施例仅仅为本发明的优选实施例,并非全部。基于实施方式中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得其它实施例,都属于本发明的保护范围。下述实施例中的实验方法,如无特殊说明,均为常规方法,下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
45.实施例:
46.本发明提供一种智能化企业标签提取方法,包括以下步骤:
47.步骤s1,对大量的企业信息,根据不同的数据源进行分类;
48.步骤s2,对文本信息进行分词处理;
49.对不同分类下的信息进行分词,分词要保证的是分词的全面性,利用全模式分词工具,将文本中的词都分出来;
50.步骤s3,关键词清洗;
51.关键词清洗主要运用如下策略:
52.(1)词性过滤
53.使用hanlp词性标注技术,识别出所有词的词性,准确度也非常高。去掉非常不合适做标签的词性,比如数词、介词、代词...,可以大大减少噪声词;
54.(2)噪音词库过滤
55.提取企业各个维度的文本,如果一个关键词在当前维度频次越高,而在其它维度频次越低,则此关键词越有可能是当前维度的固定用语,根据当前维度频次和其它维度频次生成噪音值,达到噪音值的关键词将被维护到噪音词库,这些词的词频都很高,出现的范围很广,所以通过噪音词库过滤,可以起到四两拨千斤的降噪效果。
56.步骤s4,关键词排序;
57.利用标签评分模型对关键词进行评分,输出的模型结果,作为标签的权重;
58.(1)生成维度系数
59.根据行业分类,对不同分类下标签重要程度进行评估,由于企业官网分类下的标签的关键词质量非常高,可以作为一个标准,通过分析其它维度是否出现这些官网标签及出现次数,来评估重要程度,从而生成维度系数;
60.(2)评分模型
61.基础评分模型公式:关键词基础得分=所有命中维度*维度系数/所有非空维度数*维度系数;
62.当分值达到阈值,则此关键词作为企业的标签;
63.调整策略:
64.a.如果当前公司带有官网标签,则对官网标签的词进行加权,提升关键词的分值;
65.b.计算关键词之间的相似度,如果一个关键词达到阈值被选中为标签,那么会动态地提升与该标签高相似度的关键词的分值;
66.步骤s5,高层标签提取;
67.通过聚类模型提取高层标签;
68.步骤如下:
69.1.对企业各维度的进行分词,清洗分词(见前面关键词清洗策略);
70.2.通过tf-idf技术将之前生成的标签转化成词向量;
71.3.确定主题数量及主题词总量限制,然后开始建模;
72.4.将词向量带入lda模型进行训练,得到一个企业的聚类模型;
73.5.将待提取高层标签的企业数据进行分词、向量化以后,带入训练好的聚类模型,预测企业在各个主题上的概率分布情况;
74.6.概率最高的主题作为当前企业的归属分类(主题),其主题词作为高层次标签补充到此类企业中;
75.后续新公司也只需带入聚类模型,即可预测出其归属分类,从而得到对应的高层标签。
76.本发明一种智能化企业标签提取方法,首先对大量的企业信息,根据不同的数据源进行分类,对文本信息进行分词处理,对不同分类下的信息进行分词,分词要保证的是分词的全面性,利用全模式分词工具,将文本中的词都分出来,然后进行关键词的清洗和关键词的排序,利用标签评分模型对关键词进行评分,输出的模型结果,作为标签的权重,最后生成维度系数和评分模型,高层标签的提取,通过聚类模型提取高层标签,从而得到对应的高层标签。
77.尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献