一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于产业特征的企业分类方法及装置与流程

2022-06-01 06:46:13 来源:中国专利 TAG:


1.本发明涉及数据分类管理技术领域,更具体地说,涉及一种基于产业特征的企业分类方法及装置。


背景技术:

2.基于标签的推荐系统,用户用标签来描述对物品的看法,因此标签是联系用户和物品的纽带,也是反应用户兴趣的重要数据源,如何利用用户的标签数据提高个性化推荐结果的质量是推荐系统研究的重要课题。
3.但是,现有技术一般采用人工标注,工作量大,产业链关联的企业可能从数家到数万家不等,人工标注无法短时间内解决大量的产业链节点对应企业标注工作;其次人工标注主观性强,依赖于个人或者数个人的知识与见解,准确率难以保证;自动化程度低,无法实现多条产业链的实时标注。


技术实现要素:

4.本发明提供了一种基于产业特征的企业分类方法及装置,解决现有人工标注,工作量大,产业链关联的企业可能从数家到数万家不等,人工标注无法短时间内解决大量的产业链节点对应企业标注工作;其次人工标注主观性强,依赖于个人或者数个人的知识与见解,准确率难以保证;自动化程度低,无法实现多条产业链的实时标注的问题。
5.为解决上述问题,一方面,本发明提供一种基于产业特征的企业分类方法,包括:
6.收集企业相关的数据;
7.对所述数据进行埋点以给所述数据打上标签;
8.对所述数据进行基于标签的相关度计算;
9.依据计算结果对企业进行分类。
10.所述收集企业相关的数据,包括:
11.从行业标准网站或者通过专家意见获取相应的产业链数据以及产业特征数据;
12.从企业网站或者第三方网站获取企业基本信息;其中,企业相关的数据包括产业链数据、产业特征数据和企业特征标记数据;企业特征标记数据包括企业基本信息。
13.所述对所述数据进行埋点以给所述数据打上标签,包括:
14.在企业或相似网站页面进行数据埋点,埋点动作为用户为企业进行产业链数据和产业特数据进行标记以使标记至少形成三元组数据,所述三元组数据包括企业名称、产业名称及产业特征;
15.将埋点好的企业或者相似网站进行发布,从而由用户自由标记;
16.输出包括标记信息的企业特征标记数据。
17.所述对所述数据进行基于标签的相关度计算,包括:
18.统计第n个产业链节点对应的第c个产业特征,则对应的第n个产业链节点的第c个产业特征被标记过的次数为m
n,c
,第e个企业被打过第c个产业特征的次数为m
c,e

19.统计第c个产业特征与不同的产业链节点同时标记过的次数m
c,n

20.计算相关度:
[0021][0022]
其中,p(n,e)为第n个产业链节点与第e个企业的相关度。
[0023]
所述依据计算结果对企业进行分类,包括:
[0024]
将相关度大于预设阈值的企业与产业链节点进行绑定;
[0025]
将企业的分类归属于所绑定的产业链节点。
[0026]
一方面,提供一种基于产业特征的企业分类装置,包括:
[0027]
收集模块,用于收集企业相关的数据;
[0028]
埋点模块,用于对所述数据进行埋点以给所述数据打上标签;
[0029]
计算模块,用于对所述数据进行基于标签的相关度计算;
[0030]
分类模块,用于依据计算结果对企业进行分类。
[0031]
所述收集模块包括:
[0032]
第一获取子模块,用于从行业标准网站或者通过专家意见获取相应的产业链数据以及产业特征数据;
[0033]
第二获取子模块,用于从企业网站或者第三方网站获取企业基本信息;其中,企业相关的数据包括产业链数据、产业特征数据和企业特征标记数据;企业特征标记数据包括企业基本信息。
[0034]
所述埋点模块包括:
[0035]
数据埋点子模块,用于在企业或相似网站页面进行数据埋点,埋点动作为用户为企业进行产业链数据和产业特数据进行标记以使标记至少形成三元组数据,所述三元组数据包括企业名称、产业名称及产业特征;
[0036]
标记子模块,用于将埋点好的企业或者相似网站进行发布,从而由用户自由标记;
[0037]
输出子模块,用于输出包括标记信息的企业特征标记数据。
[0038]
所述计算模块包括:
[0039]
第一统计子模块,用于统计第n个产业链节点对应的第c个产业特征,则对应的第n个产业链节点的第c个产业特征被标记过的次数为m
n,c
,第e个企业被打过第c个产业特征的次数为m
c,e

[0040]
第二统计子模块,用于统计第c个产业特征与不同的产业链节点同时标记过的次数m
c,n

[0041]
相关度计算子模块,用于计算相关度:
[0042][0043]
其中,p(n,e)为第n个产业链节点与第e个企业的相关度;
[0044]
所述分类模块包括:
[0045]
绑定子模块,用于将相关度大于预设阈值的企业与产业链节点进行绑定;
[0046]
分类子模块,用于将企业的分类归属于所绑定的产业链节点。
[0047]
一种计算机可读存储介质,所述存储介质中存储有多条指令,所述指令适于由处理器加载以执行以上所述的一种基于产业特征的企业分类方法。
[0048]
本发明的有益效果是:通过产业链节点和产业特征的标记,将匹配上的企业自动分类归属到对应产业链节点下,达到迅速构建产业链条企业的能力;主要解决专家标记或者少量人工标记的主观性,同时减少工作量;使用基于标签的推荐匹配方案,将用户、标签、物品三者的匹配关系转化为产业链节点、产业特征、企业的匹配关系。
附图说明
[0049]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0050]
图1是本发明一实施例提供的一种一种基于产业特征的企业分类方法的流程图。
具体实施方式
[0051]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0052]
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0053]
在本发明中,“示例性”一词用来表示“用作例子、例证或说明”。本发明中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本发明。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本发明的描述变得晦涩。因此,本发明并非旨在限于所示的实施例,而是与符合本发明所公开的原理和特征的最广范围相一致。
[0054]
参见图1,图1是本发明一实施例提供的一种一种基于产业特征的企业分类方法的流程图。该基于产业特征的企业分类方法包括步骤s1-s4:
[0055]
s1、收集企业相关的数据;步骤s1包括步骤s11-s12:
[0056]
s11、从行业标准网站或者通过专家意见获取相应的产业链数据以及产业特征数据。
[0057]
本实施例中,通过数据库创建好的产业链数据,产业特征数据与企业特征标记数据。然后进行数据采集,从行业标准网站或者通过专家意见获取相应的产业链数据以及产业特征数据。
[0058]
s12、从企业网站或者第三方网站获取企业基本信息;其中,企业相关的数据包括产业链数据、产业特征数据和企业特征标记数据;企业特征标记数据包括企业基本信息。
[0059]
本实施例中,从企业网站或者第三方网站获取企业基本信息,将采集好的数据导入到相应的数据库。其中,产业链数据包含产业链名称、产业链节点名称、产业描述等信息,需要通过行业标准或者专家意见进行预定义。产业特征数据包含唯一特征id、产业特征、产业特征描述等信息,需要通过行业标准或者专家意见进行预定义。企业特征标记数据包含企业基本信息、特征标记信息、特征标记次数信息等。
[0060]
s2、对所述数据进行埋点以给所述数据打上标签;步骤s2包括步骤s21-s23:
[0061]
s21、在企业或相似网站页面进行数据埋点,埋点动作为用户为企业进行产业链数据和产业特数据进行标记以使标记至少形成三元组数据,所述三元组数据包括企业名称、产业名称及产业特征。
[0062]
本实施例中,在企业或相似网站页面进行数据埋点,埋点动作为用户为企业进行产业链和产业特征标记,用户至少使用这两个标签大类进行自由标记,如将某企业的所属产业标记为人工智能,产业特征标记为芯片等,标记至少形成一个三元组数据(企业名称,产业名称,产业特征)。埋点动作主要为了采集企业被何种产业及何种产业特征标记,以及标记的次数。
[0063]
s22、将埋点好的企业或者相似网站进行发布,从而由用户自由标记。
[0064]
本实施例中,需要由第三方用户在使用企业或者类似网站时进行标记,因此需要先将标记点埋点到对应系统当中。将埋点好的企业或者相似网站进行发布,由用户自由标记。
[0065]
s23、输出包括标记信息的企业特征标记数据。
[0066]
本实施例中,输出包含标记信息的企业特征标记数据,从而对采集好的数据进行基于标签的相关度计算。
[0067]
s3、对所述数据进行基于标签的相关度计算;步骤s3包括步骤s31-s33:
[0068]
s31、统计第n个产业链节点对应的第c个产业特征,则对应的第n个产业链节点的第c个产业特征被标记过的次数为m
n,c
,第e个企业被打过第c个产业特征的次数为m
c,e

[0069]
本实施例中,根据步骤s2,数据至少采集了对应企业被打上的产业名称和产业特征名称,产生的数据集如下表:
[0070]
企业名称产业名称产业特征企业1产业1产业特征1企业1产业1产业特征2企业1产业2产业特征1企业2产业2产业特征2.........
[0071]
统计产业链节点n对应的产业特征c,如上表,产业1有产业特征1和产业特征2两个特征,对应计算产业链节点n的产业特征c被标记过的次数m
n,c
,如上表,产业1对应有产业特
征1,被标记过2次,m
n,c
为2;企业e被打过产业特征c的次数m
c,e
,如上表,企业1被对应产业特征1,被标记过2次,m
c,e
为2。
[0072]
其中,产业链节点有多个,包括第1、2、
……
n、
……
个产业链节点;产业特征也有多个,包括第1、2、
……
c、
……
个产业特征。
[0073]
s32、统计第c个产业特征与不同的产业链节点同时标记过的次数m
c,n

[0074]
本实施例中,考虑到龙头企业或者知名企业会被常用产业特征标签反复标记,导致部分产业特征标签产生过大权重,借鉴tf-idf的思想,降低误差,这里需要进一步统计产业特征c与多少个不同的产业链节点同时标记过(需要排重),计为m
c,n
,如上表,产业特征1与产业1和产业2都同时标记过,m
c,n
为2。
[0075]
s33、计算相关度:
[0076][0077]
其中,p(n,e)为第n个产业链节点与第e个企业的相关度。
[0078]
本实施例中,使用tagbasedtfidf算法,计算第n个产业链节点与第e个企业的相关度。
[0079]
s4、依据计算结果对企业进行分类。步骤s4包括步骤s41-s42:
[0080]
s41、将相关度大于预设阈值的企业与产业链节点进行绑定。
[0081]
本实施例中,对于某个节点,通过算法可以计算出如下矩阵:
[0082]
节点名称企业名称分值p产业链节点n1企业e1p1产业链节点n1企业e2p2产业链节点n1企业e3p3 ......产业链节点n1企业enpn
[0083]
对分值p(可以是相关度,也可以是通过相关度进一步计算所得)进行排序,将分值大于k(即预设阈值)的企业与产业链节点进行绑定,即分值大于k的企业都分类属于该产业链节点。
[0084]
s42、将企业的分类归属于所绑定的产业链节点。
[0085]
本实施例中,循环计算所有产业链节点,直到所有企业都自动分类到各个产业链节点下。
[0086]
一方面,提供一种基于产业特征的企业分类装置,包括:
[0087]
收集模块,用于收集企业相关的数据;
[0088]
埋点模块,用于对所述数据进行埋点以给所述数据打上标签;
[0089]
计算模块,用于对所述数据进行基于标签的相关度计算;
[0090]
分类模块,用于依据计算结果对企业进行分类。
[0091]
所述收集模块包括:
[0092]
第一获取子模块,用于从行业标准网站或者通过专家意见获取相应的产业链数据以及产业特征数据;
[0093]
第二获取子模块,用于从企业网站或者第三方网站获取企业基本信息;其中,企业相关的数据包括产业链数据、产业特征数据和企业特征标记数据;企业特征标记数据包括企业基本信息。
[0094]
所述埋点模块包括:
[0095]
数据埋点子模块,用于在企业或相似网站页面进行数据埋点,埋点动作为用户为企业进行产业链数据和产业特数据进行标记以使标记至少形成三元组数据,所述三元组数据包括企业名称、产业名称及产业特征;
[0096]
标记子模块,用于将埋点好的企业或者相似网站进行发布,从而由用户自由标记;
[0097]
输出子模块,用于输出包括标记信息的企业特征标记数据。
[0098]
所述计算模块包括:
[0099]
第一统计子模块,用于统计第n个产业链节点对应的第c个产业特征,则对应的第n个产业链节点的第c个产业特征被标记过的次数为m
n,c
,第e个企业被打过第c个产业特征的次数为m
c,e

[0100]
第二统计子模块,用于统计第c个产业特征与不同的产业链节点同时标记过的次数m
c,n

[0101]
相关度计算子模块,用于计算相关度:
[0102][0103]
其中,p(n,e)为第n个产业链节点与第e个企业的相关度;
[0104]
所述分类模块包括:
[0105]
绑定子模块,用于将相关度大于预设阈值的企业与产业链节点进行绑定;
[0106]
分类子模块,用于将企业的分类归属于所绑定的产业链节点。
[0107]
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种基于产业特征的企业分类方法中的步骤。
[0108]
其中,该存储介质可以包括:只读存储器(rom,read only memory)、随机存取记忆体(ram,random access memory)、磁盘或光盘等。
[0109]
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种基于产业特征的企业分类方法中的步骤,因此,可以实现本发明实施例所提供的任一种基于产业特征的企业分类方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
[0110]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献