一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种竞品企业检索方法、系统、存储介质、信息处理终端与流程

2021-11-05 23:17:00 来源:中国专利 TAG:


1.本发明属于数据处理技术领域,尤其涉及一种竞品企业检索方法、系统、存储介质、信息处理终端。


背景技术:

2.目前,了解一家企业最好的方法便是了解其竞品企业,通过同竞品企业的对比才能够得出该企业在所处行业的产业规模、企业实力、社会影响力等。
3.然而,当前竞品企业的召回方式,多为通过企业年报、招股书、或是招投标信息,然后通过信息抽取技术,生成结构化信息,其列表的生成过程依旧多为人工参与,因此数据量相对有限,对于中小微企业,能够获取到的信息十分有限,也不会存在招股书,或是企业年报等信息,从而无法获取竞品企业信息,这也是为什么多数金融机构仅做上市公司数据的原因,为服务更多更全的业务场景,对中小微企业的竞品计算也是必不可少的。
4.通过上述分析,现有技术存在的问题及缺陷为:
5.现有企业有的数据不全,没有公开竞品信息的竞品企业计算。


技术实现要素:

6.针对现有技术存在的问题,本发明提供了一种竞品企业检索方法、系统、存储介质、信息处理终端。
7.本发明是这样实现的,一种竞品企业检索方法,所述竞品企业检索方法包括:
8.获取查询企业的各维度特征;在所述各维度特征上并行进行对比召回操作;对所述各维度特征召回结果进行结果融合并选取所需结果;
9.利用选取的所需结果,获取召回公司对应的具体解释数据;利用获取的经营范围对比计算数据生成具体解释;并对各维度特征生成的具体解释进行整合。
10.进一步,所述获取查询企业的各维度特征前需进行:
11.(1)经营范围对比计算;
12.(2)技术实力对比计算;
13.(3)人员流动对比;
14.(4)业务营收对比;
15.(5)以此类推;
16.(6)存储上述原始特征及清理后的压缩特征。
17.进一步,所述步骤(1)具体包括:
18.收集企业经营范围信息;
19.对经营范围进行清理及特征处理,提取主营业务方向;
20.对比经营范围,计算经营范围重叠率;
21.提取并标准化重叠经营范围。
22.所述步骤(2)具体包括:
23.收集企业现有技术特征,包括:专利、论文、舆情、官网;
24.对原始数据进行清洗,并提取其技术相关特征,包括:主要技术方向、综合技术方向、行业排名;
25.对比技术实力;
26.提取高技术竞争点。
27.所述步骤(3)具体包括:
28.收集企业所有人员相关数据,包括:舆情报道、工商变更、文献产出、招投标公示;
29.对所收集信息进行数据清洗,并进行全量数据的人名消歧处理;
30.统计对比企业的人才竞争情况,以及相关人员的社会影响力;
31.以竞争的人才及该人才的社会影响力、成果产出作为依据点。
32.所述步骤(4)具体包括:
33.收集企业年报信息、财报信息、金融舆情相关信息;
34.对原始数据进行清洗、事件抽取,并关联至具体产业产品;
35.对比企业在具体产业产品下业务营收的竞争情况;
36.以具体的行业收益数据作为支撑点,用以解释。
37.本发明的另一目的在于提供一种竞品企业检索系统,所述竞品企业检索系统包括:
38.经营范围对比计算模块,用于对比经营范围,计算经营范围重叠率;
39.技术实力对比计算模块,用于对原始数据进行清洗,并提取其技术相关特征,以及对比技术实力;
40.人员流动对比模块,用于对所收集信息进行数据清洗,并进行全量数据的人名消歧处理;
41.业务营收对比模块,用于对原始数据进行清洗、事件抽取,并关联至具体产业产品;
42.压缩特征存储模块,用于存储原始特征及清理后的压缩特征;
43.竞品检索模块,用于获取查询企业的各维度特征,在各维度上并行进行对比召回操作;还用于对各维度召回结果进行结果融合;
44.扩充解释模块,用于获取召回公司对应的具体解释数据;用于对各维度解释进行整合。
45.本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述的竞品企业检索方法。
46.本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述的竞品企业检索方法。
47.本发明的另一目的在于提供一种用于获取竞品企业的信息数据处理终端,其特征在于,所述用于获取竞品企业的信息数据处理终端用于实现所述的竞品企业检索方法。
48.结合上述的所有技术方案,本发明所具备的优点及积极效果为:
49.本发明评估维度全面,且可不断横向扩充;解决了中小企业信息不全的竞品计算问题。计算结果具有高可解释性。计算侧重可根据需求调整。
50.对比的技术效果或者实验效果。
附图说明
51.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
52.图1是本发明实施例提供的竞品企业检索系统示意图。
53.图1中:1、经营范围对比计算模块;2、技术实力对比计算模块;3、人员流动对比模块;4、业务营收对比模块;5、压缩特征存储模块;6、竞品检索模块;7、扩充解释模块。
54.图2是本发明实施例提供的竞品企业检索原理图,
具体实施方式
55.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
56.本发明的技术特征涉及到以下几方面,下面进行具体的分析:
57.本发明所提出技术方案并非为了对企业进行评价,而是对企业竞品进行检索,两者存在较大差异。企业评价侧重于对单家企业进行打分,竞品检索意在比较两家企业在各评估方向上是否存在竞争关系,以及竞争强度,没有进行单方面打分,因此,也没有人工制定的评价公式,两者在输入项及意图均存在较大差异。
58.两家企业竞争评估过程中,不同的评估方向采用不同的特征化技术手段及评估方案,均为技术手段。以下进行详细说明:
59.(1)对比企业经营范围时,原始的企业经营范围为一段长文本,无法进行对比,因此需要进行数值化。需要对经营范围文本采用:分词、清洗、关键词提取、关键词标准化、词权重计算、词向量化、词向量融合等技术手段,以上均为技术手段。其中,词权重计算,为采用数理统计分析所得,为客观反映真实数据规律,而非人工敲定。词向量化为无监督word2vec模型,不掺杂先验人工特征,能够反馈相对客观词间关系。在进行两两竞争强度计算时采用余弦相似度进行计算,余弦相似度为客观公式,不可同人工规则一概而论,且特征生成过程中也均为技术手段,非人工规则。
60.(2)对比人员流动时,需要预先对全量人员相关数据进行人员消歧,具体技术方案可简述为使用回归森林模型在标注数据集上进行模型训练,模型训练结束后,对全量数据进行预测,即对全量数据进行同名消歧,模型类别为机器学习模型,基于监督学习训练,并非人工设计规则进行人员消歧,模型在客观真实数据上进行训练,能够反馈自然规律。尽管最终对比过程仅为查看两家企业间是否有人员流动,但不能磨灭其背后数据加工过程通过大量技术手段。
61.(3)对比企业营收(上市企业附加评估项)时,原始企业财报多为pdf格式,需先对其采用ocr技术进行识别,然后再次进行标准化,对于标准化过后信息,也并非直接书写公式便能直接进行比较,每家企业的产品营收书写方式及产品表达均会有所差异,因此还需
对产品名称进行标准化,并采用相应算法归并到具体产业当中。如:ocr识别、产品名标注化、产业化等,采用的均为技术手段,并非靠人工书写规则就能解决。
62.针对现有技术存在的问题,本发明提供了一种竞品企业检索方法,下面结合附图对本发明作详细的描述。
63.如图1所示,本发明实施例提供的竞品企业检索系统包括:
64.经营范围对比计算模块1,用于对比经营范围,计算经营范围重叠率;
65.技术实力对比计算模块2,用于对原始数据进行清洗,并提取其技术相关特征,以及对比技术实力;
66.人员流动对比模块3,用于对所收集信息进行数据清洗,并进行全量数据的人名消歧处理;
67.业务营收对比模块4,用于对原始数据进行清洗、事件抽取,并关联至具体产业产品;
68.压缩特征存储模块5,用于存储原始特征及清理后的压缩特征;
69.竞品检索模块6,用于获取查询企业的各维度特征,在各维度上并行进行对比召回操作;还用于对各维度召回结果进行结果融合;
70.扩充解释模块7,用于获取召回公司对应的具体解释数据;用于对各维度解释进行整合。
71.如2图所示,整体计算架构由多个相同架构的子模块组成,不同子模块分别对不同维度特征进行计算,并对比在该维度上的相似程度,最终子模块不但需要输出相似度值,还要形成具体可解释的相似点,每个模型相互独立,互不冲突,因此可以不断进行计算维度的挖掘,横向扩展,而且,在实时计算过程中,可以采用并行的方式进行计算,因此不会随着计算模块的增加而延长计算时间,如果所查企业单一维度缺失,也并不影响其他维度的计算结果。
72.通过采用并行方式对每个维度进行计算,汇集每个子模块的相似度产出用以综合排序,使用具有可解释的相似点进行解释文本的生成。
73.在每个子模块内部,均采用针对所处理维度的具体数据分布,进行特有的特征提取,且特征对比过程也仅对所处理特征进行计算。
74.在具体实施过程中,尽管相似度为基于相似点的计算所得,但为使相似点更加可读,往往还需标准化或文本生成处理,在实际操作过程中,通过对原始特征进行特征化处理,并进行持久化存储,此时,所有的信息的蕴含在特征中,但不急于生成相似点表达,而是通过使用并行的相似度计算,优先计算出相似度,并根据综合相似度进行结果召回操作。
75.通过按照综合相似度进行排序,选取topn结果,召回topn的完整特征,再进行相似点的生成过程,该相似点的计算过程与特征提取方式相似,但追加文本清理及标准化过程,使其更具可读性。
76.同时,基于业务需求,上述子模块可独立使用,也可根据需求,进行有权的随意组合,以满足更多的情景。
77.下面结合具体实施例对本发明的技术方案作进一步描述。
78.实施例
79.在使用过程中,具体执行步骤如下:
80.1.模块一:经营范围对比计算:
81.1.1收集企业经营范围信息;
82.1.2对经营范围进行清理及特征处理,提取主营业务方向;
83.1.3对比经营范围,计算经营范围重叠率;
84.1.4提取并标准化重叠经营范围。
85.2.模块二:技术实力对比计算:
86.2.1收集企业现有技术特征,如:专利、论文、舆情、官网等;
87.2.2对原始数据进行清洗,并提取其技术相关特征,如:主要技术方向、综合技术方向、行业排名等;
88.2.3对比技术实力;
89.2.4提取高技术竞争点。
90.3.模块三:人员流动对比:
91.3.1收集企业所有人员相关数据,如:舆情报道、工商变更、文献产出、招投标公示等;
92.3.2对所收集信息进行数据清洗,并进行全量数据的人名消歧处理;
93.3.3统计对比企业的人才竞争情况,以及相关人员的社会影响力;
94.3.4以竞争的人才及该人才的社会影响力、成果产出作为依据点。
95.4.模块四:业务营收对比:
96.4.1收集企业年报信息、财报信息、金融舆情等相关信息;
97.4.2对原始数据进行清洗、事件抽取,并关联至具体产业产品;
98.4.3对比企业在具体产业产品下业务营收的竞争情况;
99.4.4以具体的行业收益数据作为支撑点,用以解释。
100.5.以此类推,包括但不限于以上维度。
101.6.存储上述原始特征及清理后的压缩特征。
102.7.竞品检索:
103.7.1获取查询企业的各维度特征;
104.7.2在各维度上并行进行对比召回操作;
105.7.3针对各维度召回结果进行结果融合;
106.7.4选取所需结果。
107.8.扩充解释
108.8.1获取召回公司对应的具体解释数据;
109.8.2按上述1.4、2.4、3.4、4.4生成具体解释;
110.8.3对各维度解释进行整合。
111.证明部分(具体实施例/实验/仿真/药理学分析/能够证明本发明创造性的正面实验数据等)
112.在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上;术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对
本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
113.应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、cd或dvd

rom的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
114.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献