一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种企业主体属性识别方法、装置及设备与流程

2021-11-05 22:37:00 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,尤其涉及一种企业主体属性识别方法、装置及设备。


背景技术:

2.随着社会经济的快速发展,目前,企业数量数以万计,数量众多。企业类型多样化,随着国家对社会信用体系建设的重视,越来越多的企业、金融机构开始重视企业信息的掌握。通过企业信息,调查企业经营状况和企业征信等情况。例如:当前市场上有很多基于企业信息进行企业风险查询、评估、预测以及监测的产品。
3.而在基于企业数据为企业进行评估的产品,需要先为各个企业/公司/机构建立企业画像,基于企业画像确定企业的运营情况,在建立企业画像时,需要记录企业有关的事件以及企业在这些事件中的所扮演的“角色”,“角色”可以理解为企业在各个事件中的主体属性。例如,某企业发生了招投标事件,需要知道该企业是采购人还是中标人,或是候选人。再或者某企业与一件处罚事件有关,需要确定该企业是被处罚人还是无关企业。可见,识别企业在各个事件中的“角色”是非常重要的信息。
4.因此,需要提供一种更为可靠的企业主体属性识别方案。


技术实现要素:

5.本说明书实施例提供一种企业主体属性识别方法、装置及设备,以解决现有的企业主体属性识别方法存在的识别效率低以及识别准确率低的问题。
6.为解决上述技术问题,本说明书实施例是这样实现的:
7.本说明书实施例提供的一种企业主体属性识别方法,包括:
8.获取待识别文本;所述待识别文本中包括至少一个待识别企业名称;
9.按照预设压缩规则对所述待识别文本进行压缩,得到压缩后的文本;
10.在所述压缩后的文本中定位出所述待识别企业名称的位置信息;
11.基于所述位置信息,按照预设字数范围在所述压缩后的文本中选取上下文信息;
12.确定所述上下文信息中的主体属性关键信息;
13.根据所述主体属性关键信息,确定所述待识别企业的主体属性信息。
14.本说明书实施例提供的一种企业主体属性识别装置,包括:
15.待识别文本获取模块,用于获取待识别文本;所述待识别文本中包括至少一个待识别企业名称;
16.文本压缩模块,用于按照预设压缩规则对所述待识别文本进行压缩,得到压缩后的文本;
17.待识别企业名称定位模块,用于在所述压缩后的文本中定位出所述待识别企业名称的位置信息;
18.上下文信息选取模块,用于基于所述位置信息,按照预设字数范围在所述压缩后的文本中选取上下文信息;
19.主体属性关键信息确定模块,用于确定所述上下文信息中的主体属性关键信息;
20.主体属性信息识别模块,用于根据所述主体属性关键信息,确定所述待识别企业的主体属性信息。
21.本说明书实施例提供的一种企业主体属性识别设备,包括:
22.至少一个处理器;以及,
23.与所述至少一个处理器通信连接的存储器;其中,
24.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
25.获取待识别文本;所述待识别文本中包括至少一个待识别企业名称;
26.按照预设压缩规则对所述待识别文本进行压缩,得到压缩后的文本;
27.在所述压缩后的文本中定位出所述待识别企业名称的位置信息;
28.基于所述位置信息,按照预设字数范围在所述压缩后的文本中选取上下文信息;
29.确定所述上下文信息中的主体属性关键信息;
30.根据所述主体属性关键信息,确定所述待识别企业的主体属性信息。
31.本说明书实施例提供的一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现一种企业主体属性识别方法。
32.本说明书至少一个实施例能够达到以下有益效果:通过获取包含至少一个待识别企业名称的待识别文本;按照预设压缩规则对所述待识别文本进行压缩,得到压缩后的文本;在所述压缩后的文本中定位出所述待识别企业名称的位置信息;基于所述位置信息,按照预设字数范围在所述压缩后的文本中选取上下文信息;确定所述上下文信息中的主体属性关键信息;根据所述主体属性关键信息,确定所述待识别企业的主体属性信息。通过上述方法,预先对待会识别文本按照预设压缩规则进行压缩,得到压缩后的文本,并在压缩后的文本中选取上下文,能够在保证上下文信息中包含识别待识别企业主体属性的关键信息的同时,减少上下文的内容信息,即选取出一个较少字数范围内并包含判断待识别企业的主体属性的关键信息的上下文,避免资源内存占用较大的缺陷,提升企业主体属性识别效率以及识别准确率。
附图说明
33.为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
34.图1为本说明书实施例提供的一种企业主体属性识别方法的流程示意图;
35.图2为本说明书实施例提供的一种上下文选取方法的流程示意图;
36.图3为本说明书实施例提供的一种企业主体属性识别装置的结构示意图;
37.图4为本说明书实施例提供的一种企业主体属性识别设备的结构示意图。
具体实施方式
38.为使本说明书一个或多个实施例的目的、技术方案和优点更加清楚,下面将结合
本说明书具体实施例及相应的附图对本说明书一个或多个实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书一个或多个实施例保护的范围。
39.以下结合附图,详细说明本说明书各实施例提供的技术方案。
40.对于用于企业识别的产品,例如:一些用于识别企业风险、信用、运营情况等信息的应用程序或者小程序。这些产品需要先识别各企业在各个事件中的主体属性。前述提到的事件,可以包括:招投标事件、处罚事件、风险事件、舆情事件等等。可以识别出企业在这些事件中所扮演的“角色”,即主体属性。
41.现有技术中,常用的主体属性识别方案分两步,第一步做命名实体识别,用规则或算法的方法把一篇事件文章中的所有企业识别出来;第二步是做企业“角色”分类,在事件文章中定位到该企业,选取上下文,基于上下文使用规则或算法来判断该企业的主体属性。
42.但是,在选择上下文时,一般会使用全文作为该企业的上下文进行分类判断。这类选取上下文的方法,一定可以包含判断企业角色的关键信息。但使用全文后会出现问题:首先是判断效率问题,如果全文过长,无论是使用规则或算法的方法都会减慢判断的速度。特别是现在,深度学习大量使用,直接对长文本进行预测会造成内存不足、预测缓慢的诸多问题。
43.使用全文来判断企业角色的另一个问题更为严重,无法处理一篇全文判断多个企业角色的情况。无论是规则或是算法,在同一个输入的情况下,无法得到两种不同的结果。即无法做到同一个上下文预测判断出不同的角色。例如:一个事件文件中,存在多个属于不同“角色”的企业,此时,无法准确判断出每个企业的主体属性。
44.另外,还有使用切分符分割全文全选上下文的方法,用文本片段作为该企业的上下文进行分类判断企业角色。但这类选取上下文的方法有一定的局限,分割得到的上下文可能无法包含能判断角色身份的关键信息,无法判断出其角色。另一个问题是用于进行分割的字符难以通用化。例如:招投标例子中,可以使用换行符对文本切割,但如果文本中没有换行符,很难找到通用的分割文本字符。而且即使用标点符号或其他字符进行全文的分割,也难以保证分割得到的上下文包含能判断角色身份的关键信息。
45.为了解决上述缺陷,本方案给出了以下实施例:
46.接下来,将针对说明书实施例提供的一种企业主体属性识别方法结合附图进行具体说明:
47.图1为本说明书实施例提供的一种企业主体属性识别方法的流程示意图。从程序角度而言,流程的执行主体可以为搭载于应用服务器的程序或应用客户端。在本实施例中,流程的执行主体可以是专门用于识别各个事件文本中企业主体属性的服务器,该服务器可以独立于用于识别企业风险信息或运营情况的服务器。执行主体也可以是用于识别企业信息的服务器,例如:可以是用于识别企业风险的应用程序对应的服务器,该服务器可以先识别企业的主体属性。
48.如图1所示,该流程可以包括以下步骤:
49.步骤210:获取待识别文本;所述待识别文本中包括至少一个待识别企业名称。
50.待识别文本可以是前文所述的与企业相关的“事件”文本。例如:招投标事件文本、
处罚事件文本、风险事件文本、舆情事件文本等等。待识别文本中包括一个或多个待识别企业的名称。
51.步骤220:按照预设压缩规则对所述待识别文本进行压缩,得到压缩后的文本。
52.预设压缩规则可以是基于历史文本数据以及历史企业识别数据训练得到的用于压缩文本的模型、算法规则等。对待识别文本进行压缩可以简单理解为对待识别文本的文本内容进行删减替换等,以减少待识别文本中的内容。
53.步骤230:在所述压缩后的文本中定位出所述待识别企业名称的位置信息。
54.从文本中定位出待识别企业名称所在的位置,可以基于命名实体识别(named entity recognition,简称ner)技术识别出文本中的待识别企业名称,并确定该待识别企业名称在压缩后的文本中所在的位置。
55.当然,在实际应用场景中,也可以基于其他技术识别出压缩后的文本中的待识别企业名称,并确定待识别企业名称在压缩后的文本中的位置信息。在本说明书实施例中对此不作具体限定。
56.步骤240:基于所述位置信息,按照预设字数范围在所述压缩后的文本中选取上下文信息。
57.预设字数范围可以由用户预先设置,例如:可以根据历史数据确定上下文的平均长度,根据历史上下文的平均长度设置预设字数范围,还可以根据识别企业信息的具体产品的性能设置预设字数范围,例如:预设字数范围可以为50字,需要说明的是,预设字数范围并不是指选取的上下文的总字数范围,而是表示在文本中,以待识别企业名称所在位置为基准,前后分别选取预设字数范围的文本。例如:预设字数范围为50字时,表示以待识别企业所在位置为基准,向前选取50个字,向后选取50个字,选取的文本与待识别企业名称共同作为上下文信息。
58.步骤250:确定所述上下文信息中的主体属性关键信息。
59.主体属性关键信息可以表示用于确定企业的主体属性的关键词或者关键语句,例如:招投标文本中的“中标人名称”以及“候选单位”等。
60.步骤260:根据所述主体属性关键信息,确定所述待识别企业的主体属性信息。
61.主体属性信息可以根据不同的文本,具有不同的主体属性,例如:文本为招投标文件时,企业的主体属性信息可以包括“招标人”、“中标人”或“候选单位”等。当文本为处罚事件文本时,企业的主体属性信息可以包括“被处罚人”。风险文本中,企业的主体属性信息可以包括“风险企业”、“高危企业”或者“信用企业”等。
62.根据用于识别待识别企业的主体属性的关键词或关键语句,可以确定待识别企业的主体属性。
63.应当理解,本说明书一个或多个实施例所述的方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。
64.图1中的方法,通过获取包含至少一个待识别企业名称的待识别文本;按照预设压缩规则对所述待识别文本进行压缩,得到压缩后的文本;在所述压缩后的文本中定位出所述待识别企业名称的位置信息;基于所述位置信息,按照预设字数范围在所述压缩后的文本中选取上下文信息;确定所述上下文信息中的主体属性关键信息;根据所述主体属性关键信息,确定所述待识别企业的主体属性信息。通过上述方法,预先对待会识别文本按照预
设压缩规则进行压缩,得到压缩后的文本,并在压缩后的文本中选取上下文,能够在保证上下文信息中包含识别待识别企业主体属性的关键信息的同时,减少上下文的内容信息,即选取出一个较少字数范围内并包含判断待识别企业的主体属性的关键信息的上下文,避免资源内存占用较大的缺陷,提升企业主体属性识别效率以及识别准确率。
65.基于图1的方法,本说明书实施例还提供了该方法的一些具体实施方案,下面进行说明。
66.可选的,在上述步骤中,对于步骤220中对待识别文本进行压缩的实际操作步骤,可以包含以下几种方法:
67.方法一、去除待识别文本中的数字和标点符号,得到压缩后的文本。
68.所述按照预设压缩规则对所述待识别文本进行压缩,得到压缩后的文本,具体包括:
69.将所述待识别文本中的数字与标点符号替换为第一标识符;
70.判断是否存在连续的第一标识符;
71.当存在连续的第一标识符时,将所述连续的第一标识符替换为一个第一标识符,得到压缩后的文本。
72.当不存在所述连续的第一标识符时,判断任意两个所述第一标识符之间的内容是否是无效信息;所述无效信息包括文字数词、助词或连词;
73.当任意两个所述第一标识符之间的内容是无效信息时,去除所述无效信息,得到所述连续的第一标识符;
74.将所述连续的第一标识符替换为一个第一标识符,得到压缩后的文本。
75.首先,在本方案中,数字可以包含单个数,也可以包含由多个数组成的数词,例如:0、1、2、3、4、5、6、7、8、9、12、45等,都属于本方案中需要被替换的对象。在本说明书实施例中,需要被替换的数字为阿拉伯数字形式的数字,不包含文字形式的数词或数字,即“一”、“二”、“三”这样的数字并不在本方案需要被替换的范围内。
76.另外,在文本中,标号一般都采用数字进行标号,这些标号可以被替换,另外,例如:一些日期、分数、排名或具体的数据等,例如:2020年8月15日中的“2020”、“8”以及“15”都可以被替换。再比如:“81.87”、“88.51”等也可以被替换。
77.助词,也称语助词,是语法上的术语之一,是指一种独立性差、无实义的特殊虚词。可以包括结构助词、时态助词,语气助词和其他,例如:的、了、着、吧、啊、嘛、呢、啦、罢了等等;文言文中则有:之、乎、者、也、矣等。
78.连词,是一种虚词,不能独立担任句子成分而只起连接词与词,短语与短语以及句与句的作用。连词主要可分为并列连词、转折连词、选择连词和因果连词。连词也可以分为并列连词和从属连词。例如:和、与、而且、于是、然后、因此、但是、否则、因为、不但等等。
79.当然,无效信息除了上述列举的文字数词、连词、助词等,还可以包括介词、副词等等,本方案对此不作一一列举。
80.第一标识符可以根据实际应用场景进行设置,第一标识符可以是除数字以及标点符号之外的任意起标识作用的符号,例如:英文字母,空格、箭头等。
81.将文本中的数字以及标点符号都替换为第一标识符,如果第一标识符是连续的,可以将连续的两个或两个以上的第一标识符进行合并,合并为一个第一标识符。进一步地,
如果第一标识符之间仅包括一些无实际意义的无效信息,则可以将无效信息去除,继续合并连续的第一标识符,得到压缩后的文本。
82.通过上述方法一,将文本中的数字、符号进行替换,并去除无效信息,合并连续的第一标识符,可以减少待识别文本中的无效信息,从而起到压缩文本的效果。
83.方法二、将待识别文本中除待识别企业名称外的其他企业名称进行替换。
84.所述按照预设压缩规则对所述待识别文本进行压缩,得到压缩后的文本,具体可以包括:
85.确定所述待识别文本中的全部企业名称;
86.将除所述待识别企业名称外的其他企业名称替换为第二标识符;
87.判断是否存在连续的第二标识符;
88.当存在所述连续的第二标识符时,将所述连续的第二标识符替换为一个第二标识符,得到压缩后的文本。
89.当不存在所述连续的第二标识符时,判断任意两个所述第二标识符之间的内容是否是无效信息;所述无效信息包括文字数词、助词或连词;
90.当任意两个所述第二标识符之间的内容是无效信息时,去除无效信息,得到所述连续的第二标识符;
91.将所述连续的第二标识符替换为一个第二标识符,得到压缩后的文本。
92.在实际应用中,与企业相关的文本中,会包含一个或多个企业名称,为了准确识别出待识别企业的主体属性信息,可以将其余的企业名称进行替换合并,也减少待识别文本的内容。
93.第二标识符也可以是除数字以及标点符号以外的任意标识符,第二标识符与第一标识符同时使用时,一般情况下,需要保证第一标识符与第二标识符不同,以便能够确定被替换的内容类型。但是,在特殊情况下,如果仅仅为了去除无关信息,尽可能压缩待识别文本,第一标识符与第二标识符也可以相同。
94.去除无效信息以及合并标识符的方法与上述方法一相同,请参照方法一的解释,此处不再赘述。
95.通过上述方法二,将文本中除需要识别的待识别企业之外的其他企业名称去除,以减少对于企业名称识别的干扰,提高企业名称识别定位的效率,从而进一步提高识别企业主体属性的效率。
96.方法三、数字、符号采用第一标识符替换,其他企业名称用第二标识符替换,并分别进行合并。
97.所述按照预设压缩规则对所述待识别文本进行压缩,得到压缩后的文本,具体可以包括:
98.将所述待识别文本中的数字与标点符号替换为第一标识符,得到第一压缩文本;
99.确定所述第一压缩文本中的全部企业名称;
100.将所述第一压缩文本中除所述待识别企业名称外的其他企业名称替换为第二标识符,得到第二压缩文本;
101.将所述第二压缩文本中的无效信息去除,得到第三压缩文本;所述无效信息包括文字数词、助词或连词;
102.将所述第三压缩文本中连续的第一标识符替换为一个第一标识符,得到第四压缩文本;
103.将所述第四压缩文本中连续的第二标识符替换为一个第二标识符,得到压缩后的文本。
104.待识别文本中的数字与标点符号用第一标识符替换,去除第一标识符之间的无效信息,连续第一标识符变为一个第一标识符;除目标企业外的其他企业使用第二标识符替换,去除第二标识符之间的无效信息,合并连续的第二标识符。去除标识符之间的无效信息,具体操作是:如果填充符号之间仅是空格或者“和”、“与”这类连词,就可直接进行合并。但如何文本数据中标识符之间存在“「x」”的文字,无法直接合并连续的填充符号。“x”为文字数词,可使用现成或自训练的词性标注工具,或者维护一个文字数词、助词、连词的字典去除填充符号之间无意义的文字。
105.其中,无效信息可以预先存储在服务器中,无效信息可以为预先训练的词性标注工具或字典中包含的信息,使用词性标注的方式剔除无效信息,压缩文本信息,并且使用无限制,可用现成或者自训练的词性标注工具、维护词语字典等。
106.通过上述方法三,将数字、标点符号,其他企业名称都替换合并,并去除无效信息,可以充分压缩文本信息,首先避免了使用全文作为上下文,而造成的判断效率慢,资源内存占用较大的缺点。实现了单个文件中的各个企业都能有效判断角色的功能。
107.另外解决了使用切分符分割文本作为上下文产生的通用性不足的缺点,有效缓解了现有方案难以包含关键信息的缺点,提升企业主体属性识别的效果。
108.可选的,所述基于所述位置信息,按照预设字数范围在所述压缩后的文本中选取上下文信息,具体可以包括:
109.在所述压缩后的文本中,基于所述待识别文本的所在位置,向前连续选取预设字数的文本,向后连续选取预设字数的文本,得到上下文信息;所述上下文信息中包含待识别企业名称。
110.选取的上下文信息中可以包括待识别企业名称以及待识别企业的主体属性关键信息。基于选取的上下文能够更加准确、快速地识别出待识别企业的主体属性信息。
111.上述方法,使用限定上下文前后字数的文本,并使用了信息压缩的方式,尽可能去除无效的信息,让关键信息包含在上下文中,有效缓解了现有方案难以包含关键信息的缺点,提升目标企业角色识别的效果。
112.可选的,所述确定所述上下文信息中的主体属性关键信息,具体可以包括:
113.确定所述待识别文本的文本类型信息;
114.基于所述文本类型信息确定预存的所述文本类型信息对应的主体属性关键信息集合;
115.遍历所述上下文信息,确定与所述主体属性关键信息集合匹配的主体属性关键信息。
116.在实际应用中,不同类型的文本中,用于表示企业主体属性的关键词信息并不相同,例如:上述文中提到:当文本为招投标文件时,企业的主体属性信息可以包括“招标人”、“中标人”或“候选单位”等。当文本为处罚事件文本时,企业的主体属性信息可以包括“被处罚人”。风险文本中,企业的主体属性信息可以包括“风险企业”、“高危企业”或者“信用企
业”等。
117.在实际操作过程中,不同类型的文本可以对应存储有相应的主体属性关键信息,具体地,可以基于映射关系的方式进行存储,例如:按照“文本类型—主体属性关键信息”的映射关系进行存储。
118.因此,在确定主体属性关键信息时,需要先确定待识别文本的文本类型,然后基于文本类型确定其文本类型对应的主体属性关键信息。
119.上述实施例中的方法可以结合图2进行说明:
120.图2为本说明书实施例提供的一种上下文选取方法的流程示意图。如图2所示,图2中的原始全文可以理解为待识别文本、第一标识符可以是空格,第二标识符可以是图2中的特定符号。其实现流程为:
121.对原始文本去除所有的数字与标点符号,并用空格填充。在判断一个企业在某事件中的主体属性时,数字与标点符号往往是无关信息,因此可去除这些字符。但数字与标点可能包含着段落分隔的信息,例如:“1.第一部分

2.第二部分
…”
。为保留段落分隔信息,把数字与标点的位置用空格表示,进一步地,将连续空格变为一个空格,空格字符本身无意义,合并连续空格可进一步缩短全文的长度,得到清洗后的全文。除目标企业外的其他企业使用特定符号替换,例如:一份招投标文本中的目标企业为“a建设工程有限公司”,把除该企业之外的其他企业前全部使用符号“c”替换,因为其他企业的文字不是判断目标企业角色的关键信息,替换后可大量减少文本长度,合并连续的填充符号,在连续填充符号之间可能存在文字,经过前几步处理后仍然存在,如果填充符号之间仅是空格或者“和”、“与”这类连词,就可直接进行合并。但如果数据中填充符号之间存在“「x」”的文字,无法直接合并连续的填充符号。本方案中可使用现成或自训练的词性标注工具,或者维护一个文字数词、助词、连词的字典去除填充符号之间无意义的文字。定位目标企业设定字数范围选取上下文,设定上下文字数范围选取目标企业的上下文。下面结合实际例子进行说明:
122.假设待识别文本为某招投标事件文件节选如下:
123.五、采购方式:竞争性磋商
124.六、成交情况
125.货物名称:中学校舍维修项目
126.中标人名称:a建设工程有限公司
127.地址:x市x区创投基地x号楼x单元xxx室
128.成交金额:*****
129.七、公告期限:2020年8月15日至2020年8月17日
130.八、候选单位评审结果得分
131.「一」b建设工程有限公司(88.01、88.51、88.51)
132.「二」c工程有限公司(81.72、81.72、82.72)
133.「三」d建筑工程有限公司(81.19、81.69、81.69)
134.「四」e建筑工程有限公司(80.91、80.91、80.91)
135.「五」f建设工程有限公司(76.41、76.91、76.91)
136.「六」g建设集团有限公司(67.41、69.41、69.41)
137.「七」h建设集团有限公司(82.95、83.95、83.95)
138.「八」i集团有限公司(80.03、80.03、81.03)
139.「九」j建筑工程有限公司(87.5、88.0、88.0)
140.「十」k建筑工程有限公司(87.42、87.42、87.92)
141.「十一」l工程有限公司(81.88、82.88、82.88)
142.「十二」m建筑工程有限公司(81.4、81.4、81.9)
143.「十三」n建筑工程有限公司(81.38、81.38、81.38)
144.「十四」o建设集团有限公司(67.87、67.87、69.87)
145.「十五」p建设集团有限公司(83.5、83.5、84.5)
146.九、附件:无
147.上述节选的招投标事件文件,从中可以抽取出事件中的中标人与候选人。通过规则或算法的方式可获得文件中的16家企业,第二步即判断该企业的角色。这里以第一家企业“a工程有限公司”为待识别企业。在识别该待识别企业的主体属性时,采用上述步骤,文本压缩实现过程为:
148.(1)标点符号和数字用空格替换,并合并空格之后得到:
149.五采购方式竞争性磋商
150.六成交情况
151.货物名称中学校舍维修项目
152.中标人名称a建设工程有限公司
153.地址x市x区创投基地x号楼x单元xxx室
154.成交金额
155.七公告期限年月日至年月日
156.八候选单位评审结果得分
157.「一」b建设工程有限公司(88.01、88.51、88.51)
158.「二」c工程有限公司(81.72、81.72、82.72)
159.「三」d建筑工程有限公司(81.19、81.69、81.69)
160.「四」e建筑工程有限公司(80.91、80.91、80.91)
161.「五」f建设工程有限公司(76.41、76.91、76.91)
162.「六」g建设集团有限公司(67.41、69.41、69.41)
163.「七」h建设集团有限公司(82.95、83.95、83.95)
164.「八」i集团有限公司(80.03、80.03、81.03)
165.「九」j建筑工程有限公司(87.5、88.0、88.0)
166.「十」k建筑工程有限公司(87.42、87.42、87.92)
167.「十一」l工程有限公司(81.88、82.88、82.88)
168.「十二」m建筑工程有限公司(81.4、81.4、81.9)
169.「十三」n建筑工程有限公司(81.38、81.38、81.38)
170.「十四」o建设集团有限公司(67.87、67.87、69.87)
171.「十五」p建设集团有限公司(83.5、83.5、84.5)
172.九附件无
173.(2)除目标企业外的其他企业使用特定符号替换,目标企业为:“a建设工程有限公
司”,把其他企业使用符号“c”替换,因为其他企业的文字不是判断目标企业角色的关键信息,替换后可大量减少文本长度。替换后得到的文本:
174.五采购方式竞争性磋商
175.六成交情况
176.货物名称中学校舍维修项目
177.中标人名称a建设工程有限公司
178.地址x市x区创投基地x号楼x单元xxx室
179.成交金额
180.七公告期限年月日至年月日
181.八候选单位评审结果得分
182.「一」c「二」c「三」c「四」c「五」c「六」c「七」c「八」c「九」c「十」c「十一」c「十二」c「十三」c「十四」c「十五」c
183.九附件无
184.(3)在连续填充符号之间可能存在文字,经过前几步处理后仍然存在,例如上述的例子:八候选单位评审结果得分
185.「一」c「二」c「三」c「四」c「五」c「六」c「七」c「八」c「九」c「十」c「十一」c「十二」c「十三」c「十四」c「十五」c”。
186.如果填充符号之间仅是空格或者“和”、“与”这类连词,就可直接进行合并。但举例数据中填充符号之间存在“「x」”的文字,无法直接合并连续的填充符号。此时,可使用现成或自训练的词性标注工具,或者维护一个文字数词、助词、连词的字典去除填充符号之间无意义的文字。
187.经上述压缩步骤进行处理之后,目标企业为“a建设工程有限公司”的压缩后的文本为:
188.五采购方式竞争性磋商
189.六成交情况
190.货物名称中学校舍维修项目
191.中标人名称a建设工程有限公司
192.地址x市x区创投基地x号楼x单元xxx室
193.成交金额
194.七公告期限年月日至年月日
195.八候选单位评审结果得分
196.「一」c
197.九附件无
198.得到上述压缩后的文本之后,可以以待识别企业所在位置为基准,选取上下文信息。
199.上述实施例中的方法,可以实现以下技术效果:
200.1)选取的上下文中即可包含关键信息,可以识别待识别企业的,极大的加快预测效率与改善资源内存占用,另外由于去除无关信息,在有限字数内尽可能地包含到用于角色判断的关键信息,能提升判断企业角色的效果性能等诸多优点。
201.2)使用词性标注的方式剔除无用信息,压缩文本信息,并且使用无限制,可用现成或者自训练的词性标注工具、维护词语字典等,能够进一步去除文本中的无用信息,从而进一步提高企业主体属性识别效率。
202.3)避免了使用全文作为上下文,而造成的判断效率慢,资源内存占用较大的缺点。实现了单个文件中的各个企业都能有效判断角色的功能。另外解决了使用切分符分割文本作为上下文产生的通用性不足的缺点。
203.4)本说明书实施例中的方法,使用限定上下文前后字数的文本,并使用了信息压缩的方式,尽可能去除无效的信息,让关键信息包含在上下文中,有效缓解了现有技术中难以包含关键信息的缺点,提升目标企业角色识别的效果。
204.在测试时,在使用相同规则对上下文进行分类,来判断目标角色的身份的情况下。几种上下文选取方案的性能比较如表1所示,用于做比较的测试集共计2147组数据。
205.表1.上下文选取方案性能比较
[0206][0207]
由于在使用换行符分割文本后,发现上下文的平均长度约为100字。因此在限定字数选取上下文时,上下文字数设置为50字,即目标企业的前后50字作为目标企业的上下文。控制文本长度便于比较几种方案。如表所示,使用全文或者使用换行符分割文本产生的上下文,对候选人角色识别的召回率与准确率都较差。另外由于全文偏长,因此预测耗时也偏慢。对比限定上下文字数的方案,本方案在限定上下文字数的基础上,进行信息压缩,首先产生的好处是上下文平均长度变小,预测耗时有了进一步的提速。另外在召回率与准确率上本方案都有3~5%的较大提升。因此,本说明书实施例中的方法,选取出文本长度较短的上下文,保证了预测耗时较快与资源占用较小;并且在上下文中尽可能去除无效的信息,让主体属性关键信息包含在上下文中,提升企业主体属性的识别效果,即可以提升企业主体属性的识别准确率以及效率。从而进一步提升企业服务相关产品的数据质量使用。
[0208]
基于同样的思路,本说明书实施例还提供了上述方法对应的装置。图3为本说明书实施例提供的一种企业主体属性识别装置的结构示意图。如图3所示,该装置可以包括:
[0209]
待识别文本获取模块310,用于获取待识别文本;所述待识别文本中包括至少一个待识别企业名称;
[0210]
文本压缩模块320,用于按照预设压缩规则对所述待识别文本进行压缩,得到压缩后的文本;
[0211]
待识别企业名称定位模块330,用于在所述压缩后的文本中定位出所述待识别企
业名称的位置信息;
[0212]
上下文信息选取模块340,用于基于所述位置信息,按照预设字数范围在所述压缩后的文本中选取上下文信息;
[0213]
主体属性关键信息确定模块350,用于确定所述上下文信息中的主体属性关键信息;
[0214]
主体属性信息识别模块360,用于根据所述主体属性关键信息,确定所述待识别企业的主体属性信息。
[0215]
基于图3的装置,本说明书实施例还提供了该装置的一些具体实施方案,下面进行说明。
[0216]
可选的,所述文本压缩模块320,具体可以包括:
[0217]
第一标识符替换单元,用于将所述待识别文本中的数字与标点符号替换为第一标识符;
[0218]
第一判断单元,用于判断是否存在连续的第一标识符;
[0219]
第一标识符第一合并单元,用于当存在连续的第一标识符时,将所述连续的第一标识符替换为一个第一标识符,得到压缩后的文本。
[0220]
可选的,所述文本压缩模块320,还可以包括:
[0221]
无效信息第一检测单元,用于当不存在所述连续的第一标识符时,判断任意两个所述第一标识符之间的内容是否是无效信息;所述无效信息包括文字数词、助词或连词;
[0222]
无效信息第一去除单元,用于当任意两个所述第一标识符之间的内容是无效信息时,去除所述无效信息,得到所述连续的第一标识符;
[0223]
第一标识符第二合并单元,用于将所述连续的第一标识符替换为一个第一标识符,得到压缩后的文本。
[0224]
可选的,所述文本压缩模块320,具体可以包括:
[0225]
企业名称第一确定单元,用于确定所述待识别文本中的全部企业名称;
[0226]
第二标识符替换单元,用于将除所述待识别企业名称外的其他企业名称替换为第二标识符;
[0227]
第二判断单元,用于判断是否存在连续的第二标识符;
[0228]
第二标识符第一合并单元,用于当存在所述连续的第二标识符时,将所述连续的第二标识符替换为一个第二标识符,得到压缩后的文本。
[0229]
可选的,所述文本压缩模块320,还可以包括:
[0230]
无效信息第二检测单元,用于当不存在所述连续的第二标识符时,判断任意两个所述第二标识符之间的内容是否是无效信息;所述无效信息包括文字数词、助词或连词;
[0231]
无效信息第二去除单元,用于当任意两个所述第二标识符之间的内容是无效信息时,去除无效信息,得到所述连续的第二标识符;
[0232]
第二标识符第二合并单元,用于将所述连续的第二标识符替换为一个第二标识符,得到压缩后的文本。
[0233]
可选的,所述文本压缩模块320,具体可以包括:
[0234]
第一压缩文本确定单元,用于将所述待识别文本中的数字与标点符号替换为第一标识符,得到第一压缩文本;
[0235]
企业名称第二确定单元,用于确定所述第一压缩文本中的全部企业名称;
[0236]
第二压缩文本确定单元,用于将所述第一压缩文本中除所述待识别企业名称外的其他企业名称替换为第二标识符,得到第二压缩文本;
[0237]
第三压缩文本确定单元,用于将所述第二压缩文本中的无效信息去除,得到第三压缩文本;所述无效信息包括文字数词、助词或连词;
[0238]
第四压缩文本确定单元,用于将所述第三压缩文本中连续的第一标识符替换为一个第一标识符,得到第四压缩文本;
[0239]
标识符合并单元,用于将所述第四压缩文本中连续的第二标识符替换为一个第二标识符,得到压缩后的文本。
[0240]
可选的,所述上下文信息选取模块340,具体可以包括:
[0241]
上下文信息选取单元,用于在所述压缩后的文本中,基于所述待识别文本的所在位置,向前连续选取预设字数的文本,向后连续选取预设字数的文本,得到上下文信息;所述上下文信息中包含待识别企业名称。
[0242]
可选的,所述主体属性关键信息确定模块350,具体可以包括:
[0243]
文本类型信息确定单元,用于确定所述待识别文本的文本类型信息;
[0244]
主体属性关键信息集合确定单元,用于基于所述文本类型信息确定预存的所述文本类型信息对应的主体属性关键信息集合;
[0245]
主体属性关键信息匹配单元,用于遍历所述上下文信息,确定与所述主体属性关键信息集合匹配的主体属性关键信息。
[0246]
可选的,所述无效信息可以预先存储在服务器中,所述无效信息可以为预先训练的词性标注工具或字典中包含的信息。
[0247]
基于同样的思路,本说明书实施例还提供了上述方法对应的设备。
[0248]
图4为本说明书实施例提供的一种企业主体属性识别设备的结构示意图。如图4所示,设备400可以包括:
[0249]
至少一个处理器410;以及,
[0250]
与所述至少一个处理器通信连接的存储器430;其中,
[0251]
所述存储器430存储有可被所述至少一个处理器410执行的指令420,所述指令被所述至少一个处理器410执行,以使所述至少一个处理器410能够:
[0252]
获取待识别文本;所述待识别文本中包括至少一个待识别企业名称;
[0253]
按照预设压缩规则对所述待识别文本进行压缩,得到压缩后的文本;
[0254]
在所述压缩后的文本中定位出所述待识别企业名称的位置信息;
[0255]
基于所述位置信息,按照预设字数范围在所述压缩后的文本中选取上下文信息;
[0256]
确定所述上下文信息中的主体属性关键信息;
[0257]
根据所述主体属性关键信息,确定所述待识别企业的主体属性信息。
[0258]
基于同样的思路,本说明书实施例还提供了上述方法对应的计算机可读介质。计算机可读介质上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现以下方法:
[0259]
获取待识别文本;所述待识别文本中包括至少一个待识别企业名称;
[0260]
按照预设压缩规则对所述待识别文本进行压缩,得到压缩后的文本;
[0261]
在所述压缩后的文本中定位出所述待识别企业名称的位置信息;
[0262]
基于所述位置信息,按照预设字数范围在所述压缩后的文本中选取上下文信息;
[0263]
确定所述上下文信息中的主体属性关键信息;
[0264]
根据所述主体属性关键信息,确定所述待识别企业的主体属性信息。
[0265]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0266]
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(programmable logic device,pld)(例如现场可编程门阵列(field programmable gate array,fpga))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字符系统“集成”在一片pld上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(hardware description language,hdl),而hdl也并非仅有一种,而是有许多种,如abel(advanced boolean expression language)、ahdl(altera hardware description language)、confluence、cupl(cornell university programming language)、hdcal、jhdl(java hardware description language)、lava、lola、myhdl、palasm、rhdl(ruby hardware description language)等,目前最普遍使用的是vhdl(very

high

speed integrated circuit hardware description language)与verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
[0267]
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(application specific integrated circuit,asic)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:arc 625d、atmel at91sam、microchip pic18f26k20以及silicone labs c8051f320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
[0268]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,
或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字符助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
[0269]
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本技术时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
[0270]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
[0271]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0272]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0273]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0274]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0275]
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0276]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd

rom)、数字符多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0277]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的
包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0278]
本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
[0279]
本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0280]
以上所述仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献