一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种命名实体的识别方法、装置、设备及可读存储介质与流程

2022-12-09 19:52:39 来源:中国专利 TAG:


1.本发明涉及自然语言识别技术领域,具体涉及一种命名实体的识别方法、装置、设备及可读存储介质。


背景技术:

2.命名实体识别通常包含至少两个子功能,即实体识别和实体链接。实体识别主要是识别出自然语言中可能的表示实体的信息片段,而实体链接是把可能的表示实体的信息片段映射为实体库中的标准实体。命名实体识别广泛应用于知识图谱、人机对话等系统中,而如何把可能的表示实体的信息片段映射为实体库中的标准实体至关重要。当前,命名实体识别通常基于模型或基于字典对命名实体进行识别。其中,基于模型的命名实体识别方法是通过标记数据上训练出模型,再应用模型进行命名实体识别;基于字典的命名识别则是把要识别的命名实体放入字典中,通过匹配方式进行命名实体识别。然而,基于模型的命名实体识别需要事先准备大量的标注数据,但大量的标注数据需要耗费很大的人力成本,且对于某些垂直领域的标注数据较难获取。基于字典的命名实体识别虽然不需要标注数据,但其泛化能力有限,只能识别和字典中一模一样的命名实体。因此,现有的命名实体的识别方法均存在一定的局限性,难以保证命名实体的识别准确率。


技术实现要素:

3.有鉴于此,本发明实施例提供了一种命名实体的识别方法、装置、设备及可读存储介质,以解决命名实体的识别准确率难以保证的问题。
4.根据第一方面,本发明实施例提供了一种命名实体的识别方法,包括:获取与待识别命名实体长度相同的至少一个文本串;计算所述待识别命名实体与至少一个所述文本串之间的目标转移值,所述目标转移值用于表征字符和文本串之间的对应关系;基于所述待识别命名实体、至少一个所述文本串以及所述目标转移值,确定与所述待识别命名实体对应的目标标准实体。
5.本发明实施例的命名实体的识别方法,通过获取与待识别命名实体长度相同的至少一个文本串,并计算待识别命名实体与至少一个文本串之间的目标转移值,基于待识别命名实体、至少一个文本串以及目标转移值,从至少一个文本串中确定出与待识别命名实体对应的文本串,并以该文本串对应的命名实体作为目标标准实体。其中,目标转移值用于表征字符和文本串之间的对应关系。该方法无需准备大量的标注数据,基于文本串字符之间的链接关系以确定出对应于待识别命名实体的目标标准实体,保证了命名实体识别的准确率。
6.结合第一方面,在第一方面的第一实施方式中,所述计算所述候选标准实体集合中的候选标准实体与至少一个所述文本串之间的目标转移值,包括:遍历至少一个所述文本串,判断是否存在至少两个连续的字符出现在转移字典中,所述转移字典为标准实体中字符与字符之间的链接关系;若存在所述至少两个连续的字符出现在所述转移字典中,判
断所述至少两个连续的字符是否出现所述待识别命名实体中;若所述至少两个连续的字符出现所述待识别命名实体中,则在当前转移值上叠加预设值;基于所述预设值的叠加结果,确定所述待识别命名实体与至少一个所述文本串之间的目标转移值。
7.结合第一方面第一实施方式,在第一方面的第二实施方式中,所述基于所述预设值的叠加结果,确定所述待识别命名实体与至少一个所述文本串之间的目标转移值,包括:对所述预设值的叠加结果进行对数计算,将所述对数计算的结果作为所述目标转移值。
8.本发明实施例的命名实体的识别方法,通过遍历各个文本串所包含的字符,判断是否存在至少两个连续的字符出现在转移字典中,其中,转移字典为标准实体中字符与字符之间的链接关系,若存在至少两个连续的字符出现在转移字典中,则继续判断至少两个连续的字符是否出现待识别命名实体中,若至少两个连续的字符出现待识别命名实体中,则在当前转移值上叠加预设值,并对当前转移值叠加预设值的结果取对数,将对数计算结果作为目标转移值。该方法通过计算待识别命名实体与文本串之间的目标转移值,充分考虑了待识别命名实体所包含字符之间的链接关系,根据目标转移值对待识别命名实体对应的目标标准实体进行确定,进一步提高了待识别命名实体的识别准确率。
9.结合第一方面,在第一方面的第三实施方式中,所述基于所述待识别命名实体、至少一个所述文本串以及所述目标转移值,确定与所述待识别命名实体对应的目标标准实体,包括:分别计算至少一个所述文本串对应的文本串向量,以及所述待识别命名实体所对应的实体向量;基于所述实体向量、所述文本串向量以及所述目标转移值,确定所述待识别命名实体与至少一个所述文本串之间的相似度;基于所述相似度,确定与所述待识别命名实体对应的目标标准实体。
10.结合第一方面第三实施方式,在第一方面的第四实施方式中,所述基于所述实体向量、所述文本串向量以及所述目标转移值,确定所述待识别命名实体与至少一个所述文本串之间的相似度,包括:计算所述实体向量和所述文本串向量的内积以及所述实体向量和所述文本串向量的模的乘积;基于所述内积和所述模的乘积,确定所述实体向量和所述文本串向量的余弦相似度;计算所述余弦相似度和所述目标转移值的乘积值或求和值;对所述乘积值或求和值进行归一化处理,得到所述待识别命名实体与至少一个所述文本串之间的相似度。
11.本发明实施例的命名实体的识别方法,通过计算文本串对应的文本串向量以及各个候选标准实体所对应的实体向量,并基于文本串向量、实体向量以及目标转移值进一步计算得到待识别命名实体与至少一个所述文本串之间的相似度,从而基于相似度确定出与待识别命名实体对应的目标标准实体,在保证待识别命名实体的准确识别的同时提高了待识别命名实体的识别速度。
12.结合第一方面第三实施方式,在第一方面的第五实施方式中,所述基于所述相似度,确定与所述待识别命名实体对应的目标标准实体,包括:判断所述相似度是否大于预设阈值;当所述相似度大于所述预设阈值时,将所述相似度大于所述预设阈值的文本串对应的标准实体作为所述待识别命名实体对应的目标标准实体。
13.本发明实施例的命名实体的识别方法,通过判断相似度是否大于预设阈值,当相似度大于预设阈值时,表征文本串中存在待识别命名实体,此时将相似度大于预设阈值的文本串所对应的标准实体作为目标标准实体,保证了待识别命名实体的识别准确性。
14.结合第一方面,在第一方面的第六实施方式中,所述获取与待识别命名实体长度相同的至少一个文本串,包括:获取所述待识别命名实体对应的字集合;遍历所述字集合的每个字符,确定包含所述每个字符的候选标准实体集合;基于所述待识别命名实体的长度,从所述候选标准实体集合中确定出与所述待识别命名实体长度相同的至少一个文本串。
15.本发明实施例的命名实体的识别方法,通过获取待识别命名实体对应的字集合,遍历字集合中的每个字符以确定包含每个字符的候选标准实体集合,并基于待识别命名实体的长度,从候选标准实体集合中确定出与待识别命名实体长度相同的至少一个文本串。由此避免了不必要文本串识别,既提高了待识别命名实体的识别效率,又保证了待识别命名实体的识别准确性。
16.根据第二方面,本发明实施例提供了一种命名实体的识别装置,包括:获取模块,用于获取与待识别命名实体长度相同的至少一个文本串;计算模块,用于计算所述待识别命名实体与至少一个所述文本串之间的目标转移值,所述目标转移值用于表征字符和文本串之间的对应关系;确定模块,用于基于所述待识别命名实体、至少一个所述文本串以及所述目标转移值,确定与所述待识别命名实体对应的目标标准实体。
17.本发明实施例的命名实体的识别装置,通过获取与待识别命名实体长度相同的至少一个文本串,并计算待识别命名实体与至少一个文本串之间的目标转移值,基于待识别命名实体、至少一个文本串以及目标转移值,从至少一个文本串中确定出与待识别命名实体对应的文本串,并以该文本串对应的命名实体作为目标标准实体。其中,目标转移值用于表征字符和文本串之间的对应关系。该装置无需准备大量的标注数据,基于文本串字符之间的链接关系以确定出对应于待识别命名实体的目标标准实体,保证了命名实体识别的准确率。
18.根据第三方面,本发明实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或第一方面任一实施方式所述的命名实体的识别方法。
19.根据第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行第一方面或第一方面任一实施方式所述的命名实体的识别方法。
附图说明
20.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
21.图1是根据本发明实施例的命名实体的识别方法的流程图;
22.图2是根据本发明实施例的命名实体的识别方法的另一流程图;
23.图3是根据本发明实施例的命名实体的识别方法的另一流程图;
24.图4是根据本发明实施例的命名实体的识别装置的结构框图;
25.图5是本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
26.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
27.命名实体识别通常基于模型或基于字典对命名实体进行识别。然而,基于模型的命名实体识别需要事先准备大量的标注数据,但大量的标注数据需要耗费很大的人力成本,且对于某些垂直领域的标注数据较难获取。基于字典的命名实体识别虽然不需要标注数据,但其泛化能力有限,只能识别和字典中一模一样的命名实体。因此,现有的命名实体的识别方法均存在一定的局限性,难以保证命名实体的识别准确率。
28.基于此,本发明技术方案通过计算候选标准实体与待识别命名实体长度相同的文本串之间的目标转移值,进而根据目标转移值从候选标准实体集合中确定出与待识别命名实体对应的目标标准实体,既无需准备大量的标注数据,还可以基于文本串字符之间的链接关系确定出对应于待识别命名实体的目标标准实体,保证了命名实体识别的准确率。
29.根据本发明实施例,提供了一种命名实体的识别方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
30.在本实施例中提供了一种命名实体的识别方法,可用于电子设备,如手机、电脑、平板电脑等,图1是根据本发明实施例的命名实体的识别方法的流程图,如图1所示,该流程包括如下步骤:
31.s11,获取与待识别命名实体长度相同的至少一个文本串。
32.待识别命名实体为需要从目标文本中识别出与其对应的标准实体。电子设备可以通过识别待识别命名实体所包含的每一个字符,将需要识别的待识别命名实体放到一个集合中,得到候选标准实体集合。遍历候选标准实体集合所包含的候选标准实体,通过滑动窗口的方式依次滑过候选标准实体,从而可以得到一系列与待识别命名实体长度相一致的文本串。具体地,待识别命名实体的长度总是小于要进行命名实体识别的目标文本长度,即待识别命名实体一般是嵌入在目标文本中的文本片段中,通过滑动窗口方式,可以找到与待识别命名实体长度相同的至少一个文本串。
33.s12,计算待识别命名实体与至少一个文本串之间的目标转移值,其中,目标转移值用于表征字符和文本串之间的对应关系。
34.电子设备在确定出与待识别命名实体相对应的文本串之后,可以分别就文本串的向量表示和待识别命名实体的向量表示进行计算,通过文本串的向量表示和待识别命名实体的向量表示进一步计算出待识别命名实体与各个文本串之间的目标转移值。其中,目标转移值用于表征字符和文本串之间的对应关系,例如,遍历文本串中的各个字符,如果在某个文本串中字符a后面是字符b,则字符a到字符b的转移值为c,其中,c为一常数,本技术对c值不作限定。具体地,设目标转移值的初始值为0,如果有连续的至少两个字符在文本串中出现,且这至少两个字符也在待识别命名实体中出现,则对当前转移值进行累加,从而得到待识别命名实体与各个文本串之间的目标转移值。
35.s13,基于待识别命名实体、至少一个文本串以及目标转移值,确定与待识别命名实体对应的目标标准实体。
36.根据待识别命名实体对应的向量表示、各个文本串对应的向量表示以及待识别命名实体与文本串之间的目标转移值,计算出待识别命名实体与各个文本串之间的相似度。电子设备基于计算得到的各个相似度,从至少一个文本串中确定出与待识别命名实体对应的文本串,并以该文本串对应的命名实体作为目标标准实体。
37.本实施例的命名实体的识别方法,通过获取与待识别命名实体长度相同的至少一个文本串,并计算待识别命名实体与至少一个文本串之间的目标转移值,基于待识别命名实体、至少一个文本串以及目标转移值,从至少一个文本串中确定出与待识别命名实体对应的文本串,并以该文本串对应的命名实体作为目标标准实体。其中,目标转移值用于表征字符和文本串之间的对应关系。该方法无需准备大量的标注数据,基于文本串字符之间的链接关系以确定出对应于待识别命名实体的目标标准实体,保证了命名实体识别的准确率。
38.在本实施例中提供了一种命名实体的识别方法,可用于电子设备,如手机、电脑、平板电脑等,图2是根据本发明实施例的命名实体的识别方法的流程图,如图2所示,该流程包括如下步骤:
39.s21,获取与待识别命名实体长度相同的至少一个文本串。详细说明参见上述实施例对应步骤s11的相关描述,此处不再赘述。
40.s22,计算待识别命名实体与至少一个文本串之间的目标转移值,其中,目标转移值用于表征字符和文本串之间的对应关系。
41.具体地,上述步骤s22可以包括如下步骤:
42.s221,遍历至少一个文本串,判断是否存在至少两个连续的字符出现在转移字典中,其中,转移字典用于表征标准实体中字符与字符之间的链接关系。
43.对各个文本串所包含的字符进行依次遍历,判断遍历过程中是否存在至少两个连续的字符出现在转移字典中,其中,转移字典是根据标准实体中字符与字符之间的链接关系生成的。具体地,电子设备可以对各个文本串依次遍历,并判断遍历过程中是否出现至少两个连续的字符均存在于转移字典中。若存在至少两个连续的字符出现在转移字典中,则执行步骤s222,否则判定该文本串对应的标准实体并非为待识别命名实体。
44.s222,判断至少两个连续的字符是否出现待识别命名实体中。
45.若存在至少两个连续的字符出现在转移字典中,为进一步保证待识别命名实体的识别准确性,进一步判断上述至少两个连续的字符是否出现待识别命名实体中,若至少两个连续的字符出现待识别命名实体中,执行步骤s223,否则,表示该文本串对应的标准实体并非为待识别命名实体。
46.s223,在当前转移值上叠加预设值。
47.当前转移值为当前文本串与当前待识别命名实体之间的转移值。若至少两个连续的字符出现待识别命名实体中,表示该文本串对应的标准实体可能与待识别命名实体相对应,此时电子设备可以在当前转移值上叠加一预设值。其中,该预设值可以是正值,也可以是负值,本领域技术人员可以根据实际需要确定。例如,若存在至少两个连续的字符出现在转移字典中,且该至少两个连续的字符同时出现待识别命名实体中,此时,在当前转移值上
累加1。
48.s224,基于预设值的叠加结果,确定待识别命名实体与至少一个文本串之间的目标转移值。
49.目标转移值为文本串与待识别命名实体之间的最终转移值,各个文本串均具有与其对应的目标转移值。待电子设备遍历完各个文本串后,可以得到各个文本串与待识别命名实体之间的转移值叠加结果,对该转移值的叠加结果进行处理得到目标转移值。
50.具体地,上述步骤s224可以包括:对预设值的叠加结果进行对数计算,将对数计算的结果作为目标转移值。
51.对叠加预设值后所得到的最终转移值进行对数处理,例如取以2为底的对数,当然还可以取其他底数的对数,此处不作具体限定。将经过对数处理所得到的计算结果作为待识别命名实体与文本串之间的目标转移值。
52.s23,基于待识别命名实体、至少一个文本串以及目标转移值,确定与待识别命名实体对应的目标标准实体。详细说明参见上述实施例对应步骤s13的相关描述,此处不再赘述。
53.本实施例的命名实体的识别方法,通过遍历各个文本串所包含的字符,判断是否存在至少两个连续的字符出现在转移字典中,其中,转移字典为标准实体中字符与字符之间的链接关系,若存在至少两个连续的字符出现在转移字典中,则继续判断至少两个连续的字符是否出现待识别命名实体中,若至少两个连续的字符出现待识别命名实体中,则在当前转移值上叠加预设值,并对当前转移值叠加预设值的结果取对数,将对数计算结果作为目标转移值。该方法通过计算待识别命名实体与文本串之间的目标转移值,充分考虑了待识别命名实体所包含字符之间的链接关系,根据目标转移值对待识别命名实体对应的目标标准实体进行确定,进一步提高了待识别命名实体的识别准确率。
54.在本实施例中提供了一种命名实体的识别方法,可用于电子设备,如手机、电脑、平板电脑等,图3是根据本发明实施例的命名实体的识别方法的流程图,如图3所示,该流程包括如下步骤:
55.s31,获取与待识别命名实体长度相同的至少一个文本串。
56.具体地,上述步骤s31可以包括如下步骤:
57.s311,获取待识别命名实体对应的字集合。
58.待识别命名实体为需要从输入的目标文字中识别的标准实体。待识别命名实体对应的字集合为待识别命名实体所包含的每个字符所组成的集合。电子设备可以通过识别待识别命名实体中所包含的每一个字符,将待识别命名实体包含的每一个字符放到一个集合中。例如,若待识别命名实体为“不锈钢板”,则其对应的字集合为“不,锈,钢,板”。
59.s312,遍历字集合的每个字符,确定包含每个字符的候选标准实体集合。
60.电子设备根据字符与标准实体之间的链接关系,可以建立字符到标准实体的倒排索引,即key为字符,value为包含该字符的标准实体集合的查找表。电子设备在确定出待识别命名实体对应的字集合之后,可以对待识别命名实体所对应的字集合进行遍历,通过字符到标准实体的倒排索引,确定出包含每个字符的候选标准实体集合。
61.s313,基于待识别命名实体的长度,从候选标准实体集合中确定出与待识别命名实体长度相同的至少一个文本串。
62.以待识别命名实体的长度作为滑动步长,电子设备可以按照一定的滑动顺序以该滑动步长依次滑过目标文本,得到至少一个与待识别命名实体长度相同的文本串,其中,滑动顺序为目标文本的读取顺序。具体地,通常待识别命名实体的长度小于目标文本的长度,即,待识别命名实体一般嵌入在目标文本中,电子设备通过滑动窗口的方式,可以找到与待识别命名实体长度一致的文本串,该文本串对应的标准实体即为候选标准实体。
63.s32,计算待识别命名实体与至少一个文本串之间的目标转移值,其中,目标转移值用于表征字符和文本串之间的对应关系。详细说明参见上述实施例对应步骤s22的相关描述,此处不再赘述。
64.s33,基于待识别命名实体、至少一个文本串以及目标转移值,确定与待识别命名实体对应的目标标准实体。
65.具体地,上述步骤s33可以包括如下步骤:
66.s331,分别计算至少一个文本串对应的文本串向量,以及待识别命名实体所对应的实体向量。
67.电子设备可以获取字权重字典和字向量字典。其中,字权重字典为标准实体库中所包含的各个标准命名实体对应的每一个字符的字权重值构成的查询字典,字权重字典用于查询标准实体中每个字符对应的字权重值;字向量字典为标准实体库中所包含的各个标准命名实体对应的每一个字符的字权重值构成的查询字典,字向量字典用于查询标准实体中每个字符对应的字向量。字权重字典和字向量字典采用字到标准实体的倒排索引,即key为字,value为包含该字的标准实体所对应集合的查找表。此处通过字倒排索引的方式以缩小查找范围,能够提高待识别命名实体的识别速度。
68.其中,字权重字典通过计算标准实体库的字集合中每个字符的字权重值得到,每个字符对应的字权重值的计算方式为:log(标准命名实体总数/含有该字的标准命名实体数)。字向量字典可以通过计算每个字对应的向量生成,具体地,电子设备可以从互联网上直接获取已公开的字向量字典,例如bert模型训练出的字向量字典。当然为也可以先下载公开的bert模型,然后用其专业语料重新训练bert模型,得到微调后的字向量字典,以得到更为准确的字向量。
69.电子设备在获取到待识别命名实体以及与其对应的至少一个文本串后,可以对字权重字典和字向量字典进行遍历,分别确定与至少一个文本串对应的字所对应的字权重值和字向量值,以及与待识别命名实体对应的字权重值和字向量值。电子设备对文本串对应的每个字的字权重值与字向量值进行相乘,并对每个字的字权重值与字向量值的相乘结果进行累加,得到与文本串向量。电子设备对待识别命名实体对应的字权重值和字向量值进行相乘,并对待识别命名实体对应的相乘结果进行累加,得到实体向量,例如,若待识别命名实体对应的字集合为“不,锈,钢,板”,遍历字权重字典和字向量字典,分别得到与“不”、“锈”、“钢”和“板”对应的字权重值p1、p2、p3和p4,以及与其对应的字向量值q1、q2、q3和q4。据此可以计算出待识别命名实体对应的实体向量为:p1*q1 p2*q2 p3*q3 p4*q4。
70.s332,基于实体向量、文本串向量以及目标转移值,确定待识别命名实体与至少一个文本串之间的相似度。
71.计算实体向量与文本串向量之间的余弦相似度,并结合余弦相似度和目标转移值,计算待识别命名实体与至少一个文本串之间的相似度。具体地,计算待识别命名实体与
至少一个文本串之间的相似度的步骤可以包括:
72.(1)计算实体向量和文本串向量的内积以及实体向量和所述文本串向量的模的乘积。
73.在得到实体向量和文本串向量后,电子设备可以对实体向量和文本串向量的内积以及实体向量和文本串向量的模的乘积进行计算。具体地,若实体向量为a,文本串向量为b,则实体向量和文本串向量的内积为a*b,实体向量和文本串向量的模的乘积为||a||*||b||。
74.(2)基于内积和模的乘积,确定实体向量和文本串向量的余弦相似度。
75.余弦相似度即为余弦相似性,通过计算实体向量和文本串向量的夹角余弦值来评估待识别命名实体与文本串所对应标准实体之间的相似度。基于实体向量和文本串向量的内积以及模的乘积可以得到余弦相似度s的计算公式如下:s=((a*b)/||a||*||b|| 1)/2。
76.(3)计算余弦相似度和目标转移值的乘积值或求和值。
77.基于余弦相似度和目标转移值可以计算得到余弦相似度s以及目标转移值d的乘积值:q=s*d;或是余弦相似度s以及目标转移值d的求和值:p=s d。
78.(4)对乘积值或求和值进行归一化处理,得到待识别命名实体与至少一个文本串之间的相似度。
79.电子设备在得到乘积值或求和值时,可以对其进行归一化处理以确定待识别命名实体与文本串之间的相似度。具体地,可以对乘积值或求和值取sigmoid,将取sigmoid得到的结果作为待识别命名实体与文本串之间的相似度。
80.s333,基于相似度,确定与待识别命名实体对应的目标标准实体。
81.通过计算待识别命名实体与文本串之间的相似度,可以确定待识别命名实体与其对应的各个文本串之间的相似程度。电子设备可以预先设置相似度阈值,从各个文本串中确定出大于该相似度阈值的多个候选标准实体,并从大于相似度阈值的多个候选标准实体中确定出与待识别命名实体相似度最高的候选标准实体,该相似度最高的候选标准实体即为待识别命名实体对应的目标标准实体。
82.具体地,上述步骤s333可以包括如下步骤:
83.(1)判断相似度是否大于预设阈值。
84.预设阈值为电子设备中预先设置相似度阈值,该相似度阈值为确定待识别命名实体与文本串对应标准实体为同一实体或相似实体的最小相似度。将计算得到的相似度与预设阈值进行对比,确定相似度与预设阈值之间的大小关系,当相似度大于预设阈值时,执行步骤(2),否则表示文本串中不存在待识别命名实体。
85.(2)将相似度大于预设阈值的文本串对应的标准实体作为待识别命名实体对应的目标标准实体。
86.当相似度大于预设阈值时,将相似度大于预设阈值的文本串对应的标准实体作为对应于待识别命名实体的最可能候选标准实体。若最可能的候选标准实体包括多个,则对最可能候选标准实体对应的相似度进行排序,确定相似度最大的候选标准实体,以该相似度最大的候选标准实体作为待命名实体对应的目标标准实体。
87.本实施例的命名实体的识别方法,通过获取待识别命名实体对应的字集合,遍历字集合中的每个字符以确定包含每个字符的候选标准实体集合,并基于待识别命名实体的
architecture,简称eisa)总线等。通信总线502可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
98.其中,存储器504可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:ram);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard disk drive,缩写:hdd)或固态硬盘(英文:solid-state drive,缩写:ssd);存储器504还可以包括上述种类存储器的组合。
99.其中,处理器501可以是中央处理器(英文:central processing unit,缩写:cpu),网络处理器(英文:network processor,缩写:np)或者cpu和np的组合。
100.其中,处理器501还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:asic),可编程逻辑器件(英文:programmable logic device,缩写:pld)或其组合。上述pld可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:cpld),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:fpga),通用阵列逻辑(英文:generic array logic,缩写:gal)或其任意组合。
101.可选地,存储器504还用于存储程序指令。处理器501可以调用程序指令,实现如本技术图1至图3实施例中所示的命名实体的识别方法。
102.本发明实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的命名实体的识别方法的处理方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)、随机存储记忆体(random access memory,ram)、快闪存储器(flash memory)、硬盘(hard disk drive,缩写:hdd)或固态硬盘(solid-state drive,ssd)等;所述存储介质还可以包括上述种类的存储器的组合。
103.虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献