一种实体识别方法、识别模型的训练方法和相关装置与流程

2022-12-07 19:18:22 来源：中国专利 TAG：

1.本技术涉及数据分析技术领域，特别是涉及一种实体识别方法、识别模型的训练方法和相关装置。

背景技术：

2.在进行数据分析的过程中，首先需要从非结构化文本中抽取出结构化信息，而后对抽取出的结构化信息进行数据分析。由于数据分析过程中需要使用抽取出的实体信息，故在抽取结构化信息的过程中实体的识别占据了重要地位。
3.非结构化文本中可能同时存在连续实体和非连续实体，非连续实体指的是一个实体分为若干片段，并且片段之间相互隔离。在进行实体识别时，非连续实体的识别也是十分关键的，本技术的申请人在长期的研发过程中，现有技术中在识别知识实体的过程中，对于非连续实体的识别效果差，不能够准确识别非连续实体。

技术实现要素：

4.本技术主要解决的技术问题是提供一种实体识别方法、识别模型的训练方法和相关装置，能够提高实体识别的准确性。
5.为解决上述技术问题，本技术采用的一个技术方案是：提供一种实体识别方法，该方法包括：从目标文本确定若干组目标片段组，每目标片段组包括目标文本中的两个文本片段；分别对每目标片段组进行关系分类，得到每目标片段组的关系分类结果，关系分类结果用于表示目标片段组包含的两个文本片段之间是否存在关联关系；基于关系分类结果和目标片段组中各文本片段的实体分类结果，确定目标文本中的非连续实体，非连续实体由至少一组目标片段组包含的文本片段组成。
6.其中，从目标文本确定若干组目标片段组，包括：从目标文本中选出至少一组满足预设要求的文本片段对，作为目标片段组，预设要求包括文本片段对的实体分类结果表示文本片段对均属于实体类型、和/或文本片段对不存在重叠。
7.其中，在基于关系分类结果和目标片段组中各文本片段的实体分类结果，确定目标文本中的非连续实体之前，方法还包括：获取目标文本包含的各文本片段的片段表示；基于各文本片段的片段表示进行实体分类，得到文本片段的实体分类结果；分别对每目标片段组进行关系分类，得到每目标片段组的关系分类结果，包括：对于每目标片段组，利用目标片段组包含的文本片段的片段表示对目标片段组进行关系分类，得到目标片段组的关系分类结果。
8.其中，利用目标片段组包含的文本片段的片段表示对目标片段组进行关系分类，得到目标片段组的关系分类结果，包括：将目标片段组包含的文本片段的片段表示进行拼接，得到目标片段组的拼接表示；基于目标片段组的拼接表示进行关系分类，得到目标片段组的关系分类结果。
9.其中，获取目标文本包含的各文本片段的片段表示包括：获取目标文本中各字符
的字符表示；利用目标文本中包含的字符对目标文本中包含的文本片段进行枚举，得到多个文本片段，文本片段的字符长度小于预设阈值；基于文本片段中各字符的字符表示得到文本片段的片段表示。
10.其中，基于文本片段中各字符的字符表示得到文本片段的片段表示，包括：将文本片段的首字符的字符表示、尾字符的字符表示和文本片段的字符长度表示进行拼接，得到文本片段的片段表示，字符长度表示与文本片段的字符长度相关。
11.其中，文本片段的实体分类结果表示文本片段所属的类型，文本片段所属的类型包括实体类型和非实体类型；基于关系分类结果和目标片段组中各文本片段的实体分类结果，确定目标文本中的非连续实体包括：基于关系分类结果和实体分类结果，从若干目标片段组中查找出存在关联关系且所属类型满足实体类型要求的至少两个文本片段，组成非连续实体。
12.其中，实体类型要求为属于同一实体类型。
13.其中，基于关系分类结果和实体分类结果，从若干目标片段组中查找出存在关联关系且所属类型满足实体类型要求的至少两个文本片段，组成非连续实体，包括：利用关系分类结果构建关系图，关系图包含若干节点，若干节点为若干目标片段组的各文本片段，且存在关联关系的文本片段所对应的节点之间连接有关联边；基于实体分类结果，从关系图中抽取符合非连续实体条件的子图，其中，子图包括至少两个节点，且至少两个节点之间连接有关联边，符合非连续实体条件的子图中所有节点的所属类型满足实体类型要求；提取符合非连续实体条件的子图所包含的各文本片段，并将提取的文本片段按照在目标文本中的顺序进行排列，组成非连续实体。
14.其中，关系分类结果和实体分类结果是由实体识别模型进行对应分类得到的；该方法还包括：获取样本文本中各样本片段的样本片段表示，样本文本标注有真实实体分类结果和真实关系分类结果；基于各样本片段的样本片段表示进行实体分类，得到样本片段的样本实体分类结果，以及，基于至少一组样本片段组对应的样本片段表示进行关系分类，得到样本片段组的样本关系分类结果，样本片段组包括两个样本片段；基于样本实体分类结果和真实实体分类结果之间的差异，以及样本关系分类结果和真实关系分类结果之间的差异，调整实体识别模型的参数。
15.其中，获取样本文本中各样本片段的样本片段表示包括：获取样本文本中各字符的样本字符表示；将样本片段包含的首字符的样本字符表示、尾字符的样本字符表示和样本片段的样本字符长度表示进行拼接，得到样本片段的样本片段表示，其中，样本字符长度表示与样本片段的字符长度相关；基于样本实体分类结果和真实实体分类结果之间的差异，以及样本关系分类结果和真实关系分类结果之间的差异，调整实体识别模型的参数包括：基于样本实体分类结果和真实实体分类结果之间的差异，以及样本关系分类结果和真实关系分类结果之间的差异，调整实体识别模型的长度表示参数，长度表示参数用于确定不同字符长度对应的字符长度表示。
16.为解决上述技术问题，本技术采用的另一个技术方案是：提供一种实体识别模型的训练方法，该训练方法用于对实体识别模型进行训练，训练方法包括：获取样本文本中各样本片段的样本片段表示，样本文本标注有真实实体分类结果和真实关系分类结果；基于各样本片段的样本片段表示进行实体分类，得到样本片段的样本实体分类结果，以及，基于
至少一组样本片段组对应的样本片段表示进行关系分类，得到样本片段组的样本关系分类结果，样本片段组包括两个样本片段；基于样本实体分类结果和真实实体分类结果之间的差异，以及样本关系分类结果和真实关系分类结果之间的差异，调整实体识别模型的参数。
17.为解决上述技术问题，本技术采用的另一个技术方案是：提供一种电子设备，包括相互耦接的存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述任一实体识别方法或者任一实体识别模型的训练方法。
18.为解决上述技术问题，本技术采用的另一个技术方案是：提供一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述任一实体识别方法或者任一实体识别模型的训练方法。
19.上述方案，通过对目标文本包含的文本片段中选择的目标片段组进行关系分类以确定目标片段组中的片段是否存在关联关系，并根据确定的关系分类结果以及目标片段组中的文本片段的实体分类结果确定目标文本中的非连续实体，故将非连续实体识别任务转变为文本片段的实体分类任务和关系分类任务，简化了非连续实体识别的过程，能够准确对目标文本中的非连续实体进行识别，提高了对目标文本实体识别的准确性。
附图说明
20.图1是本技术实体识别方法一实施例的流程示意图；图2是本技术实体识别方法另一实施例的流程示意图；图3是本技术步骤s210另一实施例的流程示意图；图4是本技术实体识别方法另一实施例的流程示意图；图5是本技术步骤s450另一实施例的流程示意图；图6是本技术实体识别方法另一实施例的流程示意图；图7是本技术实体识别模型的训练方法一实施例的流程示意图；图8是本技术电子设备一实施例的框架示意图；图9是本技术实体识别装置一实施例的框架示意图；图10是本技术识别模型的训练装置一实施例的框架示意图；图11是本技术计算机可读存储介质一实施例的框架示意图。
具体实施方式
21.为使本技术的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本技术进一步详细说明。以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本技术。
22.本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括a、b、c中的至少一种，可以表示包括从a、b和c构成的集合中选择的任意一个或多个元素。
23.可以理解的是，本技术中的实体识别方法可以由一电子设备执行，该电子设备可
以是具有处理能力的任意设备，例如，手机、计算机、平板电脑等。
24.请参阅图1，图1是本技术实体识别方法一实施例的流程示意图。需要说明的是，目标文本“张三在杭州西湖区和余杭区分别买了两瓶水”中，“杭州”、“杭州西湖区”、“西湖区”可以作为单独的连续实体，并且“杭州”和“余杭区”可以共同指向“杭州余杭区”这一实体，但是“杭州”和“余杭区”中间被“西湖区和”隔开，故而称为非连续实体。本技术中的实体识别方法可以用于对目标文本中的非连续实体进行识别，具体而言，该方法可以包括：步骤s110：从目标文本确定若干组目标片段组。
25.其中，目标文本为需要进行实体识别的文本，目标文本中包含多个文本片段，每个目标片段组包括目标文本中的两个文本片段。
26.在一具体的应用场景中，目标文本为“我在杭州市的西湖区看西湖”，其中，“杭州”、“杭州市”、“西湖区”、“看西湖”均是目标文本中包含的文本片段，“杭州市”和“西湖区”则可以构成一个目标片段组。
27.一些实施例中，不同的目标片段组中可能同时包括同一文本片段。
28.步骤s120：分别对每目标片段组进行关系分类，得到每目标片段组的关系分类结果。
29.对每个目标片段组中包含的两个文本片段进行关系分类，得到每个目标片段组的关系分类结果，关系分类结果可以用于表示目标片段组中的两个文本片段之间是否存在关联关系，存在关联关系可以表示两个文本片段指向同一真实实体。
30.步骤s130：基于关系分类结果和目标片段组中各文本片段的实体分类结果，确定目标文本中的非连续实体。
31.可以理解的是，实体分类结果是对所有目标片段组中的各文本片段进行实体分类得到的，可以用于确定文本片段的类型，进一步来说，可以用于确定文本片段是否属于实体类型。
32.其中，实体分类结果可以是预先获得的，非连续实体由至少一组目标片段组包含的文本片段组成。
33.一些实施例中，非连续实体还可以包括两个以上的文本片段，两个以上的文本片段来自于不同目标片段组。
34.上述方案，将对目标文本中的非连续实体的识别任务转变成对目标文本中包含的文本片段的实体分类以及两文本片段之间的关联关系的确定，通过实体分类结果和关系分类结果的结合，可以确定属于实体类型的文本片段以及存在关联关系的文本片段，从而能够确定目标文本中包含的非连续实体。
35.请参阅图2，图2是本技术实体识别方法另一实施例的流程示意图。具体而言，可以包括如下步骤：步骤s210：获取目标文本包含的各文本片段的片段表示。
36.其中，目标文本包含若干文本片段，通过对各文本片段进行表示得到片段表示，可以用于后续的实体分类和关系分类过程中。
37.步骤s220：基于各文本片段的片段表示进行实体分类，得到文本片段的实体分类结果。
38.可以理解的是，对每个文本片段来说，基于其片段表示进行实体分类，从而得到该
文本片段的实体分类结果。实体分类结果可以用于表示该文本片段是否属于实体类型。在一具体的应用场景中，实体分类结果可以包括实体类型和非实体类型。
39.步骤s230：从目标文本确定若干组目标片段组。
40.步骤s230的相关描述可以参考前述关于步骤s110的相关内容。
41.一些实施例中，步骤s230可以通过如下步骤而实现：从目标文本中选出至少一组满足预设要求的文本片段对。其中，预设要求可以包括文本片段对的实体分类结果表示文本片段对均属于实体类型，和/或，文本片段对不存在重叠。
42.需要说明的是，预设要求包括目标片段组中包含的两文本片段的实体分类结果可以表示文本片段对均属于实体类型。由于非连续实体包括若干片段，其中每个片段也可以单独作为实体而存在，从而在对非连续实体进行识别的过程中，仅对实体类型的文本片段对进行关系分类，而对非实体类型的文本片段则不选择作为目标片段组中的文本片段，不作为关系分类的片段范围，从而提高识别效率。
43.需要说明的是，由于非连续文本是非连续的并且表示同一实体，故非连续实体的不同片段之间可以不存在重叠部分，故在对非连续实体进行识别的过程中，通过预设要求包括文本片段对不存在重叠可以使得仅对不存在重叠的文本片段之间进行关系分类，从而提高识别效率。
44.一些实施例中，预设要求还可以包括两文本片段对在目标文本中不是相邻的，例如，目标文本“张三在杭州西湖区和余杭区分别买了两瓶水”中，“杭州”和“西湖区”即为两个先后紧密连接的文本片段。由于非连续实体本身是非连续的，故从非连续的性质对关系分类的文本片段进行筛选，也可以相应提高识别效率。
45.可以理解的是，若预设要求中包括文本片段对的实体分类结果表示文本片段对均属于实体类型，那么步骤s230可以在步骤s220之后执行，利用步骤s220得到的实体分类结果，确定符合预设要求的文本片段对。若预设要求不包括文本片段对的实体分类结果表示文本片段对均属于实体类型，那么步骤s230的执行顺序也可以调换到步骤s220之前，或者与步骤s220同时执行。
46.步骤s240：利用目标片段组包含的文本片段的片段表示对目标片段组进行关系分类，得到目标片段组的关系分类结果。
47.步骤s240的相关描述可以参考前述关于步骤s120的相关内容。
48.具体来说，对目标片段组进行关系分类也是基于片段表示而进行。基于目标片段组中包含的两文本片段各自的片段表示，对目标片段组进行关系分类，从而得到目标片段组的关系分类结果，分别对每个目标片段组进行关系分类得到各目标片段组的关系分类结果。
49.示例性地，将目标片段组包含的文本片段的片段表示进行拼接，得到目标片段组的拼接表示；基于目标片段组的拼接表示进行关系分类，得到目标片段组的关系分类结果。
50.步骤s250：基于关系分类结果和目标片段组中各文本片段的实体分类结果，确定目标文本中的非连续实体。
51.步骤s250的相关描述可以参考前述关于步骤s130的相关内容，在此不做赘述。
52.上述方案，通过对目标文本包含的文本片段中选择的目标片段组进行关系分类以确定目标片段组中的片段是否存在关联关系，并根据确定的关系分类结果以及目标片段组
中的文本片段的实体分类结果确定目标文本中的非连续实体，将非连续实体识别任务转变为文本片段的实体分类任务和关系分类任务，简化了非连续实体识别的过程，能够准确对目标文本中的非连续实体进行识别，提高了对目标文本实体识别的准确性。
53.请参阅图3，图3是本技术步骤s210另一实施例的流程示意图。具体而言，步骤s210可以包括如下步骤：步骤s311：获取目标文本中各字符的字符表示。
54.其中，目标文本包括多个字符，每个字符的字符表示可以为利用至少一个语言模型处理得到的。
55.一些实施例中，目标文本为x={x1，x2，x3，...，xm}”，其中xi表示字符，目标文本共包括m个字符，利用语言模型对目标文本进行处理得到h={h1，h2，h3，
…
，hm}，其中，hi表示每个字符对应的字符表示。
56.一些实施例中，还可以利用长短期记忆网络，例如，bilstm（bi-directional long short-term memory，双向长短期记忆网络）等，对上述处理结果h进行进一步处理，得到h
´
={h1´
，h2´
，h3´
，
…
，hm´
}，其中，hi´
表示每个字符更新后的字符表示，通过双向长短期记忆网络的处理，使得每个字符表示融合了其上下文的信息。
57.需要说明的是，上述语言模型可以包括但不限于bert（bidirectional encoder representations from transformer，基于transformer的双向编码器表示）、roberta（robustly optimized bert，bert的强化版本）、nezha（哪吒）等。
58.通过联合使用预训练预先模型和双向长短期记忆网络进行编码，增强了字符表示的语音，有利于提高实体识别的准确率。
59.步骤s312：利用目标文本中包含的字符对目标文本中包含的文本片段进行枚举，得到多个文本片段。
60.通过利用目标文本中包含的字符进行枚举，确定目标文本中包含的文本片段。
61.在一具体的应用场景中，利用目标文本“张三在杭州西湖区和余杭区分别买了两瓶水”中包含的字符进行枚举，得到的文本片段可以包括“张三”、“张三在”、“杭州”、“杭州西湖区”等。
62.一些实施例中，在进行枚举的过程中，可以对文本片段的字符长度进行限制，从而减少无意义的文本片段数量，以加快计算。具体来说，可以将文本片段的字符长度限制小于预设阈值。
63.需要说明的是，目标文本中可能存在一些实体之间存在重叠的部分，例如，目标文本“张三在杭州西湖区和余杭区分别买了两瓶水”中，“杭州西湖区”和“杭州余杭区”这两个实体即存在重叠部分。现有技术中对重叠实体的识别效果不够理想。通过枚举的方式确定文本片段即可以枚举出目标文本中所有可能的文本片段，从中进行实体的识别，对于重叠实体也能够准确进行识别，有效提高实体识别的准确性。
64.步骤s313：基于文本片段中各字符的字符表示得到文本片段的片段表示。
65.具体来说，在确定了文本片段之后，利用其字符的字符表示综合确定该文本片段的片段表示。
66.示例性地，步骤s313可以通过如下步骤而实现：将文本片段的首字符的字符表示、尾字符的字符表示和文本片段的字符长度表示进行拼接，得到文本片段的片段表示，其中，
字符长度表示与文本片段的字符长度相关，同一字符长度的不同文本片段的字符长度表示可以是相同的，设备中可以预存有不同字符长度对应的字符长度表示以用于确定片段表示。
67.在一具体的应用场景中，采用枚举的方式得到了k个文本片段，表示为s={s1，s2，s3，
…
，sk}。其中文本片段sk的片段表示可以由文本片段sk的首字符的字符表示、尾字符的字符表示和文本片段sk的字符长度表示拼接得到，如下式：（1）例如，为“杭州西湖区”，则其片段表示可以由“杭”的字符表示、“区”的字符表示和字符长度为五的字符长度表示拼接得到。
68.在一些实施例中，也可以利用文本片段中的其他字符的字符表示确定该文本片段的片段表示。
69.请参阅图4，图4是本技术实体识别方法另一实施例的流程示意图。具体而言，该方法可以包括如下步骤：步骤s410：获取目标文本包含的各文本片段的片段表示。
70.步骤s420：基于各文本片段的片段表示进行实体分类，得到文本片段的实体分类结果。
71.步骤s410和步骤s420的相关描述可以参考前述实施例中的相关内容。
72.其中，设备中可以预存有若干预设类型，以用于在实体分类过程中判断文本片段属于上述预设类型的概率。
73.在一些实施例中，预设类型包括实体类型和非实体类型，从而实体分类结果则可以表示文本片段属于实体类型和非实体类型的概率，从而确定文本片段属于实体类型还是非实体类型。
74.一些实施例中，预设类型包括实体类型和非实体类型，进一步地，实体类型包括若干种不同的实体类型，例如，人名类型、地名类型等。实体分类结果则可以表示文本片段属于各实体类型以及非实体类型的概率，从而确定文本片段属于实体类型还是非实体类型，进一步地，属于何种实体类型。
75.示例性地，利用多层感知器（multi-layer perception，mlp）对文本片段的片段表示进行处理，将得到的结果经softmax函数处理，得到实体分类结果。具体如下式：（2）其中，为实体分类结果，表示文本片段属于各预设类型的概率，预设类型包括人名类型、地名类型和非实体类型。
76.步骤s430：从目标文本中选出至少一组满足预设要求的文本片段对，作为目标片段组。
77.其中，预设要求包括文本片段对的实体分类结果表示文本片段对均属于实体类型，以及文本片段对不存在重叠。可以理解的是，从而对于实体类型中不存在重叠关系的文本片段之间进行两两组合，得到若干目标片段组，以用于进行关系分类。
78.步骤s440：分别对每目标片段组进行关系分类，得到每目标片段组的关系分类结
果。
79.步骤s440的相关描述可以参考前述实施例中的相关内容。
80.其中，关系分类结果表示目标片段组中的两个文本片段之间存在关联关系的概率，从而能够确定两个文本片段之间是否存在关联。
81.示例性地，利用多层感知器（multi-layer perception，mlp）对目标片段组的拼接表示进行处理，将得到的结果经sigmoid函数处理，得到关系分类结果。具体如下式：（3）其中，为关系分类结果，表示文本片段和之间存在关联的概率。
82.步骤s450：基于关系分类结果和实体分类结果，从若干目标片段组中查找出存在关联关系且所属类型满足实体类型要求的至少两个文本片段，组成非连续实体。
83.需要说明的是，组成非连续实体的文本片段可以为多个。由于非连续实体包括若干片段，不同片段之间存在关联关系，且对于每个片段来说，可以单独作为实体而存在。由于不同的片段指向同一真实的实体，故对于不同片段来说，其关系分类结果为属于同一实体类型。实体类型要求为属于同一实体类型。
84.例如，“杭州”和“余杭区”是非连续实体的两个部分，那么“杭州”和“余杭区”对应的关系分类结果均为地名类型，且两片段之间存在关联关系。故而这两个片段可以组成非连续实体“杭州余杭区”。
85.请结合参阅图5，图5是本技术步骤s450另一实施例的流程示意图。具体而言，步骤s450可以包括如下步骤：步骤s551：利用关系分类结果构建关系图。
86.其中，利用若干目标片段组中的各文本片段作为关系图中的节点，为存在关联关系的文本片段，在对应的节点之间连接关联边。
87.在一具体的应用场景中，若干目标片段组中的各文本片段即为，实体分类结果为实体类型的文本片段，同一组中的两个文本片段之间没有重叠。为其中存在关联关系的文本片段，在对应的节点之间连接关联边。
88.步骤s552：基于实体分类结果，从关系图中抽取符合非连续实体条件的子图。
89.在步骤s551中得到的关系图的基础上，从中选择符合非连续实体条件的子图，以提取非连续实体。其中，子图包括至少两个节点，且至少两个节点之间连接有关联边，符合非连续实体条件的子图中所有节点的类型满足实体类型要求。
90.在一具体的应用场景中，将关系图中，相互之间均连接有关联边，并且均为同一实体类型的节点抽取作为子图。该子图中包含的至少两个文本片段均为同一实体类型并且文本片段相互之间均存在关联关系，那么也就符合非连续实体的非连续性、不同片段属于同一实体类型以及不同片段之间存在关联的条件。
91.步骤s553：提取符合非连续实体条件的子图包含的各文本片段，并将提取的文本片段按照在目标文本中的顺序进行排列，组成非连续实体。
92.具体地，对提取到的每个子图分别进行处理，一个子图对应一个非连续实体。将子图中包含的各文本片段提取出来，并按照其在目标文本中的顺序进行排列，从而构成一个非连续实体。
93.一些实施例中，基于同时识别非连续实体和连续实体的需要，对关系图中包含的独立节点，由于其本身属于目标片段组中的文本片段，故其属于实体类型，但是其没有与之存在关联关系的其他节点，故将其作为连续实体输出。从而基于关系图中的符合非连续实体条件的至少两个关联节点构成的子图能够得到目标文本中包含的非连续实体，以及基于关系图中的独立节点能够得到目标文本中包含的连续实体，从而能够同时对非连续实体和联系实体进行准确识别。并且对于存在重叠的实体之间，也能够准确识别。
94.请参阅图6，图6是本技术实体识别方法另一实施例的流程示意图。
95.可以理解的是，本技术中执行实体识别方法的电子设备中可以预存有实体识别模型，电子设备利用该实体识别模型进行实体识别，关系分类结果和实体分类结果是由实体识别模型进行对应分类得到的。
96.示例性地，该实体识别模型可以包括编码器、文本片段分类器、文本片段关系分类器和解码器。其中，编码器用于得到字符的字符表示，如图所示，本实施例中采用预训练语言模型和双向长短期记忆网络作为编码器。文本片段分类器可以用于对文本片段进行实体分类，如前述实施例所述，可以采用包括但不限于多层感知器作为文本片段分类器。文本片段关系分类器可以用于对目标片段组进行关系分类，如前述实施例所述，可以采用包括但不限于多层感知器作为文本片段关系分类器。
97.本实施例中，目标文本为“张三在杭州西湖区和余杭区参加了两场文艺汇演”，经编码器编码得到每个字符的字符表示。经枚举的得到目标文本中包含的所有文本片段，对所有文本片段可以均进行实体分类，对满足预设要求的文本片段对组成目标片段组进行关系分类。利用解码器基于关系分类结果和目标片段组中各文本片段的实体分类结果，确定目标文本中的非连续实体。
98.一些实施例中，还可以将文本片段的实体分类结果与非连续实体一并输出。
99.一些实施例中，还可以目标文本中包含的非连续实体和连续实体分别输出。
100.请参阅图7，图7是本技术实体识别模型的训练方法一实施例的流程示意图。
101.需要说明的是，该实体识别模型的训练方法用于对实体识别模型进行训练，以使得实体识别模型能够应用进行实体识别。该实体识别模型的训练方法的步骤可以单独执行，也可以作为实体识别方法中的一部分，先于使用实体识别模型进行实体识别的相关步骤而执行。具体而言，该方法可以包括如下步骤：步骤s710：获取样本文本中各样本片段的样本片段表示。
102.其中，样本文本标注有真实实体分类结果和真实关系分类结果。
103.真实实体分类结果可以用于表示样本文本片段真实归属的实体类型，真实关系分类结果可以用于表示样本文本片段之间的真实关联关系。例如，“杭州”这一文本片段归属于地名类型，“杭州”和“余杭区”这两个文本片段之间存在关联关系，“杭州”和“张三”这两个文本片段之间不存在关联关系。
104.样本片段的获取方式和样本片段表示的获取方式可以参考前述实施例中文本片段的获取方式以及片段表示的获取方式。
105.步骤s720：基于各样本片段的样本片段表示进行实体分类，得到样本片段的样本实体分类结果。
106.步骤s730：基于至少一组样本片段组对应的样本片段表示进行关系分类，得到样
本片段组的样本关系分类结果。
107.需要说明的是，在模型训练阶段，实体分类和关系分类是没有先后执行的依赖顺序的，可以是同时进行的。样本片段组可以是基于枚举得到的文本片段任意选取的，也可以根据没有重叠和/或没有相邻关系进行选取，但不依赖于样本实体分类结果而选取。
108.一些实施例中，在模型训练过程中，得到样本实体分类结果和样本关系分类结果之后，也可以执行对非连续实体的确定相关步骤。
109.步骤s740：基于样本实体分类结果和真实实体分类结果之间的差异，以及样本关系分类结果和真实关系分类结果之间的差异，调整实体识别模型的参数。
110.其中，实体识别模型中编码器部分可以使用预训练语言模型，在训练的过程中，对该预训练语言模型的参数也可以进行调整。
111.在一具体的应用场景中，实体分类以交叉熵为损失函数，具体如下：（4）其中，n表示样本片段的数量，s表示样本片段的集合，表示样本片段的真实实体分类结果，表示样本片段的样本实体分类结果。关系分类以二元交叉熵函数为损失函数，具体如下：（5）其中，m表示样本片段组的数量，r表示样本片段组的集合，表示真实关系分类结果，表示样本关系分类结果。模型的损失函数是在上述两个损失的基础上得到的，示例性地，可以基于下式得到：（6）其中，α和β是损失函数的权重，取值可以在[0,1]之间，代表两个分类任务的重要性，且α和β之和为1。
[0112]
一些实施例中，步骤s710可以通过以下步骤而实现：获取样本文本中各字符的样本字符表示，将样本片段包含的首字符的样本字符表示、尾字符的样本字符表示和样本片段的样本字符长度表示进行拼接，得到样本片段的样本片段表示。
[0113]
需要说明的是，样本字符长度表示与样本片段的字符长度相关。在一应用场景中，设备中预存有不同字符长度对应的样本字符长度表示，在确定了样本片段后，根据该样本片段的字符长度选择相应的样本字符长度表示，以得到样本片段表示。
[0114]
并且，在步骤s740中，基于样本实体分类结果和真实实体分类结果之间的差异，以及样本关系分类结果和真实关系分类结果之间的差异，可以对实体识别模型的长度表示参数进行调整，长度表示参数用于确定不同字符长度对应的字符长度表示。以使得实体识别模型在训练的过程中学习到不同字符长度对应的字符长度表示，以在利用模型进行实体识别时，用于得到文本片段的片段表示过程中。
[0115]
上述方案，能够完成对识别模型的训练，以使得识别模型能够应用进行实体识别，将非连续实体的识别转变为对文本片段的实体分类以及对文本片段关系的分类，以提高非连续实体识别的准确性。
[0116]
请参阅图8，图8是本技术电子设备一实施例的框架示意图。
[0117]
本实施例中，电子设备80包括存储器81、处理器82，其中存储器81耦接处理器82。具体地，电子设备80的各个组件可通过总线耦合在一起，或者电子设备80的处理器82分别与其他组件一一连接。该电子设备80可以为具有处理能力的任意设备，例如计算机、平板电脑、手机等。
[0118]
存储器81用于存储处理器82执行的程序数据以及处理器82在处理过程中的数据等。例如，片段表示、字符表示等。其中，该存储器81包括非易失性存储部分，用于存储上述程序数据。
[0119]
处理器82控制电子设备80的操作，处理器82还可以称为cpu（central processing unit，中央处理单元）。处理器82可能是一种集成电路芯片，具有信号的处理能力。处理器82还可以是通用处理器、数字信号处理器（dsp）、专用集成电路（asic）、现场可编程门阵列（fpga）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器82可以由多个成电路芯片共同实现。
[0120]
处理器82通过调用存储器81存储的程序数据，用于执行指令以实现上述任一实体识别方法或实体识别模型的训练方法。
[0121]
请参阅图9，图9是本技术实体识别装置一实施例的框架示意图。
[0122]
本实施例中，实体识别装置90包括确定模块91、关系分类模块92和识别模块93，其中，确定模块91用于从目标文本确定若干组目标片段组，每目标片段组包括目标文本中的两个文本片段；关系分类模块92用于分别对每目标片段组进行关系分类，得到每目标片段组的关系分类结果，关系分类结果用于表示目标片段组包含的两个文本片段之间是否存在关联关系；识别模块93用于基于关系分类结果和目标片段组中各文本片段的实体分类结果，确定目标文本中的非连续实体，非连续实体由至少一组目标片段组包含的文本片段组成。
[0123]
其中，确定模块91用于从目标文本确定若干组目标片段组，具体包括：从目标文本中选出至少一组满足预设要求的文本片段对，作为目标片段组，预设要求包括文本片段对的实体分类结果表示文本片段对均属于实体类型、和/或文本片段对不存在重叠。
[0124]
其中，实体识别装置90包括实体分类模块，用于在基于关系分类结果和目标片段组中各文本片段的实体分类结果，确定目标文本中的非连续实体之前，获取目标文本包含的各文本片段的片段表示；基于各文本片段的片段表示进行实体分类，得到文本片段的实体分类结果。关系分类模块92用于分别对每目标片段组进行关系分类，得到每目标片段组的关系分类结果，具体包括：对于每目标片段组，利用目标片段组包含的文本片段的片段表示对目标片段组进行关系分类，得到目标片段组的关系分类结果。
[0125]
其中，关系分类模块92用于利用目标片段组包含的文本片段的片段表示对目标片段组进行关系分类，得到目标片段组的关系分类结果，包括：将目标片段组包含的文本片段的片段表示进行拼接，得到目标片段组的拼接表示；基于目标片段组的拼接表示进行关系分类，得到目标片段组的关系分类结果。
[0126]
其中，实体分类模块用于获取目标文本包含的各文本片段的片段表示，具体包括：获取目标文本中各字符的字符表示；利用目标文本中包含的字符对目标文本中包含的文本
片段进行枚举，得到多个文本片段，文本片段的字符长度小于预设阈值；基于文本片段中各字符的字符表示得到文本片段的片段表示。
[0127]
其中，实体分类模块用于基于文本片段中各字符的字符表示得到文本片段的片段表示，包括：将文本片段的首字符的字符表示、尾字符的字符表示和文本片段的字符长度表示进行拼接，得到文本片段的片段表示，字符长度表示与文本片段的字符长度相关。
[0128]
其中，文本片段的实体分类结果表示文本片段所属的类型，文本片段所属的类型包括实体类型和非实体类型；识别模块93用于基于关系分类结果和目标片段组中各文本片段的实体分类结果，确定目标文本中的非连续实体，具体包括：基于关系分类结果和实体分类结果，从若干目标片段组中查找出存在关联关系且所属类型满足实体类型要求的至少两个文本片段，组成非连续实体。
[0129]
其中，实体类型要求为属于同一实体类型。
[0130]
其中，识别模块93用于基于关系分类结果和实体分类结果，从若干目标片段组中查找出存在关联关系且所属类型满足实体类型要求的至少两个文本片段，组成非连续实体，具体包括：利用关系分类结果构建关系图，关系图包含若干节点，若干节点为若干目标片段组的各文本片段，且存在关联关系的文本片段所对应的节点之间连接有关联边；基于实体分类结果，从关系图中抽取符合非连续实体条件的子图，其中，子图包括至少两个节点，且至少两个节点之间连接有关联边，符合非连续实体条件的子图中所有节点的所属类型满足实体类型要求；提取符合非连续实体条件的子图所包含的各文本片段，并将提取的文本片段按照在目标文本中的顺序进行排列，组成非连续实体。
[0131]
其中，关系分类结果和实体分类结果是由实体识别模型进行对应分类得到的；实体识别装置90还包括训练模块，用于获取样本文本中各样本片段的样本片段表示，样本文本标注有真实实体分类结果和真实关系分类结果；基于各样本片段的样本片段表示进行实体分类，得到样本片段的样本实体分类结果，以及，基于至少一组样本片段组对应的样本片段表示进行关系分类，得到样本片段组的样本关系分类结果，样本片段组包括两个样本片段；基于样本实体分类结果和真实实体分类结果之间的差异，以及样本关系分类结果和真实关系分类结果之间的差异，调整实体识别模型的参数。
[0132]
其中，训练模块用于获取样本文本中各样本片段的样本片段表示，具体包括：获取样本文本中各字符的样本字符表示；将样本片段包含的首字符的样本字符表示、尾字符的样本字符表示和样本片段的样本字符长度表示进行拼接，得到样本片段的样本片段表示，其中，样本字符长度表示与样本片段的字符长度相关。训练模块用于基于样本实体分类结果和真实实体分类结果之间的差异，以及样本关系分类结果和真实关系分类结果之间的差异，调整实体识别模型的参数，具体包括：基于样本实体分类结果和真实实体分类结果之间的差异，以及样本关系分类结果和真实关系分类结果之间的差异，调整实体识别模型的长度表示参数，长度表示参数用于确定不同字符长度对应的字符长度表示。
[0133]
请参阅图10，图10是本技术识别模型的训练装置一实施例的框架示意图。
[0134]
本实施例中，识别模型的训练装置100用于对实体识别模型进行训练，识别模型的训练装置100包括获取模块101、分类模块102和调整模块103，其中，获取模块101用于获取样本文本中各样本片段的样本片段表示，样本文本标注有真实实体分类结果和真实关系分类结果；分类模块102用于基于各样本片段的样本片段表示进行实体分类，得到样本片段的
样本实体分类结果，以及，基于至少一组样本片段组对应的样本片段表示进行关系分类，得到样本片段组的样本关系分类结果，样本片段组包括两个样本片段；调整模块103用于基于样本实体分类结果和真实实体分类结果之间的差异，以及样本关系分类结果和真实关系分类结果之间的差异，调整实体识别模型的参数。
[0135]
请参阅图11，图11是本技术计算机可读存储介质一实施例的框架示意图。
[0136]
本实施例中，该计算机可读存储介质110存储有处理器可运行的程序数据111，该程序数据能够被执行，用以实现上述任一实体识别方法或实体识别模型的训练方法。
[0137]
该计算机可读存储介质110具体可以为u盘、移动硬盘、只读存储器（rom，read-only memory）、随机存取存储器（ram，random access memory）、磁碟或者光盘等可以存储程序数据的介质，或者也可以为存储有该程序数据的服务器，该服务器可将存储的程序数据发送给其他设备运行，或者也可以自运行该存储的程序数据。
[0138]
在一些实施例中，计算机可读存储介质110还可以为如图8所示的存储器。
[0139]
以上所述仅为本技术的实施方式，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于频域处理的弱噪声图像分类方法

一种实体识别方法、识别模型的训练方法和相关装置与流程

相关文献

最热文献