一种文本信息处理方法、装置、设备及存储介质与流程

2021-10-27 18:06:00 来源：中国专利 TAG：装置文本医疗方法设备

1.本技术涉及医疗文本技术领域，具体而言，涉及一种文本信息处理方法、装置、设备及存储介质。

背景技术：

2.随着医疗信息化的快速发展，医务人员普遍采用电子病历记录患者诊断与治疗过程中的重要信息。由于电子病历中的信息(可称为医疗文本信息)大多以非结构化的形式存储，很难被直接用于科研研究等场景中。
3.目前，可通过预先训练的知识提取模型对非结构化的医疗文本信息进行处理，得到结构化的信息，该结构化的信息包括医疗文本信息中的实体以及实体之间的关系。
4.其中，用于训练该知识提取模型的训练样本的全面性会直接影响该知识提取模型的精确度，因此，如何构建全面性的训练样本是目前亟待解决的技术问题。

技术实现要素：

5.本技术的目的在于，针对上述现有技术中的不足，提供一种文本信息处理方法、装置、设备及存储介质，基于构建的全面性的训练样本可以提高知识提取模型的精确度。
6.为实现上述目的，本技术实施例采用的技术方案如下：
7.第一方面，本技术实施例提供了一种文本信息处理方法，初始知识提取模型包括初始实体类型识别模型以及初始实体关系抽取模型，该方法包括：
8.根据实体类型与实体名称之间的对应关系，对原始训练文本信息进行标注，得到第一训练样本，所述实体类型包括：标准实体类型、属性实体类型以及值实体类型，其中，所述属性实体类型和所述值实体类型分别用于表征所述标准实体类型的特征，所述第一训练样本包括：所述原始训练文本信息以及所述原始训练文本信息中各实体名称对应的实体类型；
9.将所述第一训练样本输入所述初始实体类型识别模型中，训练得到实体类型识别模型；
10.根据实体类型之间的对应关系，对所述第一训练样本进行标注，得到第二训练样本，其中，所述实体类型之间的对应关系包括：主体实体类型与客体实体类型之间的指向关系，所述第二训练样本包括：所述原始训练文本信息、以及所述原始训练文本信息中所述实体类型对应的实体名称之间的对应关系；
11.将所述第二训练样本输入所述初始实体关系抽取模型，训练得到实体关系抽取模型。
12.可选地，所述根据实体类型之间的对应关系，对所述第一训练样本进行标注，得到第二训练样本，包括：
13.根据所述实体类型之间的对应关系以及所述第一训练样本中各实体类型对应的实体名称之间的强弱程度信息，对所述第一训练样本进行标注，得到第二训练样本。
14.可选地，所述根据实体类型与实体名称之间的对应关系，对原始训练文本信息进行标注，得到第一训练样本，包括：
15.根据实体类型与实体名称之间的对应关系，对原始训练文本信息进行标注，得到初始第一训练样本；
16.若所述原始训练文本信息中的一个实体名称中包括多个子实体名称，则将所述初始第一训练样本中的各所述子实体名称对应的实体类型删除，得到所述第一训练样本。
17.可选地，所述方法还包括：
18.将目标文本信息输入所述实体类型识别模型中，输出实体集，所述实体集包括：所述目标文本信息中所包含的实体名称以及所述实体名称对应的实体类型，所述实体类型包括标准实体类型、属性实体类型以及值实体类型；
19.将所述目标文本信息以及所述实体集输入所述实体关系抽取模型中，输出实体名称对，所述实体名称对中包括主体实体名称、客体实体名称，所述主体实体名称指向所述客体实体名称。
20.可选地，所述将所述目标文本信息以及所述实体集输入所述实体关系抽取模型中，输出实体名称对，包括：
21.将所述目标文本信息以及所述实体集输入所述实体关系抽取模型中，输出所述实体名称对以及所述实体名称对中所包含的实体名称之间的强弱程度信息，所述实体名称对中包括主体实体名称、客体实体名称，所述主体实体名称指向所述客体实体名称。
22.可选地，所述将所述目标文本信息以及所述实体集输入所述实体关系抽取模型中，输出实体名称对之后，所述方法还包括：
23.根据所述实体名称对，构建知识图谱，将所述实体名称对中的所述主体实体名称以及所述客户实体名称分别作为所述知识图谱中的节点，将所述主体实体名称与所述客体实体名称之间的关系作为所述知识图谱中的边。
24.可选地，根据所述实体名称对，构建知识图谱之后，所述方法还包括：
25.根据用户输入的知识获取指令，从存储所述知识图谱对应的图数据的数据库中获取相对应的实体名称；
26.根据所述实体名称对应的显示状态，在所述知识图谱中显示所述实体名称。
27.可选地，所述将所述目标文本信息输入所述实体类型识别模型中，输出实体集之后，所述方法还包括：
28.对所述实体集进行统计操作，得到统计结果，所述统计结果包括：所述实体集中各实体名称出现的频次和/或各实体类型出现的频次；
29.对所述统计结果中属于同一个维度的内容分别进行排序，得到排序结果。
30.第二方面，本技术实施例还提供了一种文本信息处理装置，初始知识提取模型包括初始实体类型识别模型以及初始实体关系抽取模型，所述装置包括：
31.第一标注模块，用于根据实体类型与实体名称之间的对应关系，对原始训练文本信息进行标注，得到第一训练样本，所述实体类型包括：标准实体类型、属性实体类型以及值实体类型，其中，所述属性实体类型和所述值实体类型分别用于表征所述标准实体类型的特征，所述第一训练样本包括：所述原始训练文本信息以及所述原始训练文本信息中各实体名称对应的实体类型；
32.第一训练模块，用于将所述第一训练样本输入所述初始实体类型识别模型中，训练得到实体类型识别模型；
33.第二标注模块，用于根据实体类型之间的对应关系，对所述第一训练样本进行标注，得到第二训练样本，其中，所述实体类型之间的对应关系包括：主体实体类型与客体实体类型之间的指向关系，所述第二训练样本包括：所述原始训练文本信息、以及所述原始训练文本信息中所述实体类型对应的实体名称之间的对应关系；
34.第二训练模块，用于将所述第二训练样本输入所述初始实体关系抽取模型，训练得到实体关系抽取模型。
35.可选地，所述第二标注模块，具体用于根据所述实体类型之间的对应关系以及所述第一训练样本中各实体类型对应的实体名称之间的强弱程度信息，对所述第一训练样本进行标注，得到第二训练样本。
36.可选地，所述第一标注模块，具体用于根据实体类型与实体名称之间的对应关系，对原始训练文本信息进行标注，得到初始第一训练样本；若所述原始训练文本信息中的一个实体名称中包括多个子实体名称，则将所述初始第一训练样本中的各所述子实体名称对应的实体类型删除，得到所述第一训练样本。
37.可选地，所述装置还包括：
38.第一输出模块，用于将目标文本信息输入所述实体类型识别模型中，输出实体集，所述实体集包括：所述目标文本信息中所包含的实体名称以及所述实体名称对应的实体类型，所述实体类型包括标准实体类型、属性实体类型以及值实体类型；
39.第二输出模块，用于将所述目标文本信息以及所述实体集输入所述实体关系抽取模型中，输出实体名称对，所述实体名称对中包括主体实体名称、客体实体名称，所述主体实体名称指向所述客体实体名称。
40.可选地，所述第二输出模块，具体用于将所述目标文本信息以及所述实体集输入所述实体关系抽取模型中，输出所述实体名称对以及所述实体名称对中所包含的实体名称之间的强弱程度信息，所述实体名称对中包括主体实体名称、客体实体名称，所述主体实体名称指向所述客体实体名称。
41.可选地，所述装置还包括：
42.构建模块，用于根据所述实体名称对，构建知识图谱，将所述实体名称对中的所述主体实体名称以及所述客户实体名称分别作为所述知识图谱中的节点，将所述主体实体名称与所述客体实体名称之间的关系作为所述知识图谱中的边。
43.可选地，所述装置还包括：
44.获取模块，用于根据用户输入的知识获取指令，从存储所述知识图谱对应的图数据的数据库中获取相对应的实体名称；
45.显示模块，用于根据所述实体名称对应的显示状态，在所述知识图谱中显示所述实体名称。
46.可选地，所述装置还包括：
47.统计模块，用于对所述实体集进行统计操作，得到统计结果，所述统计结果包括：所述实体集中各实体名称出现的频次和/或各实体类型出现的频次；对所述统计结果中属于同一个维度的内容分别进行排序，得到排序结果。
48.第三方面，本技术实施例提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行上述第一方面的所述文本信息处理方法的步骤。
49.第四方面，本技术实施例提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面的所述文本信息处理方法的步骤。
50.本技术的有益效果是：
51.本技术实施例提供一种文本信息处理方法、装置、设备及存储介质，初始知识提取模型包括初始实体类型识别模型以及初始实体关系抽取模型，该方法包括：根据实体类型与实体名称之间的对应关系，对原始训练文本信息进行标注，得到第一训练样本，该实体类型包括：标准实体类型、属性实体类型以及值实体类型，其中，属性实体类型和值实体类型分别用于表征准实体类型的特征，该第一训练样本包括：该原始训练文本信息以及该原始训练文本信息中各实体名称对应的实体类型；将该第一训练样本输入该初始实体类型识别模型中，训练得到实体类型识别模型；根据实体类型之间的对应关系，对该第一训练样本进行标注，得到第二训练样本，其中，该实体类型之间的对应关系包括：主体实体类型与客体实体类型之间的指向关系，该第二训练样本包括：该原始训练文本信息、以及该原始训练文本信息中实体类型对应的实体名称之间的对应关系；将该第二训练样本输入该初始实体关系抽取模型，训练得到实体关系抽取模型。
52.采用本技术实施例提供的文本信息处理方法，通过增加属性实体类型以及值实体类型，对原始训练文本信息进行标注，不仅可以从原始训练文本信息中识别出与标准实体类型对应的实体名称，而且还可以从原始训练文本信息中识别出与属性实体类型对应的实体名称、值实体类型对应的实体名称，这样构建的第一训练样本可以更全面的反映原始训练文本信息所包含的内容，在第一训练样本全面的前提下，利用第一训练样本训练得到的实体类型识别模型精确度就会得到提高，进而提高包含有实体类型识别模型的知识提取模型的精确度。
附图说明
53.为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
54.图1为本技术实施例提供的一种初始知识提取模型的结构示意图；
55.图2为本技术实施例提供的一种知识提取模型的结构示意图；
56.图3为本技术实施例提供的一种文本信息处理方法的流程示意图；
57.图4为本技术实施例提供的另一种文本信息处理方法的流程示意图；
58.图5为本技术实施例提供的又一种文本信息处理方法的流程示意图；
59.图6为本技术实施例提供的一种非结构化的目标文本信息转换为结构化的图数据的示意图；
60.图7为本技术实施例提供的一种知识图谱的结构示意图；
61.图8为本技术实施例提供的又一种文本信息处理方法的流程示意图；
62.图9为本技术实施例提供的再一种文本信息处理方法的流程示意图；
63.图10为本技术实施例提供的一种文本信息处理装置的结构示意图；
64.图11为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
65.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。
66.因此，以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本技术的选定实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
67.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。
68.在对本技术实施例进行详细解释之前，首先对本技术实施例中出现的一些名词进行解释说明。
69.实体类型：涵盖了医疗文本中涉及的主要概念，下述主要对11种实体类型进行介绍，这11种实体类型可分为标准实体类型、属性实体类型以及值实体类型，其中，标准实体类型主要包括：人体部位(包括人体九大系统的各个器官，泛指受关注的生物学主体，包括人体组织和细胞)；患者主体(患有疾病的对象，泛指医疗文本所描述的对象)；临床表现(患者主体客观上出现的症状和主观上的异常感觉，亦可指患者人体部位客观上出现的表现等)；项目检查(诊断性项目名称，目的是辅助医生对患者的疾病作出判断，包括影像学检查、在实验室进行的物理化学检查等；疾病诊断(医学上定义的疾病和医生在临床工作中对病因、病生理、分型分期等所作的判断)；治疗方法(以治疗性手段干预患者健康状况，目的是缓解和消除患者的疾病和异常症状，包括手术和以治疗为目的的医疗器械等)；药品名称(泛指用于预防、治疗和诊断患者疾病的所有药品通用名称)；方位(用来描述其它实体可能潜在涉及的具体位置信息)；时间(用来描述事件发生的时刻和时间段)。属性实体类型：泛指定性描述标准实体类型的所有潜在属性。值实体类型：指标准实体类型的某一属性的具体实验或观测结论，可以是数值、文字描述等任何一种。需要说明的是，本技术不对标准实体类型所包含的具体内容进行限定。
70.实体名称：可以理解成是实体类别的具体下位描述，举例来说，“人体部位”这一实体类型对应的实体名称可包括人体九大系统的各个器官的名称，如右上肢、肩颈部等，“临床表现”这一实体类型对应的实体名称可包括麻木、疼痛等，“属性实体类型”这一实体类型对应的实体名称可包括体温大小、边界等，“值实体类型”这一实体类型对应的实体名称可包括大小的具体数值(如0.8
×
0.6cm)、清晰等。
71.其次对本技术的应用场景予以介绍。该应用场景具体可以为从电子病历中抽取临床科研所需要的指标信息的场景，其中，电子病历中的信息是以非结构化形式存储的医疗文本信息，这样的医疗文本信息难以被直接用于临床科研，所以需要将非结构化的医疗文
本信息转化为结构化的图数据。
72.具体的，可首先根据构建的训练样本对初始知识提取模型进行训练，得到知识提取模型，图1为本技术实施例提供的一种初始知识提取模型的结构示意图。如图1所示，初始知识提取模型100可包括初始实体类型识别模型101以及初始实体关系抽取模型102，可选地，可将初始实体类型识别模型101以及初始实体关系抽取模型102作为一个整体进行训练，在满足训练停止条件时，得到实体类型识别模型以及实体关系抽取模型，也可以分别对初始实体类型识别模型101以及初始实体关系抽取模型102进行训练，得到实体类型识别模型以及实体关系抽取模型，本技术不对其进行限定。
73.图1为一种单独对初始实体类型识别模型101以及初始实体关系抽取模型102进行训练的结构图，初始实体类型识别模型101是一种基于bert(bidirectional encoder representation from transformers，双向编码器)以及crf(conditional random fields，条件随机场)解码器的深度神经网络模型，具体可采用下述实施例的方式构建训练初始实体类型识别模型101型的第一训练样本1011，根据第一训练样本1011对初始实体类型识别模型101进行训练得到实体识别模型；初始实体关系抽取模型102是一种基于bert的深度神经网络，具体可采用下述实施例的方式对第一训练样本1011进行标注，得到第二训练样本1021，根据第二训练样本1021对初始实体关系抽取模型102进行训练得到实体关系抽取模型。
74.然后是应用上述训练得到的知识提取模型的过程。图2为本技术实施例提供的一种知识提取模型的结构示意图，如图2所示，知识提取模型200可包括实体类型识别模型201以及实体关系抽取模型202，将目标文本信息2011输入实体类型识别模型201中，实体类型识别模型201可输出目标文本信息2011中所包含的实体名称以及实体名称对应的实体类型的实体集，实体名称中可包括“属性实体类型”对应的实体名称，即属性实体名称，“值实体类型”对应的实体名称，即值实体名称，将实体类型识别模型201输出的实体集以及目标文本信息2011输入实体关系抽取模型202中，实体关系抽取模型202可输出实体名称对2021，实体名称对2021中包含有标准实体名称、属性实体名称和/或值实体名称，以及它们之间的指向关系，知识提取模型可将非结构化的医疗文本信息转换为结构化的图数据(实体名称对)。
75.如下结合附图对本技术提到的文本信息处理方法进行示例说明。图3为本技术实施例提供的一种文本信息处理方法的流程示意图，如图3所述，该方法可包括：
76.s301、根据实体类型与实体名称之间的对应关系，对原始训练文本信息进行标注，得到第一训练样本，该实体类型包括：标准实体类型、属性实体类型以及值实体类型。
77.其中，属性实体类型和值实体类型分别用于表征标准实体类型的特征。
78.具体的，医疗文本信息是一种用自然语言描述的内容，其内容相当于非结构化的数据，而非结构化的数据难以被直接用于不同的临床科研任务中或者统计分析任务中，所以首选需要训练能将非结构化的数据转化为结构化的数据的模型，该模型可称为知识提取模型，下述主要对如何获取该知识提取模型进行说明。
79.原始训练文本信息是一个医疗文本信息，可从与医疗相关的语料库中提取该医疗文本信息，需要说明的是，本技术不对提取的医疗文本数量进行限定。预先可设置有实体类型框架，该实体类型框架中包括多个实体类型，各实体类型与实体名称之间有对应关系，可
根据实际的临床科研任务，对实体框架中的实体类型进行更新。举例来说，假设某个临床科研任务中包括“微生物”这一实体类别，且该实体类别框架中没有该实体类别，那么可在该实体类型框架中增加“微生物”这一实体类别，假设某个临床科研任务中通常不涉及“药品名称”这一实体类别，且该实体类别框架中存在该实体类别，那么可在该实体框架中删除“药品名称”这一实体类别。也就是说，该实体框架具有拓展性，可根据实际的临床科研任务需求进行动态调整。
80.该实体框架中所包括的实体类别有标准实体类型，还有属性实体类型以及值实体类型，并且，这三种实体类型之间有一定的关联性，属性实体类型用于表征标准实体类型的特征，即与属性实体类型对应的实体名称(属性实体名称)相当于与标准实体类型对应的实体名称(标准实体名称)的属性；值实体类型用于表征标准实体类型的特征，指属性实体类型的一个具体表现，即与值实体类型对应的实体名称(值实体名称)相当于与属性实体类型对应的实体名称(属性实体名称)的具体表现，也可以理解为与值实体类型对应的实体名称(值实体名称)相当于与标准实体类型对应的实体名称(标准实体名称)的属性。
81.举例来说，假设原始训练文本信息中包括“患者出现发热，热峰为38℃”这一内容，那么可根据实体类别与实体名称之间的对应关系，可在实体名称“患者”、“热峰”、“38℃”上分别标注对应的实体类型“患者主体”、“属性实体类型”、“值实体类型”，当然，也可用简写的方式进行标注，如“患”、“属”、“值”，对原始训练文本信息中的其他内容进行标注的方式可参考上述描述，最终可得到第一训练样本，该第一训练样本中可包括该原始训练文本信息以及该原始训练文本信息中各实体名称对应的实体类型。
82.在一种可实现的实施例中，可根据词典匹配模块对原始训练文本信息进行分词处理，得到多个实体名称，进而对各实体名称进行标注，得到第一训练样本，标注的过程可参考上述描述，其中，词典匹配模块中包括实体词典，实体词典中包括多个规范用语的实体名称，根据典匹配模块对原始训练文本信息进行分词处理这样可以提高分词的准确率，进而提高第一训练样本的准确率。
83.s302、将第一训练样本输入初始实体类型识别模型中，训练得到实体类型识别模型。
84.其中，此处以单独对初始实体类型识别模型、初始实体关系抽取模型进行训练的场景进行说明，将上述得到的第一训练样本中的原始训练文本信息作为该初始实体类型识别模型的输入，将第一训练样本中的原始训练文本信息中各实体名称对应的实体类型作为该初始实体类型识别模型的输出对该初始实体类型识别模型进行训练，在满足训练停止条件时，可训练得到实体类型识别模型。
85.s303、根据实体类型之间的对应关系，对该第一训练样本进行标注，得到第二训练样本，其中，该实体类型之间的对应关系包括：主体实体类型与客体实体类型之间的指向关系。
86.其中，实体类型之间的对应关系可预先存储在实体关系框架中，该实体框架中主要包括关系的约束表以及关系的方向表，关系的约束表中存储有对应关系的实体类型。举例来说，“患者主体”与“属性实体类型”之间有对应关系，那么可将“患者主体”与“属性实体类型”关联存储在关系的约束表中，对于未关联存储在关系的约束表中的不同实体特征，则认为其之间不存在对应关系。在关系的方向表中存储有实体类型之间的指向关系，继续以
上述举例来说，“患者主体”与“属性实体类型”之间的关系是由“患者主体”出发，指向“属性实体类型”，即“患者主体”为主体实体类型，“属性实体类型”为客体实体类型，若方向相反，则“患者主体”为客体实体类型，“属性实体类型”为主体实体类型。实体类型之间的指向关系具有唯一性，所有实体类型之间的指向关系不能出现环路，例如：“患者主体”服用某个“药品名称”，该“药品名称”用于缓解某一“临床表现”，这一“临床表现”发生于某个“患者主体”，其实体类型之间的指向关系出现环路，即实体关系框架中预先设置的实体类型之间的指向关系不能出现环路。
87.根据实体类型之间的对应关系以及实体类型与实体名称之间的对应关系，可得到实体名称之间的对应关系，基于实体名称之间的对应关系，可对第一训练样本进行标注，即将第一训练样本的原始训练文本信息中的存在对应关系的实体名称进行关联，由于实体类型之间的对应关系包括属性实体类型、值实体类型与标准实体类型之间的对应关系、属性实体类型与值实体类型之间的对应关系，进而可将第一训练样本的原始训练文本信息中的属性实体名称、值实体名称、标准实体名称之间进行关联，最终可得到第二训练样本，该第二训练样本中可包括原始训练文本信息、以及该原始训练文本信息中各实体名称之间的对应关系，其中，实体名称可包括标准实体名称、属性实体名称以及值实体名称。
88.s304、将该第二训练样本输入初始实体关系抽取模型，训练得到实体关系抽取模型。
89.其中，将上述得到的第二训练样本中的原始训练文本信息、原始训练文本信息中各实体名称对应的实体类型作为该初始实体关系抽取模型的输入，将第二训练样本中的原始训练文本信息中实体类型对应的实体名称之间的对应关系作为该初始实体关系抽取模型的输出对该初始实体关系抽取模型进行训练，在满足训练停止条件时，可训练得到实体关系抽取模型。
90.综上所述，本技术提供的文本信息处理方法中，通过增加属性实体类型以及值实体类型，对原始训练文本信息进行标注，不仅可以从原始训练文本信息中识别出与标准实体类型对应的实体名称，而且还可以从原始训练文本信息中识别出与属性实体类型对应的实体名称、值实体类型对应的实体名称，这样构建的第一训练样本可以更全面的反映原始训练文本信息所包含的内容，在第一训练样本全面的前提下，利用第一训练样本训练得到的实体类型识别模型精确度就会得到提高，进而提高包含有实体类型识别模型的知识提取模型的精确度。
91.可选地，上述根据实体类型之间的对应关系，对该第一训练样本进行标注，得到第二训练样本，包括：根据实体类型之间的对应关系以及该第一训练样本中各实体类型对应的实体名称之间的强弱程度信息，对该第一训练样本进行标注，得到第二训练样本。
92.其中，上述提到的实体关系框架中除了包括关系的约束表以及关系的方向表，还包括实体关系发生的类型，关系发生的类型相当于各实体类型对应的实体名称之间的强弱程度信息。不同的实体名称之间对应有特定的语义，举例来说，假设“患者主体”与“临床表现”之间存在对应关系，其对应的实体名称之间的语义关系可统一表示为：患者可能某种程度上出现某种临床表现，其关系发生的类型可指其出现某临床表现的强弱程度，强弱程度可包括：未表现出，轻微表现，中度表现，重度表现等不同程度，再例如“治疗方法”与“疾病诊断”之间存在对应关系，其对应的实体名称之间的语义关系可统一表示为：某治疗方法多
大程度上可以缓解或治疗某一疾病诊断，“多大程度”可对应有多个等级的强弱度信息。
93.根据实体类型之间的对应关系确定出原始训练文本信息中存在对应关系的实体名称后，可识别具有对应关系的实体名称之间的语义强弱程度信息。具体的，可将强弱程度信息分为肯定的语义、否定的语义和不确定的语义，继续上述举例来说，假设原始训练文本中“患者主体”与“临床表现”对应的实体名称之间的关系为：患者出现某临床表现，即为肯定语义，则“患者主体”与“临床表现”之间的强弱程度信息为肯定，对于轻微表现或中度表现等皆可归为肯定的语义，“患者主体”和“临床表现”虽然被映射为肯定的语义关系，但真实的语义含义为：患者出现临床表现，用强弱程度信息的表示方式可清楚的表示各实体类型对应的实体名称之间的语义。需要说明的是，本技术不对程度化的划分等级进行限定，也就是说，该实体关系框架具有拓展性，可根据实际的临床科研任务需求对实体关系发生的类型进行动态调整。
94.在一种可实现的实施例中，可基于正则表达式对第一训练样本中各实体类型对应的实体名称之间的强弱程度信息进行修订，这样可以提高第二训练样本的准确率。
95.可以看出，用强弱程度信息表示实体关系发生的类型，极大简化了构建第二训练样本的工作，同时保留了实体名称之间负载的关联语义关系，即可以提高训练初始实体关系抽取模型的效率。
96.图4为本技术实施例提供的另一种文本信息处理方法的流程示意图。如图4所示，可选地，上述根据实体类型与实体名称之间的对应关系，对原始训练文本信息进行标注，得到第一训练样本，包括：
97.s401、根据实体类型与实体名称之间的对应关系，对原始训练文本信息进行标注，得到初始第一训练样本。
98.s402、若该原始训练文本信息中的一个实体名称中包括多个子实体名称，则将该初始第一训练样本中的各子实体名称对应的实体类型删除，得到该第一训练样本。
99.可根据上述提到的实体匹配模块中的实体词典对原始训练文本信息进行分词，得到原始训练文本信息中包括的多个实体名称，然后根据实体类型与实体名称之间的对应关系，对原始训练文本信息进行标注，得到初始第一训练样本，其中，具体标注方式可参考上述相应部分描述，此处不再进行说明。
100.在一种可实现的实施例中，对原始训练文本信息中所有颗粒度的实体名称进行标注，若实体名称之间有重叠关系，那么可对每个颗粒度的实体名称标注对应的实体类型，这种标注方式可称为嵌套标注。举例来说，假设原始训练文本信息中存在实体名称“前列腺增生”，该实体名称“前列腺增生”中包括多个子实体名称，如“前列腺”、“增生”，其中，实体名称“前列腺增生”对应的实体类型为“疾病诊断”，子实体名称“前列腺”对应的实体类型为“人体部位”，子实体名称“增生”对应的实体类型为“临床表现”，那么“前列腺增生”对应的实体类型“疾病诊断”中包括有“人体部位”以及“临床表现”这两个实体类型。
101.在另一种可实现的实施例中，可基于最长匹配原则，将最长字符的实体名称标注的实体类型保留，该实体名称包括的各子实体名称标注的实体类型删除。继续上述举例来说，可保留实体名称“前列腺增生”对应的实体类型为“疾病诊断”，删除子实体名称“前列腺”对应的实体类型“人体部位”，子实体名称“增生”对应的实体类型“临床表现”，进而得到第一训练样本；也可以在根据上述提到的实体匹配模块中的实体词典对原始训练文本信息
进行分词，得到原始训练文本信息中包括的多个实体名称后，首先检测实体名称之间是否具有的重叠的关系，若有重叠的关系，仅保存最长字符对应的实体名称，然后根据各实体名称与实体类型之间的对应关系，得到第一训练样本。
102.下述主要对应用实体类型识别模型以及实体关系抽取模型的过程进行解释说明。
103.图5为本技术实施例提供的又一种文本信息处理方法的流程示意图。
104.如图5所示，该方法还可包括：
105.s501、将目标文本信息输入实体类型识别模型中，输出实体集，该实体集包括：该目标文本信息中所包含的实体名称以及实体名称对应的实体类型，实体类型包括标准实体类型、属性实体类型以及值实体类型。
106.其中，该目标文本信息是一种医疗文本信息，其内容相当于非结构化的数据，参考图2，可将该目标文本信息输入知识提取模型200中的实体类型识别模型201中，实体类型识别模型201能够识别出该目标文本信息中的属性实体名称、值实体名称，即实体类型识别模型输出的实体集中可包括该目标文本信息中所包含的实体名称，该实体名称可包括“标准实体类型”对应的实体名称，如“患者”；“属性实体类型”对应的实体名称，如“热峰”、“大小”；“值实体类型”对应的实体名称，如“38℃”、“0.8
×
0.6cm”。
107.s502、将该目标文本信息以及该实体集输入该实体关系抽取模型中，输出实体名称对，该实体名称对中包括主体实体名称、客体实体名称，该主体实体名称指向该客体实体名称。
108.其中，可将目标文本信息以及实体类型识别模型输出的实体集同时输入知识提取模型中的实体关系抽取模型中，该实体关系抽取模型可首先根据目标文本信息以及该实体集中该目标文本信息中所包含的实体名称以及实体名称对应的实体类型，识别出作为主体的实体名称，再识别出作为客体的实体名称，将具有对应关系的实体名称可组成实体名称对，该实体名称对中的作为主体的实体名称可称为主体实体名称，作为客体的实体名称可称为客体实体名称，主体客体实体名称指向客体实体名称，其中，主体客体实体、客体实体名称中存在标准实体名称、属性实体名称、值实体名称。
109.可以看出，通过第一训练样本训练得到的实体类型识别模型可识别出目标文本信息中所包含的各种实体名称，如标准实体名称、属性实体名称、值实体名称，再利用通过第二训练样本训练得到的实体关系抽取模型可抽取出存在关系的实体名称对，即可抽取出标准实体名称、属性实体名称、值实体名称之间的指向关系，这样可以更全面的对目标文本信息所包含的实体名称进行提取，使最终得到的结构化的图数据与非结构化的目标文本信息更加匹配，或者说，最终得到的结构化的图数据能够更加全面的反应出非结构化的目标文本信息中的内容。图6为本技术实施例提供的一种非结构化的目标文本信息转换为结构化的图数据的示意图，非结构化的目标文本信息具体如图6所示，非结构化的图数据圆框中的内容为该非结构化的目标文本信息中的标准实体名称，如发热、咳嗽等，菱形框中的内容为该非结构化的目标文本信息中的属性实体名称，如热峰、呕吐物等，方框中的内容为该非结构化的目标文本信息中的值实体名称，如38.2℃、清晰等。
110.可选地，上述将该目标文本信息以及该实体集输入该实体关系抽取模型中，输出实体名称对，包括：
111.将该目标文本信息以及该实体集输入该实体关系抽取模型中，输出实体名称对以
及实体名称对中所包含的实体名称之间的强弱程度信息，实体名称对中包括主体实体名称、客体实体名称，主体实体名称指向客体实体名称。
112.其中，在实体类型识别模型输出实体集后，可将该实体集以及该目标文本信息输入利用标注有实体类型对应的实体名称之间的强弱程度信息的第二训练样本训练得到的实体关系抽取模型中，该实体关系抽取模型可输出该目标文本信息中所包含的具有对应关系的实体名称对，以及实体名称对之间的强弱程度信息，该强弱程度信息可以表明实体名称对之间的语义。
113.可选地，上述将该目标文本信息以及该实体集输入该实体关系抽取模型中，输出实体名称对之后，该方法还包括：根据实体名称对，构建知识图谱，将实体名称对中的主体实体名称以及客户实体名称分别作为该知识图谱中的节点，将主体实体名称与客体实体名称之间的关系作为知识图谱中的边。
114.其中，实体名称对可称为图数据，即图数据中包括实体名称，以及实体名称之间的对应关系，可将图数据存储在相关联的数据库中。知识图谱由节点和边组成，知识图谱中的节点为实体类型识别模型识别出的实体名称，即图数据中的实体名称，每个节点还可关联有的实体名称对应的实体类型以及实体名称在目标文本信息中的位置信息，知识图谱中的边为实体关系抽取模型抽取出的存在对应关系的实体名称对，边的方向由实体名称对中的主体实体名称指向客体实体名称，即为图数据中的实体名称之间的对应关系。或者说，在该实体关系抽取模型输出多个实体名称对后，可以图数据的形式存储在数据库中，从数据库中提取图数据中各实体名称对中所包含的主体实体名称以及客体实体名称，将各主体实体名称以及各客体实体名称作为知识图谱的节点，将各主体实体名称与各客体实体名称之间的关系可作为该知识图谱的边。
115.在另一种可实现的实施例中，还可在知识图谱的边上增加实体名称对中所包含实体名称之间的强弱程度信息。如图7所示，图7为本技术实施例提供的一种知识图谱的结构示意图，从图7中可以看出，如患者与发热之间的强弱程度信息为有，代表着患者出现发热现象，且热峰显示为38.2℃。
116.可选地，在显示知识图谱时，可根据预先设置的显示状态进行显示，举例来说，可根据各实体名称在实体对中出现的次数多少确定知识图谱中各节点形状的显示大小，实体名称在实体对中出现的次数越多，对应的节点形状显示越大，如图7所述，“患者”这一实体名称对应的节点形状显示最大；还可以将属于同一实体类型的实体名称用同一颜色显示状态进行显示，需要说明的是，本技术不对知识图谱的具体显示状态进行限定。
117.图8为本技术实施例提供的又一种文本信息处理方法的流程示意图。可选地，如图8所示，上述根据实体名称对，构建知识图谱之后，该方法还包括：
118.s801、根据用户输入的知识获取指令，从存储该知识图谱对应的图数据的数据库中获取相对应的实体名称。
119.其中，该知识图谱对应的图数据预先存储在相关联的数据库中，在接收到用户输入的知识获取指令后，可从该数据库中获取与该知识获取指令相匹配的图数据，该图数据中包括实体名称。举例来说，用户可通过检索的方式，在数据库中查找符合要求的指标信息，假设用户输入的知识获取指令中包括的内容为“患者出现了哪些临床表现”，那么可从该知识图谱中获取与临床表现相对应的实体名称。
120.s802、根据实体名称对应的显示状态，在该知识图谱中显示该实体名称。
121.该知识图谱可以以可视化的方式显示在界面上，如图7所述，可预先以实体类型为维度对实体名称的显示状态进行设置，如与“属性实体类型”对应的实体名称可用黄色显示参数表示，即相关的节点显示为黄色；与“值实体类型”对应的实体名称可用蓝色显示参数表示，即相关的节点显示为蓝色。这样可以使用户便捷、直观的了解到所要查看的信息。
122.图9为本技术实施例提供的再一种文本信息处理方法的流程示意图。可选地，如图9所示，上述将该目标文本信息输入该实体类型识别模型中，输出实体集之后，该方法还包括：
123.s901、对实体集进行统计操作，得到统计结果，该统计结果包括：该实体集中各实体名称出现的频次和/或各实体类型出现的频次。
124.s902、对统计结果中属于同一个维度的内容分别进行排序，得到排序结果。
125.其中，在该实体类型识别模型输出实体集后，可将该实体集输入实体一致性检测模块中，该实体一致性检测模块可对实体集中的信息进行统计分析，具体的，可统计该实体集中各实体名称出现的次数、各实体类型出现的次数，比如该实体集中具体包括4个实体类别(人体部位、临床表现、属性实体特性以及值实体特征)，其中，人体部位以及临床表现属于同一维度，即都属于标准实体特征，可人体部位以及临床表现出现的次数进行排序，得到排序结果，这样可以使用户实时了解实体集中的信息。
126.图10为本技术实施例提供的一种文本信息处理装置的结构示意图。如图10所示，该装置包括：
127.第一标注模块1001，用于根据实体类型与实体名称之间的对应关系，对原始训练文本信息进行标注，得到第一训练样本，该实体类型包括：标准实体类型、属性实体类型以及值实体类型；
128.第一训练模块1002，用于将第一训练样本输入初始实体类型识别模型中，训练得到实体类型识别模型；
129.第二标注模块1003，用于根据实体类型之间的对应关系，对该第一训练样本进行标注，得到第二训练样本，其中，该实体类型之间的对应关系包括：主体实体类型与客体实体类型之间的指向关系；
130.第二训练模块1004，用于将该第二训练样本输入初始实体关系抽取模型，训练得到实体关系抽取模型。
131.可选地，第二标注模块1003，具体用于根据实体类型之间的对应关系以及第一训练样本中各实体类型对应的实体名称之间的强弱程度信息，对第一训练样本进行标注，得到第二训练样本。
132.可选地，第一标注模块1001，具体用于根据实体类型与实体名称之间的对应关系，对原始训练文本信息进行标注，得到初始第一训练样本；若原始训练文本信息中的一个实体名称中包括多个子实体名称，则将初始第一训练样本中的各子实体名称对应的实体类型删除，得到第一训练样本。
133.可选地，该装置还包括：
134.第一输出模块，用于将目标文本信息输入实体类型识别模型中，输出实体集，实体集包括：目标文本信息中所包含的实体名称以及实体名称对应的实体类型，实体类型包括
标准实体类型、属性实体类型以及值实体类型；
135.第二输出模块，用于将目标文本信息以及实体集输入实体关系抽取模型中，输出实体名称对，实体名称对中包括主体实体名称、客体实体名称，主体实体名称指向客体实体名称。
136.可选地，该第二输出模块，具体用于将目标文本信息以及实体集输入实体关系抽取模型中，输出实体名称对以及实体名称对中所包含的实体名称之间的强弱程度信息，实体名称对中包括主体实体名称、客体实体名称，主体实体名称指向客体实体名称。
137.可选地，该装置还包括：
138.构建模块，用于根据实体名称对，构建知识图谱，将实体名称对中的主体实体名称以及客户实体名称分别作为知识图谱中的节点，将主体实体名称与客体实体名称之间的关系作为知识图谱中的边。
139.可选地，该装置还包括：
140.获取模块，用于根据用户输入的知识获取指令，从存储知识图谱对应的图数据的数据库中获取相对应的实体名称；
141.显示模块，用于根据实体名称对应的显示状态，在知识图谱中显示实体名称。
142.可选地，该装置还包括：
143.统计模块，用于对实体集进行统计操作，得到统计结果，统计结果包括：实体集中各实体名称出现的频次和/或各实体类型出现的频次；对统计结果中属于同一个维度的内容分别进行排序，得到排序结果。
144.上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。
145.以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(application specific integrated circuit，简称asic)，或，一个或多个微处理器，或，一个或者多个现场可编程门阵列(field programmable gate array，简称fpga)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(central processing unit，简称cpu)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system
‑
on
‑
a
‑
chip，简称soc)的形式实现。
146.图11为本技术实施例提供的一种电子设备的结构示意图，如图11所示，该电子设备可以包括：处理器1101、存储介质1102和总线1103，存储介质1102存储有处理器1101可执行的机器可读指令，当该电子设备运行时，处理器1101与存储介质1102之间通过总线1103通信，处理器1101执行机器可读指令，以执行上述方法实施例的步骤。具体实现方式和技术效果类似，这里不再赘述。
147.可选地，本技术还提供一种存储介质，存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述方法实施例的步骤。
148.在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，装置或单元的间
接耦合或通信连接，可以是电性，机械或其它的形式。
149.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
150.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。
151.上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本技术各个实施例所述方法的部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(英文：read
‑
only memory，简称：rom)、随机存取存储器(英文：random access memory，简称：ram)、磁碟或者光盘等各种可以存储程序代码的介质。
152.需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
153.以上所述仅为本技术的优选实施例而已，并不用于限制本技术，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。以上所述仅为本技术的优选实施例而已，并不用于限制本技术，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种蜜罐防止攻击者逃逸的方法与流程

一种文本信息处理方法、装置、设备及存储介质与流程

相关文献

最热文献