一种实体信息匹配方法、装置、电子设备及存储介质与流程

2023-02-02 01:16:42 来源：中国专利 TAG：

1.本技术涉及人工智能技术领域，尤其涉及一种实体信息匹配方法、装置、电子设备及存储介质。

背景技术：

2.实体信息匹配是检验实体匹配关系的常用手段。例如在校验医学病历中的医学检查项目与医疗收费项目是否对应一致时，通常通过检测医学病历中的医学检查项目是否能够与病历中的医疗收费项目一一匹配而实现。
3.在常规的实体信息匹配方案中，通常是将实体名称进行字符匹配，判断两者是否满足匹配关系。然而，在很多实际场景下，所记录的实体名称会存在差异，比如会存在简写、错别字、代号等情况，而且，具有层级和归属关系的实体之间在名称上也不完全一致。在这些场景下，通过对实体名称进行字符匹配来判断实体之间是否满足匹配关系，通常会导致错误的判断结果。

技术实现要素：

4.基于上述技术现状，本技术提出一种实体信息匹配方法、装置、电子设备及存储介质，能够提高实体匹配的效率和准确度。
5.本技术第一方面提出一种实体信息匹配方法，包括：
6.获取目标实体的名称；
7.将所述目标实体的名称与预设的实体名称数据集中的实体名称进行匹配，从所述实体名称数据集中确定出与所述目标实体的名称相匹配的第一实体名称；所述实体名称数据集包括各个实体的规范名称，以及各个实体之间的层级和归属关系信息；
8.将所述第一实体名称确定为所述目标实体的规范实体名称。
9.本技术第二方面提出一种实体信息匹配装置，包括：
10.信息获取单元，用于获取目标实体的名称；
11.实体匹配单元，用于将所述目标实体的名称与预设的实体名称数据集中的实体名称进行匹配，从所述实体名称数据集中确定出与所述目标实体的名称相匹配的第一实体名称；所述实体名称数据集包括各个实体的规范名称，以及各个实体之间的层级和归属关系信息；
12.信息确定单元，用于将所述第一实体名称确定为所述目标实体的规范实体名称。
13.本技术第三方面提出一种电子设备，包括；
14.存储器和处理器；
15.所述存储器与所述处理器连接，用于存储程序；
16.所述处理器，用于通过运行所述存储器中的程序，实现上述的实体信息匹配方法。
17.本技术第四方面提出一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现上述的实体信息匹配方法。
18.本技术所提出的技术方案通过构建实体名称数据集，将各个实体的规范名称，以及实体之间的层级和归属关系进行汇总记录。在此基础上，对于获取到的目标实体的名称，可以通过将该目标实体的名称与上述的实体名称数据集中的实体名称进行匹配，从该实体名称数据集中确定出与目标实体的名称相匹配的第一实体名称，作为该目标实体的规范实体名称。
19.上述方案通过将获取的目标实体的名称与实体名称数据集中的规范实体名称进行匹配，确定目标实体的规范实体名称。通过该方案的处理，可以将获取的任意实体的名称转换为规范的实体名称，从而可以便于对不同实体的名称进行匹配对比，判断不同实体是否为匹配或相同的实体。
20.将本技术上述技术方案应用于实体匹配过程中，可以提高实体匹配的准确度，提高实体匹配的效率。
附图说明
21.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
22.图1为本技术实施例提供的一种实体信息匹配方法的流程示意图；
23.图2为本技术实施例提供的一种实体名称树的示意图；
24.图3为本技术实施例提供的医学检验实体的实体名称树的示意图；
25.图4为本技术实施例提供的树结构的长短期记忆网络的示意图；
26.图5为本技术实施例提供的一种分类模型的结构示意图；
27.图6为本技术实施例提供的一种实体信息匹配方法的处理过程示意图；
28.图7为本技术实施例提供的一种实体信息匹配装置的结构示意图；
29.图8为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
30.本技术实施例技术方案适用于实体信息匹配的应用场景。采用本技术实施例技术方案，能够提高实体匹配的准确度和效率。
31.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
32.申请概述
33.实体信息匹配是检验实体匹配关系的常用手段。例如在校验医学病历中的医学检查项目与医疗收费项目是否对应一致时，通常通过检测医学病历中的医学检查项目是否能够与病历中的医疗收费项目一一匹配而实现。
34.在常规的实体信息匹配方案中，通常是将实体名称进行字符匹配，判断两者是否满足匹配关系。然而，在很多实际场景下，所记录的实体名称会存在差异，比如会存在简写、
错别字、代号等情况，而且，具有层级和归属关系的实体之间在名称上也不完全一致。在这些场景下，通过对实体名称进行字符匹配来判断实体之间是否满足匹配关系，通常会导致错误的判断结果。
35.例如在医保审核业务中，“医嘱收费检验一致性审核”是医保违规判罚的重点事项。医嘱是指医生根据病情和治疗的需要对患者在检验方面的指示，其中包含了医学检查项目记录。而实际在医保结算的时候，检验的收费依据收费清单来确定，在收费清单中记录了医学收费项目以及收费金额等信息。正常情况下，医嘱中的医学检查项目与收费清单中的医学收费项目应当是一致的。医嘱收费检验项目一致性审核主要是审核收费清单中的医疗收费项目是否与医嘱中的医学检查项目一致，否则会出现多收费、违规收费等问题。
36.医嘱是医生的指示，更偏向口语化，并且不同医院也存在差异，收费清单也会因为地区的差异性，为医嘱收费检验一致性审核带来了巨大难度，主要难点有以下几点：
37.①
同一种检验名称的写法不一致。收费清单和医嘱中对同一种检验的表述方式不同，比如“甲功”和“甲状腺功能测定”，这两者表达的含义一致，但写法不一致。若按照实体名称匹配的方式进行医嘱收费检验一致性审核，不能准确识别“甲功”和“甲状腺功能测定”的匹配关系。
38.②
包含类检验写法差异大，在收费清单中会对某一种检验项目的细项(子项)进行收费，而医嘱中存在大项(大类)的名称，比如医生在医嘱中下达了一个“甲功”，但是在收费清单中存在一个“促甲状腺激素检测”的收费，这种情况也应该是一致的，但由于写法差异较大，在实际审核中通常不能准确识别两者的匹配关系。
39.综上，现有的基于实体名称的实体信息匹配不能取得科学准确的匹配结果。尤其在上述的医嘱收费检验一致性审核等业务场景中，单纯地通医学检查项目实体和医疗收费项目实体的名称，并不能准确地确定两种实体的匹配关系。
40.基于上述技术问题，本技术实施例提出一种实体信息匹配方法，该方法能够将实体名称都匹配为规范的实体名称，从而可以解决由于实体名称差异而造成的无法准确识别实体匹配关系的问题，可以提高实体信息匹配的准确度。
41.示例性方法
42.本技术实施例提出一种实体信息匹配方法，该方法可示例性地应用于处理器、电子设备、服务器(包括云服务器)等硬件设备，或包装成软件程序被运行，当硬件设备执行本技术实施例技术方案的处理过程，或上述软件程序被运行时，可以实现本技术实施例提出的实体信息匹配方法。本技术实施例只对本技术技术方案的具体处理过程进行示例性介绍，并不对本技术技术方案的具体实现形式进行限定，任意的可以执行本技术技术方案处理过程的技术实现形式，都可以被本技术实施例所采用。
43.参见图1所示，该方法包括：
44.s101、获取目标实体的名称。
45.上述的目标实体，可以是任意领域、任意类型的实体，例如可以是组织、数量、人名、公司、地理位置、产品、活动等等。
46.而上述的目标实体的名称，则可以是表示目标实体的名称的实体词，例如组织名称、数量值、人名名称、公司名称、地理位置名称、产品名称、活动名称等。
47.上述的目标实体的名称的数量可以是一个目标实体的名称，也可以是多个目标实
体的名称，还可以是一个目标实体的多个不同的名称。
48.本技术实施例技术方案适用于医嘱收费检验一致性审核业务场景，因此上述的目标实体的名称，可以是医学报告的医嘱中的医学检查项目名称，以及该医学报告的收费清单中的医疗收费项目名称中的一项或多项。
49.s102、将所述目标实体的名称与预设的实体名称数据集中的实体名称进行匹配，从所述实体名称数据集中确定出与所述目标实体的名称相匹配的第一实体名称。
50.具体的，本技术实施例预先对特定领域或特定业务场景下的实体的规范名称，以及实体之间的层级和归属关系信息进行汇总，构建得到实体名称数据集。则，在该实体名称数据集中，不仅记录有特定领域或特定业务场景下的各个实体的规范名称，还记录有各个实体之间的层级和归属关系信息。通过查询该实体名称数据集，能够确定实体的规范名称，并且确定实体之间的层级和归属关系。
51.上述的特定领域或特定业务场景，可以根据本技术实施例的应用领域或应用场景而确定。或者，上述的特定领域或特定业务场景，可以是所有领域或所有的业务场景，当本技术实施例技术方案应用于某一个具体的领域或业务场景时，再根据所应用的具体领域或业务场景，从所有领域或所有的业务场景对应的实体名称数据集中，选择对应该具体领域或业务场景的实体名称数据集。
52.示例性的，本技术实施例对医学领域的实体的规范名称和实体之间的层级和归属关系进行总结和汇总，最终构建得到医学实体名称数据集。在该医学实体名称数据集中，包含了各种医学实体的规范名称，以及各个医学实体之间的层级和归属关系。
53.例如，在上述的医学实体名称数据集中，记录有“甲状腺功能测定”这一医学检查项目实体的规范名称，也记录有“促甲状腺激素检测”这一医疗收费项目实体的规范名称，同时，由于“促甲状腺激素检测”属于“甲状腺功能测定”中的一个子类，因此在上述的医学实体名称数据集中，同时记录有“甲状腺功能测定”和“促甲状腺激素检测”这两个规范实体名称的同时，还记录有两者的层级和归属关系，即“促甲状腺激素检测”属于“甲状腺功能测定”的一个子类。
54.在具体实施中，上述的实体名称数据集的具体数据格式可以是任意格式的数据集，对于其中的各个实体之间的层级和归属关系信息，也可以通过任意形式进行表示。
55.基于上述的实体名称数据集的构建，当获取到目标实体的名称后，本技术实施例将获取的目标实体的名称与上述的实体名称数据集中的实体名称进行匹配，从该实体名称数据集中确定出与目标实体的名称相匹配的实体名称，作为第一实体名称。
56.具体的，可以采用任意可行的实体名称匹配方法，实现上述的目标实体的名称与实体名称数据集中的实体名称的匹配。例如可以采用字符匹配和/或语义匹配的方式，将上述的目标实体的名称与实体名称数据集中的实体名称进行匹配。
57.通过将目标实体的名称与实体名称数据集中的各个实体名称进行匹配，可以从实体名称数据集中确定出与目标实体的名称相匹配的一个或多个实体名称，匹配到的这些实体名称，均可以作为第一实体名称。
58.s103、将所述第一实体名称确定为所述目标实体的规范实体名称。
59.具体的，由于上述的实体名称数据集中所存储的实体名称，均为相应实体的规范实体名称，因此，当确定目标实体的名称与实体名称数据集中的第一实体名称相匹配时，可
以确定第一实体名称，即为目标实体对应的规范实体名称。因此，可以将第一实体名称确定为目标实体的规范实体名称。
60.例如，假设某一医学报告的医嘱中存在“甲功”这一目标实体的名称，经过本技术上述方案的处理，从医学实体名称数据集中查询到与“甲功”相匹配的实体名称“甲状腺功能测定”，则“甲状腺功能测定”这一实体名称为与上述的“甲功”相对应的第一实体名称，也就是与“甲功”对应的规范实体名称。
61.通过上述介绍可见，本技术实施例通过构建实体名称数据集，将各个实体的规范名称，以及实体之间的层级和归属关系进行汇总记录。在此基础上，对于获取到的目标实体的名称，可以通过将该目标实体的名称与上述的实体名称数据集中的实体名称进行匹配，从该实体名称数据集中确定出与目标实体的名称相匹配的第一实体名称，作为该目标实体的规范实体名称。
62.上述方案通过将获取的目标实体的名称与实体名称数据集中的规范实体名称进行匹配，确定目标实体的规范实体名称。通过该方案的处理，可以将获取的任意实体的名称转换为规范的实体名称，从而可以便于对不同实体的名称进行匹配对比，判断不同实体是否为匹配或相同的实体。
63.将本技术上述技术方案应用于实体匹配过程中，可以提高实体匹配的准确度，提高实体匹配的效率。
64.作为一种优选的实施方式，本技术实施例通过实体名称树的形式构建上述的实体名称数据集。
65.该实体名称树的具体形式可参见图2所示。在图2所示的实体名称树中，每一个圆圈表示一个树节点，每一个树节点为一个实体名称，从root根节点开始，每层非叶子节点拥有父节点和子节点。树节点之间的连线则表示树节点之间的关联关系，也就是实体名称之间的关联关系。树节点之间的连接线的方向为从父节点指向子节点的方向。按照不同实体之间的层级和归属关系，对实体名称树中的树节点之间绘制连接线，即可达到标记不同实体之间的层级和归属关系的目的。
66.可见，图2所示的实体名称树中，不仅以树节点的方式记录了各个实体名称，还通过树节点之间的连接线记录了不同实体名称之间的层级和归属关系。
67.示例性的，当本技术实施例技术方案应用于医嘱收费检验一致性审核业务场景时，利用临床检验专业知识和临床检验知识体系，对医学检验实体进行汇总并梳理不同医学检验实体之间的层级和归属关系，得到包含医学检验实体和医学检验实体之间的层级和归属关系的实体名称树。
68.如图3所示，该实体名称树通过如下所述的自顶向下的方式构建得到：首先确定一级标签，有临床血液与体液检验、临床化学检验等；然后对每个一级标签进行分级扩展，如临床血液与体液检验包括血液一般检查、骨髓细胞学检验、贫血的检验等等，因此这些检验名称作为二级标签，他们的父类标签为临床血液与体液检验；紧接着对所有的二级标签进行分级扩展，如血液一般检查包括血细胞分析、血细胞形态学检查、红细胞沉降率测定，同样这些标签作为三级标签，他们的父类标签为血液一般检查；以此不断迭代地对每层标签向下分级扩展，最终完成实体名称树的构建。
69.需要说明的是，本技术实施例提出的上述的实体名称数据集，例如上述的实体名
称树，是可以实时动态扩充的。比如实际应用场景中，对于低频实体，可能未能在实体名称数据集或实体名称树构建时全部纳入其中，则可以在实际应用场景中，当获取到低频实体时，再将低频实体添加至实体名称数据集或实体名称树中。
70.另外，在实体名称数据集或实体名称树中，一个实体可以对应多个不同的实体名称，例如一个实体可以对应一个规范学术名称，还可以对应一个或多个俗称。
71.作为优选的实施方式，本技术实施例通过实体的语义特征，实现目标实体的名称与实体名称集合中的实体名称的匹配。
72.具体的，通过执行如下步骤a1-a2，实现将目标实体的名称与实体名称数据集中的实体名称进行匹配，从实体名称数据集中确定出与目标实体的名称相匹配的第一实体名称：
73.a1、提取目标实体的名称的语义特征，以及基于各个实体之间的层级和归属关系，提取实体名称数据集中的各个实体的规范名称的语义特征。
74.示例性的，通过对目标实体的名称进行语义特征提取，能够得到目标实体的名称的语义特征。例如，通过双向长短期记忆网络bilstm模型，能够提取得到目标实体的名称的语义特征。
75.同样，通过对实体名称数据集中的各个实体的规范名称进行语义特征提取，能够得到各个实体的规范名称的语义特征。上述的语义特征提取处理，可以采用任意的特征提取方案。
76.作为优选的实施方式，由于实体名称数据集中的实体名称具有层级和归属关系，也就是说不同层级的实体名称之间具有关联关系，该关联关系同样可以映射到不同层级的实体名称的语义特征上。
77.因此，本技术实施例在提取实体名称数据集中的各个实体的规范名称的语义特征时，以各个实体之间的层级和归属关系为基础进行语义特征提取。具体而言，按照层级从到高的顺序依次进行实体名称语义特征提取，在提取高层级的实体名称的语义特征时，参考归属于该高层级的实体名称的低层级的实体名称的语义特征，这样可以使得提取得到的该高层级的实体名称的语义特征包含低层级的实体名称的语义特征。
78.当啥公司农户的实体名称数据集为实体名称树时，可以通过如下步骤a11-a12的处理，提取实体名称树中的各个树节点的实体名称的语义特征：
79.a11、提取第一层级树节点的规范名称的语义特征。
80.a12、根据第一层级树节点的规范名称的语义特征，提取第二层级树节点的规范名称的语义特征。
81.其中，上述的第一层级树节点为上述第二层级树节点的子节点。
82.即，对于上述的实体名称树中的任意两个相邻层级的、具有归属关系的树节点，先提取第一层级树节点的规范名称的语义特征，然后再根据第一层级树节点的规范名称的语义特征，提取第二层级树节点的规范名称的语义特征。通过重复地执行上述a11和a12的处理，能够提取得到实体名称树中的各个
83.在提取每一层级树节点的语义特征时，可以利用长短期记忆网络lstm对树节点的实体名称进行编码，得到树节点的语义特征。
84.作为一种优选的实施方式，在提取实体名称树中的各个树节点的实体名称的语义
特征时，可以将实体名称树输入预先训练的树结构的长短期记忆网络tree-lstm中，使树结构的长短期记忆网络tree-lstm提取第一层级树节点的规范名称的语义特征并根据第一层级树节点的规范名称的语义特征，提取第二层级树节点的规范名称的语义特征，从而得到所述实体名称树中的每个节点的规范名称的语义特征。
85.参见图4所示，与标准的lstm相同，每个tree-lstm单元(图4中所示方框)会有一个输入向量，每个tree-lstm单元都包括类似的输入门、输出门、cell state和隐层输出。不同的是tree-lstm单元中门向量和细胞状态的更新依赖于所有与之相关的子节点的状态，另外，相比于lstm的单个遗忘门，tree-lstm拥有多个遗忘门，分别对应当前单元的每个子单元k，这使得tree-lstm可以选择性地从子节点中获取信息。
86.本技术实施例使用tree-lstm来获取医学实体名称树的语义表征，并且能够将节点之间的层级关系考虑在内。具体而言，将医学实体名称树的每一个树节点的向量表示作为输入xi，每个节点的输出对应该节点的隐藏状态(即语义特征)yi，i＝1,2，
…
，n，n为实体名称树的树节点数量。
87.通过本技术上述实施例介绍提取实体名称树中的各个实体名称的语义特征，可以综合考虑语义特征的层级关系，从而提取得到更加准确、信息更加充分的实体名称语义特征。
88.a2、基于目标实体的名称的语义特征，以及实体名称数据集中的各个实体的规范名称的语义特征，从实体名称数据集中确定出与目标实体的名称相匹配的第一实体名称。
89.在分别获取到目标实体的名称的语义特征，以及获取到实体名称数据集中的各个实体的规范名称的语义特征后，通过将目标实体的名称的语义特征分别与实体名称数据集中的各个实体的规范名称的语义特征进行相似度计算，即可从实体名称数据集中确定出与目标实体的名称的语义特征相似度最高或相似度大于设定相似度阈值的实体名称，作为与目标实体的名称相匹配的第一实体名称。
90.作为一种更加优选的实施方式，本技术实施例将目标实体的名称与实体名称数据集中的各个实体的规范名称的匹配处理，视为多分类处理。即，将实体名称数据集中的各个实体的规范名称作为分类标签，对目标实体的名称在各个分类标签内进行分类，分类结果即为与目标实体的名称相匹配的规范实体名称。
91.具体而言，可以预先训练分类模型，用于对实体名称进行分类处理，分类标签设置为实体名称数据集中的各个实体的规范名称。在模型训练时，以实体名称的语义特征作为输入，由模型通过计算输入的实体名称的语义特征与实体名称数据集中的各个实体的规范名称的语义特征之间的相似度，对输入实体名称进行分类，得到与输入实体名称对应的规范名称分类结果。
92.示例性的，本技术实施例通过如下步骤b1-b2的处理，实现对目标实体的名称的分类处理：
93.b1、将所述目标实体的名称的语义特征，与所述实体名称数据集中的各个实体的规范名称的语义特征进行特征融合处理，得到融合特征。
94.具体的，将目标实体的名称的语义特征，与实体名称数据集中的各个实体的规范名称的语义特征进行特征融合处理，例如将目标实体的名称的语义特征与实体名称数据集中的各个实体的规范名称的语义特征进行拼接、叠加等，使得目标实体的名称的语义特征
中融入各个实体的规范名称的语义特征，将有利于对目标实体的名称在各个实体的规范名称中进行更加准确的分类处理。
95.作为一种可选的实施方式，本技术实施例通过如下步骤b11-b13的处理，实现目标实体的名称的语义特征，与实体名称数据集中的各个实体的规范名称的语义特征的融合处理：
96.b11、确定目标实体的名称的语义特征，与实体名称数据集中的各个实体的规范名称的语义特征的相关度，得到相关度序列。
97.其中，所述相关度序列的维度与实体名称数据集中的规范名称数量相同。
98.具体的，假设按照上述处理提取得到的目标实体的名称的语义特征为a，将a与实体名称数据集中的各个实体的规范名称的语义特征y:{yi}(i＝1,2，
…
，n，n为实体名称数据集中的各个实体的数量)进行attention计算，得到a在各个语义特征yi上的注意力分布αi(i＝1,2，
…
，n，n为实体名称数据集中的各个实体的数量)，注意力分布αi表示对于a而言，其对yi的关注程度，也就是与yi的相关度。因此，注意力分布αi即为由目标实体的名称的语义特征与实体名称数据集中的各个实体的规范名称的语义特征的相关度构成的相关度序列。
99.b12、根据所述相关度序列，对所述实体名称数据集中的各个实体的规范名称的语义特征进行加权融合，得到参考特征。
100.具体的，将上述的相关度序列中的、与每一实体规范名称对应的相关度作为相应实体规范名称的加权权重，并对实体名称数据集中的各个实体的规范名称的语义特征进行加权求和，得到参考特征att。
101.b13、将所述参考特征与所述目标实体的名称的语义特征进行融合得到融合特征。
102.具体的，将目标实体的名称的语义特征a，与上述的参考特征att进行拼接，即可得到融合特征。
103.b2、基于所述融合特征，将所述目标实体的名称分类为所述实体名称数据集中的第一实体名称。
104.具体的，对上述的融合特征进行对应实体名称数据集中的各个实体名称的softmax分类，即可得到目标实体的名称分类为实体名称数据集中的各个实体名称的概率。选择对应的分类概率最大的实体名称，作为与目标实体匹配的第一实体名称。
105.作为一种实施方式，在通过实体名称树表示实体名称数据集的情况下，参见图5所示，本技术实施例采用基于bilstm treelstm attention架构的分类模型，来实现目标实体的名称与实体名称树中的实体名称的匹配。如图5所示，通过bilstm selfattention对目标实体的名称进行编码获取其表示；使用treelstm对实体名称树中的实体名称进行编码，树中的每个节点都表示一种实体，通过这种编码方式可以隐含不同层级之间父类和子类之间的关系；最终使用attention层对目标实体和实体名称树中的实体进行信息融合，完成目标实体分类预测。
106.具体而言，分类模型的输入是目标实体的名称和实体名称树，目标实体的名称为e:{e1,e2,e3...em},实体名称树中每个节点为t:{t1,t2,t3...tn}，ei是目标实体的名称中的字，tj是实体名称树中的每一个节点的实体名称。首先使用预训练的词向量将目标实体的名称和实体名称树中的实体名称转换为向量表示。再分别输入到如下模块提取语义表征：
107.①
提取目标实体的名称的语义表征
108.参见图5所示，使用双向长短期记忆网络(bi-directional long short term memory,bilstm)作为目标实体的名称的语义表征抽取层，将字特征矩阵输入bilstm中，计算多个时间步的隐藏状态。取前向和反向lstm在每个时间步的隐藏状态，进行拼接得到双向lstm网络的提取的特征矩阵x输出作为下一层网络的输入。接下来使用self-attention提取更高层的语义表征，每个隐藏状态都和该实体中的所有状态进行attention计算，目的是学习实体内部的依赖关系，捕获实体的内部结构，最后得到目标实体的名称的attention向量a。
109.②
提取实体名称树中的实体名称的语义表征
110.bilstm能够处理序列信息(一个顺序排列的链表)，但是无法处理带有树结构的数据，因此bilstm无法对实体名称树进行语义表征的提取。为了将实体名称树各个节点进行编码，本技术实施例使用tree-structured lstm对实体名称树的各个节点进行语义特征提取。
111.与标准的lstm相同，每个tree-lstm单元会有一个输入向量，每个cell都包括类似的输入门、输出门、cell state和隐层输出。不同的是tree-lstm单元中门向量和细胞状态的更新依赖于所有与之相关的子节点的状态。另外，相比于lstm的单个遗忘门，tree-lstm拥有多个遗忘门，分别对应当前单元的每个子单元k，这使得tree-lstm可以选择性地从子节点中获取信息。本技术实施例使用tree-lstm来获取实体名称树的语义表征，能够将节点之间的层级关系考虑在内。将每一个树节点的向量表示作为tree-lstm的输入xi，每个节点的输出对应该节点的隐藏状态yi，即该节点的实体名称的语义表征。
112.③
目标实体的名称和实体名称树中的实体名称的信息融合分类
113.为了将实体名称树的实体名称标签依赖信息充分融合到模型中，本技术实施例将向量a与实体名称树的每个实体名称的隐藏状态y:{yi}进行attention计算，得到注意力分布αi，注意力分布αi表示针对向量a而言，对yi向量关注的程度，在得到注意力分布αi后，本技术实施例采取软性注意力选择机制进行向量汇总，最后得到融合特征向量att。
[0114][0115][0116][0117]
其中，wb为超参，表示向量a与向量yi的相关度权重，其作为模型参数在模型训练过程中确定；n表示实体名称树中的实体名称总数。
[0118]
最后，将目标实体的名称的attention向量a和att进行拼接，拼接起来的向量[a；att]最后经过全连接层实现多分类，得到将目标实体的名称的attention向量a分类为实体名称树中的每个实体名称的概率，其中最大概率对应的实体名称，即为与目标实体的名称相匹配的实体名称，也就得到与目标实体的名称相匹配的第一实体名称。
[0119]
图5所示的分类模型将目标实体的名称与实体名称树中的实体名称的匹配处理，
转换为对目标实体的名称的分类处理，即将实体名称树中的每个实体名称视为一个分类标签。在对图5所示的模型的训练过程中，可以采用交叉熵损失函数进行训练。
[0120]
本技术上述各实施例所介绍的技术方案，都是基于语义特征从实体名称数据集中确定与目标实体的名称匹配的第一实体名称，从而确定目标实体的规范实体名称。在另一种实施方式中，也可以先利用字符匹配的方式，从实体名称数据集中查找与目标实体的名称相匹配的规范实体名称，若未能找到，再进一步采用上述实施例介绍的基于语义特征的匹配方式。
[0121]
参见图6所示，对于目标实体的名称，先通过规则匹配模块进行目标实体的名称与实体名称数据集中的实体名称的字符匹配，若通过规则匹配模块能从实体名称数据集中匹配到与目标实体的名称相匹配的规范实体名称，则结束流程；若通过规则匹配模块未能从实体名称数据集中匹配到与目标实体的名称相匹配的规范实体名称，则通过语义匹配模块，通过执行上述实施例所介绍的匹配方案，进行目标实体的名称与实体名称数据集中的实体名称的语义匹配，若通过语义匹配模块能从实体名称数据集中匹配到与目标实体的名称相匹配的规范实体名称，则结束流程；若通过语义匹配模块未能从实体名称数据集中匹配到与目标实体的名称相匹配的规范实体名称，则说明目标实体的名称为低频实体名称，在实体名称数据集中可能本身就不包含该实体的规范名称，此时利用扩展补充模块，将该目标实体的名称添加至实体名称数据集中。
[0122]
其中，上述的规则匹配模块对目标实体的名称与实体名称数据集中的实体名称进行字符匹配的具体处理过程，可以参见如下步骤c1-c3所示：
[0123]
c1、构建与预设的实体名称数据集中的每个实体名称对应的正则匹配式。
[0124]
具体的，对于实体名称数据集中的每一个实体名称，首先去除掉不具有鉴别意义的字符串，如将医学检查项目实体中的“检验”、“检查”、“测定”、“试验”、“筛选”、“检测”等字符去除。然后使用剩余字符串构建正则匹配式，如“交叉配血试验”的正则匹配式为“交.*叉.*配.*血”。
[0125]
在第一次进行字符匹配的处理时，需要对实体名称数据集中的每个实体名称对应构建正则匹配式。当确定与实体名称数据集中的每个实体名称对应的正则匹配式后，在后续应用过程中，可以跳过步骤c1，直接执行后续的步骤c2和c3，实现对目标实体的名称与实体名称数据集中的实体名称的字符匹配处理。
[0126]
c2、利用所述实体名称数据集中的每个实体名称对应的正则匹配式与所述目标实体的名称进行匹配。
[0127]
c3、在所述实体名称数据集中的任意实体名称对应的正则匹配式与所述目标实体的名称匹配成功的情况下，将与所述目标实体的名称匹配成功的正则匹配式对应的实体名称，确定为与所述目标实体的名称匹配的第一实体名称。
[0128]
具体的，将目标实体的名称，分别与实体名称数据集中的每个规范实体名称的正则匹配式进行匹配，如果能够匹配成功，则将该规范实体名称确定为与目标实体的名称匹配的第一实体名称。
[0129]
字符匹配与语义匹配相比较而言，字符匹配的运算速度更快，因此先通过字符匹配的方式将目标实体的名称与实体名称数据集中的实体名称进行匹配，在通过字符匹配未能从实体名称数据集中获取到与目标实体的名称相匹配的实体名称的情况下，再通过语义
匹配的方式进行匹配，可以显著提高从实体名称数据集中获取与目标实体的名称匹配的第一实体名称的效率。
[0130]
作为另一种示例，当本技术实施例技术方案应用于医嘱收费检验一致性审核业务时，可以将同一病历的医嘱中的医学检验项目集合和收费清单中的医疗收费项目集合中的每一项，分别作为上述的目标实体。上述的实体名称数据集中，则为基于临床检验专业知识和临床检验知识体系，对医学检验实体进行汇总并梳理不同医学检验实体之间的层级和归属关系，得到的包含医学检验实体和医学检验实体之间的层级和归属关系的实体名称树。
[0131]
通过执行本技术上述实施例的处理，可以分别从实体名称数据集中确定出与每一医学检验项目对应的规范实体名称，以及确定与每一个医疗收费项目对应的规范实体名称。
[0132]
在此基础上，可以基于实体名称数据集，将各个医学检验项目的规范实体名称与各个医疗收费项目的规范实体名称进行匹配，检测所述病历中是否存在违规医疗收费项目。
[0133]
其中，所述违规医疗收费项目为不存在与之匹配的医学检验项目的医疗收费项目。
[0134]
具体的，对应待审核病历的收费清单中的每一项医疗收费项目，从该病历的医嘱中所包含的医学检验项目中，查找与该医疗收费项目匹配的医学检验项目，若某一医疗收费项目未能找到与其匹配的医学检验项目，则说明该收费项目为违规收费项目，即多收费项目。
[0135]
作为一种优选的实施方式，在分别确定待审核病历中的医学检验项目的规范名称，以及确定医疗收费项目的规范名称后，本技术实施例对应每个医学检验项目的规范名称，根据实体名称数据集，确定与该医学检验项目的规范名称对应的第一关联规范名称和第二关联规范名称，并由各个医学检验项目的规范名称以及各个医学检验项目对应的第一关联规范名称和第二关联规范名称，组成各个医学检验项目的医学检验项目名称集合。
[0136]
其中，所述第一关联规范名称为医学检验项目的上一层级的医学检验项目的规范实体名称，所述第二关联规范名称为医学检验项目的下一层级的医学检验项目的规范实体名称。
[0137]
具体的，对于每一个医学检验项目的规范名称，根据实体名称数据集中所记录的实体名称之间的层级和归属关系信息，从实体名称数据集中确定该医学检验项目的规范名称的父类实体名称和子类实体名称，分别作为该医学检验项目的第一关联规范名称和第二关联规范名称。
[0138]
然后，对待审核病历中的每个医学检验项目的规范名称，及其对应的第一关联规范名称和第二关联规范名称进行汇总，得到该医学检验项目的医学检验项目名称集合。可知，在该医学检验项目名称集合中，不仅包含了病历中的医学检验项目的规范名称，还包含该医学检验项目的父类项目和子类项目的规范名称。
[0139]
在此基础上，将待审核病历中的各个医疗收费项目的规范实体名称，分别与该病历中的各个医学检验项目的医学检验项目名称集合进行匹配。对于任意一个医疗收费项目a而言，若该医疗收费项目a的规范实体名称与任意一个医学检验项目b的医学检验项目名称集合中的任意一个实体名称匹配成功，则认为该医疗收费项目a与该医学检验项目b相匹
配。
[0140]
在上述的一对一匹配过程中，若在待审核病历中的各个医疗收费项目的规范实体名称中，存在任意一个医疗收费项目c的规范实体名称与每一个医学检验项目名称集合中的每一个医学检验项目名称均匹配失败，则可以确定在该病历中，不存在于该医疗收费项目c对应匹配的医学检验项目，因此可以确定该病历中存在违规医疗收费项目，即医疗收费项目c。
[0141]
上述的将各个医学检验项目的规范实体名称与各个医疗收费项目的规范实体名称进行匹配，检测病历中是否存在违规医疗收费项目的方案，实现了从名称与数量上将病历中的医学检验项目与医疗收费项目进行匹配，能够使得医嘱收费检验一致性检测的准确度更高。
[0142]
示例性装置
[0143]
相应的，本技术实施例还提供了一种实体信息匹配装置，参见图7所示，该装置包括：
[0144]
信息获取单元100，用于获取目标实体的名称；
[0145]
实体匹配单元110，用于将所述目标实体的名称与预设的实体名称数据集中的实体名称进行匹配，从所述实体名称数据集中确定出与所述目标实体的名称相匹配的第一实体名称；所述实体名称数据集包括各个实体的规范名称，以及各个实体之间的层级和归属关系信息；
[0146]
信息确定单元120，用于将所述第一实体名称确定为所述目标实体的规范实体名称。
[0147]
作为一种可选的实施方式，所述实体名称数据集包括实体名称树，所述实体名称树以实体的规范名称作为树节点、按照各个实体之间的层级和归属关系构建得到。
[0148]
作为一种可选的实施方式，将所述目标实体的名称与预设的实体名称数据集中的实体名称进行匹配，从所述实体名称数据集中确定出与目标实体的名称相匹配的第一实体名称，包括：
[0149]
提取所述目标实体的名称的语义特征，以及基于各个实体之间的层级和归属关系，提取所述实体名称数据集中的各个实体的规范名称的语义特征；
[0150]
基于所述目标实体的名称的语义特征，以及所述实体名称数据集中的各个实体的规范名称的语义特征，从所述实体名称数据集中确定出与所述目标实体的名称相匹配的第一实体名称。
[0151]
作为一种可选的实施方式，当所述实体名称数据集包括实体名称树时，所述基于各个实体之间的层级和归属关系，提取所述实体名称数据集中的各个实体的规范名称的语义特征，包括：
[0152]
提取第一层级树节点的规范名称的语义特征；
[0153]
根据第一层级树节点的规范名称的语义特征，提取第二层级树节点的规范名称的语义特征；
[0154]
其中，所述第一层级树节点为所述第二层级树节点的子节点。
[0155]
作为一种可选的实施方式，提取第一层级树节点的规范名称的语义特征；根据第一层级树节点的规范名称的语义特征，提取第二层级树节点的规范名称的语义特征，包括：
[0156]
将所述实体名称树输入预先训练的树结构的长短期记忆网络，以使所述树结构的长短期记忆网络提取第一层级树节点的规范名称的语义特征并根据第一层级树节点的规范名称的语义特征，提取第二层级树节点的规范名称的语义特征，从而得到所述实体名称树中的每个节点的规范名称的语义特征。
[0157]
作为一种可选的实施方式，基于所述目标实体的名称的语义特征，以及所述实体名称数据集中的各个实体的规范名称的语义特征，从所述实体名称数据集中确定出与所述目标实体的名称相匹配的第一实体名称，包括：
[0158]
将所述目标实体的名称的语义特征，与所述实体名称数据集中的各个实体的规范名称的语义特征进行特征融合处理，得到融合特征；
[0159]
基于所述融合特征，将所述目标实体的名称分类为所述实体名称数据集中的第一实体名称。
[0160]
作为一种可选的实施方式，将所述目标实体的名称的语义特征，与所述实体名称数据集中的各个实体的规范名称的语义特征进行特征融合处理，得到融合特征，包括：
[0161]
确定所述目标实体的名称的语义特征，与所述实体名称数据集中的各个实体的规范名称的语义特征的相关度，得到相关度序列；所述相关度序列的维度与所述实体名称数据集中的规范名称数量相同；
[0162]
根据所述相关度序列，对所述实体名称数据集中的各个实体的规范名称的语义特征进行加权融合，得到参考特征；
[0163]
将所述参考特征与所述目标实体的名称的语义特征进行融合得到融合特征。
[0164]
作为一种可选的实施方式，在提取所述目标实体的名称的语义特征，以及基于各个实体之间的层级和归属关系，提取所述实体名称数据集中的各个实体的规范名称的语义特征之前，所述实体匹配单元110还用于：
[0165]
利用所述实体名称数据集中的每个实体名称对应的正则匹配式与所述目标实体的名称进行匹配；
[0166]
在所述实体名称数据集中的任意实体名称对应的正则匹配式与所述目标实体的名称匹配成功的情况下，将与所述目标实体的名称匹配成功的正则匹配式对应的实体名称，确定为与所述目标实体的名称匹配的第一实体名称。
[0167]
作为一种可选的实施方式，所述目标实体包括同一病历中的医学检验项目集合和医疗收费项目集合；
[0168]
所述装置还包括：
[0169]
筛查处理单元，用于基于所述实体名称数据集，将各个医学检验项目的规范实体名称与各个医疗收费项目的规范实体名称进行匹配，检测所述病历中是否存在违规医疗收费项目；其中，所述违规医疗收费项目为不存在与之匹配的医学检验项目的医疗收费项目。
[0170]
作为一种可选的实施方式，将各个医学检验项目的规范实体名称与各个医疗收费项目的规范实体名称进行匹配，检测所述病历中是否存在违规医疗收费项目，包括：
[0171]
对应每个医学检验项目的规范名称，根据所述实体名称数据集，确定与该医学检验项目的规范名称对应的第一关联规范名称和第二关联规范名称，并由各个医学检验项目的规范名称以及各个医学检验项目对应的第一关联规范名称和第二关联规范名称，组成各个医学检验项目的医学检验项目名称集合；其中，所述第一关联规范名称为医学检验项目
的上一层级的医学检验项目的规范实体名称，所述第二关联规范名称为医学检验项目的下一层级的医学检验项目的规范实体名称；
[0172]
将各个医疗收费项目的规范实体名称与各个医学检验项目名称集合进行一对一匹配；
[0173]
若在各个医疗收费项目的规范实体名称中，存在任一医疗收费项目的规范实体名称与每一个医学检验项目名称集合中的每一个医学检验项目名称均匹配失败，则确定所述病历中存在违规医疗收费项目。
[0174]
本实施例提供的实体信息匹配装置，与本技术上述实施例所提供的实体信息匹配方法属于同一申请构思，可执行本技术上述任意实施例所提供的实体信息匹配方法，具备执行实体信息匹配方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本技术上述实施例提供的实体信息匹配方法的具体处理内容，此处不再加以赘述。
[0175]
示例性电子设备
[0176]
本技术另一实施例还提出一种电子设备，参见图8所示，该设备包括：
[0177]
存储器200和处理器210；
[0178]
其中，所述存储器200与所述处理器210连接，用于存储程序；
[0179]
所述处理器210，用于通过运行所述存储器200中存储的程序，实现上述任一实施例公开的实体信息匹配方法。
[0180]
具体的，上述电子设备还可以包括：总线、通信接口220、输入设备230和输出设备240。
[0181]
处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中：
[0182]
总线可包括一通路，在计算机系统各个部件之间传送信息。
[0183]
处理器210可以是通用处理器，例如通用中央处理器(cpu)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，asic)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0184]
处理器210可包括主处理器，还可包括基带芯片、调制解调器等。
[0185]
存储器200中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器(read-only memory，rom)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，ram)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
[0186]
输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。
[0187]
输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。
[0188]
通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(ran)，无线局域网(wlan)等。
[0189]
处理器210执行存储器200中所存放的程序，以及调用其他设备，可用于实现本技术上述实施例所提供的任意一种实体信息匹配方法的各个步骤。
[0190]
示例性计算机程序产品和存储介质
[0191]
除了上述方法和设备以外，本技术的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的实体信息匹配方法中的步骤。
[0192]
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本技术实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如java、c 等，还包括常规的过程式程序设计语言，诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
[0193]
此外，本技术的实施例还可以是存储介质，其上存储有计算机程序，计算机程序被处理器执行本说明书上述“示例性方法”部分中描述的实体信息匹配方法中的步骤。
[0194]
对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本技术所必须的。
[0195]
需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0196]
本技术各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，各实施例中记载的技术特征可以进行替换或者组合。
[0197]
本技术各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
[0198]
本技术所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0199]
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
[0200]
另外，在本技术各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功
能模块或子模块的形式实现。
[0201]
专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
[0202]
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
[0203]
最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0204]
对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种分片数动态调整方法、装置、设备及介质与流程

一种实体信息匹配方法、装置、电子设备及存储介质与流程

相关文献

最热文献