健康档案生成方法及装置、存储介质及电子设备与流程

2022-02-21 07:48:39 来源：中国专利 TAG：

1.本公开涉及计算机技术领域，尤其涉及一种健康档案生成方法及装置、存储介质及电子设备。

背景技术：

2.在患者问诊过程中，医生可以结合患者的健康档案进行诊断。
3.相关技术中，患者的健康档案通常包含该患者的所有健康指标数据，医生通常需要先查询到该患者的健康档案，再根据与患者的交谈以及结合自身经验，在该患者的健康档案中查询与本次问诊相关的健康指标数据以进行诊断，因此上述问诊过程中存在由于无法向医生提供有用的健康指标数据而导致的人力物力消耗较大、问诊效率较低的缺点。
4.需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素：

5.本公开的目的在于提供一种健康档案生成方法、装置、电子设备及存储介质，以提供与问诊相关的健康指标数据进而解决问诊过程中人力物力消耗较大、问诊效率较低的问题。
6.本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。
7.根据本公开的一个方面，提供一种健康档案生成方法，包括：获取与患者的问诊对话；解析问诊对话中的患者问题，在中文医学问答集的问题数据中确定与患者问题相似的相似问题；基于中文医学问答集中的问题数据与健康指标集中的指标项之间的对应关系，在健康指标集中确定与相似问题对应的目标指标项；其中，对应关系是通过国际疾病分类进行建立的；根据目标指标项生成与问诊对话对应的健康档案。
8.在本公开一个实施例中，中文医学问答集中的问题数据与健康指标集中的指标项之间的对应关系，是按如下方式建立的：根据中文医学问答集中的答案数据中的答案关键字，确定答案数据与国际疾病分类中的疾病类型之间的第一关联关系；根据健康指标集中的指标项对应的检测对象，确定指标项与疾病类型之间的第二关联关系；基于第一关联关系、第二关联关系，以及中文医学问答集中问题数据与答案数据之间的第三关联关系，建立问题数据与指标项之间的对应关系。
9.在本公开一个实施例中，解析问诊对话中的患者问题，在中文医学问答集的问题数据中确定与患者问题相似的相似问题，包括：调用相似度算法，根据患者问题以及问题数据中的各问答集问题，计算各问答集问题与患者问题的相似度；将相似度最高的问答集问题作为相似问题。
10.在本公开一个实施例中，在确定与相似问题对应的目标指标项之前，还包括：确认相似度最高的问答集问题与患者问题的相似度超过预设阈值；若否，则在健康指标集中确
定与相似问题对应的目标指标项，包括：以健康指标集中的基础指标项作为目标指标项。
11.在本公开一个实施例中，相似度算法为余弦相似度算法；以及，调用相似度算法，根据患者问题以及问题数据中的各问答集问题，计算各问答集问题与患者问题的相似度，包括：对患者问题和问答集问题进行分词处理和第一干扰词去除的操作，分别得到患者问题中的第一关键字和问答集问题中的第一关键字，共同形成第一关键字集；根据第一关键字集使用向量对齐的方式，构建患者问题向量和问答集问题向量；调用余弦相似度算法，以基于患者问题向量和问答集问题向量计算得到各问答集问题与患者问题的相似度。
12.在本公开一个实施例中，相似度算法为皮尔逊相关系数算法；以及，调用相似度算法，根据患者问题以及问题数据中的各问答集问题，计算各问答集问题与患者问题的相似度，包括：对患者问题和问答集问题进行分词处理和第二干扰词去除的操作，分别得到患者问题中的第二关键字和问答集问题中的第二关键字，共同形成第二关键字集；获取第二关键字集中各关键字所属的词属性，以及词属性对应的权重值，以确定第二关键字集中各关键字对应的权重值；根据第二关键字集使用向量对齐的方式，基于第二关键字集中各关键字对应的权重值，构建患者问题权重向量和问答集问题权重向量；调用皮尔逊相关系数算法，以基于患者问题权重向量和问答集问题权重向量计算得到各问答集问题与患者问题的相似度。
13.在本公开一个实施例中，根据目标指标项生成与问诊对话对应的健康档案，包括：获取患者的与目标指标项对应的指标值，组装指标值以生成健康档案；以及，若与目标指标项对应的指标值存在缺失，则根据缺失的指标值生成患者的检测建议，并在获取到缺失的指标值后，更新健康档案。
14.根据本公开的另一个方面，提供一种健康档案生成装置，包括：获取模块，用于获取与患者的问诊对话；解析模块，用于解析所述问诊对话中的患者问题，在中文医学问答集的问题数据中确定与所述患者问题相似的相似问题；确定指标项模块，用于基于所述中文医学问答集中的问题数据与健康指标集中的指标项之间的对应关系，在所述健康指标集中确定与所述相似问题对应的目标指标项；其中，所述对应关系是通过国际疾病分类进行建立的；生成模块，用于根据所述目标指标项生成与所述问诊对话对应的健康档案。
15.在本公开一个实施例中，中文医学问答集中的问题数据与健康指标集中的指标项之间的对应关系，是按如下方式建立的：根据中文医学问答集中的答案数据中的答案关键字，确定答案数据与国际疾病分类中的疾病类型之间的第一关联关系；根据健康指标集中的指标项对应的检测对象，确定指标项与疾病类型之间的第二关联关系；基于第一关联关系、第二关联关系，以及中文医学问答集中问题数据与答案数据之间的第三关联关系，建立问题数据与指标项之间的对应关系。
16.在本公开一个实施例中，解析模块解析问诊对话中的患者问题，在中文医学问答集的问题数据中确定与患者问题相似的相似问题，包括：调用相似度算法，根据患者问题以及问题数据中的各问答集问题，计算各问答集问题与患者问题的相似度；将相似度最高的问答集问题作为相似问题。
17.在本公开一个实施例中，在确定指标项模块确定与相似问题对应的目标指标项之前，解析模块还用于：确认相似度最高的问答集问题与患者问题的相似度超过预设阈值；若否，则确定指标项模块在健康指标集中确定与相似问题对应的目标指标项，包括：以健康指
标集中的基础指标项作为目标指标项。
18.在本公开一个实施例中，相似度算法为余弦相似度算法；以及，解析模块调用相似度算法，根据患者问题以及问题数据中的各问答集问题，计算各问答集问题与患者问题的相似度，包括：对患者问题和问答集问题进行分词处理和第一干扰词去除的操作，分别得到患者问题中的第一关键字和问答集问题中的第一关键字，共同形成第一关键字集；根据第一关键字集使用向量对齐的方式，构建患者问题向量和问答集问题向量；调用余弦相似度算法，以基于患者问题向量和问答集问题向量计算得到各问答集问题与患者问题的相似度。
19.在本公开一个实施例中，相似度算法为皮尔逊相关系数算法；以及，解析模块调用相似度算法，根据患者问题以及问题数据中的各问答集问题，计算各问答集问题与患者问题的相似度，包括：对患者问题和问答集问题进行分词处理和第二干扰词去除的操作，分别得到患者问题中的第二关键字和问答集问题中的第二关键字，共同形成第二关键字集；获取第二关键字集中各关键字所属的词属性，以及词属性对应的权重值，以确定第二关键字集中各关键字对应的权重值；根据第二关键字集使用向量对齐的方式，基于第二关键字集中各关键字对应的权重值，构建患者问题权重向量和问答集问题权重向量；调用皮尔逊相关系数算法，以基于患者问题权重向量和问答集问题权重向量计算得到各问答集问题与患者问题的相似度。
20.在本公开一个实施例中，生成模块根据目标指标项生成与问诊对话对应的健康档案，包括：获取患者的与目标指标项对应的指标值，组装指标值以生成健康档案；以及，若与目标指标项对应的指标值存在缺失，则根据缺失的指标值生成患者的检测建议，并在获取到缺失的指标值后，更新健康档案。
21.根据本公开的又一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的健康档案生成方法。
22.根据本公开的再一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述的健康档案生成方法。
23.本公开的实施例所提供的健康档案生成方法，能够解析问诊对话中的患者问题以在中文医学问答集中确定与患者问题相似的相似问题，再基于中文医学问答集与健康指标之间的对应关系确定出目标指标项，从而生成与本次问诊对话对应的健康档案、提供本次问诊所需的患者指标数据，达到节省问诊过程中的人力物力消耗、提升问诊效率的效果。
24.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
25.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
26.图1示出了可以应用本公开实施例的健康档案生成方法的示例性系统架构的示意
图；
27.图2示出了本公开一个实施例的健康档案生成方法的流程图；
28.图3示出了本公开一个实施例的健康档案生成方法的示意图；
29.图4示出了本公开一个实施例的健康档案生成方法的示意图；
30.图5示出了本公开一个实施例的健康档案生成方法中确定目标指标项的流程图；
31.图6示出了本公开一个实施例的健康档案生成装置的框图；和
32.图7示出了本公开实施例中一种健康档案生成计算机设备的结构框图。
具体实施方式
33.现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
34.此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
35.此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。
36.针对上述相关技术中存在的技术问题，本公开实施例提供了一种健康档案生成方法，以用于至少解决上述技术问题中的一个或者全部。
37.图1示出了可以应用本公开实施例的健康档案生成方法的示例性系统架构的示意图；如图1所示：
38.该系统架构可以包括服务器101、网络102和客户端103。网络102用以在客户端103和服务器101之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
39.服务器101可以是提供各种服务的服务器，例如可以为解析用户问诊中的语句提供支持的后台管理服务器。再例如，后台管理服务器可以获取并解析患者通过自身登陆的客户端103输入的患者问题，还可以在中文医学问答集的问题数据中确定与患者问题相似的相似问题，进而根据相似问题确定与此次问诊对应的目标指标项，后台管理服务器还可以根据目标指标项生成与此次问诊对话对应的健康档案，并将新生成的健康档案反馈给医生登录的客户端103。
40.客户端103可以是手机、游戏主机、平板电脑、电子书阅读器、智能眼镜、智能家居设备、ar(augmented reality，增强现实)设备、vr(virtual reality，虚拟现实)设备等移动终端，或者，客户端103也可以是个人计算机，比如膝上型便携计算机和台式计算机等等。
41.在一些可选的实施例中，客户端103可以为用户提供输入文字、图片和/或声音的
窗口，以及提供看见对方输入的文字、图片和/或声音的窗口。
42.在一些可选的实施例中，服务器101可以调用相似度算法计算患者问题与中文医学问答集的问题数据中的各问答集问题之间的相似度，进而确定出与患者问题相似的相似问题；服务器101还可以预先通过国际疾病分类建立中文医学问答集中的问题数据与健康指标集中的指标项之间的对应关系，以根据确定出的相似问题确定与此次问诊对应的目标指标项。
43.应该理解，图1中的客户端、网络和服务器的数目仅仅是示意性的，服务器101可以是一个实体的服务器，还可以为多个服务器组成的服务器集群，还可以是云端服务器，根据实际需要，可以具有任意数目的客户端、网络和服务器。
44.下面，将结合附图及实施例对本公开示例实施例中的健康档案生成方法的各个步骤进行更详细的说明。
45.图2示出了本公开一个实施例的健康档案生成方法的流程图。本公开实施例提供的方法可以由如图1所示的服务器或客户端中执行，但本公开并不限定于此。
46.在下面的举例说明中，以服务器集群101为执行主体进行示例说明。
47.如图2所示，本公开实施例提供的健康档案生成方法可以包括以下步骤：
48.步骤s201，获取与患者的问诊对话。在用户线上问诊场景中，患者与医生可以通过客户端输入文字、图片和/或声音进行交流，问诊对话可以是根据医生与患者的交流内容确定出的文本格式的数据。在一些实际应用中，若交流内容中包含文字以外的其他形式(如语音、图片)的交流内容，可以先将交流内容转化为文本格式的数据，将文本格式的数据作为问诊对话以用于下一步骤的处理。
49.步骤s203，解析问诊对话中的患者问题，在中文医学问答集的问题数据中确定与患者问题相似的相似问题。
50.可以从问诊对话中确定患者发出的问题文本以作为患者问题。中文医学问答集可以是预先统计出的有关医疗自然语言处理(医疗nlp)的中文评测数据集，如cmedqa2(中文医学qa数据集)、中文医患问答对话数据等。以下通过cmedqa2中文医学问答数据集进行举例说明，其中，表1为问题示例，表2为相应的答案示例：
51.表1 cmedqa2中文医学问答数据集中的问题
52.问题标识问题文本内容62638292平时胸闷憋气，四肢无力，疲劳更严重。20596549心脏微微疼痛，左手臂麻木，胸闷心慌气短。
…………
53.表2 cmedqa2中文医学问答数据集中的答案
[0054][0055]
中文医学问答集的问题数据(如cmedqa2中的answer数据)可以与疾病类型存在对应关系。疾病类型可以是根据icd-10(国际疾病分类标准)中的分类方式确定的。疾病类型可以包括一级分类以及一级分类下的二级分类，一级分类可以如：传染病和寄生虫病、肿瘤疾病、神经系统疾病、循环系统疾病等；若一级分类为循环系统疾病，循环系统疾病下的二级分类可以如：冠心病、心血管疾病、心绞痛、肺气肿等。
[0056]
步骤s205，基于中文医学问答集中的问题数据与健康指标集中的指标项之间的对应关系，在健康指标集中确定与相似问题对应的目标指标项；其中，对应关系是通过国际疾病分类进行建立的。
[0057]
健康指标集中的指标项可以是健康检查中涉及的检查项目或涉及患者健康的病史分类项目，检查项目可以如：超声检查、血常规检查、心脏检查等，病史分类可以如：吸烟史、手术史、既往病史等。中文医学问答集中的问题数据与健康指标集中的指标项之间的对应关系可以通过疾病分类关联起来，例如：可以预先确定健康指标集中的指标项与疾病类型之间的对应关系，以及预先确定疾病类型与中文医学问答集中答案数据的对应关系，再根据同一类型疾病对应的指标项与中文医学问答集的答案数据，确定指标项与答案数据的对应关系，最后可以通过答案数据对应的问题数据，确定出指标项与中文医学问答集中问题数据之间存在的对应关系。在确定出指标项与中文医学问答集中问题数据之间存在的对应关系之后，可以确定出与患者问题近似的相似问题在健康指标集中所对应的指标项，以在后续步骤中组装生成与此次问诊对应的健康档案。
[0058]
步骤s207，根据目标指标项生成与问诊对话对应的健康档案。目标指标项可以看作是本次问诊中能用于诊断患者可能涉及疾病的健康项目，当确定目标指标项后，可以获取目标指标项下的指标数据，进而快速为医生提供用于本次问诊的患者指标数据以作为诊断依据。
[0059]
使用本公开中的方法，可以解析问诊对话中的患者问题以在中文医学问答集中确
定与患者问题相似的相似问题，再基于中文医学问答集与健康指标之间的对应关系确定出目标指标项，从而生成与本次问诊对话对应的健康档案、提供本次问诊所需的患者指标数据，达到节省问诊过程中的人力物力消耗、提升问诊效率的效果。
[0060]
图3示出了本公开一个实施例的健康档案生成方法的示意图，如图3所示，包括：
[0061]
步骤s301，将icd-10(国际疾病分类标准)一级分类与cmedqa2(中文医学qa数据集)的answer进行关联。可以预先将cmedqa2中文医学问答数据集中问题数据分类到对应的icd-10分类中，以此作为分类判断依据。
[0062]
步骤s303，将icd-10与健康档案中的指标项进行关联并保存。疾病分类与指标项可以存在着对应关系，如：循环系统疾病可以对应着血常规、糖耐量、心脏检查等项目。
[0063]
步骤s305，获取问诊对话，将问诊对话中的患者问题与cmedqa2(中文医学qa数据集)的answer进行比较，确定出answer中与患者问题近似度最高的问题数据，并根据问题数据确定出患者问题所关联的疾病分类结果。可以在获取问诊过程中的对话后，将对话与cmedqa2的问题的特征向量进行相似度比较，获取近似对最高的问题的答案，并根据答案确定其归属的疾病分类。
[0064]
步骤s307，根据疾病分类结果获取相对应的指标项，进而组装为与问诊对话对应的健康档案。可以根据疾病分类在健康档案中查到与相应疾病对应的数据项，进而组装为针对此次问诊的健康档案，以供医生参考进行诊断。
[0065]
在一些实施例中，中文医学问答集中的问题数据与健康指标集中的指标项之间的对应关系，是按如下方式建立的：根据中文医学问答集中的答案数据中的答案关键字，确定答案数据与国际疾病分类中的疾病类型之间的第一关联关系；根据健康指标集中的指标项对应的检测对象，确定指标项与疾病类型之间的第二关联关系；基于第一关联关系、第二关联关系，以及中文医学问答集中问题数据与答案数据之间的第三关联关系，建立问题数据与指标项之间的对应关系。
[0066]
对于第一关联关系，可以按照如下方式确定：获取中文医学问答数据集的答案数据；确定答案数据中的关键字；根据关键字与国际疾病分类中的疾病类型的对应关系，确定答案数据与疾病类型的关联关系，以作为第一关联关系。其中，关键字与国际疾病分类中疾病类型的对应关系可以由其他系统中获取到。表3示出了一种icd-10分类中的疾病分类方式：
[0067]
表3 icd-10一级分类
[0068]
[0069][0070]
在一些实际应用中，国际疾病分类中可以包含一级分类的疾病和各一级分类疾病下的二级分类，答案数据中的关键字可以是国际疾病分类中的二级分类疾病。如：一级分类为循环系统疾病，相应的二级分类为冠心病、心血管疾病、心绞痛、肺气肿，可以理解为在循环系统疾病这一大类下，还可细分为冠心病、心血管疾病、心绞痛、肺气肿等疾病。又如：一级分类为消化系统疾病，相应的二级分类为慢性胃炎、消化性溃疡、慢性浅表性胃炎，可以理解为在消化系统疾病这一大类下，还可细分为慢性胃炎、消化性溃疡、慢性浅表性胃炎等疾病。中文医学问答数据集的答案数据中可以直接包含二级分类的疾病名称，例如，若答案数据文本内容为：“初步考虑你的情况还是一个冠心病的表现”，则其中包含的“冠心病”可以看作是关键字，则该句答案可以与冠心病这一二级分类疾病所属的循环系统疾病所对应。上述对应关系可以看作是一种具体的第一关联关系示例。
[0071]
表4示出了一种icd-10分类包含一级分类和二级分类的疾病分类方式：
[0072]
表4 icd-10一级分类和二级分类
[0073]
[0074][0075]
对于第二关联关系，可以按照如下方式确定：对于各个健康指标数据项(指标项)，确定健康指标数据项中的一个或多个指标字段；根据指标字段与疾病类型的相关性，建立健康指标数据项与疾病类型的关联关系，以作为第二关联关系。例如：在“一般检查”这一指标项中，指标字段可以包括舒张压、收缩压、心率、身高、体重等字段；在“血常规”这一指标项中，指标字段可以包括血红蛋白、血细胞计数值、血小板计数值、血红蛋白浓度、红细胞压积、中性粒细胞百分比等字段。第二关联关系可以通过统计相关专业人员的经验或者临床数据，经过数据处理计算得出。
[0076]
表5示出了一种健康档案指标数据项与icd-10一级分类的关联关系：
[0077]
表5 icd-10一级分类与指标项的关联关系
[0078]
[0079][0080]
图4示出了本公开一个实施例的健康档案生成方法的示意图；根据本公开中的方法，可以在问诊过程中，基于患者与医生的问诊对话和预先设置好的各种关联关系，确定出患者问题所涉及的疾病类型，再从健康指标集(健康档案)中选出与疾病类型相关的目标指标项，组合生成定制化健康档案。如图4所示，健康指标集(健康档案)中可以包括以下指标项：基本信息、一般检查、过敏史、吸烟史、饮酒史、家族史、检查/检验、体检报告；选出的目标指标项为：基本信息、一般检查、过敏史、饮酒史，因此可以生成针对此次问诊的定制化健康档案，定制化健康档案包括该患者的基本信息、一般检查、过敏史、饮酒史等相应数据。
[0081]
在一些实施例中，解析问诊对话中的患者问题，在中文医学问答集的问题数据中确定与患者问题相似的相似问题，包括：调用相似度算法，根据患者问题以及问题数据中的各问答集问题，计算各问答集问题与患者问题的相似度；将相似度最高的问答集问题作为相似问题。
[0082]
可以使用自然语言处理技术中用于计算句子相似度的算法，计算各问答集问题与患者问题的相似度，计算出的相似度越高意味着患者问题与问答集问题越相似，在此基础上确定出的目标指标项越对症。
[0083]
进一步地，在一些实施例中，在确定与相似问题对应的目标指标项之前，还包括：确认相似度最高的问答集问题与患者问题的相似度超过预设阈值；若否，则在健康指标集中确定与相似问题对应的目标指标项，包括：以健康指标集中的基础指标项作为目标指标项。
[0084]
预设阈值是可以调整的，如可以设置为0.5、0.6、0.8等数值。若患者问题与各问答集问题的相似度都未超过阈值，则可以认为此次问诊中未找到与患者问题很相关的疾病类型，则可以为根据基础指标项为患者生成此次问诊的定制化健康档案。基础指标项可以包括一个或多个常规检查，基础指标项可以根据临床数据而确定或根据专业医生的经验而确定。在一些实际应用中，可以通过优化相似度的计算方法或调整阈值的方法，改变所确定出
的目标指标项结果。
[0085]
图5示出了本公开一个实施例的健康档案生成方法中确定目标指标项的流程图，包括：
[0086]
步骤s501，调用相似度算法，根据患者问题以及问题数据中的各问答集问题，计算各问答集问题与患者问题的相似度；
[0087]
步骤s503，选出相似度最高的问答集问题；
[0088]
步骤s505，判断相似度最高的问答集问题与患者问题的相似度是否超过预设阈值；若是，则执行步骤s507；若否，则执行步骤s509；
[0089]
步骤s507，将相似度最高的问答集问题作为相似问题，在健康指标集中确定与相似问题对应的指标项，以作为目标指标项；
[0090]
步骤s509，以健康指标集中的基础指标项作为目标指标项。
[0091]
在一些实施例中，相似度算法为余弦相似度算法；以及，调用相似度算法，根据患者问题以及问题数据中的各问答集问题，计算各问答集问题与患者问题的相似度，包括：对患者问题和问答集问题进行分词处理和第一干扰词去除的操作，分别得到患者问题中的第一关键字和问答集问题中的第一关键字，共同形成第一关键字集；根据第一关键字集使用向量对齐的方式，构建患者问题向量和问答集问题向量；调用余弦相似度算法，以基于患者问题向量和问答集问题向量计算得到各问答集问题与患者问题的相似度。
[0092]
第一干扰词可以是无意义的语气词、程度副词等。以下举例说明如何通过余弦相似度算法计算两个句子的相似性：
[0093]
若患者问题为：“您好，我这段时间经常感觉胸闷憋气，非常疲劳”；问答集问题为“平时胸闷憋气，四肢无力，疲劳更严重”，可以先分别获取这两个句子的关键字：
[0094]
患者问题中的第一关键字：胸/闷/憋/气/疲/劳/；
[0095]
问答集问题中的第一关键字：胸/闷/憋/气/四/肢/无/力/疲/劳/严/重；
[0096]
则第一关键字集为：{胸/闷/憋/气/四/肢/无/力/疲/劳/严/重}
[0097]
通过向量对齐的方式，分别构建患者问题向量和问答集问题向量：
[0098]
患者问题向量:{1,1,1,1,0,0,0,0,1,1,0,0}；问答集问题向量：{1,1,1,1,1,1,1,1,1,1,1,1}；
[0099]
再利用余弦相似度算法计算患者问题向量和问答集问题向量之间的余弦相似度：
[0100][0101]
通过上述计算，确定出患者问题“您好，我这段时间经常感觉胸闷憋气，非常疲劳”与问答集问题“平时胸闷憋气，四肢无力，疲劳更严重”之间的相似度为0.71。
[0102]
在上述实施例的基础上，若在循环过所有问答集问题后确定出0.71为最高的相似度，则可以将问答集问题“平时胸闷憋气，四肢无力，疲劳更严重”确定为患者问题“您好，我这段时间经常感觉胸闷憋气，非常疲劳”的相似问题。若预设阈值为0.6，由于0.71＞0.6，则可以进一步确定与相似问题对应的目标指标项以组装为针对此次问诊的健康档案，以下做进一步的说明：
[0103]
根据上述表1和表2可以确定出问答集问题“平时胸闷憋气，四肢无力，疲劳更严重”的目标问答集答案；而根据目标问答集答案中的关键字“冠心病”、“心绞痛”、“心血管疾病”，可以在表4中匹配出目标问答集答案所对应的疾病类型为循环系统疾病；再根据表5，可以找出与循环系统疾病相对应的指标项，如表5所示，与循环系统疾病相对应的指标项可以包括：一般检查、血常规、糖耐量、心脏检查、手术史、既往病史等一级指标项，以及还可以确定出各一级指标项下的二级指标字段(例如在血常规指标项下，还可以包括血红蛋白、白细胞计数值等指标项)，可以将这些指标项作为与此次问诊对应的目标指标项，组装生成针对此次问诊的健康档案。
[0104]
在一些实施例中，相似度算法为皮尔逊相关系数算法；以及，调用相似度算法，根据患者问题以及问题数据中的各问答集问题，计算各问答集问题与患者问题的相似度，包括：对患者问题和问答集问题进行分词处理和第二干扰词去除的操作，分别得到患者问题中的第二关键字和问答集问题中的第二关键字，共同形成第二关键字集；获取第二关键字集中各关键字所属的词属性，以及词属性对应的权重值，以确定第二关键字集中各关键字对应的权重值；根据第二关键字集使用向量对齐的方式，基于第二关键字集中各关键字对应的权重值，构建患者问题权重向量和问答集问题权重向量；调用皮尔逊相关系数算法，以基于患者问题权重向量和问答集问题权重向量计算得到各问答集问题与患者问题的相似度。
[0105]
第二干扰词可以是无意义的语气词等。皮尔逊相关也称为积差相关(或积矩相关)是英国统计学家皮尔逊于20世纪提出的一种计算直线相关的方法：
[0106][0107]
其中，x,y表示2个向量，n表示维度数。
[0108]
以下举例说明如何通过皮尔逊相关系数算法计算两个句子的相似性：
[0109]
表6示出了本计算相似度实施例中所用到的词语权重等级数据。
[0110]
表6权重等级表
[0111][0112]
若患者问题为：“您好，我这段时间经常感觉胸闷憋气，非常疲劳”；问答集问题为“平时胸闷憋气，四肢无力，疲劳更严重”，可以先分别获取这两个句子的关键字：
[0113]
患者问题中的第二关键字：胸/闷/憋/气/疲/劳/；
[0114]
问答集问题中的第二关键字：胸/闷/憋/气/四/肢/无/力/疲/劳/严/重；
[0115]
则第二关键字集为：{胸/闷/憋/气/四/肢/无/力/疲/劳/严/重}
[0116]
通过向量对齐的方式，分别构建患者问题向量和问答集问题向量：
[0117]
患者问题向量：{3,3,3,3,0,0,0,0,3,3,0,0}；问答集问题向量：{3,3,3,3,1,1,2,2,3,3,2,2}；
[0118]
再利用皮尔逊相关系数算法计算患者问题向量和问答集问题向量之间的余弦相似度：
[0119][0120]
通过上述计算，确定出患者问题“您好，我这段时间经常感觉胸闷憋气，非常疲劳”与问答集问题“平时胸闷憋气，四肢无力，疲劳更严重”之间的相似度为0.89。相似度越接近1，则可以认为相似度越高。
[0121]
在一些实施例中，根据目标指标项生成与问诊对话对应的健康档案，包括：获取患者的与目标指标项对应的指标值，组装指标值以生成健康档案；以及，若与目标指标项对应的指标值存在缺失，则根据缺失的指标值生成患者的检测建议，并在获取到缺失的指标值后，更新健康档案。
[0122]
需要注意的是，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。
[0123]
图6示出了本公开一个实施例的健康档案生成装置的框图600的框图；如图6所示，包括：
[0124]
获取模块601，用于获取与患者的问诊对话；解析模块602，用于解析所述问诊对话中的患者问题，在中文医学问答集的问题数据中确定与所述患者问题相似的相似问题；确定指标项模块603，用于基于所述中文医学问答集中的问题数据与健康指标集中的指标项之间的对应关系，在所述健康指标集中确定与所述相似问题对应的目标指标项；其中，所述对应关系是通过国际疾病分类进行建立的；生成模块604，用于根据所述目标指标项生成与所述问诊对话对应的健康档案。
[0125]
所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。
[0126]
图7示出本公开实施例中一种健康档案生成计算机设备的结构框图。需要说明的是，图示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。
[0127]
下面参照图7来描述根据本发明的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。
[0128]
如图7所示，电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于：上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730。
[0129]
其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元710执行，使得所述处理单元710执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元710可以执行如图2中所示的步骤s201，获取与
患者的问诊对话；步骤s203，解析所述问诊对话中的患者问题，在中文医学问答集的问题数据中确定与所述患者问题相似的相似问题；步骤s205，基于所述中文医学问答集中的问题数据与健康指标集中的指标项之间的对应关系，在所述健康指标集中确定与所述相似问题对应的目标指标项；其中，所述对应关系是通过国际疾病分类进行建立的；步骤s207，根据所述目标指标项生成与所述问诊对话对应的健康档案。
[0130]
存储单元720可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(ram)7201和/或高速缓存存储单元7202，还可以进一步包括只读存储单元(rom)7203。
[0131]
存储单元720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204，这样的程序模块7205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0132]
总线730可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
[0133]
电子设备700也可以与一个或多个外部设备800(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备700交互的设备通信，和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口750进行。并且，电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器760通过总线730与电子设备700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0134]
通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd-rom，u盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
[0135]
在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
[0136]
根据本发明实施方式的用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0137]
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或
半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0138]
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0139]
可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、rf等等，或者上述的任意合适的组合。
[0140]
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、c 等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0141]
应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0142]
此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。
[0143]
通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd-rom，u盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
[0144]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种骨碎补提取物生产工艺的制作方法

健康档案生成方法及装置、存储介质及电子设备与流程

相关文献

最热文献