构建医疗训练样本的方法及装置、医疗文本的检索方法与流程

2021-10-29 19:58:00 来源：中国专利 TAG：医疗方法人工智能样本装置

1.本技术涉及人工智能技术领域，具体而言，涉及一种构建医疗训练样本的方法及装置、医疗文本的检索方法。

背景技术：

2.为了提高检索效率，基于人工智能技术构建的医疗问答模型被应用于医疗相关问题的检索中，通过将医疗提问文本输入至该医疗问答模型中，由该医疗问答模型在理解医疗提问文本的基础上自动输出针对该医疗提问文本的医疗答案文本，以此实现自动检索针对医疗提问文本的医疗答案文本。
3.为了保证医疗问答模型针对医疗提问文本所输出医疗答案文本的准确性，需要通过若干医疗训练样本对其进行训练。医疗训练样本是问题
‑
答案
‑
文章三元组语料，其中，问题即医疗提问文本，答案即针对医疗提问文本的医疗答案文本，文章即该医疗答案文本所来源的科普文章。相关技术中，该问题
‑
答案
‑
文章三元组的医疗训练样本通过人工来构建的，存在工作量大且效率低的问题。

技术实现要素：

4.本技术的实施例提供了一种构建医疗训练样本的方法及装置、医疗文本的检索方法，以实现自动构建医疗训练样本。
5.本技术的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本技术的实践而习得。
6.根据本技术实施例的一个方面，提供了一种构建医疗训练样本的方法，包括：
7.获取问答集合，所述问答集合包括针对目标医疗主题的若干问答语料，所述问答语料包括提问文本和回复文本；
8.根据所述回复文本的来源作者所属医疗机构的机构权威等级特征和所述回复文本的来源作者对应的医疗职称特征，计算所述回复文本的权威度分数；
9.根据所述回复文本的权威度分数在所述问答集合中进行问答语料筛选，并将筛选到的问答语料添加到候选问答集合中；
10.将所述候选问答集合中的回复文本进行组合，得到对应于所述目标医疗主题的目标科普文章；
11.将所述目标科普文章与目标问答语料进行关联，得到医疗训练样本，所述目标问答语料是从所述候选问答集合中获取的一问答语料；所述医疗训练样本用于对医疗问答模型进行训练，其中，所述医疗问答模型用于从若干医疗科普文章中获取针对所输入医疗提问文本的医疗答案文本。
12.根据本技术实施例的一个方面，提供了一种医疗文本的检索方法，包括：
13.获取检索请求，所述检索请求指示了医疗提问文本；
14.通过医疗问答模型从若干医疗科普文章中获取针对所述医疗提问文本的医疗答
案文本；所述医疗问答模型是利用上述构建医疗训练样本的方法所构建的医疗训练样本进行训练的；
15.以所述医疗答案文本作为对应于所述医疗答案文本所在医疗科普文章的文本摘要；
16.向所述检索请求的发起方返回所述医疗答案文本所在医疗科普文章的地址信息和文本摘要。
17.根据本技术实施例的一个方面，提供了一种构建医疗训练样本的装置，包括：
18.问答集合获取模块，用于获取问答集合，所述问答集合包括针对目标医疗主题的若干问答语料，所述问答语料包括提问文本和回复文本；
19.权威度分数计算模块，用于根据所述回复文本的来源作者所属医疗机构的机构权威等级特征和所述回复文本的来源作者对应的医疗职称特征，计算所述回复文本的权威度分数；
20.筛选模块，用于根据所述回复文本的权威度分数在所述问答集合中进行问答语料筛选，并将筛选到的问答语料添加到候选问答集合中；
21.组合模块，用于将所述候选问答集合中的回复文本进行组合，得到对应于所述目标医疗主题的目标科普文章；
22.关联模块，用于将所述目标科普文章与目标问答语料进行关联，得到医疗训练样本，所述目标问答语料是从所述候选问答集合中获取的一问答语料；所述医疗训练样本用于对医疗问答模型进行训练，其中，所述医疗问答模型用于从若干医疗科普文章中获取针对所输入医疗提问文本的医疗答案文本。
23.根据本技术实施例的一个方面，提供了一种医疗文本的检索装置，包括：
24.检索请求获取模块，用于获取检索请求，所述检索请求指示了医疗提问文本；
25.医疗答案文本获取模块，用于通过医疗问答模型从若干医疗科普文章中获取针对所述医疗提问文本的医疗答案文本；所述医疗问答模型是利用上述构建医疗训练样本的方法所构建的医疗训练样本进行训练的
26.文本摘要确定模块，用于以所述医疗答案文本作为对应于所述医疗答案文本所在医疗科普文章的文本摘要；
27.返回模块，用于向所述检索请求的发起方返回所述医疗答案文本所在医疗科普文章的地址信息和文本摘要。
28.根据本技术实施例的一个方面，提供了一种电子设备，包括：处理器；存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如上所述构建医疗训练样本的方法或医疗文本的检索方法。
29.根据本技术实施例的一个方面，提供了一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被处理器执行时，实现如上所述构建医疗训练样本的方法或医疗文本的检索方法。
30.在本技术的方案中，借助于互联网医疗内容平台中所存在大量的医疗相关的问答语料，根据相同医疗主题下的多个问答语料来反向自动构造目标科普文章，即将所筛选出候选问答集合中问答语料的回复文本进行组合。在此基础上，基于从候选问答集合中所选取目标问答语料中提问文本和回复文本之间的问答关系，将目标科普文章与该目标问答语
料进行关联，形成了文章
‑
问题
‑
答案三元组的医疗训练样本，实现了自动构建医疗训练样本，而需要通过人工构建，提高了医疗训练样本的构建效率。
31.而且，在本技术的方案中，根据问答语料中回复文本来源的作者所属的医疗机构的机构权威等级特征和回复文本的来源作者对应的医疗职称特征计算问答语料中回复文本的权威度分数，并根据回复文本的权威度分数对问答集合中的问答语料进行筛选，得到候选问答集合，可以保证候选问答语料中回复文本的权威度高，保证了候选问答集合中回复文本、目标科普文章中内容的科学性和可靠性，从而，保证了所得到医疗训练样本的可靠性。
32.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本技术。
附图说明
33.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：
34.图1示出了可以应用本技术实施例的技术方案的示例性系统架构的示意图。
35.图2是根据本技术的一个实施例示出的构建医疗训练样本的方法的流程图。
36.图3是根据本技术一实施例示出的获取回复文本的来源作者所属医疗机构的机构权威等级特征的流程图。
37.图4是根据本技术实施例示出的医疗训练样本的构建示意图。
38.图5是根据本技术一实施例示出的步骤240之前步骤的流程图。
39.图6是根据本技术一实施例示出的步骤510的流程图。
40.图7是根据本技术一实施例示出的步骤610的流程图。
41.图8是word2vec模型的模型结构示意图。
42.图9是根据本技术的一实施例示出的步骤620的流程图。
43.图10是根据本技术一实施例示出的医疗文本的检索方法的流程图。
44.图11是根据本技术一实施例示出的构建医疗训练样本的装置的框图。
45.图12是根据本技术一实施例示出的医疗文本的检索装置的框图。
46.图13示出了适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。
具体实施方式
47.现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本技术将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。
48.此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本技术的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本技术的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方
法、装置、实现或者操作以避免模糊本技术的各方面。
49.附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
50.附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。
51.需要说明的是：在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
52.人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
53.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
54.随着用户对医疗健康问题的关注度的提升，医疗健康方面的科普性文章越来越多。其中，在用户需要了解与某一疾病相关的问题时，一般会通过输入提问文本在网络中进行相关信息的搜索，以从所检索到的结果中自行阅读寻找答案。
55.为了提高医疗相关信息的检索效率，基于人工智能技术构建的医疗问答模型被应用于医疗相关问题的检索中，通过将用户的医疗提问文本输入至该医疗问答模型中，该医疗问答模型可以通过理解医疗提问文本，并在理解的基础上自动输出针对该医疗提问文本的医疗答案文本，通过该医疗问答模型实现了自动检索针对医疗提问文本的医疗答案文本。
56.为了保证医疗问答模型针对医疗提问文本所输出医疗答案文本的准确性，需要通过若干医疗训练样本对其进行训练。其中，医疗训练样本是问题
‑
答案
‑
文章三元组语料，其中，问题即医疗提问文本，答案即针对医疗提问文本的医疗答案文本，文章即该医疗答案文本所来源的文章。相关技术中，该问题
‑
答案
‑
文章三元组语料一般是由医学方向的编辑通过理解医疗提问文本、以及各种医疗文章，判断各医疗文章中是否包括针对该医疗提问文本的医疗答案文本，若有，则以此为基础构建医疗训练样本。
57.为了保证医疗问答模型的准确性，所需要的医疗训练样本的数量较多，而如果采用相关技术中的人工构建方法，医疗训练样本的构建的工作量大而且效率低。基于此，提出了本技术的方案，以实现自动构建医疗训练样本。
58.图1示出了可以应用本技术实施例的技术方案的示例性系统架构的示意图。
59.如图1所示，系统架构可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种，当然也可以是台式计算机等)、网络104和服务器105。
网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等。
60.应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
61.在本技术的一些实施例中，构建医疗训练样本的方法可以由服务器105执行，以基于问答集合中的问答语料按照本技术的构建医疗训练样本的方法来构建医疗训练样本。
62.在本技术的一些实施例中，还可以在服务器105中构建医疗问答模型，然后通过所构建的医疗训练样本对该医疗问答模型进行训练。在训练完成后，该服务器105可以根据训练后的医疗问答模型自动从医疗科普文章中检索针对医疗提问文本医疗答案文本。
63.在本技术的一些实施例中，用户可以基于终端设备向服务器105发起检索请求，该检索请求指示了医疗提问文本，然后服务器105通过医疗问答模型自动进行检索，以获取到针对医疗提问文本的医疗答案文本，并得到该医疗答案文本所来源医疗科普文章的地址信息，例如该医疗科普文章的链接。
64.在本技术的一些实施例中，服务器105将所得到医疗答案文本作为该医疗答案文本所来源医疗科普文章的文本摘要，并将该医疗答案文本所来源医疗科普文章的文本摘要和地址信息返回至终端设备，并在终端设备中显示文本摘要，从而用户可以快速地了解到该医疗科普文章中所包含针对该医疗提问文本的医疗答案文本，而不需要用户通过阅读该医疗科普文章去自行寻找针对该医疗提问文本的医疗答案文本。
65.以下对本技术实施例的技术方案的实现细节进行详细阐述：
66.图2示出了根据本技术的一个实施例示出的构建医疗训练样本的方法的流程图，该方法可以由具备处理能力的计算机设备执行，例如服务器等，在此不进行具体限定。参照图2所示，该方法至少包括步骤210至250，详细介绍如下：
67.步骤210，获取问答集合，所述问答集合包括针对目标医疗主题的若干问答语料，所述问答语料包括提问文本和回复文本。
68.目标医疗主题是指问答集合中各问答语料所共同相关的医疗主题。在具体实施例中，该医疗主题的粒度可以根据实际需要进行设定。
69.在本技术的一些实施例中，该医疗主题的粒度可以是以疾病为粒度，例如医疗主题可以是高血压、糖尿病、面瘫、风湿病等。在本技术的一些实施例中，还可以选择更小粒度来界定医疗主题，以“疾病症状”、“疾病分类”、“疾病饮食”、来界定医疗主题，例如将“高血压头晕”作为一医疗主题，将“高血压病因”作为一医疗主题。
70.问答语料中的提问文本是指用于指示所提问题的文本，回复文本是指用于指示对提问文本所对应的问题所进行回答的文本。
71.在本技术的一些实施例中，为了保证所构建医疗训练样本的数量，可以针对不同医疗主题进行问答语料收集，对应得到每一医疗主题对应的问答集合，进而进行医疗训练样本的构建。
72.在一些互联网平台上，用户可以针对医疗健康的主题进行提问，即用户可以在互联网平台上发布针对医疗主题的提问文本。该平台下的其他用户，例如一些认证为医疗工作者的用户，可以针对该平台中提问用户所发布的提问文本进行回答，并将对提问文本进
行回答的回复文本发布在该平台上。因此，在该种互联网平台上针对不同医疗主题进行问答语料收集。
73.步骤220，根据所述回复文本的来源作者所属医疗机构的机构权威等级特征和所述回复文本的来源作者对应的医疗职称特征，计算所述回复文本的权威度分数。
74.在本方案中，为了保证回复文本对应于提问文本所指示问题的科学性和准确性，所收集的回复文本是来源于认证为医务工作者的用户，同时在该回复文本所来源的平台中记录了该回复文本的来源作者所属的医疗机构、以及该来源作者的医疗职称。
75.因此，可以在该回复文本所在的页面中采集该回复文本的来源作者(即发布该回复文本的用户)的用户信息，并从该用户信息中提取该回复文本的来源作者的医疗职称、以及该回复文本的来源作者所属的医疗机构。
76.医疗职称特征用于表征用户的医疗职称，医疗职称包括初级职称(医士、医师/住院医师)、中级职称(主治医师)、副高级职称(副主任医师)、正高级职称(主任医师、主任中医师、主任药师、主任中药师、主任护师、主任检验师)。
77.机构权威等级特征用于表征医疗机构的权威度，其权威度可以根据在医疗机构排行榜中的排名来体现，还可以通过该医疗机构的等级来体现。
78.对于通过医疗机构的等级来体现医疗机构的权威度的场景下，医疗机构的等级反映该了医疗机构的综合情况，因此可以将医疗机构的等级作为该医疗机构的机构权威等级特征。在中国，医院分为三级十等(一级医院、二级医院、三级医院，每一级医院划分为甲、乙、丙三等，其中，三级医院增设特定级别)。当然，在不同的国家和地区，医疗机构的等级的划分可能存在差异，因此，所列举在中国的医疗机构的等级的划分不同认为是对本技术使用范围的限制。
79.在本技术的一些实施例中，可以将回复文本的来源作者所属医疗机构的机构权威等级特征和所述回复文本的来源作者对应的医疗职称特征进行加权，来得到该回复文本的权威度分数。
80.具体的，步骤220可以进一步包括：获取所述回复文本的来源作者所属医疗机构的机构权威等级特征，并获取所述回复文本的来源作者对应的医疗职称特征；将所述机构权威等级特征所映射的数值与所述医疗职称特征所映射的数值进行加权，得到所述回复文本对应的权威度分数。
81.在本实施例中，预先构建机构权威等级特征的第一数值映射表和构建医疗职称特征的第二数值映射表。在该第一数值映射表中，每一机构权威等级特征与一数值相对应；同理，在该第二数值映射表，每一医疗职称特征与一数值相对应。在此基础上，在确定回复文本对应的机构权威等级特征和对应的医疗职称特征后，根据该第一数值映射表确定该回复文本的来源作者所属医疗机构的机构权威等级特征所映射的数值，以及根据该第二数值映射表确定回复文本的来源作者对应的医疗职称特征所映射的数值。
82.在本技术的一些实施例中，可以通过如图3所示的过程来获取回复文本的来源作者所属医疗机构的机构权威等级特征，如图3所示，包括：
83.步骤310，获取所述回复文本对应的机构信息，所述机构信息指示了所述回复文本的来源作者所属的目标医疗机构。
84.该回复文本对应的机构信息可以从该回复文本来源作者的用户信息中获取。
85.步骤320，确定所述目标医疗机构在目标医疗机构排行榜中的排名。
86.目标医疗机构排行榜是指包括该目标医疗机构的医疗排行榜。
87.在本技术的一些实施例中，步骤320进一步包括：在医疗机构排行榜集合中进行查询，获得包括所述目标医疗机构的目标医疗机构排行榜；在所述目标医疗机构排行榜中获取所述目标医疗机构所在的排名。
88.在本实施例中，预先收集了多种医疗机构排行榜并构建了医疗机构排行榜集合。医疗机构排行榜例如每一年度的复旦医学排行榜、艾利彼医院排行榜，其中，艾利彼医院排行榜包括针对地市级100强医院的排行榜和针对市级医院300强医院的排行榜；复旦医学排行榜收录了国内100强医院。当然，在其他实施例中，还可以包括更多的医疗机构排行榜，并不限于上述所列举，具体可根据实际需要选用。
89.在本技术的一些实施例中，由于医疗机构排行榜在按照一定周期进行更新，例如每一年更新一次，为了保证医疗机构排行榜集合中的医疗机构排行榜的时效性，该医疗机构排行榜集合中的医疗机构排行榜可以是距离当前设定时间段内所发布的医疗机构排行榜，例如最近5年、最近3年所发布的医疗机构排行榜等。
90.在确定回复文本的来源作者所属的目标医疗机构后，可以对应在该医疗机构排行榜集合中查询该目标医疗机构，从而确定包括该目标医疗机构的目标医疗机构排行榜，以及该目标医疗机构在该目标医疗机构排行榜中的排名。
91.步骤330，根据所述目标医疗机构所在的目标医疗机构排行榜和所述目标医疗机构在所述目标医疗机构排行榜中的排名，确定所述目标医疗机构对应的机构权威等级特征。
92.可以理解的是，不同医疗机构排行榜所对应的社会认可度存在差异，而同一医疗机构排行榜中的不同排名也体现了不同医疗机构的社会认可度。因此，可以综合根据目标医疗机构所在的目标医疗机构排行榜和所述目标医疗机构在所述目标医疗机构排行榜中的排名来综合确定该目标医疗机构对应的机构权威等级特征。
93.在本技术的一些实施例中，步骤330包括：获取所述目标医疗机构排行榜对应的权重系数；将所述目标医疗机构排行榜对应的权重系数与所述目标医疗机构在目标医疗机构排行榜中的排名相乘，得到目标数值；将所得到的目标数值作为所述目标医疗机构对应的机构权威等级特征。
94.在本实施例中，预先为医疗机构排行榜集合中的每个医疗机构排行榜配置了权重系数，该权重系数用于表征该医疗机构排行榜的社会认可度，例如，对于上述复旦医学排行榜、地市级100强医院排行榜、市级医院300强医院排行榜中，可以配置该三个排行榜的权重系数由大到小的顺序为：复旦医学排行榜、地市级100强医院排行榜、市级医院300强医院的排行榜。
95.在本实施例中，为医疗机构排行榜配置权重系数，从而，在确定回复文本的来源作者所属的目标医疗机构后，所述目标医疗机构排行榜对应的权重系数与所述目标医疗机构在目标医疗机构排行榜中的排名相乘，得到目标数值，并将所得到的目标数值作为所述目标医疗机构对应的机构权威等级特征，实现了将该目标医疗机构对应的机构权威等级特征进行数值量化。
96.在本技术的一些实施例中，还可以直接将该所述目标医疗机构所在的目标医疗机
构排行榜和所述目标医疗机构在所述目标医疗机构排行榜中的排名作为该目标医疗机构对应的机构权威等级特征。
97.在本技术的一些实施例中，还可以基于医疗机构排行榜集合中各医疗机构排行榜所包括的医疗机构对问答集合中的问答语料进行筛选，从中筛选出满足预设条件的问答语料，例如，该预设条件可以是回复文本的来源作者所属的目标医疗机构是医疗机构排行榜集合中各医疗机构排行榜所包括的一医疗机构。
98.请继续参阅图2，步骤230，根据所述回复文本的权威度分数在所述问答集合中进行问答语料筛选，并将筛选到的问答语料添加到候选问答集合中。
99.在一实施例中，可以设定分数阈值，从而，根据各回复文本的权威度分数，从问答集合中筛选出权威度分数高于分数阈值的回复文本所在的问答语料，进而构建候选问答集合。
100.在一实施例中，可以根据回复文本的权威度分数按照由大到小的顺序进行排序，然后从所得到的排序中筛选出位于排序中前设定数量的回复文本，将所筛选出回复文本所在的问答语料添加到候选问答集合中。
101.通过根据回复文本的权威度分数对问答集合中的问答语料进行筛选，可以保证从问答集合中筛选出权威度分数较高的回复文本所在的问答语料，以保证所构建得到医疗训练样本的科学性和可靠性。
102.步骤240，将所述候选问答集合中的回复文本进行组合，得到对应于所述目标医疗主题的目标科普文章。
103.目标科普文章是指对应于目标医疗主题的医疗科普文章。
104.在本技术的一些实施例中，可以将候选问答集合中的多个回复文本按段进行组合拼接，生成对应于目标医疗主题的目标科普文章。
105.步骤250，将所述目标科普文章与目标问答语料进行关联，得到医疗训练样本，所述目标问答语料是从所述候选问答集合中获取的一问答语料；所述医疗训练样本用于对医疗问答模型进行训练，其中，所述医疗问答模型用于从若干医疗科普文章中获取针对所输入医疗提问文本的医疗答案文本。
106.其中，可以从候选问答集合中随机选取一问答语料作为目标问答语料。
107.将目标科普文章与目标语料进行关联，即形成三元组的医疗训练样本，即文章
‑
问题
‑
答案的训练样本。
108.图4是根据本技术实施例示出的医疗训练样本的构建示意图，如图4所示，若通过步骤230进行问答语料筛选后，针对目标医疗主题的候选问答集合中包括三组问答语料，即问答语料1(包括提问文本1和回复文本1)、问答语料2(包括提问文本2和回复文本2)和问答语料3(包括提问文本3和回复文本3)，在此基础上，将该候选问答集合中的回复文本1、回复文本2和回复文本3进行拼接得到目标医疗科普文章；并从候选问答集合中选取问答语料2作为目标问答语料，将该目标医疗科普文章与目标问答语料中的提问文本2、回复文本2进行关联，即得到三元组的医疗训练样本。
109.在通过医疗训练样本训练医疗问答模型的过程中，将医疗训练样本中的提问文本输入至该医疗问答模型中，由该医疗问答模型根据该提问文本的语义特征输出针对该提问文本的回复文本，以及输出用于指示所输出回复文本所来源的医疗科普文章的文章信息；
然后根据医疗问答模型所输出的回复文本和所输出的文章信息与该医疗训练样本中的回复文本和目标医疗科普文章来计算该医疗问答模型的损失函数的函数值；再根据所计算得到损失函数的函数值调整该医疗问答模型的参数，直至损失函数收敛。
110.在本技术的方案中，借助于互联网医疗内容平台中所存在大量的医疗相关的问答语料，而问答语料中的回复文本一般较短，因此，通过相同医疗主题下的多个问答语料来反向自动构造目标科普文章，即将所筛选出候选问答集合中问答语料的回复文本进行组合。在此基础上，基于从候选问答集合中所选取目标问答语料中提问文本和回复文本之间的问答关系，将目标科普文章与该目标问答语料进行关联，形成了文章
‑
问题
‑
答案三元组的医疗训练样本，实现了自动构建医疗训练样本，而需要通过人工构建，提高了医疗训练样本的构建效率。
111.而且，在本技术的方案中，根据问答语料中回复文本来源的作者所属的医疗机构的机构权威等级特征和回复文本的来源作者对应的医疗职称特征计算问答语料中回复文本的权威度分数，并根据回复文本的权威度分数对问答集合中的问答语料进行筛选，得到候选问答集合，可以保证候选问答语料中回复文本的权威度高，保证了候选问答集合中回复文本、目标科普文章中内容的科学性和可靠性，从而，保证了所得到医疗训练样本的可靠性。
112.相关技术中基于人工编辑生产阅读理解语料的方式所构建的医疗训练样本由于存在提问文本以及回复文本句法结构单一，会导致通过该种人工所构建医疗训练样本进行训练后的医疗问答模型不能适应医疗问法和答案多样性的场景，进而导致训练后的医疗问答模型存在召回率不足和泛化性不够等缺点。由于不同用户针对同一问题的问法、以及回答的方式存在不同，而本方案中所构建的医疗训练样本来源于互联网平台中的众多用户的问答语料，从而使得所收集到的多个问答预料可以涵盖针对同一目标医疗主题的多种提问方式和回复方式，保证了所得到多个医疗训练样本中的提问文本、回复文本在句法上的多样性，则在通过所得到医疗训练样本对医疗问答模型进行训练后，可以使得该医疗问答模型可以有效应对句法结构多样化的提问文本。
113.在本技术的一些实施例中，如图5所示，步骤240之前，该方法还包括：
114.步骤510，计算所述候选问答集合中任意两个问答语料之间的语义相似度。
115.可以先分别构建每一问答语料的语义特征向量，然后根据两问答语料的语义特征向量计算该两问答语料之间的语义相似度。
116.在本技术的一些实施例中，由于问答语料包括提问文本和回复文本，因此，可以先分别构建提问文本的语义特征向量和回复文本的语义特征向量，然后将一问答语料中提问文本的语义特征向量和回复文本的语义特征向量进行拼接，将拼接得到的向量作为该问答语料的语义特征向量。
117.步骤520，根据所述语义相似度对所述候选问答集合中的问答语料进行过滤，将过滤后所述候选问答集合中问答语料中的回复文本作为进行组合的对象。
118.通过任意两个问答语料之间的语义相似度来对候选问答集合语义相似度高的问答语料过滤掉。具体的，可以设定语义相似度阈值，将语义相似度高于该语义相似度阈值的问答语料过滤掉，从而，基于语义相似度低的问答语料中的回复文本来组合得到目标医疗科普文章，可以保证目标医疗科普文章的内容重复率低。
119.在本技术的一些实施例中，如图6所示，步骤510，包括：
120.步骤610，对于所述候选问答集合中需要进行相似度计算的第一问答语料和第二问答语料，计算所述第一问答语料中的提问文本与所述第二问答语料中的提问文本之间的第一语义相似度。
121.步骤620，计算所述第一问答语料中的回复文本与所述第二问答语料中的回复文本之间的第二语义相似度。
122.步骤630，将所述第一语义相似度和所述第二语义相似度进行加权，得到所述第一问答语料与所述第二问答语料之间的语义相似度。
123.其中，第一问答语料是指待进行语义相似度计算的两问答语料中的一问答语料，将另一问答语料称为第二问答语料。
124.第一语义相似度是指所述第一问答语料中的提问文本与所述第二问答语料中的提问文本之间的语义相似度。
125.第二语义相似度是指第一问答语料中的回复文本与所述第二问答语料中的回复文本之间的语义相似度。
126.为第一语义相似度和第二语义相似度所设定的加权系数可以根据实际需要进行设定，在此不进行具体限定。
127.在本实施例中，通过将第一问答语料和第二问答语料中的提问文本和回复文本来分别进行语义相似度计算，并将提问文本之间的第一语义相似度与回复文本之间的第二语义相似度进行加权得到两问答语料之间的语义相似度。
128.在本技术的一些实施例中，如图7所示，步骤610，包括：
129.步骤710，获取所述第一问答语料的提问文本中各个分词对应的第一词向量；并获取所述第二问答语料的提问文本中各个分词对应的第二词向量。
130.步骤720，将对应于所述第一问答语料的第一词向量按位累加，得到所述第一问答语料中的提问文本对应的提问语义向量；并将对应于所述第二问答语料的第二词向量按位累加，得到所述第二问答语料中的提问文本对应的提问语义向量。
131.第一词向量是指第一问答语料的提问文本中的分词的词向量；第二词向量是指第二问答语料的提问文本中分词的词向量；提问语义向量是指提问文本的语义向量。
132.在本技术的一些实施例中，由于问答语料中提问文本相较于回复文本较短，因此，可以针对提问文本中的每一个分词构建词向量，并以此为基础构建该提问文本的语义向量。
133.在本技术的一些实施例中，可以通过word2vec模型来构建提问文本中每一分词的词向量。其中，word2vec模型是由google的mikolov等人提出的一个词向量计算的模型。
134.图8示出了word2vec模型的模型结构示意图，如图8所示，该word2vec模型包括输入层、隐藏层和输出层，其中，输入层用于接收完成分词后的文本，输出层用于输出每一分词的词向量。在本实施例中，在步骤710之前，还需要通过医疗相关的文本对该word2vec模型进行训练。训练完成之后，word2vec模型可用来映射每个词到一个向量，即该词的词向量。
135.在本技术的一些实施例中，在步骤710中，word2vec模型可以为提问文本中的每一分词输出一个200维的词向量，然后将提问文本中每个分词的200维词向量按位累加即得到
该提问文本的200维词向量(即提问语义向量)表示。
136.步骤730，计算所述第一问答语料中的提问文本对应的提问语义向量和所述第一问答语料中的提问文本对应的提问语义向量之间的距离，得到所述第一问答语料中的提问文本与所述第二问答语料中的提问文本之间的第一语义相似度。
137.在步骤730中，可以基于第一问答语料中的提问文本对应的提问语义向量和所述第一问答语料中的提问文本对应的提问语义向量计算两提问语义向量之间的余弦相似度。该余弦相似度的范围为0～1之间，越接近1表示越相似，越接近0表示越不相似。
138.在本技术的一些实施例中，如图9所示，步骤620，包括：
139.步骤910，按照simhash算法分别计算所述第一问答语料中回复文本对应的二进制签名和计算所述第二问答语料中回复文本对应的二进制签名。
140.在本技术的一些实施例中，可以不用计算全部回复文本的二进制签名，而从回复文本中选取预设数量的句子(例如选取最长的三个句子)来计算对应的二进制签名。
141.步骤920，计算所述第一问答语料中回复文本对应的二进制签名和所述第二问答语料中回复文本对应的二进制签名之间的海明距离。
142.在得到第一问答语料中回复文本对应的二进制签名和所述第二问答语料中回复文本对应的二进制签名后，将两二进制签名进行对比，不同位的数量即为两二进制签名之间的海明距离。其中，海明距离越大，则表明两回复文本越不相似，反之，海明距离越小，则两回复文本越相似。
143.步骤930，根据所计算得到的海明距离确定所述第一问答语料中的回复文本与所述第二问答语料中的回复文本之间的第二语义相似度。
144.图10示出了根据本技术的一个实施例示出的医疗文本的检索方法的流程图，该方法可以由具备处理能力的计算机设备执行，例如服务器等。参照图10所示，该方法至少包括步骤1010至1040，详细说明如下：
145.步骤1010，获取检索请求，所述检索请求指示了医疗提问文本。
146.步骤1020，通过医疗问答模型从若干医疗科普文章中获取针对所述医疗提问文本的医疗答案文本，所述医疗问答模型是利用权利要求1
‑
8中任一项所述的方法所构建的医疗训练样本进行训练的。
147.在步骤1020中，医疗问答模型一方面需要定位存在针对医疗提问文本所指示问题的答案的医疗科普文章，另一方面还需要在所定位到的医疗科普文章中获取表征医疗提问文本所指示问题的答案的内容(即医疗答案文本)。
148.步骤1030，以所述医疗答案文本作为对应于所述医疗答案文本所在医疗科普文章的文本摘要。
149.步骤1040，向所述检索请求的发起方返回所述医疗答案文本所在医疗科普文章的地址信息和文本摘要。
150.医疗科普文章的地址信息可以是该医疗科普文章的链接。用户可以基于该医疗科普文章的地址信息进入到医疗科普文章的页面中，以阅读该医疗科普文章。
151.由于将医疗答案文本作为对应于所述医疗答案文本所在医疗科普文章的文本摘要，从而，在将检索结果返回至检索请求的发起方后，可以直接在检索请求的发起方所在终端显示检索结果的页面中显示该医疗答案文本所在医疗科普文章的文本摘要，即医疗答案
文本。以此，用户可以直接在显示检索结果的页面中获取到该医疗提问文本所指示问题的答案，而不需要用户通过全文阅读医疗答案文本所在医疗科普文章来自行寻找答案。
152.因此，通过本技术的检索方法，实现了自动在医疗科普文章定位和获取表征医疗提问文本所指示问题的答案的医疗答案文本，而不需要用户通过阅读科普文章来自行寻找答案。
153.以下介绍本技术的装置实施例，可以用于执行本技术上述实施例中的方法。对于本技术装置实施例中未披露的细节，请参照本技术上述方法实施例。
154.图11是根据一实施例示出的构建医疗训练样本的装置的框图，如图11所示，该构建医疗训练样本的装置包括：
155.问答集合获取模块1110，用于获取问答集合，所述问答集合包括针对目标医疗主题的若干问答语料，所述问答语料包括提问文本和回复文本；
156.权威度分数计算模块1120，用于根据所述回复文本的来源作者所属医疗机构的机构权威等级特征和所述回复文本的来源作者对应的医疗职称特征，计算所述回复文本的权威度分数；
157.筛选模块1130，用于根据所述回复文本的权威度分数在所述问答集合中进行问答语料筛选，并将筛选到的问答语料添加到候选问答集合中；
158.组合模块1140，用于将所述候选问答集合中的回复文本进行组合，得到对应于所述目标医疗主题的目标科普文章；
159.关联模块1150，用于将所述目标科普文章与目标问答语料进行关联，得到医疗训练样本，所述目标问答语料是从所述候选问答集合中获取的一问答语料；所述医疗训练样本用于对医疗问答模型进行训练，其中，所述医疗问答模型用于从若干医疗科普文章中获取针对所输入医疗提问文本的医疗答案文本。
160.在本技术的一些实施例中，权威度分数计算模块1120，包括：
161.机构权威等级特征获取单元，用于获取所述回复文本的来源作者所属医疗机构的机构权威等级特征；
162.以及医疗职称特征获取单元，用于获取所述回复文本的来源作者对应的医疗职称特征；
163.加权单元，用于将所述机构权威等级特征所映射的数值与所述医疗职称特征所映射的数值进行加权，得到所述回复文本对应的权威度分数。
164.在本技术的一些实施例中，机构权威等级特征获取单元，包括：
165.机构信息获取单元，用于获取所述回复文本对应的机构信息，所述机构信息指示了所述回复文本的来源作者所属的目标医疗机构；
166.排名确定单元，用于确定所述目标医疗机构在目标医疗机构排行榜中的排名；
167.机构权威等级特征确定单元，用于根据所述目标医疗机构所在的目标医疗机构排行榜和所述目标医疗机构在所述目标医疗机构排行榜中的排名，确定所述目标医疗机构对应的机构权威等级特征。
168.在本技术的一些实施例中，机构权威等级特征确定单元，包括：
169.权重系数获取单元，用于获取所述目标医疗机构排行榜对应的权重系数；
170.相乘单元，用于将所述目标医疗机构排行榜对应的权重系数与所述目标医疗机构
在目标医疗机构排行榜中的排名相乘，得到目标数值；
171.第一确定单元，用于将所得到的目标数值作为所述目标医疗机构对应的机构权威等级特征。
172.在本技术的一些实施例中，构建医疗训练样本的装置还包括：
173.语义相似度计算模块，用于计算所述候选问答集合中任意两个问答语料之间的语义相似度；
174.过滤模块，用于根据所述语义相似度对所述候选问答集合中的问答语料进行过滤，将过滤后所述候选问答集合中问答语料中的回复文本作为进行组合的对象。
175.在本技术的一些实施例中，语义相似度计算模块，包括：
176.第一语义相似度计算单元，用于对于所述候选问答集合中需要进行相似度计算的第一问答语料和第二问答语料，计算所述第一问答语料中的提问文本与所述第二问答语料中的提问文本之间的第一语义相似度；
177.第二语义相似度计算单元，用于计算所述第一问答语料中的回复文本与所述第二问答语料中的回复文本之间的第二语义相似度；
178.语义相似度计算单元，用于将所述第一语义相似度和所述第二语义相似度进行加权，得到所述第一问答语料与所述第二问答语料之间的语义相似度。
179.在本技术的一些实施例中，第一语义相似度计算单元，包括：
180.第一词向量获取单元，用于获取所述第一问答语料的提问文本中各个分词对应的第一词向量；
181.第二词向量获取单元，用于获取所述第二问答语料的提问文本中各个分词对应的第二词向量；
182.第一累加单元，用于将对应于所述第一问答语料的第一词向量按位累加，得到所述第一问答语料中的提问文本对应的提问语义向量；
183.第二累加单元，用于将对应于所述第二问答语料的第二词向量按位累加，得到所述第二问答语料中的提问文本对应的提问语义向量；
184.距离计算单元，用于计算所述第一问答语料中的提问文本对应的提问语义向量和所述第一问答语料中的提问文本对应的提问语义向量之间的距离，得到所述第一问答语料中的提问文本与所述第二问答语料中的提问文本之间的第一语义相似度。
185.在本技术的一些实施例中，第二语义相似度计算单元，包括：
186.二进制签名计算单元，用于按照simhash算法分别计算所述第一问答语料中回复文本对应的二进制签名和计算所述第二问答语料中回复文本对应的二进制签名；
187.海明距离计算单元，用于计算所述第一问答语料中回复文本对应的二进制签名和所述第二问答语料中回复文本对应的二进制签名之间的海明距离；
188.第二语义相似度确定单元，用于根据所计算得到的海明距离确定所述第一问答语料中的回复文本与所述第二问答语料中的回复文本之间的第二语义相似度。
189.图12是根据一实施例示出的医疗文本的检索装置的框图，如图12所示，该医疗文本的检索装置包括：
190.检索请求获取模块1210，用于获取检索请求，所述检索请求指示了医疗提问文本；
191.医疗答案文本获取模块1220，用于通过医疗问答模型从若干医疗科普文章中获取
针对所述医疗提问文本的医疗答案文本；
192.文本摘要确定模块1230，用于以所述医疗答案文本作为对应于所述医疗答案文本所在医疗科普文章的文本摘要；
193.返回模块1240，用于向所述检索请求的发起方返回所述医疗答案文本所在医疗科普文章的地址信息和文本摘要。
194.图13示出了适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。
195.需要说明的是，图13示出的电子设备的计算机系统1300仅是一个示例，不应对本技术实施例的功能和使用范围带来任何限制。
196.如图13所示，计算机系统1300包括中央处理单元(central processing unit，cpu)1301，其可以根据存储在只读存储器(read
‑
only memory，rom)1302中的程序或者从存储部分1308加载到随机访问存储器(random access memory，ram)1303中的程序而执行各种适当的动作和处理，例如执行上述实施例中的方法。在ram 1303中，还存储有系统操作所需的各种程序和数据。cpu1301、rom1302以及ram 1303通过总线1304彼此相连。输入/输出(input/output，i/o)接口1305也连接至总线1304。
197.以下部件连接至i/o接口1305：包括键盘、鼠标等的输入部分1306；包括诸如阴极射线管(cathode ray tube，crt)、液晶显示器(liquid crystal display，lcd)等以及扬声器等的输出部分1307；包括硬盘等的存储部分1308；以及包括诸如lan(local area network，局域网)卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至i/o接口1305。可拆卸介质1311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1310上，以便于从其上读出的计算机程序根据需要被安装入存储部分1308。
198.特别地，根据本技术的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本技术的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1309从网络上被下载和安装，和/或从可拆卸介质1311被安装。在该计算机程序被中央处理单元(cpu)1301执行时，执行本技术的系统中限定的各种功能。
199.需要说明的是，本技术实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasable programmable read only memory，eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compact disc read
‑
only memory，cd
‑
rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读
存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。
200.附图中的流程图和框图，图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
201.描述于本技术实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。
202.作为另一方面，本技术还提供了一种计算机可读存储介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读存储介质承载计算机可读指令，当该计算机可读存储指令被处理器执行时，实现上述任一实施例中的方法。
203.根据本技术的一个方面，还提供了一种电子设备，其包括：处理器；存储器，存储器上存储有计算机可读指令，计算机可读指令被处理器执行时，实现上述任一实施例中的方法。
204.根据本技术实施例的一个方面，提供了计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一实施例中的方法。
205.应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本技术的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
206.通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本技术实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd
‑
rom，u盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本技术实施方式的方法。
207.本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化，这些变型、用
途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。
208.应当理解的是，本技术并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：肉毒神经毒素用于治疗震颤的新用途的制作方法

构建医疗训练样本的方法及装置、医疗文本的检索方法与流程

相关文献

最热文献