一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

医疗标题匹配方法、装置、设备及存储介质与流程

2021-10-29 19:59:00 来源:中国专利 TAG:匹配 装置 医疗 标题 方法


1.本技术涉及搜索技术领域,尤其涉及一种医疗标题匹配方法、装置、设备及存储介质。


背景技术:

2.随着互联网医疗的发展,用户可以通过浏览器或者医疗词典应用等查询医疗知识,如用户可以通过医疗百科词典查询到更为专业和权威的医疗知识。
3.在医疗内容搜索场景中,每份医疗内容都会有一个医疗标题。在此基础上,在获得用户输入的医疗相关的医疗搜索语句后,搜索引擎便会将医疗搜索语句与各医疗内容的医疗标题进行匹配,并搜索出医疗标题与该医疗搜索语句匹配的至少一篇医疗文档。
4.然而,在医疗搜索领域,并不能较为准确的确定出医疗搜索语句与医疗标题的匹配度,使得用户无法通过医疗百科词典准确查询到所需的医疗内容。


技术实现要素:

5.有鉴于此,本技术提供了一种医疗标题匹配方法、装置、设备及存储介质,以实现利用医疗搜索语句更为准确地匹配出医疗标题代表的医疗内容。
6.为实现上述目的,本技术提供了如下技术方案:
7.一方面,本技术提供了一种医疗标题匹配方法,包括:
8.获得医疗搜索语句;
9.针对待匹配的多个医疗标题中每个医疗标题,确定所述医疗标题的标题向量;
10.确定所述医疗搜索语句的语句向量;
11.针对每个医疗标题,基于所述医疗标题的标题向量和所述医疗搜索语句的语句向量,确定所述医疗标题与所述医疗搜索语句的特征相似度;
12.针对每个医疗标题,基于所述医疗标题的标题向量和所述医疗搜索语句的语句向量,并利用意图识别模型确定所述医疗标题与所述医疗搜索语句的意图匹配结果,所述意图匹配结果用于表征所述医疗标题与所述医疗搜索语句之间的医疗意图是否相同,所述意图识别模型为依据多个第一样本对各自标注的意图匹配结果,并利用各第一样本对内的医疗标题样本和医疗搜索语句样本各自的向量训练得到;
13.结合各医疗标题与所述医疗搜索语句的特征相似度和意图匹配结果,确定所述多个医疗标题的匹配度排序。
14.在一种可能的情况中,在所述确定所述医疗标题与所述医疗搜索语句的特征相似度之前,还包括:
15.确定所述医疗搜索语句的语句向量与所述医疗标题的标题向量之间的向量差,得到差值向量;
16.所述基于所述医疗标题的标题向量和所述医疗搜索语句的语句向量,确定所述医疗标题与所述医疗搜索语句的特征相似度,包括:
17.基于所述医疗标题的标题向量、医疗搜索语句的语句向量以及所述差值向量,确定所述医疗标题与所述医疗搜索语句的特征相似度。
18.在又一种可能的情况中,所述基于所述医疗标题的标题向量、医疗搜索语句的语句向量以及所述差值向量,确定所述医疗标题与所述医疗搜索语句的特征相似度,包括:
19.基于所述医疗标题的标题向量、医疗搜索语句的语句向量以及所述差值向量,并利用相似度识别模型确定所述医疗标题与所述医疗搜索语句的特征相似度;
20.其中,所述相似度识别模型为依据多个第二样本对各自标注的特征相似度,并利用所述第二样本对内的医疗标题样本和医疗搜索语句样本各自对应的向量,以及所述医疗标题样本与所述医疗搜索语句样本各自的向量之间的差值向量训练得到。
21.在又一种可能的情况中,在确定所述医疗标题与所述医疗搜索语句的特征相似度和意图匹配结果之前,还包括:
22.通过向量降维模型对所述医疗搜索语句的语句向量进行降维,所述向量降维模型为在训练所述相似度识别模型的过程中,利用所述第二样本对中医疗标题样本的标题向量以及医疗搜索语句样本的语句向量训练得到的;
23.通过所述向量降维模型对所述医疗标题的标题向量进行降维;
24.所述确定所述医疗搜索语句的语句向量与所述医疗标题的标题向量之间的向量差,得到差值向量,包括:
25.确定降维后所述医疗搜索语句的语句向量与降维后所述医疗标题的标题向量之间的向量差,得到差值向量。
26.在又一种可能的情况中,所述确定所述医疗标题的标题向量,包括:
27.利用向量转换模型确定所述医疗标题的标题向量;
28.所述确定所述医疗搜索语句的语句向量,包括:
29.利用所述向量转换模型确定所述医疗搜索语句的语句向量;
30.其中,所述向量转换模型为基于变换器的双向编码表征bert模型,且所述向量转换模型为利用多份医疗语料样本对应的已掩码词序列,并以预测出所述已掩码词序列中被掩码处理的词为训练目标,训练得到的;
31.所述医疗语料样本由医疗标题样本以及医疗标题样本表示的医疗文本内容构成,且所述已掩码词序列为对所述医疗语料样本中包含至少一个词进行掩码处理后得到的词序列。
32.又一方面,本技术还提供了一种医疗标题匹配装置,包括:
33.语句获得单元,用于获得医疗搜索语句;
34.第一向量确定单元,用于针对待匹配的多个医疗标题中每个医疗标题,确定所述医疗标题的标题向量;
35.第二向量确定单元,用于确定所述医疗搜索语句的语句向量;
36.特征确定单元,用于针对每个医疗标题,基于所述医疗标题的标题向量和所述医疗搜索语句的语句向量,确定所述医疗标题与所述医疗搜索语句的特征相似度;
37.意图确定单元,用于针对每个医疗标题,基于所述医疗标题的标题向量和所述医疗搜索语句的语句向量,并利用意图识别模型确定所述医疗标题与所述医疗搜索语句的意图匹配结果,所述意图匹配结果用于表征所述医疗标题与所述医疗搜索语句之间的医疗意
图是否相同,所述意图识别模型为依据多个第一样本对各自标注的意图匹配结果,并利用各第一样本对内的医疗标题样本和医疗搜索语句样本各自的向量训练得到;
38.匹配确定单元,用于结合各医疗标题与所述医疗搜索语句的特征相似度和意图匹配结果,确定所述多个医疗标题的匹配度排序。
39.在一种可能的实现方式中,还包括:
40.差值确定单元,用于在所述特征确定单元确定所述医疗标题与所述医疗搜索语句的特征相似度之前,确定所述医疗搜索语句的语句向量与所述医疗标题的标题向量之间的向量差,得到差值向量;
41.所述特征确定单元,具体为,用于基于所述医疗标题的标题向量、医疗搜索语句的语句向量以及所述差值向量,确定所述医疗标题与所述医疗搜索语句的特征相似度。
42.在又一种可能的实现方式中,所述特征确定单元,包括:
43.特征确定子单元,用于基于所述医疗标题的标题向量、医疗搜索语句的语句向量以及所述差值向量,并利用相似度识别模型确定所述医疗标题与所述医疗搜索语句的特征相似度;
44.其中,所述相似度识别模型为依据多个第二样本对各自标注的特征相似度,并利用所述第二样本对内的医疗标题样本和医疗搜索语句样本各自对应的向量,以及所述医疗标题样本与所述医疗搜索语句样本各自的向量之间的差值向量训练得到。
45.又一方面,本技术还提供了一种服务器,包括存储器和处理器;
46.其中,所述存储器用于存储程序;
47.所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如上任意一项所述的医疗标题匹配方法。
48.又一方面,本技术还提供了一种存储介质,用于存储程序,所述程序被执行时,用于实现如上任意一项所述的医疗标题匹配方法。
49.由以上内容可知,本技术在获得医疗搜索语句之后,针对每个医疗标题,不仅会结合医疗标题的标题向量以及医疗搜索语句的语句向量,确定医疗标题与该医疗搜索语句在语义上的特征相似度,还会确定医疗标题与医疗搜索语句之间的医疗意图是否相同。在此基础上,结合医疗标题与医疗搜索语句在语义上的特征相似度以及医疗意图上的意图匹配结果,可以更为全面分析医疗标题与医疗搜索语句之间的匹配程度,从而有利于更为准确的从多个医疗标题中确定出与该医疗搜索语句更匹配的医疗标题,进而可以基于医疗搜索语句,更为准确的搜索出医疗标题指向的医疗文本内容。
附图说明
50.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
51.图1示出了本技术的方案所适用的一种系统组成架构示意图;
52.图2示出了本技术一种医疗标题匹配方法一个实施例的流程示意图;
53.图3示出了本技术一种医疗标题匹配方法又一个实施例的流程示意图;
54.图4示出了本技术一种医疗标题匹配方法的一种实现原理框架示意图;
55.图5示出了本技术一种训练bert模型的一种原理框架示意图;
56.图6示出了本技术一种训练相似度识别模型和意图识别模型的一种实现流程示意图;
57.图7示出了本技术的医疗标题匹配方法所适用的一种应用场景示意图;
58.图8示出了终端展现匹配出的医疗百科文章的一种界面示意图;
59.图9示出了本技术一种医疗标题匹配装置一个实施例的组成结构示意图;
60.图10示出了本技术一种电子设备一个实施例的组成结构示意图。
具体实施方式
61.本技术的方案适用于任意医疗内容搜索场景。在该医疗内容搜索场景中,可以基于医疗搜索语句匹配各医疗内容的医疗标题,并确定出与医疗搜索语句匹配的至少一条医疗标题下的医疗内容。
62.为了便于理解,先对本技术的方案所适用的医疗搜索系统进行介绍。
63.如图1所示,其示出了本技术所适用的一种医疗搜索系统的一种组成架构示意图。
64.该医疗搜索系统可以包括:医疗检索平台100和终端200。
65.其中,医疗检索平台可以存储有多份医疗内容,其中,每份医疗内容均具有一个医疗标题。由于一份医疗内容只会将一个疾病的主题,而每份医疗内容的医疗标题可以表征医疗文本内容所涉及到的疾病主题。
66.其中,每份医疗内容可以为介绍疾病症状、疾病原因、疾病诊疗或者健康保健等相关医疗知识的内容。
67.其中,医疗内容的形式可以有多种,如,医疗内容可以为医疗文本内容,如医疗介绍相关的文章或者短文本。例如,医疗文本内容与医疗标题可以分别为医疗问题以及医疗问题的回答文本。
68.当然,该医疗内容也可以为医疗视频内容等,对此不加限制。
69.其中,该终端200可以通过浏览器或者与该医疗检索平台匹配的医疗检索应用访问该医疗检索平台,并向该医疗检索平台发送搜索请求,该搜索请求可以携带有医疗搜索语句。
70.相应的,医疗检索平台100可以包括至少一台服务器101。
71.该服务器可以根据终端发送的医疗搜索语句,对该医疗检索平台中的多份医疗内容的医疗标题进行匹配,并搜索出与该医疗搜索语句匹配度较高的至少一个医疗标题,以向终端返回搜索出的至少一个医疗标题所指向的医疗内容。
72.如,医疗检索平台可以为医疗百科词典平台,在此基础上,终端可以向该医疗百科词典平台请求各种医疗百科知识以及疾病症状等相关知识。
73.可以理解的是,医疗检索平台可以通过以上各台服务器存储医疗内容及其医疗标题,也可以是在医疗检索平台中设置数据库(图1中未示出),并通过数据库存储多份医疗内容及其关联的医疗标题,对此不加限制。
74.在本技术中医疗检索平台的服务器可以结合人工智能技术来实现医疗标题匹配相关的处理。
75.其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
76.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
77.在本技术中医疗检索平台为了将医疗搜索语句与医疗标题进行匹配,至少会涉及到自然语言处理技术以及机器学习等几种人工智能技术。
78.其中,自然语言处理(nature language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
79.如,在本技术为了训练向量模型等模型可能会涉及到对医疗标题样本以及搜索语句样本进行分词等文本处理,还可能会涉及到对医疗标题以及医疗搜索语句的语义理解等等。
80.其中,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
81.下面结合流程图对本技术的医疗标题匹配方法以及医疗标题匹配方法中所涉及到的人工智能等技术进行说明。
82.如图2所示,其示出了本技术一种医疗标题匹配方法的一种流程示意图,本实施例的方法可以应用于如上提到服务器,本实施例的方法可以包括:
83.s201,获得医疗搜索语句。
84.如,服务器可以获得终端发送的搜索请求,该搜索请求可以携带有医疗搜索语句,该搜索请求用于请求搜索与该医疗搜索语句匹配的至少一份医疗内容。相应的,服务器可以获得该搜索请求中携带的该医疗搜索语句。
85.其中,该医疗搜索语句是与待请求的医疗内容相关的搜索语句(也可称为查询语句),为了便于区分,将该搜索语句称为医疗搜索语句。
86.其中,该医疗搜索语句可以为包括至少一个字符的字符串。如,该医疗搜索语句可以为“得到小儿厌食症如何保健”或者“发烧”等等词语或者句子等。
87.s202,针对待匹配的多个医疗标题中每个医疗标题,确定医疗标题的标题向量。
88.可以理解的是,在医疗检索平台中可以存储有多份医疗内容,每份医疗内容都会
具有一个医疗标题,因此,该医疗检索平台会存储有多份医疗标题。而为了确定与医疗搜索语句匹配的医疗内容,在医疗搜索领域中,需要确定医疗搜索语句与医疗标题的匹配度,因此,本技术针对每个医疗标题步骤s202到s205的相关操作。
89.当然,在实际应用中,也可以先根据医疗查询语句中包含的关键词,对医疗检索平台中医疗标题进行筛选,并筛选出有可能与该医疗查询语句匹配的医疗标题,将查询出的作为待匹配的医疗标题。
90.其中,为了便于区分,将医疗标题转换出的向量称为标题向量。其中,标题向量可以表征出医疗标题的语义特征。
91.可以理解的是,确定医疗标题的标题向量的方式可以有多种。如,可以利用目前已有的词向量模型确定该标题向量。
92.在一种可能的实现方式中,可以利用预先训练出的向量转换模型确定该医疗标题的标题向量。
93.可以理解的是,考虑到通用的词向量模型可能并不能准确确定出医疗领域中医疗文本的向量,本技术还可以预先利用医疗份医疗语料样本对已有的词向量模型或者编码器模型进行微调(fine tune),以训练出适合医疗领域确定医疗文本的向量的向量转换模型。
94.其中,医疗语料样本可以由医疗标题样本以及医疗标题样本表示的医疗文本内容构成。当然,该医疗语料样本也可以是其他与医疗内容相关的医疗样本等,对此不加限制。
95.如,可以利用医疗份医疗语料样本对word2vec模型进行训练,得到适合确定医疗领域相关词的词向量的word2vec模型。
96.又如,该向量转换模型可以为训练出的基于变换器的双向编码表征(bidirectional encoder representations from transformers,bert)模型,相应的,该向量转换模型可以为利用多份医疗语料样本对应的已掩码词序列,并以预测出该已掩码词序列中被掩码处理的词为训练目标,训练得到的。其中,医疗语料样本对应的已掩码词序列为医疗语料样本中包含的至少一个词被掩码处理后得到的词序列。
97.其中,对医疗语料样本中包含至少一个字符的掩码处理是指采用设定掩码规则,对医疗语料样本中部分或者全部词进行替换或者更改,以使得掩码处理后的医疗语料样本中该至少一个词发生变化。
98.如,假设医疗语料样本可以分词为100个词,则可以将100个词中的80个词保持不变,而剩余的20个词中,80%替换为掩码标识,10%替换为其他字符,10%保持不变。当然,将医疗语料样本中每个字符确定为一个词也同样适用。
99.可以理解的是,由于bert模型采用了多层变换器(transformer)对文本(如本技术中的医疗标题)进行双向学习,因此,可以更为准确的学习到文本中各词(如,医疗标题中各个词)之间的上下文关系,从而能够准确抽取出文本中各词的语义特征。因此,利用训练出的bert模型可以更为准确的抽取出医疗标题中反映医疗语义的语义特征。
100.s203,确定医疗搜索语句的语句向量。
101.其中,为了便于区分,将医疗搜索语句转换出的向量称为语句向量。其中,医疗搜索语句的语句向量用于表征该医疗搜索语句的语义特征。
102.与步骤s202类似,确定该语句向量的方式也可以有多种,如,可以利用通用的词向量模型确定医疗搜索语句的语句向量。
103.又如,也可以是预先利用医疗语料文本训练出的向量转换模型,相应的,可以利用该向量转换模型确定医疗搜索语句的语句向量。该向量转换模型与前面步骤s202中的向量转换模型可以为同一个,如,该向量转换模型可以为训练出的bert模型。
104.可以理解的是,该步骤s202和s203的顺序可以互换,也可以同时执行,对此不加限制。
105.s204,针对每个医疗标题,基于医疗标题的标题向量和医疗搜索语句的语句向量,确定医疗标题与医疗搜索语句的特征相似度。
106.其中,该特征相似度用于表征医疗标题与医疗搜索语句在语义上的相似程度。
107.可以理解的是,该特征相似度可以为相似度评分,也可以是表征相似程度的相似等级,如,可以从完全相同到完成不相同设置5个相似度等级,通过相似度等级的不同来表征不同的特征相似程度。
108.其中,确定该特征相似度的方式也可以有多种。
109.如,在一种可能的情况中,可以计算医疗标题的标题向量与该医疗搜索语句的语句向量之间的余弦相似度,将计算出的余弦相似度确定为该医疗标题与该医疗搜索语句的特征相似度。
110.在又一种可能的情况中,本技术可以预先训练相似度识别模型,该相似度识别模型可以为依据多个样本对各自标注的特征相似度,并分别利用每个样本对内的医疗标题样本和医疗搜索语句样本各自对应的向量训练得到。其中,每对样本对均包括一个医疗标题样本以及一个医疗搜索语句样本,医疗标题样本为作为训练样本的医疗标题,而医疗搜索语句样本为作为训练样本的医疗搜索语句。
111.如,该相似度识别模型可以为归一化softmax等分类模型,在此基础上,预先标注出每对样本对对应的相似度类别,如,相似度类别可以包括:相似度类别1到相似度类别5这5个类别,且这五个类别依次表示:完全相同、相似度超过百分之八十,相似度超过百分之五十且不足百分之八十、相似度低于百分之五十、完全不相同。在此基础上,多个标注有相似度类别的各样本对中各自的医疗标题样本的标题向量和医疗搜索语句样本的语句向量训练softmax等分类模型,具体训练过程不加限制。
112.在该种情况下,可以基于医疗标题的标题向量和医疗搜索语句的语句向量,并利用该相似度识别模型确定医疗标题与医疗搜索语句的特征相似度。
113.s205,针对每个医疗标题,基于医疗标题的标题向量和医疗搜索语句的语句向量,并利用意图识别模型确定医疗标题与医疗搜索语句的意图匹配结果。
114.其中,意图匹配结果用于表征医疗标题与医疗搜索语句之间的医疗意图是否相同。
115.如,意图匹配结果可以分为意图相同以及意图不相同两类,在此基础上,针对每个医疗标题,该医疗标题与该医疗搜索语句的意图匹配结果可以为意图相同或者意图不相同。
116.其中,医疗意图可以表征所希望表达或者请求获得的医疗知识方向。其中,根据医疗搜索语句的医疗意图可以确定出基于该医疗搜索语句所期望获得的医疗知识的类别;而医疗标题的医疗意图可以表征出该医疗标题指向的医疗内容所反映的医疗知识的类别。
117.如,医疗意图可以分为症状、病因、就医、药品、治疗和预防等几类。例如,医疗搜索
语句的医疗意图为症状,则说明通过医疗搜索语句期望搜索出疾病症状相关的医疗介绍。
118.在本技术中可以通过训练出的意图识别模型来分析出医疗搜索语句与该医疗标题之间的医疗意图是否相同,从而得到意图识别结果。
119.其中,该意图识别模型为依据多个样本对各自标注的意图匹配结果,并利用各样本对内的医疗标题样本和医疗搜索语句样本各自的向量训练得到。
120.其中,每个样本对可以包括一个医疗标题样本和一个医疗搜索语句样本,且每个样本对均标注有一个意图匹配结果。在此基础上,可以依次利用每个样本对内的医疗标题样本的标题向量和医疗搜索语句的语句向量输入到训练的意图识别模型,并将意图识别模型预测的每个样本对的意图识别结果与该样本对的实际标注的意图识别结果进行比对,指示意图识别模型的预测准确度符合要求。
121.其中,训练意图识别模型的多个样本对与前面训练相似度识别模型所用的多个样本对可以相同,也可以不同,对此不加限制。
122.为了便于区分,本技术的权利要求中将用于训练该意图识别模型的样本对称为第一样本对,而将训练相似度识别模型的样本对称为第二样本对。当然,第一样本对和第二样本对仅仅是为了区分训练不同模型的样本对而没有其他含义,在后续的实施例中,还可以根据需要将相似度识别模型训练用的样本对称为第一样本对,而将训练意图识别模型的样本对称为第二样本对。
123.s206,结合各医疗标题与医疗搜索语句的特征相似度和意图匹配结果,确定多个医疗标题的匹配度排序。
124.如,与医疗搜索语句的特征相似度越高的医疗标题的排序越靠前,在特征相似度相同的情况下,则基于医疗标题的意图匹配结果,则与医疗搜索语句意图相同的医疗标题排序更靠前。
125.可以理解的是,本实施例实际上是从医疗标题与医疗搜索语句的特征相似度以及医疗意图是否相似两个维度来分析医疗标题与医疗搜索语句的匹配程度。由于医疗意图能够反映医疗搜索语句所请求查询的医疗知识的类型,而医疗标题的医疗意图可以反映医疗标题指向的医疗内容的类型,因此,在确定出医疗标题与医疗搜索语句的特征相似度的基础上,结合医疗标题与医疗搜索语句的意图匹配结合来确定医疗标题的匹配度排序,能够使得更贴合该医疗搜索语句所请求的医疗内容对应的医疗标题的排序更靠前,进而有利于更为准确的检索出医疗内容。
126.可以理解的是,在实际应用中,在确定出多个医疗标题的匹配度排序之后,可以按照该多个医疗标题的匹配度排序,向终端返回医疗标题的匹配度排序靠前的至少一个医疗标题对应的医疗内容。
127.可以理解的是,本技术可以结合医疗标题与医疗搜索语句的特征相似度和意图匹配结果,确定医疗标题与该医疗搜索语句的匹配程度。
128.如,设置特征相似度对应的第一权重以及意图匹配结果的第二权重,其中,第一权重和第二权重之和可以为零,在此基础上,针对每个医疗标题,如果根据医疗标题与医疗搜索语句的意图匹配结果,确定出医疗标题与医疗搜索语句的意图相同,则将意图匹配结果的取值设置为1;相应的,如果根据医疗标题与医疗搜索语句的意图不相同,将意图匹配结果设置为零。
129.相应的,在获得医疗标题与该医疗搜索语句的特征相似度和意图匹配结果的情况下,确定医疗标题与医疗搜索语句的匹配度可以如下:
130.计算该医疗标题与医疗搜索语句的特征相似度与第一权重的第一乘积;
131.计算该医疗标题与医疗搜索语句的意图匹配结果的取值与第二权重的第二乘积;
132.将第一乘积和第二乘积之和确定为该医疗标题与该医疗搜索语句的匹配度。
133.在得到医疗标题与该医疗搜索语句的匹配度之后,可以按照各个医疗标题与医疗搜索语句的匹配度,确定出各医疗标题的匹配度排序。当然,也可以直接按照各医疗标题的匹配度,向终端返回医疗标题的匹配度较高的至少一个医疗内容。
134.可见,本技术在获得医疗搜索语句之后,针对每个医疗标题,不仅会结合医疗标题的标题向量以及医疗搜索语句的语句向量,确定医疗标题与该医疗搜索语句在语义上的特征相似度,还会确定医疗标题与医疗搜索语句之间的医疗意图是否相同。在此基础上,结合医疗标题与医疗搜索语句在语义上的特征相似度以及医疗意图上的意图匹配结果,可以更为全面分析医疗标题与医疗搜索语句之间的匹配程度,从而有利于更为准确的从多个医疗标题中确定出与该医疗搜索语句更匹配的医疗标题,进而可以基于医疗搜索语句,更为准确的搜索出医疗标题指向的医疗文本内容。
135.可以理解的是,医疗搜索语句的语句向量与医疗标题的标题向量之间的向量差同样可以反映出医疗标题与该医疗搜索语句在语义特征上的差别,也就可以一个维度上反映出二者在语义特征上的相似程度。
136.基于此,本技术在确定医疗标题与医疗搜索语句的特征相似度之前,还可以确定该医疗搜索语句的语句向量与该医疗标题的标题向量之间的向量差,得到差值向量。相应的,针对每个医疗标题,本技术可以
137.在一种可选方式中,针对每个医疗标题,可以基于医疗标题的标题向量、医疗搜索语句的语句向量以及该差值向量,并利用相似度识别模型确定该医疗标题与该医疗搜索语句的特征相似度。
138.在该种情况下,该相似度识别模型可以为依据多个样本对各自标注的特征相似度,并利用每个第二样本对内的医疗标题样本和医疗搜索语句样本各自对应的向量,以及该样本对内医疗标题样本与医疗搜索语句样本各自的向量之间的差值向量训练得到。
139.如,可以将利用多个标注有特征相似度的样本对训练出的softmax模型作为该相似度识别模型。
140.可以理解的是,在本技术以上实施例中,考虑到医疗搜索语句与医疗标题语句转换出的向量的维度较高,因此,本技术还可以对医疗搜索语句的语句向量以及医疗标题的标题向量进行降维后,再基于降维后的语句向量以及标题向量确定如上提到的特征相似度以及意图匹配结果。
141.下面结合一种实现方式进行说明,如图3所示,其示出了本技术一种医疗标题匹配方法又一个实施例的流程示意图,本实施例的方法可以包括:
142.s301,获得医疗搜索语句。
143.s302,利用bert模型确定该医疗搜索语句的语句向量。
144.s303,针对待匹配的多个医疗标题中每个医疗标题,利用bert模型确定该医疗标题的标题向量。
145.其中,bert模型为利用多份医疗语料样本对应的已掩码词序列,并以预测出所述已掩码词序列中被掩码处理的词为训练目标,训练得到的。其中,已掩码词序列为医疗语料样本中至少一个词被掩码处理后得到的词序列。
146.需要说明的是,本实施例是为了便于理解,以向量转换模型为利用医疗语料样本训练出的bert模型为例说明,但是可以理解的是,对于通过其他向量转换模型或者通过其他方式确定该语句向量以及标题向量的方式也同样适用于本实施例。
147.s304,通过向量降维模型对该医疗搜索语句的语句向量进行降维,得到降维后的语句向量。
148.其中,该向量降维模型为在训练该相似度识别模型的过程中,利用训练该相似度识别模型的各样本对中医疗搜索语句样本的语句向量以及医疗标题样本的标题向量训练得到的。也就是说,该向量降维模型可以与相似度识别模型一同训练得到。
149.如,在一种可选方式中,该向量降维模型可以为池化模型。
150.s305,针对每个医疗标题,通过该向量降维模型对医疗标题的标题向量进行降维,得到降维后的标题向量。
151.s306,针对每个医疗标题,确定降维后的语句向量与该医疗标题对应的降维后的标题向量之间的向量差,得到差值向量。
152.s307,针对每个医疗标题,将降维后的标题向量、降维后的语句向量以及该差值向量输入到已训练出的相似度识别模型,得到该相似度识别模型输出的该医疗标题与该医疗搜索语句的特征相似度。
153.如,针对每个医疗标题,可以将降维后的标题向量、降维后的语句向量以及该医疗标题的标题向量与该语句向量的差值向量重构成一个向量,然后将重构后的向量输入到该相似度识别模型,得到该相似度识别模型输出的特征相似度。
154.在一种可能情况中,该特征相似度模型可以为训练出的第一softmax模型,通过该第一softmax模型可以确定出该医疗标题与该医疗搜索语句的特征相似度类别,通过特征相似度类别来表征医疗标题与医疗搜索语句的相似程度。
155.s308,针对每个医疗标题,将降维后的标题向量和降维后的语句向量输入到意图识别模型,得到医疗标题与医疗搜索语句的意图匹配结果。
156.其中,意图匹配结果用于表征医疗标题与医疗搜索语句之间的医疗意图是否相同。
157.如,该意图识别模型可以为训练出的第二softmax模型,通过该第二softmax模型可以确定出医疗标题与医疗搜索语句之间的意图匹配结果。
158.s309,结合各医疗标题与医疗搜索语句的特征相似度和意图匹配结果,确定多个医疗标题的匹配度排序。
159.该步骤s309可以参见前面实施例的相关介绍,在此不再赘述。
160.为了便于理解图3的实施例,可以参见图4,其示出了本技术的医疗标题匹配的一种实现原理框图,在图4中以向量转换模型为bert模型,且向量降维模型为池化模型,相似度识别模型为第一softmax分类模型,且意图识别模型为第二softmax分类模型为例。
161.由图4可以看出,医疗搜索语句经过bert模型处理可以得到语句向量u,同时,医疗标题可以经过bert模型处理得到标题向量v。在此基础上,语句向量u会经过池化层降维,得
到降维后的语句向量u;同时,医疗标题的标题向量v也会经过池化层降维,得到降维后的标题向量v。
162.需要说明的是,图4是为了便于理解得到降维后的语句向量u和降维后的标题向量v的过程,而示出了医疗搜索语句经过bert模型和池化层的分支,以及医疗标题经过bert模型和池化层的分支,但是在实际应用中,处理医疗搜索语句和医疗标题的bert模型可以为同一个,相应的,池化层也为同一个。
163.在以上基础上,本技术会计算降维后的语句向量u与降维后的标题向量v的差值向量:u

v,然后,将降维后的语句向量u、降维后的标题向量v以及该差值向量u

v输入到作为相似度识别模型的第一softmax分类模型,得到医疗标题与医疗搜索语句的相似度类别。
164.同时,降维后的语句向量u和降维后的标题向量v还会输入到作为意图识别模型的第二softmax分类模型,得到医疗标题与医疗搜索语句的意图匹配结果。
165.在此基础上,结合各医疗标题分别与医疗搜索语句的相似度类别和意图匹配结果,便可以确定出各医疗标题与医疗搜索语句的匹配度排序。
166.在本技术实施例中,向量转换模型可以单独训练得到,在训练得到bert模型之后,可以同步训练意图识别模型和相似度识别模型,也可以分别单独训练得到意图识别模型和相似度识别模型。
167.为了便于理解,下面分别对本技术中训练以上各个模型的可能情况进行介绍。
168.首先,介绍向量转换模型的训练过程。为了便于介绍,仍以向量转换模型为bert模型为例,同时,以医疗标题指向的医疗内容为医疗文本内容为例说明。
169.如图5所示,其示出了本技术训练bert模型的一种实现原理图。
170.在本技术中可以获得多个医疗语料样本,每个医疗语料样本都包括医疗标题样本以及医疗标题样本对应的医疗文本内容。
171.针对每个医疗语料样本,可以得到由构成该医疗语料样本的医疗标题样本和医疗文本内容的多个词组成的词序列。在此基础上,可以对词序列中的词进行掩码处理,使得词序列中部分词被掩码,从而得到每份医疗语料样本对应的已掩码词序列。
172.如图5所示,医疗语料样本中医疗标题样本对应的词序列部分中有部分词被掩码mask标记;类似的,该医疗语料样本中医疗文本内容对应的词序列部分中也有部分词被掩码mask标记。在此基础上,将存在掩码标记的已掩码词序列输入到待训练的bert模型之后,该bret模型可以基于已掩码词序列中各个词之间的上下文关系,确定出已掩码词序列中各个词的词向量。
173.而bert模型输出的已掩码词序列中各个词的词向量可以输入到全连接网络层,通过全连接网络层可以得到已掩码词序列中各个词属于被掩码标记的词的掩码概率。在此基础上,根据已掩码词序列中各个词的掩码概率,可以得到预测出的该已掩码词序列中被掩码的词。
174.相应的,结合各个医疗语料样本对应的已掩码词序列中实际被掩码的词和预测出的被掩码词,分析该bert模型和全连接网络层的预测准确度;如预测准确度不符合要求,则调整bert模型和全连接网络层中的参数,并利用各医疗语料样本重新训练bert模型,直至预测准确度符合要求。
175.在训练得到bert模型之后,可以结合图4所示的架构图来训练相似度识别模型和
意图识别模型。以相似度识别模型为第一归一化softmax分类模型,且意图识别模型为第二归一化softmax分类模型为例说明,并结合图4进行说明。如图6所示,其示出了本技术一种训练相似度识别模型和意图识别模型的一种实现流程示意图。本实施例的可以包括:
176.s601,获得标注有相似度类别的多个第一样本对以及标注有意图匹配结果的多个第二样本对。
177.其中,第一样本对和第二样本对中任意一个样本对由一对医疗标题样本和医疗搜索语句样本构成。
178.其中,相似度类别至少可以包括特征相似和特征不相似两个类别,还可以根据需要设置处于特征相似和特征不相似之间的特征相似类别。
179.可以理解的是,本实施例是以通过第一样本对训练相似度识别模型,而通过第二样本对训练意图识别模型为例说明,在实际应用中,训练相似度识别模型和意图识别模型的多个样本对也可以完成相同,在该种情况下,每个样本对可以同时标注相似度类别和意图匹配结果。
180.s602,针对第一样本对和第二样本对中任意一个样本对,利用已训练的bert模型分别确定该样本对中的医疗标题样本对应的标题向量以及医疗搜索语句样本对应的语句向量,并执行步骤s603。
181.s603,利用待训练的池化模型分别对医疗标题样本的标题向量以及医疗搜索语句样本对应的语句向量进行池化,得到池化后的标题向量以及池化后的语句向量。
182.s604,针对每个第一样本对,计算该第一样本对对应的池化后的语句向量与池化后的标题向量的差值向量,并将该第一样本对中医疗标题样本的标题向量,医疗搜索语句样本对应的语句向量以及该差值向量输入到第一归一化分类模型,得到该第一归一化分类模型预测出的相似度类别。
183.s605,针对每个第二样本对,将第二样本对中医疗标题样本的标题向量以及医疗搜索语句样本对应的语句向量输入到第二归一化分类模型,得到该第二归一化分类模型预测出的意图识别结果。
184.s606,根据各第一样本对对应的实际标注的相似度类别以及预测出的相似度类别,各第二样本对对应的实际标注的意图识别结果以及预测出的意图识别结果,检测是否满足训练结束条件,如果是,训练结束;如果否,则调整第一归一化分类模型、第二归一化分类模型和池化模型内的参数,并返回步骤s603,直至满足训练结束条件。
185.其中,该训练结束条件可以根据需要设定。
186.如,可以按照设定的损失函数,计算损失函数值;如确定出损失函数值收敛,则确定满足训练结束条件。
187.其中,对于第一归一化分类模型,其目标函数是优化该匹配分类函数:softmax(u,v,|u

v|);
188.如,可以采用交叉熵loss来优化此目标函数,该交叉熵loss可以表示如下:
[0189][0190]
其中,n对应于为第一样本对的数量,m是设定的相似度类别的数量,y
ij
表示第i个样本对属于相似度类别j的标签,如果第i个样本对对应的预测出的相似度类别属于设定的
至少一种相似度类别,那么标签取值为1,否则为0。对于单分类任务,由于一个分类,因此只有一个分类的标签非零。f(x
ij
)表示的是样本对i预测为相似度类别j的概率。loss的大小,完全取决于分类为正确标签那一类的概率,当所有的样本都分类正确时,loss=0,否则大于0。
[0191]
在图6中第一归一化分类模型和第二归一化分类模型可以看成是一个多任务模型训练,在此基础上,该多任务模型训练的总目标函数可以表示为:
[0192]
obj_total=alpha*softmax(u,v,|u

v|) (1

alpha)*objfuntion(class(u),class(v))
[0193]
其中,该alpha表示第一归一化分类模型对应的softmax(u,v,|u

v|)的重要度占比,取值范围为0~1,一般alpha可以设定大于0.5且小于1的数值。
[0194]
如,第一样本对和第二样本对相同的情况下,多任务模型训练的目的是使得针对各样本对基于该总目标函数确定出的值达到收敛。
[0195]
可以理解的是,在训练完成后,该第一归一化分类模型就是前面提到的相似度识别模型,而第二归一化分类模型为意图识别模型,该池化模型可以为向量降维模型。
[0196]
可以理解的是,图6仅仅是本技术中训练意图识别模型和相似度识别模型的一种实现方式,在实际应用中,也可以先训练相似度识别模型,在训练相似度识别模型的过程中,可以同步训练池化模型。在完成相似度识别模型的基础上,可以在已训练的bert模型和池化模型的基础上,利用多个第二样本对单独训练该意图识别模型。
[0197]
下面结合一应用场景进行介绍,以医疗检索平台为医疗百科词典所在的医疗词典平台为例说明。
[0198]
如图7所示,该医疗词典平台710可以包括多台提供医疗百科词典服务的服务器711。
[0199]
终端720上可以安装有医疗百科词典对应的医典应用。
[0200]
终端720可以通过医典应用向医疗词典平台的服务器711发送医疗搜索请求。其中,该医疗搜索请求携带有医疗搜索语句。
[0201]
医疗词典平台的服务器711获得医疗搜索请求中的医疗搜索语句,并根据本技术以上任意一个实施例的方案,分别确定各医疗文本内容与该医疗搜索语句的特征相似度和意图匹配结果;针对每个医疗标题,结合该医疗标题与该医疗搜索语句的特征相似度和意图匹配结果,确定该医疗文本内容与该医疗搜索语句的匹配度。在此基础上,医疗词典平台的服务器可以根据各个医疗标题对应的匹配度,向终端返回匹配度较高的至少一个医疗标题对应的医疗科普文章。
[0202]
相应的,终端可以展现出医疗词典平台的服务器返回的各医疗科普文章。如图8所示,其为终端展现出搜索出的医疗文本内容的一个界面示意图。如图8所示,在终端在搜索栏输入医疗搜索语句“小儿厌食症“之后,服务器针对该医疗搜索语句返回的医疗科普文章依次可以包括:医疗标题为“小儿厌食症如何保健”的科普文章以及“如何治疗小儿厌食症状”的科普文章等。在此基础上,点开某篇科普文章便可以查看科普文章的具体内容。
[0203]
对应本技术的一种医疗标题匹配方法,本技术还提供了一种医疗标题匹配装置。如图9所示,其示出了本技术一种医疗标题匹配装置一个实施例的组成结构示意图,该装置可以包括:
[0204]
语句获得单元901,用于获得医疗搜索语句;
[0205]
第一向量确定单元902,用于针对待匹配的多个医疗标题中每个医疗标题,确定该医疗标题的标题向量;
[0206]
第二向量确定单元903,用于确定该医疗搜索语句的语句向量;
[0207]
特征确定单元904,用于针对每个医疗标题,基于该医疗标题的标题向量和该医疗搜索语句的语句向量,确定该医疗标题与该医疗搜索语句的特征相似度;
[0208]
意图确定单元905,用于针对每个医疗标题,基于该医疗标题的标题向量和该医疗搜索语句的语句向量,并利用意图识别模型确定该医疗标题与该医疗搜索语句的意图匹配结果,该意图匹配结果用于表征该医疗标题与该医疗搜索语句之间的医疗意图是否相同,该意图识别模型为依据多个第一样本对各自标注的意图匹配结果,并利用各第一样本对内的医疗标题样本和医疗搜索语句样本各自的向量训练得到;
[0209]
匹配确定单元906,用于结合各医疗标题与该医疗搜索语句的特征相似度和意图匹配结果,确定该多个医疗标题的匹配度排序。
[0210]
在一种可能的实现方式中,该装置还可以包括:
[0211]
差值确定单元,用于在该特征确定单元确定该医疗标题与该医疗搜索语句的特征相似度之前,确定该医疗搜索语句的语句向量与该医疗标题的标题向量之间的向量差,得到差值向量;
[0212]
相应的,该特征确定单元,具体为,用于基于该医疗标题的标题向量、医疗搜索语句的语句向量以及该差值向量,确定该医疗标题与该医疗搜索语句的特征相似度。
[0213]
作为一种可选方式,该特征确定单元,包括:
[0214]
特征确定子单元,用于基于该医疗标题的标题向量、医疗搜索语句的语句向量以及该差值向量,并利用相似度识别模型确定该医疗标题与该医疗搜索语句的特征相似度;
[0215]
其中,该相似度识别模型为依据多个第二样本对各自标注的特征相似度,并利用该第二样本对内的医疗标题样本和医疗搜索语句样本各自对应的向量,以及该医疗标题样本与该医疗搜索语句样本各自的向量之间的差值向量训练得到。
[0216]
在一种可选方式中,该装置还包括:
[0217]
第一向量降维单元,用于在特征确定单元和意图确定单元确定该医疗标题与该医疗搜索语句的特征相似度和意图匹配结果之前,通过向量降维模型对该医疗搜索语句的语句向量进行降维,该向量降维模型为在训练该相似度识别模型的过程中,利用该第二样本对中医疗标题样本的标题向量以及医疗搜索语句样本的语句向量训练得到的;
[0218]
第二向量降维单元,用于通过该向量降维模型对该医疗标题的标题向量进行降维;
[0219]
该差值确定单元,具体为:用于确定降维后该医疗搜索语句的语句向量与降维后该医疗标题的标题向量之间的向量差,得到差值向量。
[0220]
在一种可能的实现方式中,该第一向量确定单元,具体用于,利用向量转换模型确定该医疗标题的标题向量,其中,该向量转换模型为基于变换器的双向编码表征bert模型,且该向量转换模型为利用多份医疗语料样本对应的已掩码词序列,并以预测出该已掩码词序列中被掩码处理的词为训练目标,训练得到的;该医疗语料样本由医疗标题样本以及医疗标题样本表示的医疗文本内容构成,且该已掩码词序列为对该医疗语料样本中包含至少
一个词进行掩码处理后得到的词序列;
[0221]
该第二向量确定单元,具体用于利用该向量转换模型确定该医疗搜索语句的语句向量。
[0222]
又一方面,本技术还提供了一种服务器,该服务器为医疗检索平台中的服务器。如图10,其示出了本技术提供的服务器的一种组成架构示意图。在图10中,该服务器1000可以包括:处理器1001和存储器1002。
[0223]
可选的,该服务器还可以包括:通信接口1003、输入单元1004和显示器1005和通信总线1006。
[0224]
其中,处理器1001、存储器1002、通信接口1003、输入单元1004和显示器1005均通过通信总线1006完成相互间的通信。
[0225]
在本技术实施例中,该处理器1001,可以为中央处理器,特定应用集成电路等。
[0226]
该处理器可以调用存储器1002中存储的程序,具体的,处理器可以执行以上实施例中服务器侧的操作。
[0227]
存储器1002中用于存放一个或者一个以上程序,程序可以包括程序代码,所述程序代码包括计算机操作指令,在本技术实施例中,该存储器中至少存储有用于实现以上任意一个实施例中的医疗标题匹配方法。
[0228]
在一种可能的实现方式中,该存储器1002可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、以上所提到的程序等;存储数据区可存储根据服务器的使用过程中所创建的数据。
[0229]
该通信接口1003可以为通信模块的接口。
[0230]
本技术还可以包括输入单元1004,该输入单元可以包括触摸感应单元、键盘等等。
[0231]
该显示器1005包括显示面板,如触摸显示面板等。
[0232]
当然,图10所示的服务器结构并不构成对本技术实施例中服务器的限定,在实际应用中服务器可以包括比图10所示的更多或更少的部件,或者组合某些部件。
[0233]
另一方面,本技术还提供了一种存储介质,该存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上任意一个实施例中的医疗标题匹配方法。
[0234]
本技术还提出了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述医疗标题匹配方法方面或医疗标题匹配装置方面的各种可选实现方式中所提供方法,具体实现过程可以参照上述相应实施例的描述,不做赘述。
[0235]
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。同时,本说明书中各实施例中记载的特征可以相互替换或者组合,使本领域专业技术人员能够实现或使用本技术。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0236]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作
之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0237]
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
[0238]
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜