一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于膀胱癌知识图谱的智能问答系统构建方法与流程

2022-02-22 09:19:50 来源:中国专利 TAG:


1.本发明涉及自然语义处理技术领域,尤其涉及的是一种基于膀胱癌知识图谱的智能问答系统构建方法。


背景技术:

2.为了给医生提供决策支持和依据,提高医疗质量,需要构建高质量的膀胱癌知识图谱,现有的知识图谱分为两类:水平知识图谱和垂直知识图谱。水平知识图谱拥有数量巨大且范围广泛的知识,如dbpedia,yago;垂直知识图谱拥有更加细化和专业的知识,如膀胱癌知识图谱,就是一个典型的垂直知识图谱。但是现有的膀胱癌知识图谱或存在精度不够,或存在开发效率低的问题。
3.因此,现有技术还有待改进和发展。


技术实现要素:

4.本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于膀胱癌知识图谱的智能问答系统构建方法,旨在解决现有技术中膀胱癌知识图谱或存在精度不够,或存在开发效率低的问题。
5.本发明解决问题所采用的技术方案如下:
6.第一方面,本发明实施例提供一种基于膀胱癌知识图谱的智能问答系统构建方法,其中,所述方法包括:
7.获取膀胱癌领域的若干膀胱癌临床指南和若干医学术语标准;
8.根据若干所述膀胱癌临床指南和若干所述医学术语标准,构建膀胱癌多层次知识模型,并将所述膀胱癌多层次知识模型映射为膀胱癌知识图谱;
9.基于所述膀胱癌知识图谱,构建膀胱癌知识图谱智能问答系统。
10.在一种实现方式中,其中,所述根据若干所述膀胱癌临床指南和若干所述医学术语标准,构建膀胱癌多层次知识模型包括:
11.根据若干所述膀胱癌临床指南和若干所述医学术语标准,确定文档层;
12.根据所述文档层,确定架构层;
13.根据所述文档层,确定知识层;
14.将所述架构层和所述知识层进行融合存储在关系型数据库中,得到膀胱癌多层次知识模型。
15.在一种实现方式中,其中,所述文档层包括膀胱癌临床指南库、医学术语数据库和概念分类体系;所述根据若干所述膀胱癌临床指南和若干所述医学术语标准,确定文档层包括:
16.将若干所述膀胱癌临床指南进行整合,得到膀胱癌临床指南库;
17.将若干所述医学术语标准进行整合,得到医学术语数据库和概念分类体系;其中所述概念分类体系用于表征医学的概念类别的划分体系。
18.在一种实现方式中,其中,所述根据所述文档层,确定架构层包括:
19.对所述文档层进行层级维度的结构化梳理,得到中间文档层;
20.对所述中间文档层进行共性整合,得到架构层。
21.在一种实现方式中,其中,所述知识层包括实体识别结果和关系抽取结果;所述根据所述文档层,确定知识层包括:
22.识别所述文档层的膀胱癌实体,得到实体识别结果;
23.对所述实体识别结果进行关系抽取,得到关系抽取结果。
24.在一种实现方式中,其中,所述将所述膀胱癌多层次知识模型映射为膀胱癌知识图谱包括:
25.将所述膀胱癌多层次知识模型的架构进行本体建模,得到膀胱癌多层次知识本体模型;
26.基于预设的映射标准,将所述膀胱癌多层次知识本体模型中存储在所述关系型数据库中的知识转化为资源描述框架数据,以完成对膀胱癌知识图谱的构建。
27.在一种实现方式中,其中,所述基于所述膀胱癌知识图谱,构建膀胱癌知识图谱智能问答系统包括:
28.获取用户输入的膀胱癌相关问句,并对所述问句进行问句预处理,得到预处理问句;
29.基于所述膀胱癌知识图谱,对所述预处理问句进行分析,得到问句分析结果;
30.对所述问句分析结果进行检索,得到问句答案。
31.在一种实现方式中,其中,所述基于所述膀胱癌知识图谱,对所述预处理问句进行分析,得到问句分析结果包括:
32.获取预处理问句中的实体;
33.基于所述膀胱癌知识图谱,生成候选实体集;其中,所述候选实体集用于表征膀胱癌实体名称的集合;
34.计算所述实体和所述候选实体集中的实体的相似度,并将所述相似度进行排序,得到排序名次;
35.将候选实体集中排序名次靠前的若干实体作为链接实体;
36.对所述链接实体进行依存句法分析,得到问句分析结果。
37.第二方面,本发明实施例还提供一种膀胱癌知识图谱智能问答系统构建装置,其中,所述装置包括:
38.若干膀胱癌临床指南和若干医学术语标准获取模块,用于获取膀胱癌领域的若干膀胱癌临床指南和若干医学术语标准;
39.膀胱癌知识图谱生成模块,用于根据若干所述膀胱癌临床指南和若干所述医学术语标准,构建膀胱癌多层次知识模型,并将所述膀胱癌多层次知识模型映射为膀胱癌知识图谱;
40.膀胱癌知识图谱智能问答系统构建模块,用于基于所述膀胱癌知识图谱,构建膀胱癌知识图谱智能问答系统。
41.第三方面,本发明实施例还提供一种智能终端,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以
上处理器执行所述一个或者一个以上程序包含用于执行如上述任意一项所述的基于膀胱癌知识图谱的智能问答系统构建方法。
42.第四方面,本发明实施例还提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述中任意一项所述的基于膀胱癌知识图谱的智能问答系统构建方法。
43.本发明的有益效果:本发明实施例首先获取若干膀胱癌临床指南和若干医学术语标准;然后根据若干所述膀胱癌临床指南和若干所述医学术语标准,构建膀胱癌多层次知识模型,并将所述膀胱癌多层次知识模型映射为膀胱癌知识图谱,使得后续能高效的构建出很高精度的膀胱癌知识图谱;最后基于所述膀胱癌知识图谱,构建膀胱癌知识图谱智能问答系统;基于这样的膀胱癌知识图谱构建的膀胱癌知识图谱智能问答系统,为患者和医疗从业者提供精准的膀胱癌结构化知识查询。
附图说明
44.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
45.图1为本发明实施例提供的基于膀胱癌知识图谱的智能问答系统构建方法流程示意图。
46.图2为本发明实施例提供的一种实现方式bckgqa的总体框架图。
47.图3为本发明实施例提供的一种实现方式多层次膀胱癌知识模型整体架构图。
48.图4为本发明实施例提供的一种实现方式基于bert的bilstm-crf知识抽取联合模型的整体架构流程示意图。
49.图5为本发明实施例提供的一种实现方式医学文本实体和关系标注方案示意图。
50.图6为本发明实施例提供的膀胱癌知识图谱智能问答系统构建装置的原理框图。
51.图7为本发明实施例提供的智能终端的内部结构原理框图。
具体实施方式
52.本发明公开了基于膀胱癌知识图谱的智能问答系统构建方法,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
53.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
54.本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术
语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
55.由于现有技术中,知识图谱是一个以现实世界的实体为节点,以它们之间的关系为边的有向图,它本质上是一个语义网络,由谷歌在2012年正式提出。在知识图谱中,每条有向边都与几个实体相连,在开始端的实体被称为头实体,在结束端的实体被称为尾实体,三元组《头实体,谓词,尾实体》被称为事实,现实世界的知识图谱则包含了数百亿的事实。大规模的非结构化知识在知识图谱中以结构化的方式表示,这与人类认知世界的形式相似,这种一致性为机器理解人类的自然语言语义提供了良好的数据库支持。随着大数据和深度学习的发展,知识图谱已经成为人工智能发展的核心驱动力。
56.现有的知识图谱分为两类:水平知识图谱和垂直知识图谱。水平知识图谱拥有数量巨大且范围广泛的知识,如dbpedia,yago;垂直知识图谱拥有更加细化和专业的知识,如医学知识图谱,就是一个典型的垂直知识图谱。鉴于医学知识图谱在知识推理和辅助诊断等医学应用中的重大作用,一些关于医学知识图谱构建的研究已经陆续展开。
57.尽管如此,即使是这些已经相对详尽的医学知识图谱,其知识也是广度大于深度,细化程度跟不上智能医疗应用如基于知识图谱的医学智能问答的要求。基于知识图谱的医学智能问答旨在将普通用户的自然语言问题自动转化为计算机能够理解的结构化查询,然后将查询到的知识图谱的事实作为答案返回给用户。它使问题的回答变得智能化,节省了用户的时间,提高了用户获取知识的效率。基于医学知识图谱的智能问答对作为答案检索数据库的医学知识图谱的发展提出了更高的要求,特别是癌症知识图谱,因为癌症具有复杂的病因和多样化的治疗方案。
58.2020年,全世界大约有57.3万个新的膀胱癌病例和21.3万个相关的死亡病例,这使膀胱癌成为全世界第6大最常见的癌症,第9大男性癌症死亡原因,其发病率和死亡率分别为每10万人中9.5和3.3,是女性的4倍左右。膀胱癌是一种严重威胁人类健康的恶性肿瘤,其生物学行为复杂多变,容易复发、多发和浸润。各种类型的膀胱癌根据其复发风险和预后情况进行分级,以便采用不同的治疗策略。适应症选择的复杂性使得临床医生很难仅凭经验进行判断,因此构建膀胱癌知识图谱(bckg)有利于为医生提供决策支持和依据,提高医疗质量。
59.但是,如何基于高效的知识工程方法和精准的知识描述体系构建高质量的bckg,仍是极具挑战性的课题。一方面,利用深度学习算法比如:实体关系抽取模型自底向上地构建bckg非常快捷有效率,但是算法模型需要大量训练数据的支撑,这使得用算法模型抽取的实体以及关系类型很有限,从而导致这样构造出来的知识图谱精度不够,无法满足当前智慧医疗应用的需求、构成一个完整的知识体系。另一方面,由专家自顶向下构建bckg相对精确,但要达到与当前智慧医疗应用相匹配的精度的话会耗费难以估量的时间金钱和人力,而且知识图谱的数据源比如医学术语标准或临床指南也会更新变化,这使得bckg后续维护非常困难。
60.为了解决现有技术的问题,本实施例提供了一种基于膀胱癌知识图谱的智能问答系统构建方法,通过上述方法构建的膀胱癌知识图谱智能问答系统,能为患者和医疗从业
者提供精准的膀胱癌结构化知识查询,提高医疗质量。具体实施时,首先获取若干膀胱癌临床指南和若干医学术语标准;然后根据若干所述膀胱癌临床指南和若干所述医学术语标准,构建膀胱癌多层次知识模型,并将所述膀胱癌多层次知识模型映射为膀胱癌知识图谱,使得后续能高效的构建出很高精度的膀胱癌知识图谱;最后基于所述膀胱癌知识图谱,构建膀胱癌知识图谱智能问答系统。
61.示例性方法
62.本实施例提供一种基于膀胱癌知识图谱的智能问答系统构建方法,该方法可以应用于自然语言处理的智能终端。具体如图1所示,所述方法包括:
63.步骤s100、获取若干膀胱癌临床指南和若干医学术语标准;
64.在本实施例中,本膀胱癌知识图谱智能问答系统的构建主要包含两部分:膀胱癌知识图谱(bckg)的构建和膀胱癌知识图谱智能问答系统(bckgqa)的开发实现。本发明构建膀胱癌知识图谱(bckg)的目的是调和膀胱癌知识图谱构建的精度和效率的矛盾,制定层次清晰、高度关联的精细bckg,并基于此面向患者和医生提供膀胱癌诊疗问题咨询功能。在本实施例中,膀胱癌知识图谱智能问答系统简写为(bckgqa),如图2所示。实际中,为了给普通用户提供膀胱癌知识的自助查询与科普,并为医疗从业者提供辅助教育和精准的膀胱癌结构化知识查询,需要先构建膀胱癌多层次知识模型,而构建膀胱癌多层次知识模型之前需要一些膀胱癌的源数据。
65.得到若干膀胱癌临床指南和若干医学术语标准后,就可以执行如图1所示的如下步骤:s200、根据若干所述膀胱癌临床指南和若干所述医学术语标准,构建膀胱癌多层次知识模型,并将所述膀胱癌多层次知识模型映射为膀胱癌知识图谱;
66.实际中,由于若干所述膀胱癌临床指南和若干所述医学术语标准的源数据的规则不同,标准不一,为了构建膀胱癌多层次知识模型的统一性,需要对上述源数据进行处理,可以对若干所述膀胱癌临床指南和若干所述医学术语标准进行源数据预处理,也可以对若干所述膀胱癌临床指南和若干所述医学术语标准进行整合处理,在此不做限制。从数据模型来看,知识图谱是一种图数据,故需要将上述膀胱癌多层次知识模型映射为膀胱癌知识图谱,具体可以根据预设的映射标准,将膀胱癌多层次知识模型映射为膀胱癌知识图谱,也可以根据匹配算法来实现膀胱癌多层次知识模型映射为膀胱癌知识图谱,实际中还有其他方式,在此不做限制。相应的,所述根据若干所述膀胱癌临床指南和若干所述医学术语标准,构建膀胱癌多层次知识模型包括如下步骤:
67.s201、根据若干所述膀胱癌临床指南和若干所述医学术语标准,确定文档层;
68.s202、根据所述文档层,确定架构层;
69.s203、根据所述文档层,确定知识层;
70.s204、将所述架构层和所述知识层进行融合存储在关系型数据库中,得到膀胱癌多层次知识模型。
71.具体地,如图3所示,首先,根据若干所述膀胱癌临床指南和若干所述医学术语标准,确定文档层;可以根据若干所述医学术语标准,来对若干所述膀胱癌临床指南进行整合,得到文档层,也可以根据专家知识,将若干所述膀胱癌临床指南和若干所述医学术语标准进行融合后分类,得到文档层。在一种实现方式中,所述文档层包括膀胱癌临床指南库、医学术语数据库和概念分类体系,所述根据若干所述膀胱癌临床指南和若干所述医学术语
标准,确定文档层包括如下步骤:将若干所述膀胱癌临床指南进行整合,得到膀胱癌临床指南库;将若干所述医学术语标准进行整合,得到医学术语数据库和概念分类体系;其中所述概念分类体系用于表征膀胱癌的概念类别的划分体系。
72.具体地,首先,将若干所述膀胱癌临床指南进行整合,得到膀胱癌临床指南库;比如:参考膀胱癌临床实践指南和专家共识,对不同来源的膀胱癌临床指南进行整合形成膀胱癌临床指南库。然后,将若干所述医学术语标准进行整合,得到医学术语数据库和概念分类体系;其中所述概念分类体系用于表征医学的概念类别的划分体系。例如:基于icd-10、atc、mesh医学术语标准构造术语数据库和概念分类体系。
73.得到文档层后,根据所述文档层,确定架构层;相应的,所述根据所述文档层,确定架构层包括如下步骤:对所述文档层进行层级维度的结构化梳理,得到中间文档层;对所述中间文档层进行共性整合,得到架构层。
74.在本实施例中,先对所述文档层进行层级维度的结构化梳理,得到中间文档层,例如:根据文档层的膀胱癌临床指南结构结合临床专家建议,对文档层进行层级维度的结构化梳理。然后对所述中间文档层进行共性整合,得到架构层。例如,对中间文档层进行共性整合,提高膀胱癌临床指南内容的表达能力,为后续的膀胱癌知识抽取提供良好的框架。在一种实现方式中,临床指南的分类是参照所述医学术语标准而进行的。
75.得到文档层后,根据所述文档层,确定知识层;在一种实现方式中,所述知识层包括实体识别结果和关系抽取结果;相应的,所述根据所述文档层,确定知识层包括如下步骤:识别所述文档层的膀胱癌实体,得到实体识别结果;对所述实体识别结果进行关系抽取,得到关系抽取结果。
76.具体地,命名实体识别和关系抽取是构建知识图谱至关重要的步骤,基于bert算法的膀胱癌实体识别和关系抽取模型,用于多层次知识模型中临床指南的知识层的初步粗略知识提取。先识别所述文档层的膀胱癌实体,得到实体识别结果;在本实施例中,如图4所示,命名实体识别任务使用bilstm-crf(双向长短期记忆-条件随机场)完成,输入一个句子后,不采用现有技术中的多头选择框架,采用字符嵌入模块,使用预训练的bert(基于转换器的双向编码表征)模型构成,用于对输入句子的字符进行嵌入,也即使用预训练的bert来获得字符嵌入;命名实体识别模块,由两个子模块构成,第一个子模块是bilstm模型,输出接入第二个子模块crf,这样就可以输出实体识别结果。需要说明的是,实际应用时,应用和训练阶段都是采取这样的处理:将预训练的bert来获得字符嵌入。然后对所述实体识别结果进行关系抽取,得到关系抽取结果。在本实施例中,关系抽取任务被建模成一个多头选择问题,采用关系抽取模块,关系抽取模块由两个子模块构成,第一个子模块是关系标签嵌入层,输出接入第二个子模块sigmoid层,这样就可以输出关系抽取结果。在一种实现方式中,由于膀胱癌文本中含有大量专业性极强而且晦涩难懂的医学术语,与常规的自然语言文本非常不一样,所以我们标注了大量的中文膀胱癌文本大约包含26万个字,用于实体识别和关系抽取的预训练,从而提升模型的性能,标注方案如图5所示。在一种实现方式中,医学术语标准中的icd-10可以用于对知识层进行编号。
77.得到架构层和知识层后,就可以执行如下步骤:将所述架构层和所述知识层进行融合存储在关系型数据库中,得到膀胱癌多层次知识模型。如图3所示的一个具体实施例中,知识层(膀胱癌临床指南),局限在粘膜上的扁平的高等级肿瘤被归类为原位癌(tis)。
所有这些肿瘤都可以通过经尿道膀胱切除术(turb)进行治疗,最终与膀胱内灌注相结合,并为治疗目的而被归入浸润性膀胱的癌症(nmibc)的标题下。将知识层(膀胱癌临床指南)经过bert后,会输出膀胱癌临床指南的实体识别结果,如粘膜、肿瘤、经尿道膀胱切除术(turb)、膀胱内灌注、nmibc,然后将这些实体识别结果和架构层的膀胱癌临床指南框架融合后存储在关系型数据库中,最终得到膀胱癌多层次知识模型。
78.得到膀胱癌多层次知识模型后,需要将所述膀胱癌多层次知识模型映射为膀胱癌知识图谱。相应的,所述将所述膀胱癌多层次知识模型映射为膀胱癌知识图谱包括如下步骤:将所述膀胱癌多层次知识模型的架构进行本体建模,得到膀胱癌多层次知识本体模型;基于预设的映射标准,将所述膀胱癌多层次知识本体模型中存储在所述关系型数据库中的知识转化为资源描述框架数据,以完成对膀胱癌知识图谱的构建。
79.具体地,先将所述膀胱癌多层次知识模型的架构进行本体建模,得到膀胱癌多层次知识本体模型;知识图谱本质上是一种图数据可以被表示为资源描述框架(rdf),一种由w3c制定的在语义万维网上表示和交换机器可理解信息的标准数据模型。在本实施例中,膀胱癌多层次知识模型为多层次膀胱癌知识模型,该模型对膀胱癌临床指南中的知识从不同维度和粒度进行规范与整合,为后续的机器自动抽取知识和bckg的构建提供了富有逻辑的、以膀胱癌应用为导向的框架。当然实际中也可以为多层次肝癌知识模型或其他疾病的多层次知识模型,具体不做限制。使用斯坦福大学开发的prot
égé
根据多层次膀胱癌知识模型的架构进行本体建模。然后基于预设的映射标准,将所述膀胱癌多层次知识本体模型中存储在所述关系型数据库中的知识转化为资源描述框架数据,以完成对膀胱癌知识图谱的构建。在本实施例中,预设的映射标准为使用d2rq提供的支持w3c制定的两个映射标准的r2rml-kit,将多层次膀胱癌知识模型的知识层的原本存储在关系型数据库的知识转化为资源描述框架(rdf)数据,至此,膀胱癌知识图谱bckg构建完成。
80.得到膀胱癌知识图谱后,就可以执行如图1所示的如下步骤:s300、基于所述膀胱癌知识图谱,构建膀胱癌知识图谱智能问答系统。
81.具体地,可以将膀胱癌知识图谱转化为代码语音,然后在硬件环境运行,以构建膀胱癌知识图谱智能问答系统,也可以直接将膀胱癌知识图谱放置于一个硬件环境中,通过深度神经网络的机器学习算法,构建膀胱癌知识图谱智能问答系统。在本实施例中,构建的膀胱癌知识图谱为患者和医生提供了一种更智能的查询医疗知识的方式,大大节约用户查询的时间,提高了在线医疗的方便性和实时性。bckgqa主要包含三个模块:问句预处理,问句分析,知识检索,答案生成。如:在用户输入膀胱癌相关问句后,对问句进行预处理,利用双向最大匹配算法(bmm)结合词典完成中文分词,然后用预先构建好的bert膀胱癌实体识别模型提取问句中的实体,并将问句中的实体链接到bckg上;其次,先利用ltp-parser工具对问句进行依存句法分析,然后结合解析结果和实体链接结果,得到一个描述了问句语义的问句三元组;然后使用模板匹配方法根据问句三元组构建sparql查询语句,通过jena fuseki终端进行知识查询并返回查询答案;最后,将得到的答案进行语义上的优化后反馈给用户,使其得到一个语义清楚逻辑清晰的自然语言答案。在一种实现方式中,所述基于所述膀胱癌知识图谱,构建膀胱癌知识图谱智能问答系统包括如下步骤:
82.s301、获取用户输入的膀胱癌问句,并对所述膀胱癌问句进行问句预处理,得到预处理问句;
83.s302、基于所述膀胱癌知识图谱,对所述预处理问句进行分析,得到问句分析结果;
84.s303、对所述问句分析结果进行检索,得到问句答案。
85.具体地,先获取用户输入的膀胱癌问句,并对所述膀胱癌问句进行问句预处理,得到预处理问句;所述对所述膀胱癌问句进行问句预处理具体为利用双向最大匹配算法(bmm)结合词典完成中文分词,在本实施例中,当系统获取到用户输入的问句之后,首先使用双向最大匹配算法bmm对问句q进行分词处理。最大匹配算法以预先建立的词典d为依据,在词典d中进行扫描匹配,根据扫描匹配结果实现分词。前向最大匹配算法是指从左到右处理q,然后进行最大匹配,相对的,反向最大匹配算法是指从右到左处理q,然后进行最大匹配。bmm是fmm和rmm的优化:它使用fmm和bmm两种算法分别对q分词一遍,然后根据大颗粒度词越多越好,非词典词和单字词越少越好的原则,选取其中一种分词结果输出。根据bmm,系统可以将用户输入的自然语言分割成一组中文单词,基于这些单词,系统可以初步了解用户的意图,所以,中文分词,是整个问句预处理模块的基础,也是整个系统的基础。本发明中,识别问句中的疾病、症状、治疗方法、药物等实体尤为重要,只有准确识别出问句中的实体,才能了解用户询问的具体对象,从而在bckg中进行准确的查询,避免查询出错。由于本发明前述使用基于bert的bilstm-crf知识抽取联合模型对问句进行实体识别,保存实体识别结果,这样能准确识别问句中的疾病、症状、治疗方法、药物等实体。
86.得到预处理问句后,就可以基于所述膀胱癌知识图谱,对所述预处理问句进行分析,得到问句分析结果;相应的,所述基于所述膀胱癌知识图谱,对所述预处理问句进行分析,得到问句分析结果包括如下步骤:获取预处理问句中的实体;基于所述膀胱癌知识图谱,生成候选实体集;其中,所述候选实体集用于表征膀胱癌实体名称的集合;计算所述实体和所述候选实体集中的实体的相似度,并将所述相似度进行排序,得到排序名次;将候选实体集中排序名次靠前的若干实体作为链接实体;对所述链接实体进行依存句法分析,得到问句分析结果。
87.因为用户在输入问题时,对同一实体可能有不同表述,所以在识别出问句q中的实体之后,要对这些问句中实体进行实体链接,使得它们能准确链接到预先构建好的bckg上。在本实施例中,先获取预处理问句中的实体;然后基于所述膀胱癌知识图谱,生成候选实体集;其中,所述候选实体集用于表征膀胱癌实体名称的集合;例如:我们根据一个预先构建的含bckg的所有实体的词典生成候选实体集。接着计算所述实体和所述候选实体集中的实体的相似度,并将所述相似度进行排序,得到排序名次;将候选实体集中排序名次靠前的若干实体作为链接实体;例如:根据问句中实体和其实体候选集的相似度对候选实体进行排序,根据排序结果,选择靠前几名(例如2名)的候选实体作为该实体的链接实体。在一种实现方式中,计算所述实体和所述候选实体集中的实体的相似度的方式为将问句中实体与它的候选实体使用gensim的word2vec工具转化为词向量,再用余弦距离计算两个向量间的相似度,以此表征问句中实体与它的候选实体的相似度。最后对所述链接实体进行依存句法分析,得到问句分析结果。在一种实现方式中,通过剖析语句中词语之间的依存关系来揭示句法结构。本发明通过ltp-parser工具对问句进行依存句法分析从而得到问句中的单词之间的关系,再根据关系结合实体链接结果得到问句三元组,也即问句分析结果。例如:假设问题q=“膀胱癌使用什么药物?”,根据依存句法分析结果可知,q的核心谓词是“使用”,“使
用”的宾语是“药物”,q进行医学实体识别之后可得到疾病实体“膀胱癌”,而与“膀胱癌”密切相关的是作为核心谓词的“使用”,通过核心谓词“使用”,实体“膀胱癌”与药物也建立了联系,再结合实体链接结果,最终形成了一个《膀胱癌,使用关系,药物》问句三元组。
88.得到文件分析结果后,就可以对所述问句分析结果进行检索,得到问句答案。在本实施例中,bckg以rdf格式存储,而sparql是专门面向rdf的一种标准查询语言和数据获取协议,为了在bckg中查询,本发明使用基于模板匹配方法将查询三元组转化为sparql查询语句。类似地,可以依次构造其他查询三元组的sparql查询语句生成模板。apache软件基金会的jena项目是一个开源的java语义网框架,提供了rdfs、owl和通用规则推理机,fuseki是jena提供的sparql服务器,也就是sparql endpoint。在一种实现方式中,本发明提前将rdf格式的bckg部署在fuseki上面,当sparql查询语句生成之后,在fuseki上运行sparql查询语句并返回结果。得到fuseki返回的查询结果之后,系统将结合问句类型,将得到的答案进行语义上的优化后反馈给用户,使其得到一个语义清楚逻辑清晰的自然语言答案,也即问句答案。
89.本发明的发明点为:
90.1.提出了一种人机结合的,自底向上和自顶向下并行的知识图谱构造方法,调和了传统知识图谱构造方法精度和效率的矛盾,提升速度的同时保证了知识图谱质量。
91.2.以膀胱癌为例设计了多层次知识模型,为后续的知识图谱构造提供了结构框架和知识储备,可以给其他的专病知识图谱的构造建模提供结构参考和知识抽取策略。
92.3.我们构建了一个具有良好结构和详尽内容的bckg,可以为后续膀胱癌智慧医疗应用提供良好的数据基础
93.4.最终完成了一个基于膀胱癌知识图谱的医疗智能问答系统(bckgqa),对患者提供膀胱癌膀胱癌知识的自助查询与科普,对医疗从业者提供辅助教育,提供精准的膀胱癌结构化知识查询。
94.示例性设备
95.如图6中所示,本发明实施例提供一种膀胱癌知识图谱智能问答系统构建装置,该装置包括若干膀胱癌临床指南和若干医学术语标准获取模块401、膀胱癌知识图谱生成模块402和膀胱癌知识图谱智能问答系统构建模块403,其中:若干膀胱癌临床指南和若干医学术语标准获取模块401,用于获取膀胱癌领域的若干膀胱癌临床指南和若干医学术语标准;
96.膀胱癌知识图谱生成模块402,用于根据若干所述膀胱癌临床指南和若干所述医学术语标准,构建膀胱癌多层次知识模型,并将所述膀胱癌多层次知识模型映射为膀胱癌知识图谱;
97.膀胱癌知识图谱智能问答系统构建模块403,用于基于所述膀胱癌知识图谱,构建膀胱癌知识图谱智能问答系统。
98.基于上述实施例,本发明还提供了一种智能终端,其原理框图可以如图7所示。该智能终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中,该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该智能终端的网络接口用于与外部
的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于膀胱癌知识图谱的智能问答系统构建方法。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏,该智能终端的温度传感器是预先在智能终端内部设置,用于检测内部设备的运行温度。
99.本领域技术人员可以理解,图7中的原理图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的智能终端的限定,具体的智能终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
100.在一个实施例中,提供了一种智能终端,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
101.获取若干膀胱癌临床指南和若干医学术语标准;
102.根据若干所述膀胱癌临床指南和若干所述医学术语标准,构建膀胱癌多层次知识模型,并将所述膀胱癌多层次知识模型映射为膀胱癌知识图谱;
103.基于所述膀胱癌知识图谱,构建膀胱癌知识图谱智能问答系统。
104.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
105.综上所述,本发明公开了基于膀胱癌知识图谱的智能问答系统构建方法,所述方法包括:获取若干膀胱癌临床指南和若干医学术语标准;根据若干所述膀胱癌临床指南和若干所述医学术语标准,构建膀胱癌多层次知识模型,并将所述膀胱癌多层次知识模型映射为膀胱癌知识图谱;基于所述膀胱癌知识图谱,构建膀胱癌知识图谱智能问答系统。本发明实施例通过将不同来源的若干膀胱癌临床指南和若干医学术语标准构建成膀胱癌多层次知识模型,使得后续能高效的构建出很高精度的膀胱癌知识图谱,基于这样的膀胱癌知识图谱构建的膀胱癌知识图谱智能问答系统,为患者和医疗从业者提供精准的膀胱癌结构化知识查询,提高医疗质量。
106.基于上述实施例,本发明公开了一种基于膀胱癌知识图谱的智能问答系统构建方法,应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献