一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于医学知识图谱检索技术的健康咨询实现方法及装置与流程

2022-02-20 13:51:03 来源:中国专利 TAG:


1.本发明涉及自然语言处理领域,特别涉及基于医学知识图谱检索技术的健康咨询实现方法及装置。


背景技术:

2.随着1950年turing提出著名的图灵测试,智能问答系统就拉开了历史的序幕,大量的学者通过各种方式来研究智能问答系统。目前市面上的问答系统主要采用基于问题相似度计算的方法;也有少量问答系统采用深度学习算法。
3.如cn202011064355.9的专利《一种基于长短文本匹配的智能问答方法及系统》,公开日为2020.12.08,一种基于长短文本匹配的智能问答方法及系统,能够准确定位用户输入的问题所在的文档段落,抽取答案。该方法包括:将文本相似度bm25算法与基于senlda主题模型的长短文本相似度计算方法相融合,分别从词语层级和句子层级匹配用户输入的问题和数据库中相应的段落;并基于机器阅读理解模型,从相应段落中抽取问题所对应的答案;
4.cn201710334888.6的专利《基于深度学习的问答系统以及方法》,公开日为20171107,包括问答子系统,用于接收输入问题,并对输入问题进行预处理;深度学习子系统,用于提取预处理后的输入问题中的特征信息并生成对应的第一词向量信息,并根据问题分类模型、问题匹配模型和第一词向量信息获取多个推荐问题,知识库子系统,用于判断所述知识库中是否存在与所述未识别问题对应的标准问题,并在所述知识库中存在与所述未识别问题对应的标准问题时,对与所述未识别问题对应的标准问题进行标注,并在所述知识库中不存在与所述未识别问题对应的标准问题时,根据所述未识别问题创建新标准问题,并对所述新标准问题进行标注。
5.然而,相似度算法通常采用一问一答的形式进行对话,响应时长通常与知识库大小成正比,而健康咨询涉及疾病、检查项目、药品、食物等多项内容,相似度算法对应的响应速度往往无法满足需求,且其准确率较低;深度学习算法对语料数据的要求较高,需要大量的训练数据用于模型训练,且医学知识内容较多,标注工作量大,耗时较长的模型训练过程也无法支撑高频率的知识更新。


技术实现要素:

6.为解决上述现有技术中健康咨询使用相似度算法时响应速度慢、准确率较低、仅支持单轮和使用深度学习标注工作量大、耗时较长的不足,本发明提供一种基于医学知识图谱检索技术的健康咨询实现方法,包括以下步骤:
7.根据医学知识图谱建立实体列表,并处理实体列表的各类实体以实现多模式实体匹配,根据实体关系建立健康咨询意图库和预处理库;
8.对咨询问题进行预处理后过滤出关键实体和实体类型,所述健康咨询意图库结合所述实体类型以获取实体关系链;
9.根据所述实体关系链拼接生成知识图谱检索语句,在医学知识图谱中检索答案并将答案展示。
10.在一实施例中,基于医学知识图谱建立实体列表,并采用ac自动机处理各类实体以实现多模式实体匹配,具体包括如下步骤:
11.初始化trie;
12.添加医学实体keyword到trie中并根据success函数构建success表;
13.医学实体keyword全部添加完成后检查并创建failure表;
14.当输入健康咨询问题时根据failure表输出被命中的模式串。
15.在一实施例中,根据医学知识图谱的实体关系情况,建立健康咨询意图库,所述实体关系情况包括疾病症状、病因、并发症、药品适应症、疾病饮食推荐预处理库。
16.在一实施例中,所述预处理库包括相似词替换库和去停词库;其中,整理各类疾病名称、药品名称的别名信息以建立所述相似词替换库,所述相似词替换库用于对输入的健康咨询问题进行相似词替换以实现咨询问题预处理。
17.在一实施例中,通过ac自动机过滤出关键实体和实体类型,当问题中未过滤出实体名称时,则从历史问题记录中获取对应实体类型的实体名称。
18.在一实施例中,ac自动机从预处理后的咨询问题中过滤出关键的实体名称,并根据预先处理好的实体字典获取对应实体类型的实体名称;
19.采用卡槽的形式存放历史实体名称,当所述卡槽再次获取到同一类型的实体名称时,则替换更新。
20.在一实施例中,当问题中未捕获到实体名称时,通过健康咨询意图库并根据意图倒推出实体类型,并从历史问题记录中获取对应实体类型的实体名称。
21.在一实施例中,根据咨询问题检索得到答案,将答案进行拼接后在问答系统中进行展示。
22.本发明还提供一种基于医学知识图谱检索技术的健康咨询装置,其特征在于:包括生成模块,用于根据医学知识图谱建立实体列表,并处理实体列表的各类实体以实现多模式实体匹配,根据实体关系建立健康咨询意图库和预处理库;
23.处理模块,用于对咨询问题进行预处理后过滤出关键实体和实体类型,通过健康咨询意图库并结合所述实体类型,获取实体关系链;
24.检索展示模块,用于根据所述实体关系链拼接生成知识图谱检索语句,在医学知识图谱中检索答案并将答案展示。
25.本发明还提供一种处理器和存储器的装置,存储器用于存储有计算机程序指令,所述计算机程序指令被处理器执行以完成上述任一项所述的基于医学知识图谱检索技术的健康咨询实现方法。
26.基于上述,与现有技术相比,本发明提供的一种基于医学知识图谱检索技术的健康咨询实现方法及装置,通过医学知识图谱、健康咨询意图库和预处理库对咨询的健康问题进行答复解决了现有技术中健康咨询使用相似度算法时响应速度慢、准确率较低、仅支持单轮对话和使用深度学习时标注工作量大、耗时较长的不足,从而实现多轮对话,快速从医学知识图谱中检索答案,实现毫秒级响应。
27.本发明的其它特征和有益效果将在随后的说明书中阐述,并且,部分地从说明书
中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他有益效果可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
28.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图;在下面描述中附图所述的位置关系,若无特别指明,皆是图示中组件绘示的方向为基准。
29.图1为本发明提供的基于医学知识图谱检索技术的健康咨询实现方法步骤图;
30.图2为本发明提供的ac自动机处理各类实体以实现多模式实体匹配流程图。
具体实施方式
31.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例;下面所描述的本发明不同实施方式中所设计的技术特征只要彼此之间未构成冲突就可以相互结合;基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
32.在本发明的描述中,需要说明的是,本发明所使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域的普通技术人员通常所理解的含义相同的含义,不能理解为对本发明的限制;应进一步理解,本发明所使用的术语应被理解为具有与这些术语在本说明书的上下文和相关领域中的含义一致的含义,并且不应以理想化或过于正式的意义来理解,除本发明中明确如此定义之外。
33.下面给出具体实施例:
34.参考图1,一种基于医学知识图谱检索技术的健康咨询实现方法,包括以下步骤:根据医学知识图谱建立实体列表,并处理实体列表的各类实体以实现多模式实体匹配,根据实体关系建立健康咨询意图库和预处理库;
35.对咨询问题进行预处理后过滤出关键实体和实体类型,通过健康咨询意图库并结合所述实体类型,获取实体关系链;
36.根据所述实体关系链拼接生成知识图谱检索语句,在医学知识图谱中检索答案并将答案展示。
37.与现有技术相比,本发明提供的一种基于医学知识图谱检索技术的健康咨询实现方法,通过医学知识图谱、健康咨询意图库和预处理库对咨询的健康问题进行答复解决了现有技术中健康咨询使用相似度算法时响应速度慢、准确率较低、仅支持单轮对话和使用深度学习时标注工作量大、耗时较长的不足,从而实现多轮对话,快速从医学知识图谱中检索答案,实现毫秒级响应。
38.具体的,在步骤根据医学知识图谱建立实体列表,并处理实体列表的各类实体以实现多模式实体匹配,根据实体关系建立健康咨询意图库和预处理库中;
39.基于医学知识图谱建立实体列表,实体列表包括医院、科室、医生、疾病、疾病别名、症状、诊断、治疗方式、预防、检查项目、药品、药品别名、药品生产商、适应症、禁忌、注意事项、食物、运动在内的18种医学相关的实体列表,并采用ac自动机处理各类实体以实现多模式实体匹配,ac自动机有匹配效率快,可以达到毫秒级响应的优点,也可以是但不限于通过模糊匹配、正则以实现多模式实体匹配。
40.具体的,参考图2,采用ac自动机处理各类实体以实现多模式实体匹配具体包括如下步骤:初始化trie;添加医学实体keyword到trie中并根据success函数构建success表;医学实体keyword全部添加完成后检查并创建failure表;当输入健康咨询问题时根据failure表输出被命中的模式串,模式串指的是对应的实体名称。
41.然后,根据医学知识图谱的实体关系情况,建立健康咨询意图库,实体关系情况包括疾病症状、病因、并发症、药品适应症、疾病饮食推荐,例如疾病症状咨询通常会询问:xx疾病有什么症状?xx疾病有什么表现?患了xx疾病通常会有什么现象?应当了解的是,此处xx指的是某种疾病的代词。
42.再而,预处理库包括相似词替换库和去停词库;其中,整理各类疾病名称、药品名称的别名信息以建立所述相似词替换库,相似词替换库用于对输入的健康咨询问题进行相似词替换以实现咨询问题的预处理;较好的,相似词采用字典形式存放,如:{"头痛":["头疼"],"头疼":["头痛"]},以加快替换速率。去停词库用于剔除“的”、“呀”等本身无实际意义的虚词,减少数据冗余,提高问句处理的精度和准确率。
[0043]
较好的,在模型初始化过程中完成上述数据处理,将信息存放在内存变量或共享数据库中,避免接口调用过程中因重新加载、处理数据导致的耗时问题。
[0044]
具体的,在步骤对咨询问题进行预处理后过滤出关键实体和实体类型,健康咨询意图库结合实体类型以获取实体关系链中:
[0045]
首先,对咨询问题进行预处理,其中,预处理包括但不限于于去停词、相似词替换;然后,通过ac自动机过滤出关键实体和实体类型。
[0046]
具体的,ac自动机从预处理后的咨询问题中过滤出关键的实体名称,并根据预先处理好的实体字典获取对应实体的实体类型,较好的,当问题中未捕获到实体名称时,通过健康咨询意图库并根据意图倒推实体类型;采用卡槽的形式存放历史实体名称以实现从历史问题记录中获取对应实体类型的实体名称,当卡槽再次获取到同一类型的实体名称时,则替换更新以保证答复准确。
[0047]
实施时,将预处理后的用户问题放入ac自动机中,过滤出关键的实体名称,根据预先处理好的实体字典,如{实体名称:[实体类型]},直接获取对应实体的实体类型;健康咨询采用卡槽的形式存放历史实体名称,并设置对话策略的max_history值和storage_time的值,如max_history值设置为“8”,即只存储最近8次对话的实体名称,storage_time的值设定为12,名称存放时间为12小时,12小时之后卡槽信息自动清空,当卡槽再次获取到同一类型的实体名称时,则替换更新。
[0048]
实例,当用户第一次询问“感冒有什么症状”时,通过ac自动机获取疾病实体“感冒”,并存放到disease卡槽中;若用户第二次询问“肺癌可以吃什么药”,捕获到的疾病实体“肺癌”会替换最新的disease卡槽;若用户第二次询问的是“可以吃什么药呢?”,问题中未捕获到实体名称,则模型会结合健康咨询意图库,根据意图(吃什么药)倒推实体类型为疾
病,从历史的disease卡槽中获取最新的疾病实体,从而准确定位用户意图“感冒可以吃什么药”;若用户第三次询问的是“阿莫西林有什么副作用?”,则新获取药品实体“阿莫西林”会存储到药品卡槽drug中。
[0049]
健康咨询意图库结合实体类型以获取实体关系链,实施时,基于健康咨询意图库,判断意图特征词是否在问句中,结合实体类型,明确用户意图,获取实体关系链。如“肺癌有什么症状”其中“肺癌”为疾病实体(disease),症状在健康咨询意图库中对应的为疾病症状(has_symptom),则可明确医学知识图谱的实体关系链:肺癌-has_symptom-》symptom。
[0050]
具体的,在步骤根据所述实体关系链拼接生成知识图谱检索语句,在医学知识图谱中检索答案并将答案展示中:
[0051]
根据获取到的实体关系链,拼接生成知识图谱检索语句,通过知识图谱检索技术,在医学知识图谱中检索问题答案,以上述肺癌症状关系链为例,将实体关系链“肺癌-has_symptom-》symptom”转换成医学知识图谱检索语句“match p=(a:disease{name:"肺癌"})-[r:has_symptom]-》(b:symptom)return b.name”,连接图数据库,检索得到对应的症状信息,并进行结果拼接,然后根据咨询问题检索得到答案,将答案进行拼接后在问答系统中进行展示。
[0052]
实施时,用户在问答系统中输入咨询问题后,问答系统获取到所述咨询问题后通过预处理库以实现预处理,预处理后的咨询问题通过ac自动机过滤出关键实体和实体类型,其中,健康咨询采用卡槽的形式存放历史实体名称,当问题中未捕获到实体名称时,通过健康咨询意图库并根据意图倒推实体类型,从历史卡槽中获取对应实体类型的实体名称,从而获取实体关系链,将实体关系链拼接生成知识图谱检索语句,在医学知识图谱中检索问题答案,将答案拼接在问答系统中进行回复。
[0053]
本发明还提供一种基于医学知识图谱检索技术的健康咨询装置,包括生成模块,用于根据医学知识图谱建立实体列表,并处理实体列表的各类实体以实现多模式实体匹配,根据实体关系建立健康咨询意图库和预处理库;处理模块,用于对咨询问题进行预处理后过滤出关键实体和实体类型,通过健康咨询意图库并结合所述实体类型,获取实体关系链;检索展示模块,用于根据所述实体关系链拼接生成知识图谱检索语句,在医学知识图谱中检索答案并将答案展示。
[0054]
实施时,生成模块根据医学知识图谱建立实体列表,并处理实体列表的各类实体以实现多模式实体匹配,根据实体关系建立健康咨询意图库和预处理库以实现咨询框架的生成,较好的,在模型初始化过程中完成上述数据处理,将信息存放在内存变量或共享数据库中,避免接口调用过程中因重新加载、处理数据导致的耗时问题。
[0055]
处理模块用于对咨询问题进行预处理后过滤出关键实体和实体类型,通过健康咨询意图库并结合所述实体类型,获取实体关系链;
[0056]
实施时,用户在问答系统中输入咨询问题后,问答系统获取到所述咨询问题后通过预处理库以实现预处理,预处理后的咨询问题通过ac自动机过滤出关键实体和实体类型,其中,当问题中未捕获到实体名称时,通过健康咨询意图库并根据意图倒推实体类型,健康咨询采用卡槽的形式存放历史实体名称以实现当问题中未过滤出实体名称时,则从历史问题记录中获取对应实体类型的实体名称,然后通过健康咨询意图库并结合实体类型,获取实体关系链;
[0057]
检索展示模块将实体关系链拼接生成知识图谱检索语句,在医学知识图谱中检索问题答案,将答案拼接在问答系统中进行回复。
[0058]
综上所述,与现有技术相比,本发明提供的一种基于医学知识图谱检索技术的健康咨询实现方法及装置,通过医学知识图谱、健康咨询意图库和预处理库对咨询的健康问题进行答复解决了现有技术中健康咨询使用相似度算法时响应速度慢、准确率较低、仅支持单轮对话和使用深度学习时标注工作量大、耗时较长的不足,从而实现多轮对话,快速从医学知识图谱中检索答案,实现毫秒级响应。
[0059]
另外,本领域技术人员应当理解,尽管现有技术中存在许多问题,但是,本发明的每个实施例或技术方案可以仅在一个或几个方面进行改进,而不必同时解决现有技术中或者背景技术中列出的全部技术问题。本领域技术人员应当理解,对于一个权利要求中没有提到的内容不应当作为对于该权利要求的限制。
[0060]
尽管本文中较多的使用了诸如医学知识图谱、实体列表、健康咨询意图库、预处理库、实体关系链、知识图谱检索语句
……
等术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的;本发明实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”、等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
[0061]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献