一种生成医疗报告的方法及装置与流程

2022-02-22 03:26:05 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，尤其涉及一种生成医疗报告的方法及装置。

背景技术：

2.医疗平台的业务中包含在线医学教学、视频诊疗会议等，在完成以上业务后，需要对以上教学课程或者诊疗会议进行相关的总结，由于人工完成不仅需要撰写者具备一定的专业知识，还需要浪费大量的时间进行会议纪要和整理，所以提出一种根据患者信息、视频内容进行总结，最终得到一个专业的医疗报告的方法。使用计算机代替人进行工作，不仅可以提高效率，还能保证准确率。
3.目前报告生成的方式主要是根据指定的模板，提取关键字、关键词以及关键语句等，在按照其属性填充到指定的模板内，从而得到一份报告，也就是采用基于抽取式方法。但是该方法的关键字词等均得来自原文，较为笨拙。而且文本重要性语句提取的方案主要是基于词频或者基于图结构的关键词和句子抽取，每一篇文本都是独立提取的，然而在大量的医疗会议记录中，实际成批的同类型记录文本中，可能内嵌的主题是一致的，是具有一定关联性的，以上方法并没有考虑到这一点，因此提取文本中的重要性语句效果不甚理想。另外通过词频计算的方式获取关键词往往无法知道关键词的属性，因此无法使用更为准确的模板，得到更加精准的报告。

技术实现要素：

4.本技术提供了一种生成医疗报告的方法及装置，以解决现有方法无法使用更为准确的模板，得到更加精准的报告的问题。
5.第一方面，为实现上述目的，本技术提供了一种生成医疗报告的方法，所述方法包括：
6.获取初始数据，对所述初始数据进行识别获取待生成报告文本；
7.对所述待生成报告文本进行预处理获取预处理后的句子集合；
8.对所述预处理后的句子集合进行处理获得重要句子集合；
9.对所述重要句子集合进行命名实体识别获取实体属性集；
10.获取报告模板，添加实体属性至报告模板中的对应位置，生成目标医疗报告。
11.进一步地，所述对所述待生成报告文本进行预处理获取预处理后的句子集合，包括：
12.对所述待生成报告文本进行分句、对所述待生成报告文本去除无用助词和\或对所述待生成报告文本中的医学专属名词进行纠正。
13.进一步地，所述对所述待生成报告文本进行分句，包括：
14.获取待生成报告文本中的标点符号及预设的分句最大长度；
15.根据标点符号对待生成报告文本进行切分，获取第一分句集；
16.遍历第一分句集，如果分句长度大于预设的分句最大长度，则对分句进行切分，获
取第二分句集。
17.进一步地，所述对所述预处理后的句子集合进行处理获得重要句子集合，包括：
18.将所述预处理后的句子集合输入训练好的lda主题模型，获取对应的主题；
19.根据主题内词汇的概率分布，获取句子重要程度值；
20.通过将所述句子重要程度值与阈值比较后，提取句子重要程度值大于阈值的句子，获取重要句子合集。
21.进一步地，所述阈值为动态计算得到的数值。
22.第二方面，为实现上述目的，本技术提供了一种生成医疗报告的装置，所述装置包括：
23.文本获取单元，用于获取初始数据，对所述初始数据进行识别获取待生成报告文本；
24.预处理单元，用于对所述待生成报告文本进行预处理获取预处理后的句子集合；
25.重要句子抽取单元，用于对所述预处理后的句子集合进行处理获得重要句子集合；
26.命名实体识别单元，用于对所述重要句子集合进行命名实体识别获取实体属性集；
27.目标医疗报告生成单元，用于获取报告模板，添加实体属性至报告模板中的对应位置，生成目标医疗报告。
28.进一步地，所述预处理单元还用于：
29.对所述待生成报告文本进行分句、对所述待生成报告文本去除无用助词和\或对所述待生成报告文本中的医学专属名词进行纠正。
30.进一步地，所述预处理单元还用于：
31.获取待生成报告文本中的标点符号及预设的分句最大长度；
32.根据标点符号对待生成报告文本进行切分，获取第一分句集；
33.遍历第一分句集，如果分句长度大于预设的分句最大长度，则对分句进行切分，获取第二分句集。
34.进一步地，所述重要句子抽取单元还用于：
35.将所述预处理后的句子集合输入训练好的lda主题模型，获取对应的主题；
36.根据主题内词汇的概率分布，获取句子重要程度值；
37.通过将所述句子重要程度值与阈值比较后，提取句子重要程度值大于阈值的句子，获取重要句子合集。
38.进一步地，所述阈值为动态计算得到的数值。
39.第三方面，为实现上述目的，本技术提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面任一项生成医疗报告的方法的步骤。
40.第四方面，为实现上述目的，本技术提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面任一项生成医疗报告的方法的步骤。
41.由以上技术方案可见，本技术实施例提供的一种生成医疗报告的方法及装置，通过获取初始数据，对所述初始数据进行识别获取待生成报告文本；对所述待生成报告文本
进行预处理获取预处理后的句子集合；对所述预处理后的句子集合进行处理获得重要句子集合；对所述重要句子集合进行命名实体识别获取实体属性集；获取报告模板，添加实体属性至报告模板中的对应位置，生成目标医疗报告。
42.本技术不采用按照传统的句号或者问号等断句标点符号进行分句，而是采用只要是标点符号就进行分句的方案，并且提出了一个分句最大长度的概念，当按照标点符号分句得到的句子长度任超过设定的分句最大长度，则将其按照分句最大长度进行截取切分，使得句子的颗粒度更细，更能准确的获取到其重要性程度值。本技术还提出了一种动态获取重要性句子阈值的方案，通过该方案可以使得使用lda主题模型无论是在文本句子过多或过少的时候，均能更加准确的提取出重要程度高的句子，且在于分辨出关键与不关键的句子的场景更加广阔，提高了重要性句子抽取方案的适应性及准确性。最终输出的医疗报告，通过关键字与模板的结合，最终生成的报告含括了医疗会议的主要谈论主题及相关重要细节。
43.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本技术。
附图说明
44.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
45.图1为本技术实施例提供的生成医疗报告的方法的流程示意图；
46.图2为本技术实施例提供的生成医疗报告的装置的结构示意图。
具体实施方式
47.下面通过对本技术进行详细说明，本技术的特点和优点将随着这些说明而变得更为清楚、明确。
48.在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。
49.在本技术的描述中，需要说明的是，术语“上”、“下”、“内”、“外”、“前”、“后”、“左”和“右”等指示的方位或位置关系为基于本技术工作状态下的方位或位置关系，仅是为了便于描述本技术和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本技术的限制。此外，术语“第一”、“第二”、“第三”和“第四”仅用于描述目的，而不能理解为指示或暗示相对重要性。
50.为解决上述问题，本技术提供了一种生成医疗报告的方法及装置，下面结合附图，详细介绍本技术的具体实施例
51.图1为本技术实施例提供的一种生成医疗报告的方法的流程示意图，如图1所示，所述方法包括步骤s101至s105。
52.s101：获取初始数据，对所述初始数据进行识别获取待生成报告文本。
53.具体实施时，初始数据可能为音视频数据，需要转换为文本数据，如通过语音识别
技术对音视频数据进行识别转换为文本数据。
54.如获取视频数据，通过语音识别技术，生成待报告文本：“尊敬的各位教授，我是本次会议助理，很高兴各位教授参与远程医道项目。嗯，今天我们那个在这里分析一个特殊的心脑血管疾病的病例，病人24小时心跳不安定，头会晕，武平县人民医院检查不出什么病。患者于14天前，行经期出现头痛，表现为右侧顶枕部波动性疼痛，以清晨和活动后明显，疼痛程度可以忍受。啊。经过一系列的诊断，确诊为心律失常综合征，目前已开始服用阿嚏洛尔片富马酸比索洛尔片，酒石酸美脱落尔缓释片。那么下面我们让李教授和我们一起分享下具体确诊的步骤有哪些。那个重点在于易误诊方向及治疗注意事项。大家掌声欢迎。”。
55.s102：对所述待生成报告文本进行预处理获取预处理后的句子集合。
56.具体实施时，为了能够获取更为准确的报告结果，还需对待报告文本进行预处理，包括对所述待生成报告文本进行分句、对所述待生成报告文本去除无用助词和\或对所述待生成报告文本中的医学专属名词进行纠正等。
57.具体地，所述对所述待生成报告文本进行分句，包括：
58.获取待生成报告文本中的标点符号及预设的分句最大长度；
59.根据标点符号对待生成报告文本进行切分，获取第一分句集；
60.遍历第一分句集，如果分句长度大于预设的分句最大长度，则对分句进行切分，获取第二分句集。
61.具体实施是，待生成报告文本按照每一个标点符号进行分句，且预设一个分句最大长度，当按照标点符号进行分句时，得到的某些句子长度大于设定的分句最大长度，则将其按照最大长度截取成为多个不超过最大长度的句子，这样能使得句子的颗粒度更细。实施时可设定的分句最大长度为150个字符，使用的分词方法为开源方法“jie ba”。
62.其中“嗯”，“那个”，“在这里”，“那么下面”等无用助词会被剔除，去除语气助词是通过医疗词汇分词处理后，将得到的无用词进行剔除，无用词来源于自身列举的字典。
63.医学专属名词纠正则是通过使用由大量医学报告和文本数据训练得到的n-gram语言模型以及对照医学字典的方法进行纠正，如“啊摸西林”则会被纠正为“阿莫西林”，“阿嚏洛尔片富马酸比索洛尔片”纠正为“阿替洛尔片富马酸比索洛尔片”，“酒石酸美脱落尔缓释片”纠正为“酒石酸美托洛尔缓释片”。
64.进行预处理后得到预处理后的句子集合为“{[尊敬的各位教授],[我是本次会议助理],[很高兴各位教授参与远程医道项目],[今天我们分析一个特殊的心脑血管疾病的病例],[病人24小时心跳不安定],[头会晕],[武平县人民医院检查不出什么病,[患者于14天前],[行经期出现头痛],[表现为右侧顶枕部波动性疼痛],[以清晨和活动后明显],[疼痛程度可以忍受],[经过一系列的诊断],[确诊为心律失常综合征],[目前已开始服用阿替洛尔片富马酸比索洛尔片],[酒石酸美托洛尔缓释片],[我们让李教授和我们一起分享下具体确诊的步骤],[重点在于易误诊方向及治疗注意事项],[大家掌声欢迎]}”。
[0065]
预处理过程中，不是采用按照传统的句号或者问号等断句标点符号进行分句，而是采用只要是标点符号就进行分句的方案，并且设定分句最大长度，当按照标点符号分句得到的句子长度任超过设定的分句最大长度，则将其按照分句最大长度进行截取切分，使得句子的颗粒度更细，更能准确的获取到其重要性程度值。
[0066]
s103：对所述预处理后的句子集合进行处理获得重要句子集合。
[0067]
具体实施时，先使用大量的医学会议记录及会后报告对lda主题模型进行训练，对数据集进行主题分类，获取各个主题下的词汇概率分布。
[0068]
对所述对所述预处理后的句子集合进行处理获得重要句子集合，包括：
[0069]
将所述预处理后的句子集合输入训练好的lda主题模型，获取对应的主题；
[0070]
根据主题内词汇的概率分布，获取句子重要程度值；
[0071]
通过将所述句子重要程度值与阈值比较后，提取句子重要程度值大于阈值的句子，获取重要句子合集。
[0072]
具体实施时，将所述预处理后的句子集合输入训练好的lda主题模型中，通过对比各个词汇出现的概率分布，获取其对应的主题，并使用该主题下各个词汇的概率分布，通过加权求和的方式，得到该语句的重要程度值，将大于设定的阈值的语句提取出来，获取重要句子集合。
[0073]
本实施例采用的lda主题模型设定的主题数目为6个，设定的阈值是通过每次输入的待生成报告文本动态计算的，取全部句子中最大重要性程度值的1/3与重要性程度值前40％中的最小值，求取这两个值中的大值作为本次重要句子抽取的阈值。
[0074]
例如对s201实施例中的预处理后的句子集合求取重要程度值，有{[尊敬的各位教授]：103,[我是本次会议助理]：151,[很高兴各位教授参与远程医道项目]：133,[今天我们分析一个特殊的心脑血管疾病的病例]：421,[病人24小时心跳不安定]：874,[头会晕]：901,[武平县人民医院检查不出什么病]：512,[患者于14天前]：205,[行经期出现头痛]：910,[表现为右侧顶枕部波动性疼痛]：1028,[以清晨和活动后明显]：192,[疼痛程度可以忍受]：731,[经过一系列的诊断]：163,[确诊为心律失常综合征]：1261,[目前已开始服用阿替洛尔片富马酸比索洛尔片]：1273,[酒石酸美托洛尔缓释片]：1300,[我们让李教授和我们一起分享下具体确诊的步骤]：221,[重点在于易误诊方向及治疗注意事项]：431,[大家掌声欢迎]：151}，其中最大值为1300，其1/3为434，重要程度值前40％中的最小值为731，取两者的最大值为731，则重要程度值大于731的句子将被抽取出来，得到重要句子集合{[病人24小时心跳不安定],[头会晕],[行经期出现头痛],[表现为右侧顶枕部波动性疼痛],[疼痛程度可以忍受],[确诊为心律失常综合征],[目前已开始服用阿替洛尔片富马酸比索洛尔片],[酒石酸美托洛尔缓释片]}。
[0075]
在步骤s301中，提出了一种动态获取重要性句子阈值的方案，通过该方案可以使得使用lda主题模型时，无论文本句子过多或过少，均能更加准确的提取出重要程度高的句子，且在于分辨出关键与不关键的句子的场景更加广阔。动态阈值算法，提高了重要性句子抽取方案的适应性及准确性，全部句子中最大重要性程度值的1/3保证了各个重要性程度值的相关性，而重要性程度值前40％中的最小值则保证了提取重要性句子的全面性。
[0076]
s104：对所述重要句子集合进行命名实体识别获取实体属性集；
[0077]
命名实体识别(named entity recognition，简称ner)，又称作"专名识别"，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。在医疗领域，特定意义的实体包括药品、疾病、症状等。文本数据通过命名实体识别会得到多个实体，这些实体一起存储形成实体集合。
[0078]
在此步骤中主要是使用自然语言处理中的命名实体识别技术，对s301中提取出来的重要句子集合进行命名实体识别，得到关键字词及其属性集合。本实施例中的命名实体
识别使用的模型为bilstm crf，制定的属性类别有“疾病名称”、“疾病症状”、“身体部位”、“药品”、“检查项目”，总共五个类别，模型参数已经通过大量标注好的医疗会议记录及报告文本数据训练完毕。
[0079]
对s301中的重要句子集合进行命名实体识别得到{[“心跳不安
”‑“
疾病症状”],[“头会晕
”‑“
疾病症状”],[“头痛
”‑“
疾病症状”],
[0080]
[“右侧顶枕部
”‑“
身体部位”],[“波动性疼痛
”‑“
疾病症状”],[“疼痛
”‑“
疾病症状”],
[0081]
[“心律失常综合征
”‑“
疾病名称”],[“阿替洛尔片富马酸比索洛尔片
”‑“
药品”],
[0082]
[“酒石酸美托洛尔缓释片
”‑“
药品”]}。
[0083]
s105：获取报告模板，添加所述实体属性至报告模板中的对应位置，生成目标医疗报告。
[0084]
报告模板是根据会议最终报告需要，通过对大量的最终报告的分析及总结最终得到。本实施例则通过对自身业务场景出发，总结出来的报告模板为：诊断；症状及伴随症状：{疾病症状}；疾病及伴随疾病：{疾病名称}；检查项目包括：{检查项目}；建议治疗用药包括{药品}。其中{}内内容为需要添加填写的内容。当缺失某些属性时生成的报告也不会出现相应的部分，在实施例中由于没有“检查项目”这一属性，因此使用的模板在也不会出现“检查项目包括：{检查项目}；”这一部分。
[0085]
之后将根据s401中的命名实体识别得到的各个实体的属性，在前述报告模板中进行相应的添加，输出最终生成的目标医疗报告。本实施例中最终输出的目标医疗报告则为“诊断：症状及伴随症状：心跳不安、头会晕、头痛、波动性疼痛、疼痛；疾病及伴随疾病：心律失常综合征；建议治疗用药包括：阿替洛尔片富马酸比索洛尔片、酒石酸美托洛尔缓释片”。
[0086]
通过关键字与报告模板的结合，最终输出的目标医疗报告含括了医疗会议的谈论主题及相关重要细节。
[0087]
本技术不采用按照传统的句号或者问号等断句标点符号进行分句，而是采用只要是标点符号就进行分句的方案，并且提出了一个分句最大长度的概念，当按照标点符号分句得到的句子长度任超过设定的分句最大长度，则将其按照分句最大长度进行截取切分，使得句子的颗粒度更细，更能准确的获取到其重要性程度值。在于步骤s301中，提出了一种动态获取重要性句子阈值的方案，通过该方案可以使得使用lda主题模型无论是在文本句子过多或过少的时候，均能更加准确的提取出重要程度高的句子，且在于分辨出关键与不关键的句子的场景更加广阔。步骤s301提出的一种动态阈值算法，提高了重要性句子抽取方案的适应性及准确性，全部句子中最大重要性程度值的1/3保证了各个重要性程度值的相关性，而重要性程度值前40％中的最小值则保证了提取重要性句子的全面性。最终输出的医疗报告，通过关键字与模板的结合，最终生成的报告含括了医疗会议的主要谈论主题及相关重要细节。
[0088]
与本技术提供的一种生成医疗报告的方法实施例相对应，本技术还提供一种生成医疗报告的装置的实施例。参考图2，为本技术实施例提供的一种生成医疗报告的装置的结构示意图，所述装置包括：
[0089]
文本获取单元100，用于获取初始数据，对所述初始数据进行识别获取待生成报告文本；
[0090]
预处理单元200，用于对所述待生成报告文本进行预处理获取预处理后的句子集合；
[0091]
重要句子抽取单元300，用于对所述预处理后的句子集合进行处理获得重要句子集合；
[0092]
命名实体识别单元400，用于对所述重要句子集合进行命名实体识别获取实体属性集；
[0093]
目标医疗报告生成单元500，用于获取报告模板，添加实体属性至报告模板中的对应位置，生成目标医疗报告。
[0094]
进一步地，所述预处理单元200还用于：
[0095]
对所述待生成报告文本进行分句、对所述待生成报告文本去除无用助词和\或对所述待生成报告文本中的医学专属名词进行纠正。
[0096]
进一步地，所述预处理单元200还用于：
[0097]
获取待生成报告文本中的标点符号及预设的分句最大长度；
[0098]
根据标点符号对待生成报告文本进行切分，获取第一分句集；
[0099]
遍历第一分句集，如果分句长度大于预设的分句最大长度，则对分句进行切分，获取第二分句集。
[0100]
进一步地，所述重要句子抽取单元300还用于：
[0101]
将所述预处理后的句子集合输入训练好的lda主题模型，获取对应的主题；
[0102]
根据主题内词汇的概率分布，获取句子重要程度值；
[0103]
通过将所述句子重要程度值与阈值比较后，提取句子重要程度值大于阈值的句子，获取重要句子合集。
[0104]
本技术实施例提供的一种生成医疗报告的方法及装置，通过获取初始数据，对所述初始数据进行识别获取待生成报告文本；对所述待生成报告文本进行预处理获取预处理后的句子集合；对所述预处理后的句子集合进行处理获得重要句子集合；对所述重要句子集合进行命名实体识别获取实体属性集；获取报告模板，添加实体属性至报告模板中的对应位置，生成目标医疗报告，不仅可以提高效率，还能保证准确率，得到更加精准的报告。
[0105]
根据上述生成医疗报告的方法，本技术实施例还提供一种可读存储介质和一种计算机设备。可读存储介质上存储有可执行程序，该程序被处理器执行时实现上述生成医疗报告的方法的步骤；计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的可执行程序，处理器执行程序时实现上述生成医疗报告的方法的步骤。
[0106]
以上结合具体实施方式和范例性实例对本技术进行了详细说明，不过这些说明并不能理解为对本技术的限制。本领域技术人员理解，在不偏离本技术精神和范围的情况下，可以对本技术技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本技术的范围内。本技术的保护范围以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种生成医疗报告的方法及装置与流程

相关文献

最热文献