一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

医疗影像处理方法、装置和存储介质与流程

2021-11-26 22:16:00 来源:中国专利 TAG:


1.本技术涉及人工智能技术领域,特别涉及一种医疗影像处理方法、装置和存储介质。


背景技术:

2.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
3.医生在制定治疗方案时,一个重要的参考是疾病预后预测。疾病预后是指疾病发生后,对疾病未来发展的病程和结局(痊愈、复发、恶化、致残、并发症和死亡等)的预测。疾病预后可以利用多种信息,例如与疾病有关的影像信息。现有技术中,疾病的预后与医生的知识水平、经验密切相关,准确性因人而异。
4.计算机视觉技术和机器学习技术作为人工智能的核心,其应用范围目前已经遍及各个领域,比如医疗领域便是其中一种。在医疗领域中,利用计算机视觉技术和机器学习技术对医疗影像进行处理,可实现对病人的疾病预后的确定。然而,疾病预后的准确性也受到诸多挑战,例如,同样的影像对于不同的病人或病程,疾病预后可能存在显著不同。


技术实现要素:

5.一种医疗影像处理的方式是针对某一疾病,提取病人相关的影像组学特征数据与病历特征数据,采用简单的线性回归或者逻辑回归模型建立机器学习模型。
6.然而,该方式存在诸多不足,例如准确率有限,因为采用的线性回归模型较为简单,不能处理各个特征之间复杂、高维的关系,可能无法较好拟合训练数据,出现模型欠拟合。再例如,该方式无法很好的处理病历数据中的缺失值,在缺失值较多的情况下无法得到较好的表现。还例如该方式提取影像组学特征数据需要事先进行roi(region of interest)标注,再提取一系列预先定义好的手工特征,流程繁复,需要人力资源,且不具备复用性。在特征的选择上,需逐一判断每个特征在正负样本上的分布是否具有显著性差异。因此,这样的方案迁移性弱,开发周期长。在新的任务上,需要再进行针对性的特征筛选,才能进行模型开发。
7.本发明的实施例提供了医疗影像处理方法、装置和存储介质。
8.根据本公开的第一方面,提供一种医疗影像处理方法,其特征在于,包括:获取医疗影像数据和与所述医疗影像数据匹配的病历数据;对所述医疗影像数据和所述病历数据进行特征提取,得到医疗图像初始特征和所述病历初始特征;对所述医疗图像初始特征和所述病历初始特征进行特征筛选,得到医疗图像预测特征和病历预测特征;将所述医疗影像预测特征和所述病历预测特征进行特征融合,得到医疗预测融合特征;基于所述医疗预测融合特征,生成所述医疗影像数据对应的医疗预后信息。
9.在一个实施例中,所述获取医疗影像数据和与所述医疗影像数据匹配的病历数据,包括:获取医疗影像数据;确定所述医疗影像数据对应身份识别信息;从病历数据库中
拉取与所述身份识别信息对应的病历数据,得到与所述医疗影像数据匹配的病历数据。
10.在一个实施例中,所述对所述医疗影像数据和所述病历数据进行特征提取,得到医疗图像初始特征和所述病历初始特征,包括:对所述病历数据进行数据清洗,并对经过数据清洗的病历数据进行特征编码,得到病历初始特征;对所述医疗影像数据进行目标区域分割,得到目标影像区域数据;提取所述目标影像区域数据的数据特征,得到医疗影像初始特征。
11.在一个实施例中,所述对所述医疗影像数据进行目标区域分割,得到目标影像区域数据,包括:将所述医疗影像数据输入目标分割网络模型,得到所述目标分割网络模型从所述医疗影像数据中的目标区域所对应的目标影像区域数据。
12.在一个实施例中,所述提取所述目标影像区域数据的数据特征,得到医疗影像初始特征,包括:将所述目标影像区域数据输入目标功能网络模型,所述目标功能网络用于执行与所述医疗影像有关的识别任务;提取所述目标功能网络的隐藏层的特征,得到所述医疗影像初始特征。
13.在一个实施例中,对所述病历数据进行数据清洗,并对经过数据清洗的病历数据进行特征编码,得到病历初始特征,包括:从所述病历数据中提取符合预设条件的对应各维度的维度信息;识别所述维度信息中的异常值;基于识别到的异常值所属类别,确定异常值处理方式;根据确定的异常值处理方式对所述异常值进行异常处理,得到经过数据清洗的病历数据;对所述经过数据清洗的病历数据进行寄存器特征编码,得到病历初始特征。
14.在一个实施例中,所述对所述医疗图像初始特征和所述病历初始特征进行特征筛选,得到医疗图像预测特征和病历预测特征,包括:将所述医疗图像初始特征和所述病历初始特征输入预后特征筛选模型,基于所述预后特征筛选模型筛选得到医疗图像预测特征和病历预测特征;所述预后特征筛选模型为用于筛选与预后预测任务相关的预测特征;所述将所述医疗影像预测特征和所述病历预测特征进行特征融合,得到医疗预测融合特征,包括:通过所述预后特征筛选模型将所述医疗图像预测特征和所述病历预测特征进行拼接融合,得到医疗预测融合特征。
15.在一个实施例中,所述基于所述医疗预测融合特征,生成所述医疗影像数据对应的医疗预后信息,包括:将所述医疗预测融合特征输入预后预测模型,通过所述预后预测模型确定所述医疗影像数据中目标区域的未来变化数据;基于所述未来变化数据生成所述医疗影像数据对应的预后影像预测数据。
16.在一个实施例中,所述预后预测模型通过以下方式训练:确定用于训练预后预测模型的样本数据集合的数据量;当所述样本数据集合的数据量大于预设数据量时,则利用深度神经网络模拟树形结构来来训练预后预测模型;当所述样本数据集合的数据量小于等于预设数据量时,则利用决策树方式来训练预后预测模型。
17.在一些实施例中,当存在万量级以下的训练数据时,确定疾病预后的机器学习模型采用xgboost算法或catboost算法;当存在万量级及以上的训练数据时,确定疾病预后的机器学习模型采用tabnet算法。
18.根据本公开的第二方面,提供一种医疗影像处理装置,其特征在于,包括:获取模块,被配置成获取医疗影像数据和与所述医疗影像数据匹配的病历数据;特征提取模块,被配置成对所述医疗影像数据和所述病历数据进行特征提取,得到医疗图像初始特征和所述
病历初始特征;特征筛选模块,被配置成对所述医疗图像初始特征和所述病历初始特征进行特征筛选,得到医疗图像预测特征和病历预测特征;特征融合模块,被配置成将所述医疗影像预测特征和所述病历预测特征进行特征融合,得到医疗预测融合特征;预后信息生成模块,被配置成基于所述医疗预测融合特征,生成所述医疗影像数据对应的医疗预后信息。
19.根据本公开的第三方面,提供一种医疗影像处理装置,包括:处理器;以及存储器,配置为在其上存储有计算机可执行指令,该指令当在该处理器中执行时使得实现根据本公开第一方面方法。
20.根据本公开的第四方面,提供该一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当该计算机可读存储介质在计算机上运行时,使得该计算机实现根据本公开第一方面的方法。
21.根据本公开实施例,通过深度学习网络提取医疗影像数据,丰富了影像特征的维度,同时由于这种方式提取的特征经过了深度学习网络的初步抽象,有助于提高确定疾病预后的模型的应用效率和准确率。根据本公开实施例,通过组合影像的特征数据和病历特征数据,有助于提高确定疾病预后的准确率。提取传统影像组学特征数据时,可以使用预先训练的机器学习模型进行病变部分的标记,而不需要标注人员手动标记,提高了标记的效率。当该机器学习模型可以采用提取医疗影像数据所使用的深度学习网络,能够提高使用效率,减少模型训练的任务量。通过适当选择的确定疾病预后的模型,可以综合许多数据预处理的功能,例如处理病历数据的异常值、类别型数据等,极大地提高了模型的易用性,降低对用户专业性的要求。在训练数据足够大的情况下,tabnet的表现会比xgboost和catboost等算法更好。可以利用来自不同医院的大量数据和更多的特征维度,而不出现欠拟合,有利于提高模型准确率。
附图说明
22.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图;图1图示了本发明实施例提供的医疗影像处理能够应用的一个示例性环境架构图;图2图示了根据本发明实施例的医疗影像处理的方法的流程图;图3图示了本发明实施例在脑出血场景中的一个具体应用实施例;图4图示了根据本发明实施例的医疗影像处理的装置的框图;图5图示了根据本发明实施例的与医疗影像处理的有关的硬件环境图。
具体实施方式
23.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
24.本技术所使用的术语“每个”、“多个”等,多个包括两个或两个以上,每个是指对应的多个中的每一个。
25.本技术提及的人工智能(artificial intelligence,ai),是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
26.本技术提及的计算机视觉技术(computer vision,cv)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr(optical character recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
27.xgboost:指的是一种提升树模型,其将多个树模型集成在一起形成一个强分类器,树模型可为cart树模型。xgboost模型的主要思想是将大量弱分类器(以树结构为基础)集成为一个准确率较高的强分类器。xgboost模型主要利用特征维度对样本空间进行划分,通过不断地进行特征分裂来添加树,最终通过贪婪算法和调节树的最大深度的超参数得到一个包含k棵树的模型,并利用该模型对样本进行预测。
28.catboost:指的是一种基于对称决策树为基学习器实现的参数较少、支持类别型变量和高准确性的gbdt框架,能够较为高效合理地处理类别型特征。catboost由categorical和boosting组成。
29.tabnet:指的是一种用于表格数据处理的深度学习网络结构,其旨在提供可解释性和稀疏特征选择。tabnet将数据处理过程分成多步进行,在每一步根据输入特征以及学习到的特征变换和权重系数mask,得到当前步的输出向量,最终将多步输出向量累加之后,利用全连接层进行变换处理,从而得到最终的输出。roi(region of interest):指的是在机器视觉、图像处理中,从被处理图像中以方框、圆、椭圆、不规则多边形等方式勾勒出的需要处理的区域。roi区域是原始数据上的局部区域。广义地,roi区域可以指代读者需要关注的任意区域。
30.影像组学:指的是从影像(ct、mri、pet等)中高通量地提取大量影像信息,以实现肿瘤分割、特征提取与模型建立的过程。可直观地将影像组学理解为将视觉影像信息转化为深层次的特征来进行量化研究的过程。影像组学采用自动化算法从影像的感兴趣区域(roi)中提取出大量特征信息作为研究对象,并采用多样化的统计分析和数据挖掘方法从特征信息中提取和剥离出真正起作用的关键信息,最终用于疾病的辅助诊断、分类或分级。影像组学凭借对海量影像数据信息进行更深层次的挖掘、预测和分析来辅助医师做出更准确的诊断。
31.pandas:指的是用python进行数据分析时常常使用的核心包之一,其提供了大量的数据分析函数,包括数据处理、数据抽取、数据集成、数据计算等基本的数据分析手段。pandas的核心数据结构包括序列(series)和数据框(dataframe),其中序列储存一维数据
而数据框则可以存储更复杂的多维数据。pandas在数据预处理(如数据清洗、缺失值填充)、时间序列预测、数据可视化等方面都有着广泛的应用。
32.sklearn(scikit

learn):指的是一种开源的基于python语言的机器学习工具包。sklearn包含了从数据预处理到训练模型的各个方面,其通过numpy、scipy和matplotlib等python数值计算的库来实现高效的算法应用,sklearn拥有可以用于监督和无监督学习的多种方法,并且涵盖了几乎所有主流的机器学习算法(如线性回归、岭回归、支持向量机、随机梯度下降、交叉分解、朴素贝叶斯、决策树等)。
33.随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
34.计算机视觉技术和机器学习技术作为人工智能的核心,其应用范围目前已经遍及各个领域,比如医疗领域便是其中一种。在医疗领域中,利用计算机视觉技术和机器学习技术对医疗影像等数据进行处理,可以对疾病预后进行预测,以辅助医生制定治疗方案。疾病预后只指疾病发生后,对疾病未来发展的病程和结局(例如痊愈、复发、恶化、致残、并发症和死亡等)的预测。按照疾病发生或发展过程中是否接受治疗,预后可分为自然预后和治疗预后。研究预后的目的是为了认识疾病发展过程的规律,发现早期破译预后信息的方法;创设和运用有效治疗手段,掌握诊疗的制动权;干预不良的自然预后,改善不良的治疗预后,提高医疗水平,提高生活质量。同时,预后研究的水平是现代科学技术水平、医学科学水平的真实反映,预后研究是医学进步的动力之一。病人都很希望通过有关的医学咨询,以获得关于预后的信息。特别是否有可能或者有必要改善预后,如会更快康复或减轻症状;预防疾病的恶化或并发症;延长生命等。正确的医学建议取决于对有关预后的知识掌握。
35.大部分的预后判断依靠个人的医疗经验或者阅读有关大量确诊病人随访文献。然而,如果经验得不到仔细收集的定量资料的支持,则可能不准确或产生偏差。
36.医疗领域中采用的计算机视觉技术主要针对医学影像,包括电子计算机断层扫描(computed tomography,ct)、核磁共振成像(magnetic resonance imaging,mri)、正电子发射型计算机断层显像(positron emission computed tomography,pet)、超声影像等。
37.本技术实施例提供的方案涉及人工智能的计算机视觉技术或机器学习等技术,具体通过下述实施例进行说明。
38.本技术实施例涉及的病变部分,是指机体上(例如细胞、组织和器官等)遭受各种致病因素而发生病理变化的部分。例如血管破裂产生脑出血的部分。病变部分包括病灶。在医学影像中,病变部分即为roi。
39.本技术实施例涉及的影像组学特征可以包括两类,分别是定性语义特征和定量特征。定性语义特征是医学影像中用来描述病变的特征,可以包括病变直径、形状、边缘、密度、空洞、钙化等。而定量特征是通过软件应用数学算法提取出来的描述特征,可以表现出不同程度的复杂性,既可以表现为病变部分的形状、体素强度直方图,也可以表现为体素强度值(纹理)的空间排列。定量特征通常有两种获取方式,一种是从图像中直接提取,另外一种是通过各种滤波器或数学变换后再提取。定量特征通常可以分为以下4类:

形状特征,roi的形状及几何特性即为形状特征,如病灶的最大表面积、不同方向上的最大直径、致密
性、体积和球形度。

一阶统计特征,即不考虑空间关系时个体体素值的分布。一阶统计特征主要以直方图的属性为基础,主要包括体素强度的最大值、中值、最小值、均值,以及它们的偏度(不对称度)、峰度(平坦度)、一致性和随机性(熵)。

二阶统计特征,即纹理特征,可通过计算相邻体素之间的统计交互关系获得。二阶统计特征能够测量体素强度空间排列,即病变内异质性的度量。

高阶统计特征,通过滤波器或数学变换包括分形分析、minkowski函数、小波变化和高斯滤波变换的拉普拉斯变换)将图像中纹理粗糙的区域提取出来,再应用统计学方法计算获得。
40.本技术实施例涉及的病历是医务人员对医护服务对象的疾病的发生、发展、转归,进行检查、诊断、治疗等医疗活动过程的记录。也是对采集到的资料加以归纳、整理、综合分析,按规定的格式和要求记录的医护服务对象的医疗健康档案。
41.可以理解,本技术实施例所述的医疗影像处理的方法,不限于针对人,还可以是针对动物等机体的疾病预后,等等。
42.图1是本技术实施例提供的医疗影像处理的方法的实施环境示意图。参见图1,该实施环境中可以包括终端110、拍摄设备120和服务器130。终端110、拍摄设备120和服务器130之间可以通过无线网络或有线网络140相连。
43.终端110可以是智能手机、平板电脑、便携计算机、医疗用计算机等设备。终端110安装和运行有医疗影像处理的应用程序。示意性的,终端110是用户使用的终端,终端110中运行的应用程序内登录有用户账户。本领域技术人员可以知晓,上述终端的数量可以更多或更少。比如上述终端可以仅为一个,或者上述终端为几十个或几百个,或者更多数量,此时上述实施环境中还包括其他终端。本技术实施例对终端的数量和设备类型不加以限定。
44.在一些示例中,终端110本身能够独立支持医疗影像处理的应用而无需依赖于服务器130。通常,用户通过操作终端上的应用而触发对服务器支持功能的请求。注意,这里的“用户”应作广义理解,可以是人,也可以是任何能够操作应用的功能实体,例如,基于对人的操作行为分析而触发对医疗影像处理的应用的操作的功能实体。
45.拍摄设备120可以为具有图像拍摄能力的设备,例如电子计算机断层扫描(computed tomography,ct)设备或核磁共振成像(magnetic resonance imaging,mri)设备、正电子发射型计算机断层显像(positron emission computed tomography,pet)设备、超声成像设备等等;当然也可以是其他能够获取图像的设备,包括甚至智能手机上的摄像头,本技术实施例对于拍摄设备的类型和数量不作限定。在一些示例中,拍摄设备120可能与终端110并不同时或同地存在,而是由终端从网络中获取由拍摄设备120在不同时间和/或不同地点拍摄的影像。
46.服务器130可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。
47.云计算是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,
按使用付费。作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为iaas(infrastructure as a service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。按照逻辑功能划分,在iaas(infrastructure as a service,基础设施即服务)层上可以部署paas(platform as a service,平台即服务)层,paas层之上再部署saas(software as a service,软件即服务)层,也可以直接将saas部署在iaas上。paas为软件运行的平台,如数据库、web容器等。saas为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,saas和paas相对于iaas是上层。作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为iaas(infrastructure as a service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
48.服务器130可以基于云而协作而支持不同的终端110,也可以各自独立支持不同的终端,例如可以按照终端110登录的ip地址或者应用类型等划分方式对终端进行划分,从而分配给不同的终端110进行服务,当然,也可以响应于实时的集中调度而分配给不同的终端110。
49.网络140可以包括但不限于广域网、局域网、有线网络、无线网络,或者其任意组合。
50.在本技术实施例中,可以由服务器或终端作为执行主体来实施本技术实施例提供的技术方案,也可以通过终端和服务器之间的交互来实施本技术提供的技术方法,还可以由服务器和终端分别执行本技术的不同实施例,本技术实施例对此不作限定。
51.图2图示了根据本发明实施例的医疗影像处理的方法的流程图。该方法可以应用于计算机设备中。该计算机设备可以为上述实施环境中的终端设备110或服务器130,也可以是任何其他环境中的设备。参见图2,该方法可以包括以下步骤,并具体地以脑出血这一疾病为例进行说明,然而,本技术实施例并不限于脑出血。
52.在步骤201中,获取医疗影像数据和与医疗影像数据匹配的病历数据。
53.该医疗影像数据包括影像在经训练的执行病变部分有关任务的机器学习模型中处理的过程中得到的特征。该执行病变部分有关任务的机器学习模型可以是深度神经网络。
54.该经训练的执行病变部分有关任务的机器学习模型例如可以包括用于确定该影像中病变部分可见性的分类神经网络,以脑出血这一疾病为例,分类任务例如可以是确定分类影像中是否可见血肿的2分类任务,输入是例如原始ct影像,输出是两个编码,分别代表是和否。
55.该经训练的执行病变部分有关任务的机器学习模型还例如可以包括用于确定病变部分位置的神经网络,以脑出血这一疾病为例,确定病变部分位置的任务例如可以是标出每个像素是否出血点,输入是例如原始ct影像,输出是详细标出每个像素是否出血点的分割文件。确定病变部分位置的任务例如还可以是标记血肿位置的一个预定形状(诸如方框,这个预定形状能刚好将血肿包括在内)或血肿的轮廓等,输入是例如原始ct影像,输出是用一个预定形状(诸如方框)或血肿的轮廓等标记了血肿位置的影像。
56.本技术实施例不限于上面列举的示例,也不限于执行病变部分有关任务的机器学习模型的训练难度等,只要该经训练的执行病变部分有关任务的机器学习模型用于执行与病变部分有关的任务,该任务可以是确定该影像中病变部分可见性的任务,可以是确定病变部分位置的任务,还可以是确定病变部分特征(例如尺寸等)的任务,等等,或者是任意多个与病变部分有关的任务的组合。经过了上述任务的训练,该经训练的执行病变部分有关任务的机器学习模型具备一定的特征抽象能力来表示病变部分,此时可以选择将影像输入该经训练的执行病变部分有关任务的机器学习模型后得到的、除输入层之外的任何一层的输入数据作为医疗影像数据,或者可以选择将影像输入该经训练的执行病变部分有关任务的机器学习模型后得到的、除输入层之外的任何多个层的输入数据的组合来作为医疗影像数据,例如可以选择将影像输入该经训练的执行病变部分有关任务的机器学习模型后得到的、经训练的执行病变部分有关任务的机器学习模型中最后一层全连接层的输入数据作为医疗影像数据,也可以选择将影像输入该经训练的执行病变部分有关任务的机器学习模型后得到的、经训练的执行病变部分有关任务的机器学习模型中最后一层和倒数第二层的输入数据的组合作为医疗影像数据。
57.在一个实施例中,还获取与影像有关的影像特征数据,该影像特征数据包括影像的影像组学特征数据。首先,基于经训练的定位病变部分的机器学习模型定位影像中的病变部分,然后,获取影像特征数据,影像特征数据包括影像组学特征数据,体现病变部分的特征。
58.上述定位病变部分的机器学习模型可以是经训练的执行病变部分有关任务的机器学习模型。例如,使用与执行病变部分有关任务相同的经训练的、确定病变部分位置的神经网络。照此,训练一个执行病变部分有关任务的机器学习模型可以同时用于执行病变部分有关任务和影像组学特征数据的提取,提高了使用效率,减少模型训练的任务量。当然,定位病变部分的机器学习模型不限于此。此处使用的机器学习模型可以基于fcn,unet,densenet等网络。
59.经定位后,例如可以利用开源的python包pyradiomics来提取影像的影像组学特征数据。pyradiomics可以很方便地提取多种影像特征,例如:直方图强度(intensity histogram)/形状特征(shape

based features)/纹理特征(texture

based features)/小波特征(wavelet features)等。在一个示例中,利用pyradiomics提取了原始影像的形状特征、一阶直方图特征、二阶直方图特征和纹理特征,来作为影像特征数据。
60.根据本公开实施例,通过深度学习网络提取医疗影像数据,丰富了影像特征的维度,同时由于这种方式提取的特征经过了深度学习网络的初步抽象,有助于提高医疗影像处理的模型的应用效率和准确率。
61.在一个实施例中,获取医疗影像数据和与医疗影像数据匹配的病历数据,包括:获取医疗影像数据;确定医疗影像数据对应身份识别信息;从病历数据库中拉取与身份识别信息对应的病历数据,得到与医疗影像数据匹配的病历数据。
62.在步骤202中,对医疗影像数据和病历数据进行特征提取,得到医疗图像初始特征和病历初始特征。在获取与疾病有关的原始病历数据后,对原始病历数据进行预处理,以获取与医疗影像处理有关的病历特征数据。预处理可以包括:筛除与医疗影像处理无关的病历数据、对原始病历数据中的异常值进行处理、对原始病历数据中的类别型数据进行编码,
以使用各个不同的编码表示相应的类别型数据、或对原始病历数据中的连续型数据进行标准化,等等,或上述任意组合。
63.原始的病历数据中可能包含一些与医疗影像处理这一任务无关的特征维度,需要预先剔除。以脑出血疾病为例,使用到的病历特征维度例如共计24维,分别为:“年龄”、“性别”、“发病距第一次ct时间”、“头疼”、“呕吐”、“昏迷”、“脑出血史”、“脑梗史”、“高血压史”、“糖尿病史”、“高脂血症史”、“心衰史”、“冠心病史”、“心律失常史”、“抗凝”、“抗板”、“吸烟”、“饮酒”、“破入脑室”、“第一次出血量”、“入院收缩压”、“入院舒张压”、“出血部位”、和“入院gcs”,例如剔除了“患者id”、“序号(病案号

第几次影像扫描)”、“患者电话”、“死亡/放弃(死亡或放弃填是)”、“第一次影像扫描时间”、“出院gos”、“备注”、“第二次出血量”、“第三次出血量”和每一次的“出血量变化值”。该剔除的特征可以预先设定,也可以由用户选择。
64.原始的病历数据中可能包含一些异常值。异常值顾名思义,即与常规数据不同的数据。例如,异常值可以包括空值,例如对应特征的数据留白了(即缺少数据),或记为unknown、none、null之类的值。异常值还可以包括与特征明显不符的数据,比如:“是否呕吐”这一特征的数据为“10”,则该数据可以理解为异常值。
65.对异常值的处理方式包括:平均值法、最小值法、最大值法、置零法等,或其上任意组合,其中平均值法是将空值设为系统中预存的对应特征的数据中非空值的平均值,最小值法是将空值设为小于系统中预存的对应特征的数据中最小值的一预定值(例如

9999),最大值法是将空值设为大于系统中预存的对应特征的数据中最大值的一预定值(例如9999),置零法是将空值设为0。置零法处理简单,无需参考系统中预存的特征数据。上述系统中预存的对应特征的数据可以是用于训练医疗影像处理的机器学习模型的训练数据,也即同类病患的对应特征的数据。
66.原始的病历数据中可能包含一些类别型数据,例如“是”和“否”,考虑到机器学习相关算法对各数据进行衡量时,依赖的大多是其数值关系,本技术实施例用到的机器学习模型也是基于数值关系,可以将类别型数据编码成数值型数据。在一个示例中,采用独热编码(one

hot

encoding)将类别型数据映射到数值型数据,在独热编码下,特征向量只有某一维取1,其他位置均为0,因此可以利用向量的稀疏性表示有效地节省空间,例如对于一个特征,有两种数据——“是”和“否”,那么“是”可以编码为“01”,“否”可以编码为“10”。
67.对于原始的病历数据中的数值型数据,也可以进行预处理,进行数据标准化,例如采用:最小

最大缩放,将值重新缩放使其最终范围在0

1之间,即(当前值

最小值)/(最大值

最小值);或者标准化,即(当前值

平均值)/方差,使得得到的结果分布具备单位方差,相比最小

最大缩放,标准化的方法受异常值的影响更小。
68.对原始病历数据的上述预处理均可以借助python中的pandas库或sklearn库来实现。然而,对于一些机器学习模型,例如如果选择catboost算法来医疗影像处理的机器学习模型,则有些预处理可以直接在该模型中完成,例如异常值处理和类别型数据的编码,这极大地提高了模型的易用性,降低对用户专业性的要求。
69.在一个实施例中,对医疗影像数据和病历数据进行特征提取,得到医疗图像初始特征和病历初始特征,包括:对病历数据进行数据清洗,并对经过数据清洗的病历数据进行
特征编码,得到病历初始特征;对医疗影像数据进行目标区域分割,得到目标影像区域数据;提取目标影像区域数据的数据特征,得到医疗影像初始特征。
70.在一个实施例中,对医疗影像数据进行目标区域分割,得到目标影像区域数据,包括:将医疗影像数据输入目标分割网络模型,得到目标分割网络模型从医疗影像数据中的目标区域所对应的目标影像区域数据。
71.在一个实施例中,提取目标影像区域数据的数据特征,得到医疗影像初始特征,包括:将目标影像区域数据输入目标功能网络模型,目标功能网络用于执行与医疗影像有关的识别任务;提取目标功能网络的隐藏层的特征,得到医疗影像初始特征。
72.在一个实施例中,对病历数据进行数据清洗,并对经过数据清洗的病历数据进行特征编码,得到病历初始特征,包括:从病历数据中提取符合预设条件的对应各维度的维度信息;识别维度信息中的异常值;基于识别到的异常值所属类别,确定异常值处理方式;根据确定的异常值处理方式对异常值进行异常处理,得到经过数据清洗的病历数据;对经过数据清洗的病历数据进行寄存器特征编码,得到病历初始特征。
73.在步骤203中,对医疗图像初始特征和病历初始特征进行特征筛选,得到医疗图像预测特征和病历预测特征。
74.在一个实施例中,将医疗图像初始特征和病历初始特征输入预后特征筛选模型,基于预后特征筛选模型筛选得到医疗图像预测特征和病历预测特征;预后特征筛选模型为用于筛选与预后预测任务相关的预测特征。具体地,对获取的特征数据进行独立特征选择,以筛除与医疗影像处理无关的特征数据,例如,利用互信息、皮尔森系数或anova(analysis of variance,方差分析)中的f值等方式来筛除。互信息(mutual information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。皮尔森系数(pearson correlation coefficient)也称皮尔森积矩相关系数(pearson product

moment correlation coefficient),是一种线性相关系数。然后,基于经训练的机器学习模型进行特征选择。例如,利用经训练的lasso、具有l1归一化的逻辑回归(logistic regression,lr)、随机森林(random forest,rf)等,该特征选择的目的是确保各特征之间的差异性,尽可能减少冗余的特征维度。通常,特征维度可以从几百个缩减为几十个甚至十几个。
75.在步骤204中,将医疗影像预测特征和病历预测特征进行特征融合,得到医疗预测融合特征。这里,通过预后特征筛选模型将医疗图像预测特征和病历预测特征进行拼接融合,得到医疗预测融合特征。例如,将获取的医疗影像数据包括20个维度,获取的病历特征数据包括30个维度,则医疗预测融合特征为该20个维度与30个维度的拼接。当然,本领域技术人员可以理解,这里不同特征数据的拼接顺序应与训练模型时使用的训练数据的拼接顺序一致。
76.在步骤205中,基于医疗预测融合特征,生成医疗影像数据对应的医疗预后信息。
77.在一个实施例中,基于医疗预测融合特征,生成医疗影像数据对应的医疗预后信息,包括:将医疗预测融合特征输入预后预测模型,通过预后预测模型确定医疗影像数据中目标区域的未来变化数据;基于未来变化数据生成医疗影像数据对应的预后影像预测数据。
78.在一个实施例中,预后预测模型通过以下方式训练:确定用于训练预后预测模型的样本数据集合的数据量;当样本数据集合的数据量大于预设数据量时,则利用深度神经网络模拟树形结构来来训练预后预测模型;当样本数据集合的数据量小于等于预设数据量时,则利用决策树方式来训练预后预测模型。
79.在一个简单示例中,医疗影像处理的机器学习模型是一个二分类模型,可以判断出血是否会扩大,例如输出结果“1”表示会扩大,输出结果“0”表示不会扩大。当然,本技术实施例不限于此。
80.在一个示例中,医疗影像处理的机器学习模型可以采用以下任一算法:xgboost、catboost或tabnet。其中xgboost和catboost是传统机器学习算法,tabnet是深度学习算法。这些算法在分类任务上的表现十分突出,对于异常值数据也有着较好的鲁棒性,还自带特征选择能力,非常适用于疾病预后的场景。
81.医疗影像处理的机器学习模型在训练阶段采用的数据,可以按照步骤201

203同样的方式获取,当然,者需要大量同类病患的原始病历数据和/或影像数据。在一个示例中,当存在万量级以下的训练数据时,医疗影像处理的机器学习模型采用xgboost算法或catboost算法。两者都属于传统机器学习中的决策树方法。决策树方法在训练的过程中会不断选择叶子节点进行分裂,每次分裂前会衡量当前节点分裂为子节点的收益,如果前节点分裂成子节点没有收益,则当前节点继续作为一个叶子节点。每个叶子节点会带有一个分数,代表着分到当前节点的数据有多大概率被预测为正类。根据最终生成的树形模型,我们还可以衡量影像特征和病历特征中每个特征维度的重要性,增加模型的可解释性。在一个示例中,当存在万量级及以上的训练数据时,医疗影像处理的机器学习模型采用tabnet算法。tabnet利用了深度神经网络模拟树形结构,在吸取深度学习优点的同时,又具有树形分类器的优势,在处理结构化数据的任务中表现出色。不过跟大多数深度学习方法一样,tabnet需要大数据量的支撑,否则网络得不到充分训练,泛化能力有限。在训练数据足够大的情况下,tabnet的表现会比xgboost和catboost等算法更好。可以利用来自不同医院的大量数据和更多的特征维度,而不出现欠拟合,有利于提高模型准确率。
82.图3图示了本发明实施例在脑出血场景中的一个具体应用实施例。在该具体实施例中,模型的训练是在服务器完成的,当然,不排除模型的训练可以在终端进行的情况。首先,需要搜集临床中脑出血病患的原始病历数据和影像。影像可以从拍摄设备120直接发送至服务器130保存(如图示),也可以经由终端110发送至服务器。原始病历数据可以来自于终端110。下表是原始病历数据的一个示例,由于篇幅原因,分割成若干个部分显示,一共35个特征,表格第一行给出了特征的名称,从第二行开始是不同病患的数据,当然,这个数据量实际是很大的,表格中只给出了少量示例,出于隐私保护,病患电话并非真实的电话。
患者id序号(病案号

第几次影像扫描)年龄性别患者电话发病距第一次ct时间(症状 时间)头疼0008391dgrmxxxxxx49m00008391dgrmxxxxxx480011061qhrmxxxxxx58f00011061qhrmxxxxxx100000119qhrmxxxxxx51m00000119qhrmxxxxxx16
……………………………………
呕吐昏迷出院gos死亡/放弃(死亡或放弃填是)脑出血史脑梗史高血压史糖尿病史否否
ꢀꢀ
否否是否10否
ꢀꢀ
否否是否
否否
ꢀꢀ
否否是否
…………………………………………
高脂血症史冠心病史心衰史心律失常史抗凝抗板吸烟饮酒第一次影像扫描时间出血部位(所有部位标准化)否否否否否否是是20170804 否否否否否否否否20181230右侧颞叶 右侧基底节否否否否否否否否20190511右侧丘脑 右侧颞叶
……………………………………………………
破入脑室第一次出血量第二次出血量出血量变化值第三次出血量出血量变化值是10417.6896411460.157081.04246744
ꢀꢀ
否unknown38136.20658041105.707082.969500503是unknownunknownunknown
ꢀꢀ………………………………
入院收缩压入院舒张压入院gcs备注
ꢀꢀꢀ
右侧尾状核脑 蛛网膜下腔;没有入院收缩压和入院舒张压15081
ꢀꢀ
185111 20190512;蛛网膜下腔
……………………
表格1 原始病历数据。
83.对于原始病历数据,可以基于例如人机交互界经由人工选择来筛除与医疗影像处理无关的数据,例如,在上述表格中,可以选择筛除特征“患者id”、“序号(病案号

第几次影像扫描)”、“患者电话”、“死亡/放弃(死亡或放弃填是)”、“第一次影像扫描时间”、“出院gos”、“备注”、“第二次出血量”、“出血量变化值”、“第三次出血量”和“出血量变化值”11个特征的数据。
84.可以看出,原始病历数据中存在异常值,例如特征“呕吐”中的“10”,特征“第一次出血量”中的“unknown”,等等。对异常值的处理方式参见上文关于步骤202的描述,在此不再赘述。对于医疗影像处理所使用的一些模型,例如基于catboost算法的模型,本身能够对异常值进行处理。对于不能对异常值进行处理的模型,可以利用python中的pandas库或sklearn库进行处理,等等。
85.对于原始病历数据中的类别型数据,例如特征“抗凝”、“抗板”的数据为“是”或“否”,则在一个示例中采用独热编码进行处理。对于医疗影像处理所使用的一些模型,例如基于catboost算法的模型,本身能够对类别型数据进行处理。对于不能对类别型数据进行处理的医疗影像处理所使用的模型,可以利用python中的pandas库或sklearn库进行处理,等等。
86.对于特征“第一次出血量”的数据,可以选择进行标准化处理,同样地,如果医疗影像处理所使用的模型本身能够处理,则可以不用单独处理。对于一些模型,标准化处理并不能提高性能,则可以选择不处理。
87.对于影像,同样地获取影像的医疗影像数据和影像特征数据。具体而言,当提取医疗影像数据时,利用一个执行病变部分有关任务的机器学习模型对影像进行处理,而后选择在处理过程中得到的执行病变部分有关任务的机器学习模型中除了输入层意外的任一层的输入数据或多层的输入数据的组合。在一个具体是示例中,执行与病变部分有关的任
务的执行病变部分有关任务的机器学习模型是用来标记影像中的血肿位置的,这就要求预先训练这样的一个执行病变部分有关任务的机器学习模型,在训练阶段,该执行病变部分有关任务的机器学习模型的输入为原始影像和它对应的血肿分割文件(这个分割文件为人工标注,将影像中有血的区域标出),输出为预测的标记影像中的血肿位置的文件,需要根据预测的标记影像中的血肿位置的文件与原始血肿分割文件计算loss函数。训练完成的模型在测试阶段,就只需要输入原始影像,输出为预测的标记影像中的血肿位置的文件。同样,在应用阶段,也只需要输入原始影像,此时,可以选择该执行病变部分有关任务的机器学习模型最后一层的输入层来用作医疗影像数据。通过使用预先训练的机器学习模型进行病变部分的标记,而不需要标注人员手动标记,提高了标记的效率。
88.但提取影像特征数据时,可以重复利用上述经训练的执行病变部分有关任务的机器学习模型获取标记影像中的血肿位置的文件,而后可以利用开源的python包pyradiomics来提取影像的影像组学特征数据,例如原始影像的形状特征、一阶直方图特征、二阶直方图特征和纹理特征,来作为该影像特征数据。
89.还可以对医疗影像数据和该影像特征数据进行独立特征选择,以筛除与医疗影像处理无关的特征数据,以及进行用于降低冗余的特征选择,减少要处理的特征维度。对于一些医疗影像处理的机器学习模型,本身具有降低冗余的特征选择能力,则无需重复执行,而对于一些医疗影像处理的机器学习模型,不进行独立特征选择也可以获得较好的准确率。
90.以上处理得到的特征数据,按照一定的顺序拼接,作为训练数据,输入医疗影像处理的机器学习模型中,经过训练、检测,得到经训练的医疗影像处理的机器学习模型。
91.上述过程中,影像是有拍摄设备120获取的,特征的提取可以由终端110执行,或者服务器130执行,或者终端110和服务器130联合执行,本技术实施例并不意在限制。训练过程(包括训练和检测)可以在服务器130执行,也不排除可以在终端110执行。
92.训练后得到的医疗影像处理的机器学习模型可以被处理为配置文件,保存在服务器130中,在终端需要应用的时候通过应用程序向服务器130发出请求,通过终端110和与服务器130之间的交互完成应用,或者也可以保存在终端110中,在终端需要应用的时候直接调用,此时终端110处具有病患的原始病历数据和拍摄设备120拍摄的影像。
93.上述所有的原始病历数据、影像、以及提取的特征数据(即作为训练数据)均可以保存在服务器130中,当然,也不排除可以保存在终端110中。
94.图4图示了根据本发明实施例的医疗影像处理的装置的框图。医疗影像处理的装置400包括获取模块401、特征提取模块402、特征筛选模块403、特征融合模块404和预后信息生成模块405。获取模块401被配置成获取医疗影像数据和与医疗影像数据匹配的病历数据。特征提取模块402对医疗影像数据和病历数据进行特征提取,得到医疗图像初始特征和病历初始特征。特征筛选模块403被配置成对医疗图像初始特征和病历初始特征进行特征筛选,得到医疗图像预测特征和病历预测特征。特征融合模块404被配置成将医疗影像预测特征和病历预测特征进行特征融合,得到医疗预测融合特征。预后信息生成模块405被配置成基于医疗预测融合特征,生成医疗影像数据对应的医疗预后信息。
95.关于这些模块的更多内容可以参见图2中关于步骤201~205的描述,在此不再赘述。
96.参见图5,在本发明的实施方式中,医疗影像处理的设备可以是服务器130,也可以
是终端110,其包括处理器504,其中包括硬件原件510。处理器504例如包括一个或多个数字信号处理器(dsp)、通用微处理器、专用集成电路(asic)、现场可编程逻辑阵列(fpga)或其它等效集成或离散逻辑电路等一个或多个处理器。如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任一其它结构中的任一者。另外,在一些方面中,本文描述的功能性可提供于经配置以用于医疗影像处理的专用硬件和/或软件模块内,或并入在组合式的硬件和/或软件模块中。并且,可将所述技术完全实施于一个或多个电路或逻辑元件中。本公开中的方法可以在各种组件、模块或单元中实现,但不一定需要通过不同硬件单元来实现。而是,如上所述,各种组件、模块或单元可组合或由互操作硬件单元(包含如上所述的一个或多个处理器)的集合结合合适软件和/或固件来提供。
97.在一个或多个示例中,以上结合图1

图4所描述的内容可以硬件、软件、固件或其任一组合来实施。如果以软件实施,那么功能可作为一个或多个指令或代码存储在计算机可读介质506上或经由计算机可读介质506传输,且由基于硬件的处理器执行。计算机可读介质506可包含对应于例如数据存储介质等有形介质的计算机可读存储介质,或包含促进计算机程序(包括上述一个或多个指令或代码)例如根据通信协议从一处传送到另一处的任何介质的通信介质。以此方式,计算机可读介质506通常可对应于(1)非暂时性的有形计算机可读存储介质,或(2)例如信号或载波等通信介质。数据存储介质可为可由一个或多个计算机或者一个或多个处理器读取以检索用于实施本公开中描述的技术的指令、代码和/或数据结构的任何可用介质。计算机程序产品可包含计算机可读介质506以及存储其上的一个或多个指令或代码。
98.举例来说且并非限制,此类计算机可读存储介质可包括ram、rom、eeprom、cd_rom或其它光盘等存储器、磁盘存储器或其它磁性存储器、快闪存储器或可用来以指令或数据结构的形式存储所要程序代码且可由计算机读取的任何其它存储器512。而且,恰当地将任何连接称作计算机可读介质506。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(dsl)或例如红外线、无线电及微波等无线技术从网站、服务器或其它远程源传输指令,则同轴电缆、光纤电缆、双绞线、dsl或例如红外线、无线电及微波等无线技术包含于介质的定义中。然而应了解,计算机可读存储介质和数据存储介质不包含连接、载波、信号或其它瞬时介质,而是针对非瞬时有形存储介质。如本文中所使用,磁盘及光盘包含压缩光盘(cd)、激光光盘、光学光盘、数字多功能光盘(dvd)、软磁盘及蓝光光盘,其中磁盘通常以磁性方式再生数据,而光盘使用激光以光学方式再生数据。上文的组合也应包含在计算机可读介质506的范围内。
99.医疗影像处理的设备500还可以包括用于传输数据的i/o接口、以及其他功能514。医疗影像处理的设备500可以包括在不同的终端中,诸如计算机516、移动装置518和其他终端520等等。这些配置中的每个包括可以具有一般不同的构造和能力的设备,并且因此可以根据不同设备类别中的一个或多个配置医疗影像处理的设备500。此外本发明的技术还可以通过使用分布式系统、诸如通过如下所述的平台524在“云”522上全部或部分地实现。
100.云522包括和/或代表用于资源526的平台524。平台524抽象云522的硬件(例如,服务器)和软件资源的底层功能。资源526可以包括在远离计算设备的服务器上执行计算机处理时可以使用的应用和/或数据。资源526还可以包括通过因特网和/或通过诸如蜂窝或wi

fi网络的订户网络提供的服务。
101.平台524可以抽象资源和功能以将计算设备与其他计算设备连接。平台524还可以用于抽象资源的分级以提供遇到的对于经由平台524实现的资源526的需求的相应水平的分级。因此,在互连设备实施例中,本文描述的功能的实现可以分布在整个设备500内。例如,功能可以部分地在计算设备上以及通过抽象云522的功能的平台524来实现。
102.根据本公开实施例,通过深度学习网络提取医疗影像数据,丰富了影像特征的维度,同时由于这种方式提取的特征经过了深度学习网络的初步抽象,有助于提高医疗影像处理的模型的应用效率和准确率。根据本公开实施例,通过组合影像的特征数据和病历特征数据,有助于提高医疗影像处理的准确率。提取传统影像组学特征数据时,可以使用预先训练的机器学习模型进行病变部分的标记,而不需要标注人员手动标记,提高了标记的效率。当该机器学习模型可以采用提取医疗影像数据所使用的深度学习网络,能够提高使用效率,减少模型训练的任务量。通过适当选择的医疗影像处理的模型,可以综合许多数据预处理的功能,例如处理病历数据的异常值、类别型数据等,极大地提高了模型的易用性,降低对用户专业性的要求。在训练数据足够大的情况下,tabnet的表现会比xgboost和catboost等算法更好。可以利用来自不同医院的大量数据和更多的特征维度,而不出现欠拟合,有利于提高模型准确率。
103.需要说明,本公开中出现的“第一”、“第二”等表述不代表指示重要性或步骤的先后,仅是用于区分。方法步骤在没有特别说明或者没有前提约束(即一个步骤的执行需以另一个步骤的执行结果为前提)的情况下,方法步骤的描述先后不代表他们的执行先后,所描述的方法步骤可以以可能的、合理的顺序执行。
104.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由权利要求指出。
105.应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献