一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种利用患者数据和机器学习技术建立的实时质量控制框架的制作方法

2021-10-24 05:06:00 来源:中国专利 TAG:质量控制 实时 框架 患者 检验


1.本发明创造涉及检验医学领域,具体涉及一种利用患者数据和机器学习技术建立的实时质量控制框架。


背景技术:

2.随着检验技术的发展,有数据显示目前国际可开展检测项目涵盖5000多项,国内包括实验室自建项目(ldt)在内,可开展的检测项目达2000多项,医疗机构大型检验科常规开展的检验项目近500项。医生大约有近2/3的诊疗决策有赖于准确及时的检测结果。而医学检测误差会导致诊疗差错与延迟,会对患者造成严重伤害,甚至死亡。
3.检测误差可发生于检验全过程。例如,不当的样本采集、运输或处理、仪器设备故障、不当的人员操作、不合理的结果解释等。为保证检测结果的可靠性,传统室内质控是医学实验室最早引入,且目前普遍使用的用于监测检验性能的重要手段之一。质量控制是医疗机构等级评审中指令性考评指标。《临床检验定量测定室内质量控制》国家卫生行业标准明确规定了在医学检测过程中应如何设计传统质控方案,并有效实施。
4.然而,传统质控临床应用中的技术问题包括:1)质控品互换性差,导致假性预警;2)质控品的浓度水平不足,无法涵盖并有效监测有临床意义的检测项目及检测域值;3)质控品的检测频次过低,导致对检测过程的监控多为以批为单位的回顾性分析,无法满足目前高通量检测技术和新型检测模式的要求;4)无法监测分析前过程,而实验室约70%发生差错发生在于分析前,传统质控不能对其进行监控;5)由于目前高通量检测技术广泛应用和临床医生对检测结果质量需求的提升,导致质控成本陡增,产生的直接经济成本约占全部检测收入的6

8%,是目前卫生经济学关注的热点问题。
5.利用患者数据对检验结果实时质量控制(pbrtqc)的方法被业内学者认为是对传统质控的有效补充。但是该pbrtqc质控方法的不足表现为:1)需要针对人群,对每个检测项目对象制定质控方案;2)前期设置时,需要了解实验室患者群体的特征和检测项目所用的分析方法;3)其检测的精准度和检测速度不能完全满足临床诊疗需求,特别是对于有重要临床价值的项目要求对小误差检出效能尚待提高;4)对实验室信息系统的功能要求较高。
6.本发明意在在将机器学习技术引入检验医学领域,建立一种新型的基于患者检验结果的实时动态质量控制框架,目前国内外尚无相关研究报道。该框架的建立与临床应用,能够进一步提升检测结果的精准度和时效性,更好满足临床的需求及行业法规要求;进一步节省医疗资源,降低医疗成本,保障医疗安全,惠及医患,具体解决方案是一种利用患者数据和机器学习技术建立的实时质量控制框架。


技术实现要素:

7.为达成上述目的,本发明意在指出一种利用患者数据和机器学习技术建立的实时质量控制框架,应用于检验医学领域,是一套完整的仪器异常监控的技术解决方案。
8.临床检测误差可分为系统误差和随机误差,其中系统误差又分为比例误差和恒定
误差。在机器学习过程,均按照连续异常的处理思路进行解决。技术架构主要包含两个大的板块,即系统异常检测板块和随机异常检测板块,具体说明如下,架构图见附图1。
9.框架组织结构说明:如附图1所示,框架总体分为三层,第一层为数据获取层,第二层为数据处理层,第三层为输出层,其中数据处理层又分为两个大的板块,即连续异常监控板块和随机异常监控板块,且该两个板块中同时存在多个处理小模块,由于该两个板块监控的异常类型不同,其模型预测模块在模型组合逻辑上存在较大区别。
10.系统异常板块描述:系统异常板块负责识别仪器系统异常,并输出识别结果,内部包含特征工程模块、模型预测模块、概率平滑模块。
11.随机异常板块描述:随机异常板块负责识别仪器随机异常,并输出识别结果,内部模块结构与系统异常基本相同,区别在于模型预测模块中所组织的机器学习模型与系统异常板块不同。
12.特征工程模块:该模块是模型预测之前的数据处理阶段,其中共包含以下几个处理组件。
13.组件1单位量纲统一:针对于实际场景中可能会出现同一指标间量纲不一的情况,针对于该情况应按照临床换算规则进行单位的统一。
14.组件2数据过滤:用于过滤荒谬数据和控制数据的值域范围,为后续机器学习过程提供有效的训练数据,将机器学习的效力最大化。
15.组件3数据标准化:数据标准化用于提升机器学习过程综合效率。
16.组件3队列组织:将标准化后的单维度数据进行定长转置,把单维度数据转换成多维度数据,生成待学习样本,此过程的目是提取和强化数据特征,提高分类间显著性,如附图3所示。
17.模型预测模块:该模块利用训练好的机器学习模型对特征工程后的数据进行实时预测,并连续输出预测结果。
18.概率平滑模块:该模块针对于模型预测结果再次组织队列,并对队列内的预测结果再次进行逻辑判断,抹平模型预测的假性结果,提升总体预测准度,如附图5所示。
附图说明
19.附图1为一种利用患者数据和机器学习技术建立的实时质量控制框架架构图。
20.附图2为具体实施流程图。
21.附图3为定长队列组织原理图。
22.附图4为框架整体异常识别的平均roc曲线图。
23.附图5为概率平滑逻辑原理图。
具体实施方式
24.一种利用患者数据和机器学习技术建立的实时质量控制框架具体实施流程图如附图2所示。
25.数据提取:选取被测指标质控在控数据,针对抽取的数据进行数值化和单位量纲统一操作。
26.数据模拟:针对上述数据,需针对机器学习进行训练数据模拟,正常类别直接使用
原数据,异常数据根据不同异常分类,利用临床异常数据模拟公式进行模拟。该框架可监控临床发生的三大类异常,即恒定系统异常、比例系统异常、随机系统异常,针对以上三类异常,临床认为不可判别的异常发生范围一般为

50%到 50%之间,针对于该场景异常数据的模拟的方式如下,,,,其中e是插入误差的比例,具体异常插入详情见临床论文《assessment of patient

based real

time quality control algorithm performance on different types of analytical error》中提到的数据模拟公式进行数据模拟。
27.特征工程:对于本框架特征工程阶段主要涉及数据滤过、数据标准化及队列组织。具体来说,首先需要针对不同的异常程度对数据进行针对性过滤,本框架为了保证整体的开发效率,将异常监控过程分为两个部分,对于≥20%误差旨在剔除荒谬值,对于<20%误差,则是控制值域范围。理论上待识别的误差越小,识别难度越大,需要滤过数据越多,以提升分类算法误差识别的精准度。本框架采用孤立森林算法对数据进行过滤,该算法在不同的数据分布上过滤效果都较为平衡。它的过滤原理类似于热度图过滤数据,依据数据分布的密集程度均衡缩放,且可通过异常控制比例(threshold)这一超参数控制数据过滤的比例,对于后面的二分类算法是一个相对较优的数据清洗模型。最后,对洗涤后数据进行正态性转化,并将转化后的数据组织成一个定长待测队列。
28.模型训练:根据临床应用场景,在机器学习层面 ,连续误差分为<20%和≥20%误差进行分段解决。对<20%的误差,由于数据特征不显著,底层逻辑基于线性的算法对正类和异类数据不易区分。反之,对于≥20%误差,数据特征显著,则底层逻辑基于线性的算法对这两类数据可有效区分。在前期预试验基础上,综合考虑准确度、泛化性、训练速度和模型运算速度等评价指标,最终确定:对于<20%的系统误差,选择基于非线性、拟合度强且训练速度较快的随机森林算法,且随机森林在预测<20%的异常下需要进行分段预测,通常模型预测具备向下兼容特性,所以针对该过程的训练节点按照[20,16,12,8,4,1]的异常大小进行模型训练。对于≥20%系统误差,选择基于线性,泛化性强且训练速度快的逻辑回归算法,使用20%的异常量进行训练。针对于随机误差由于数据分布特性的缘故,在机器学习层面无法进行大段拆分,只能按照小段进行训练,从而并行预测,达到连续范围的异常监控,训练节点按照[50,40,30,20,16,12,8,4,1]的异常大小进行模型训练。以上训练节点的划分是在考虑综合时效性和准确性的情况下而定制,在实际场景中训练节点越稠密对于异常的识别也更精准更快速,但模型训练阶段所耗费的时间也会更长。
[0029]
模型优化:机器学习模型优化其目的是为了提高模型对当前数据集预测能力。这与数据分布特征有关。举例说明,对于高峰分布数据,样本在取值范围内的数值聚集度高,利用孤立森林过滤算法在一个较小的值域范围内即可得到较多的有效计算数据,符合此类分布特征的检测项目,对误差检出效能高。对于低峰分布数据,样本在取值范围内的数值聚集度低,数据呈均匀分布状态,在相同值域范围内,很难如高峰分布数据一样,得到较多有效计算数据,符合此类分布特征的检测项目,误差检出效能理论上低于高峰分布数据。本框架对用于检出≥20%的误差底层基于线性逻辑回归算法模型优化策略:在默认算法内相关参数情况下,主要通过调节队列长度和值域范围等算法外参数,提高对≥20%误差范围内相
对较小误差的预测能力。其调优原则为:1)队列越长,相对小误差识别的准确度越高。调优通过加大队列长度,提高临床待检出的≥20%误差范围内相对较小误差识别准确度,但加大队列长度,会倍量缩减训练集数据的样本数量,影响总体机器学习效果。同时,加大队列长度,会导致误差识别延迟,使临床受影响患者报告数量增加;2)值域范围越小,相对小误差识别准确度越高。但是在训练集数据是恒定的条件下,缩小值域的同时会损失有效计算数据,若被剔除的数据过多,影响总体机器学习效果。优化过程需根据不同检测项目的实际数据分布和实际训练数据量做出一个相对均衡的选择。所以总体的调优思想是针对被学习指标在尽量小的值域内获得相对较多的数据。用于检出<20%误差的底层基于非线性随机森林算法模型优化策略:在默认队列长度和过滤数据比例情况下,主要通过调节算法的深度及树的数量等参数。其调优原则为对于<20%误差,可通过给定比识别≥20%误差,更大队列长度和更小的值域调优,但是上述两个操作是会损失更多有效计算数据。在训练集数据是恒定的条件下,主要调节随机森林算法的深度及树的数量等参数,使其具备更强的拟合能力。
[0030]
模块组织:经过上述过程产出不同板块中的预测模块所需要的对应模型,且根据框架图部署于对应的模块之中,在实际预测场景中为了降低假性结果,在模型预测结果基础上再次组织队列,并对队列内的预测结果再次进行逻辑判断,抹平模型预测的假性结果,提升总体预测准度,并输出连续异常和随机异常的最终预测结果,如附图5所示。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜