一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于随机森林模型特征空间拟合的病情预测算法的制作方法

2022-02-22 08:24:35 来源:中国专利 TAG:


1.本发明涉及信息分析预测技术领域,具体涉及一种基于随机森林模型特征空间拟合的病情预测算法。


背景技术:

2.目前在整个社会医疗系统对于一些重大疾病或者并发症疾病的诊断方法上,只能是根据现有的检测设备仪器对采集到的样本,例如血液样本、人体组织细胞样本等进行理化分析,从而得到分析对象目前的生理健康情况,而一些隐性疾病,通过当前的检测手段并不能直接检测出来,这就极大程度上妨碍了相关人员提前采取预防治疗手段,影响人体生命健康。
3.针对这一问题,在肝脏疾病的数据分析上,现有技术中有一种基于随机森林的肝脏疾病数据分类规则提取的方法,包括:步骤1:对肝脏疾病中不平衡或者不规则的数据进行预处理,通过smote(合成少数过采样技术)获得肝脏疾病数据集;步骤2:利用随机森林模型对肝脏疾病数据集进行二进制稀疏编码,获得肝脏疾病规则集;步骤3:对肝脏疾病规则集进行弹性范数稀疏编码规则提取,获得编码肝脏疾病规则集;步骤5:进行原始数据验证,生成最终规则集。通过结合l1和l2范数的弹性范数规则提取和特征选择方法可以选择相对较少的特征,并可以提高泛化能力,提高分类精度。
4.虽然该方案在肝脏疾病的数据处理分析上能够有效平衡准确度和分类精度,但是其固有的应用范围又对其产生了一定限制,不能很好的解决所有疾病的准确预测,从而提高整体的健康水平。


技术实现要素:

5.本发明意在提供一种基于随机森林模型特征空间拟合的病情预测算法,以解决现在对于所有疾病预测精准度不够的技术问题。
6.为达到上述目的,本发明采用如下技术方案:一种基于随机森林模型特征空间拟合的病情预测算法,包括以下步骤:步骤s1,构建初始预测模型并采集样本数据,从医疗系统大数据库中得到病症的相关特征对象作为样本数据,在样本数据获取过程中,对样本数据进行精细化处理得到第一数据集合,并将第一数据集合代入到初始模型中;步骤s2,对第一数据集合的特征变量进行重要性排序,然后采用序列前向选择算法拟合初始模型空间得到随机森林预测模型;步骤s3,采集用户数据,将用户数据代入到随机森林预测模型中得到预测结果。
7.本方案的原理及优点是:实际应用时,获取用户所患疾病的特征对象,然后利用该特征数据构建随机森林模型,并对随机森林模型的特征变量进行重要性排序,最后采用序列前向选择算法拟合随机森林模型空间来对用户所患疾病做出准确预测,通过多个特征变量和决策树的联合调整,提高对用户病情预测结果的准确性。本方案相比于现有技术优点
在于能够通过采集用户的特征信息,并在特征信息的采集过程中对数据进行精细化处理,使选择的数据呈动态实时分布,从而保证数据的真实性和可靠性,再通过随机森立模型的方法对特征信息进行优化处理,最后完成对用户病情的精准预测,从而提高用户的生存质量。
8.优选的,作为一种改进,特征对象包括心情类特征对象和环境类特征对象;心情类特征对象包括多巴胺含量、乙酰胆碱含量和茶酚胺类物质含量;环境类特征对象包括温度、湿度、空气流通度和紫外线强度。
9.考虑到很多疾病不仅是由于体内致病因子导致,也有很大一部分是由于外界因素,例如心情和环境的影响,也有可能会导致体内病情变化,因此在这两个因素上选择主要因素来反应心情和环境的影响,能够更加准确地得知病情的致病因素,从而给出最准确的病情预测结果。
10.优选的,作为一种改进,对第一数据集合的特征变量进行重要性排序包括以下内容:通过装袋技术从第一数据集合中抽取样本作为子样本集;从子样本集的特征空间中随机选择得到子样本特征空间,并利用子样本特征空间训练得到一个决策树;计算第一袋外样本误差,选择第j个特征,并对变量重排序,然后计算第二袋外样本误差;分别计算出所有特征变量的重要性,并对所有特征变量的重要性标准化,然后输出特征变量重要性排序。
11.利用采集到的特征对象构建随机森林并计算样本误差来训练决策树,并且将所有特征变量进行重要性排序,能够有效提高特征变量的优先级和准确度,从而提高对用户病情预测结果的准确性。
12.优选的,作为一种改进,采用序列前向选择算法拟合初始模型空间包括以下内容:初始化特征集合和剩余特征集合,并给定评估函数;从剩余特征集合中选择特征加入特征集合,并利用评估函数进行评估,若预测结果更准确,则将该特征保留在特征集合中,反之则移除该特征;所有剩余特征均处理完毕后,输出最终特征集合,并得到用户的病情预测结果。
13.通过不断调整特征集合的内容从而测试评估结果,不仅能够有效移除无效的特征,同时能够大幅提高特征集合的有效性,从而提高对用户病情的预测准确度。
14.优选的,作为一种改进,采集样本数据时,根据用户的病重情况对特征对象进行分级选择,若用户没有明显病症,则间隔固定时间段实时采集用户特征对象的数据;若用户已经确认患有病症,则对用户进行体验度分级和理化参数分级设置,并分不同的时间段采集数据。
15.因为不同的病情所表现出来的特征不同,因此将表现大致分为没有明显病症以及确诊患有病症两个阶段,从而采取不同的方式采集数据,提高数据的准确度,为后续的病情发展趋势预测提供可靠依据,提高预测结果的准确性。
16.优选的,作为一种改进,体验度分级为,根据用户的病症确诊结果,对用户的身体状况实际感受进行分级。
17.考虑到有部分的疾病在初期并不会有明确的指标,但是人体在不同的阶段都会有不同的身体感受,因此将用户的身体状况感受进行分级,从侧面印证病症的变化情况,从而对病情的预测结果更准确。
18.优选的,作为一种改进,理化参数分级为,根据用户病症的检查结果,对检测项的理化参数设置分级区间。
19.针对不同的病症,所参考的理化参数重心不同,因此根据不同的情况人为设置理化参数的分级区间,通过准确分级设置调整检测重点以及判断重点依据,从而对用户的病情预测提供更全面可靠的数据支撑。
20.优选的,作为一种改进,理化参数至少包括第一参数、第二参数和第三参数,且三个参数均偏离正常值范围才判定用户患有病症。
21.对于一些病症,并不是单一的参数能够判定的,而是需要多个参数联合判定才准确,同时将三个参数的多种组合判定方式均考虑在内,能够提高判断的准确性,从而保证对用户病情预测结果的准确性。
22.优选的,作为一种改进,采集样本数据的过程中,根据用户的具体病情对理化参数的参考权重进行动态调整。
23.不同的病症的检测理化参数所参考的重点不同,因此根据病情的不同对理化参数的权重进行动态调整,使参数的可参考性更高,从而能够更适应于病情预测判断,提高预测结果的准确性。
24.优选的,作为一种改进,采集样本数据时,动态获取用户距离现在n时间段内的数据,且n根据用户的具体致病原因动态调整。
25.考虑到当前无明显反应的用户可能存在潜在病症,因此选择采集该用户过往的数据,并根据致病原因动态调整时间段的具体值,保证采集到的数据的有效性,从而利于对用户的病症发展趋势作出准确预测。
附图说明
26.图1为本发明一种基于随机森林模型特征空间拟合的病情预测算法实施例一的算法示意图。
27.图2为本发明一种基于随机森林模型特征空间拟合的病情预测算法实施例一的构建过程示意图。
具体实施方式
28.下面通过具体实施方式进一步详细说明:实施例一:本实施例基本如附图1所示:一种基于随机森林模型特征空间拟合的病情预测算法,包括以下步骤:步骤s1,构建初始预测模型并采集样本数据,从医疗系统大数据库中得到病症的相关特征对象作为样本数据,包括心情类特征对象和环境类特征对象,心情类特征对象包括多巴胺含量、乙酰胆碱含量和茶酚胺类物质含量,环境类特征对象包括温度、湿度、空气流通度和紫外线强度,在样本数据获取过程中,对样本数据进行精细化处理得到第一数据
集合,最后将第一数据集合代入到初始模型中;步骤s2,对第一数据集合的特征变量进行重要性排序,然后采用序列前向选择算法拟合初始模型空间得到随机森林预测模型;步骤s3,采集用户数据,将用户数据代入到随机森林预测模型中得到预测结果。
29.对第一数据集合的特征变量进行重要性排序包括以下内容:通过装袋技术(装袋是一种可以将估计预测函数的方差降低的技术,通过平均噪声带来的误差以降低总体方差)从第一数据集合中抽取样本作为子样本集;从子样本集的特征空间中随机选择得到子样本特征空间,并利用子样本特征空间训练得到一个决策树;计算第一袋外样本误差,选择第j个特征,并对变量重排序,然后计算第二袋外样本误差;分别计算出所有特征变量的重要性,并对所有特征变量的重要性标准化,然后输出特征变量重要性排序;随机森林模型是一种基于决策树的集成学习算法,由l. breiman在2001年提出,因其在训练过程中需要多颗决策树的支持,所以被叫做随机森林。其主要思想是通过对原始样本进行抽取得到多个子样本,再用子样本对多颗决策进行训练,最后通过平均每棵决策树的预测结果综合作出预测的算法模型。本方案中采用随机森林模型主要是将病症的判定因素筛选出来,并根据判定因素的判定能力强弱,将所有的判定因素设置在随机森林的决策树的节点上,并通过逐级的判定选择,最终实现病症的预测和判断。
30.如附图2所示,采用序列前向选择算法拟合初始模型空间包括以下内容:初始化特征集合和剩余特征集合,并给定评估函数,该评估函数为现有技术,这里不再赘述,评估函数在此部分的主要作用为筛选特征集合,保障特征对象的有效性;从剩余特征集合中选择特征加入特征集合,并利用评估函数进行评估,若预测结果更准确,则将该特征保留在特征集合中,反之则移除该特征;所有剩余特征均处理完毕后,输出最终特征集合。
31.特征对象在获取时,根据用户的病重情况对特征对象进行分级选择,若用户没有明显病症,则间隔固定时间段实时采集用户特征对象的数据;若用户已经确认患有病症,则对用户进行体验度分级和理化参数分级设置,并分不同的时间段采集数据。体验度分级为,根据用户的病症确诊结果,对用户的身体状况实际感受进行分级,具体分为轻微、一般、严重这三个等级;理化参数分级为,根据用户病症的检查结果,对检测项的理化参数人为设置权重,对于所有病症,基于现有的用来判定确认这种病症的所有参数,我们统称为理化参数,在所有理化参数中,根据经验找到对这种病症影响最大的至少三个理化参数分别作为第一参数、第二参数和第三参数,三个参数分别对病症的确诊范围为a-b、c-d、e-f,当三个参数范围都符合常规确诊标准时,才明确确诊该病症,当至少有一项参数出现不定情况时,在不定情况中,若超出正常平均值范围的g-h设定为一级,k-l设定为二级,q-w设定为三级。
32.本实施例具体以肝炎为例。
33.本实施例的具体实施过程如下:第一步,构建初始预测模型并采集样本数据,从医疗系统大数据库中得到肝炎的相关特征对象,包括心情类特征对象的多巴胺含量、乙酰胆碱含量和茶酚胺类物质含量,以
及环境类特征对象的温度、湿度、空气流通度和紫外线强度作为样本数据,然后将样本数据代入到初始模型中。
34.第二步,根据用户肝炎的病重情况对特征对象进行分级选择,若用户没有明显病症,则间隔半个月实时采集用户特征对象的数据;若用户已经确认患有肝炎,则对用户进行体验度分级和理化参数分级;体验度分级具体为将用户的乏力、上腹部不适和厌油等分为轻微、一般、严重这三个等级,理化参数分级为将肝炎的理化参数按照跟正常平均值的范围比较结果进行分级设置,偏离正常平均值的10%-30%为一级,偏离正常平均值的30%-50%为二级,偏离正常平均值的50%以上为三级,其中肝炎的理化参数包括第一参数转氨酶,第二参数胆红素和第三参数白蛋白,且三个参数均偏离正常值范围才判定用户患有肝炎。通过对用户从生病萌芽的状态到病重的全过程监控以及数据采集,并将用户的体验度以及理化参数进行分级设置,将用户的体内感受分为轻微、一般和严重,能够更细致地体现出用户的感受变化,从而侧面体现病情的变化,为用户的病情预测提供可靠的依据;同时将理化参数与正常平均值作比较后,将偏离正常平均值的10%-30%、30%-50%和50%以上依次设定为一级、二级和三级,不仅能够保证符合医学判断标准,同时更精准的分级设置能够将理化检测结果作出细致的分段,从而与不同的病症情况相匹配,也能够有效提高病情预测的准确性。
35.第三步,对第一数据集合的特征变量进行重要性排序,通过装袋技术从第一数据集合中抽取样本作为子样本集,然后从子样本集的特征空间中随机选择得到子样本特征空间,并利用子样本特征空间训练得到一个决策树,计算第一袋外样本误差,选择第j个特征,并对变量重排序,然后计算第二袋外样本误差,分别计算出所有特征变量的重要性,并对所有特征变量的重要性标准化,然后输出特征变量重要性排序。
36.第四步,采用序列前向选择算法拟合初始模型空间,初始化特征集合和剩余特征集合,并给定评估函数f(x),从剩余特征集合中选择特征加入特征集合,并利用评估函数进行评估,若预测结果更准确,则将该特征保留在特征集合中,反之则移除该特征,所有剩余特征均处理完毕后,输出最终特征集合,得到随机森林预测模型。
37.第五步,采集用户数据,将用户数据代入到随机森林预测模型中得到预测结果。
38.随着现代医学的发展以及生活环境的急剧变化,人类所面临的疾病感染源也越来越多,并且由于医学技术的一些盲点以及人们不注重按时体检,导致一些疾病在初期阶段很难被发现,而到了后期被发现后,疾病又常常已经发展到了很难治疗的阶段,因此,现在很多医疗系统工作者的工作重心就是在研究如何在最省时省力的基础上,通过对用户的信息特征采集来对用户体内的疾病作出准确预测。基于随机森林技术的提出以及发展,现在已经有了一种基于随机森林的肝脏疾病数据分类规则提取的方法,通过对肝脏疾病的规则集的验证处理,提高随机森林模型的泛化能力和分类精度,从而对肝脏类疾病的预测上提高准度。虽然该方案能够一定程度上提高预测准度,但也仅仅是针对肝脏类疾病而言,若要对其他类疾病作出预测,则又需要重新定义随机森林模型的规则,效率慢且预测过程繁琐。
39.而本方案中,考虑到很多的情况下人的心情以及居住环境,能够很大程度上影响病情的发展,因此通过采集用户的心情类特征对象和环境类特征对象来对实际的病情预测依据进行证据链的侧面补充,再结合感受的轻微、一般和严重三个等级的划分,更能体现病情冲萌芽阶段发展到病重阶段的变化过程,为病情的预测提供全面可靠的数据支撑,同时对实际的理化参数的分级以及权重设置,能够在满足医学判断标准数值的基础上,对理化
参数作进一步限定,极大程度上为预测模型的训练提供更准确的数据支撑,再利用对随机森林模型的特征变量进行重要性排序以及采用序列向前选择算法拟合随机森林模型空间,最终实现预测模型能够对用户的病情进行精准预测,从而提高用户的生存质量,保障用户的生命安全。
40.实施例二:本实施例基本与实施例一相同,区别在于:对第一数据集合做精确化处理过程中,根据用户的具体病情对理化参数的参考权重进行动态调整,考虑到不同的病症所判断的条件并不是单一不变的,因此将理化参数的权重进行人为调整,再结合起来对用户的病情进行预测,从而能够提高用户病情的预测准确率,针对所有病症,考虑其最相关的三个参数,并将其最相关的三个参数按照相关性强弱设置权重,第一参数的权重占比为x%,第二参数的权重占比为y%,第三参数的权重占比为z%。
41.本实施例的具体实施过程与实施例一相同,区别在于:第二步,根据用户肝炎的病重情况对特征对象进行分级选择,若用户没有明显病症,则间隔半个月实时采集用户特征对象的数据;若用户已经确认患有肝炎,则对用户进行体验度分级和理化参数分级;体验度分级具体为将用户的乏力、上腹部不适和厌油等分为轻微、一般、严重这三个等级,理化参数分级为将肝炎的理化参数按照跟正常平均值的范围比较结果进行分级设置,偏离正常平均值的10%-30%为一级,偏离正常平均值的30%-50%为二级,偏离正常平均值的50%以上为三级,其中肝炎的理化参数包括第一参数转氨酶,第二参数胆红素和第三参数白蛋白,同时考虑到第一参数转氨酶为主要的参考因素,因此在这三个参数中将转氨酶的权重设置为45%,胆红素的权重设置为30%,白蛋白的权重设置为25%,再结合权重和分级设置对用户的病情进行预测。常规的医学诊断手段中,肝炎的判断方法一般都是根据用户的性别、年龄以及理化分析结果来进行判断,而本方案在此基础上,将肝炎的致病因素详细区分,将转氨酶的含量增加作为肝炎的主要表现特征,同时辅以次要特征胆红素和白蛋白含量的降低,再根据这三种因子的特性,将权重设置为转氨酶45%、胆红素25%以及白蛋白30%,根据用户的实际情况,动态调整理化参数的权重,使预测结果更准确;同时此种方式具有非显而易见性,因为常规的医疗诊断手段中,很少会进行分类以及权重设置,一般近是看数据的“有无超标情况”来对病情作出判断,即使现在有少部分情况会对病症表现进行分类以及权重设置,也是固定不变的等级划分,并不能实现根据不同的对象不同的病情动态调整,适应性远不如本方案。
42.为保证理化参数的使用准确度,再结合肝炎的主要判断因素为转氨酶的含量偏高,同时胆红素和白蛋白的含量也能够一定程度上体现肝炎的严重程度,因此对这三个关键的参数进行权重设置,能够使理化参数的检测结果更具代表性,从而提高对用户病情的预测准确率。
43.实施例三:本实施例基本与实施例一相同,区别在于:采集样本数据时,动态获取用户距离现在n时间段内的数据,且n根据用户的具体致病原因动态调整,获取最新病情发展信息,若以前的数据有效时间段是n,则在病情发展信息在舆情出现到正式信息发布的t1时间段内,若因为致病的病毒或者细菌等致病因产生变化,导致判断病症的依据发生变化,这里主要指时间变化,例如病毒或者细菌的活性或者种类变化,则将原来的n时间段缩短为最靠近当前
的时间段,具体根据发布信息中的致病因时间长短确定,例如,原致病因的时间是t2,现致病因的时间段是t3,则在舆情信息出现的t1/3时间之内,收集距此时间段向前推t2-t3的绝对值除以3最后求整后的值作为有效时间段。
44.本实施例的具体实施过程与实施例一相同,区别在于:第一步,构建初始预测模型并采集样本数据,从医疗系统大数据库中随机获取不同用户关于肝炎的相关特征对象,包括心情类特征对象的多巴胺含量、乙酰胆碱含量和茶酚胺类物质含量,以及环境类特征对象的温度、湿度、空气流通度和紫外线强度作为样本数据,然后将样本数据代入到初始模型中。
45.第二步,若随机选择的用户中后续有被确诊为肝炎的,则根据该用户肝炎的病重情况对特征对象进行分级选择,同时也表明该用户在初始采集极端没有明显病症而是有潜在肝炎的风险,若以前的数据有效时间段是3个月,则在病情发展信息在舆情出现到正式信息发布的1个月时间段内,致病的病毒或者细菌等致病因产生变化,则数据采集时间段相应发生变化,若原致病因的时间是6个月,现致病因的时间是3个月,则在舆情信息出现的10天之内,收集距此时间段向前推一个月作为有效时间段;同时获取该用户在确诊患有肝炎的时间段内的数据,并将确诊检查理化参数进行权重设置,转氨酶的权重设置为45%,胆红素的权重设置为30%,白蛋白的权重设置为25%,并且当转氨酶的含量高于正常值且胆红素和白蛋白的含量低于正常值,才最终判定用户患有肝炎。随机采集用户数据使数据满足通用性要求,同时根据用户的确诊情况来初步判断数据采集时间段,病情能够根据具体的病因动态调整时间,保证采集到的样本数据的有效性,从而为预测模型提供可靠数据支撑。
46.通过随机采样的方式来调整预测的随机性和准确性,并且在后续确诊后,定向采集该确诊用户的历史数据进行分析,并根据分析其致病原因动态调整采集数据的时间段,能够通过动态调整样本数据的采集时间段,使样本数据的采集具有动态性、及时性和准确性,不仅能够实现数据的可靠保障,还能够在有效的基础上尽可能节约筛选识别时间,再结合用户在确诊判定时的理化参数权重设置以及三个参数的结合判定,能够极大程度提高对用户肝炎的判定准确率,从而对预测模型的训练效果更显著,提高模型对用户病情的预测效果和预测准确度。
47.以上所述的仅是本发明的实施例,方案中公知的具体技术方案和/或特性等常识在此未作过多描述。应当指出,对于本领域的技术人员来说,在不脱离本发明技术方案的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本技术要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献