视网膜病变发病风险预测模型的构建方法、系统及设备

2022-11-16 07:40:06 来源：中国专利 TAG：

1.本发明涉及模型训练技术领域，特别涉及一种视网膜病变发病风险预测模型的构建方法、系统及设备。

背景技术：

2.早产儿视网膜病变（retinopathy of prematurity，简称rop) 是发生于早产儿的视网膜血管增生性疾病，是婴幼儿期最常见的致盲和致低视力眼病。早产儿视网膜病变不仅威胁患儿的视觉质量，同时还对其家庭以及社会造成沉重负担。及时的筛查对降低rop的致盲率及视力损伤具有重要意义。
3.目前主要由医生根据眼底摄影设备捕捉到的眼底照片来进行rop筛除诊断以及预测发病风险，然而，在拍摄眼底照片时会伴有巩膜顶压，并且整个过程需要多次间接检眼镜检查，这对婴儿来说是有伤害的，对眼科医生来说也是费力的，同时需要观察眼底照片的细微特征才能够进行rop筛除诊断以及发病风险预测，依赖经验丰富的眼科医生，而且在服务不足和偏远地区往往无法进行。

技术实现要素：

4.基于此，本发明的目的是提供一种视网膜病变发病风险预测模型的构建方法、系统及设备，旨在解决背景技术当中的至少一个技术问题。
5.根据本发明实施例的一种视网膜病变发病风险预测模型的构建方法，所述方法包括：获取若干早产儿及其母亲的医学指标数据，所述若干早产儿当中含患有视网膜病变的早产儿和未患有视网膜病变的早产儿，所述医学指标数据包括医学指标及患病标识，每一所述医学指标对应形成一入选建模因子；采用预设数据清洗方法对所有所述入选建模因子进行清洗，以从中清洗出最终参与建模的相关建模因子，并将每个所述早产儿及其母亲的相关建模因子及其对应的患病标识构建训练样本集；通过所述训练样本集分别对不同类型的多个初始预测模型进行训练，对应得到多个训练后预测模型；采用预设模型评估指标对所述多个训练后预测模型进行评估，并将评估后最优的训练后预测模型确定为视网膜病变发病风险预测模型。
6.另外，根据本发明上述实施例的一种视网膜病变发病风险预测模型的构建方法，还可以具有如下附加的技术特征：进一步地，采用预设数据清洗方法对所有所述入选建模因子进行清洗，以从中清洗出最终参与建模的相关建模因子的步骤包括：对所有所述入选建模因子进行相关性分析，并从相关性分析结果当中筛选出p值小于第一阈值的候选建模因子；
将所述候选建模因子进行重要性排序，并根据重要性排序结果确定所述相关建模因子。
7.进一步地，将所述候选建模因子进行重要性排序，并根据重要性排序结果确定所述相关建模因子的步骤包括：分别采用极端梯度提升树算法、随机森林算法、以及补朴素贝叶斯分类算法对所述候选建模因子进行重要性排序，对应得到三个重要性排序结果；分别从所述三个重要性排序结果当中选取前预设位的候选建模因子，得到三个候选建模因子集合；对所述三个候选建模因子集合求交集，确定出所述三个候选建模因子集合中的共有候选建模因子，以确定所述相关建模因子。
8.进一步地，对所述三个候选建模因子集合求交集，确定出所述三个候选建模因子集合中的共有候选建模因子，以确定所述相关建模因子的步骤包括：计算未患有视网膜病变的早产儿和患有视网膜病变的早产儿的各项医学指标的平均差异值，得到各项医学指标的平均差异值；根据所述各项医学指标的平均差异值，以平均差异值和基础阈值之和为半径绘制多个同心圆，每个同心圆对应一项医学指标，对所述多个同心圆不断进行最小间距聚类，直到将所述多个同心圆进行分化聚类在两个类群当中，进而将各项医学指标的聚类在两个类群当中；选取平均差异值更大的类群中的医学指标作为建模因子并与所述共有候选建模因子求交集，得到所述相关建模因子。
9.进一步地，对所有所述入选建模因子进行相关性分析的步骤之前，还包括：计算出每一所述入选建模因子的缺失比，所述缺失比为所有样本中缺失该入选建模因子的数量占总样本数的比值，每一早产儿及其母亲的数据对应为一个样本；去除缺失比大于第二阈值的入选建模因子。
10.进一步地，通过所述训练样本集对初始预测模型进行训练的过程包括：复制奇数个初始预测模型，并将所述奇数个初始预测模型两两组合，形成具有训练顺序的多组初始预测模型和一个单独初始预测模型；通过所述训练样本集并按照所述训练顺序依次对每组当中的初始预测模型进行训练，每次对当前组内的初始预测模型训练完之后，取当前组内的两个训练后的预测模型的参数求平均值得到模型参数均值，并将所述模型参数均值作为下一组训练的两个初始预测模型的初始值；将最后一组训练后得到的模型参数均值作为模型初始值赋予给所述单独初始预测模型，并通过所述训练样本集对所述单独初始预测模型进行训练，得到所述训练后预测模型。
11.进一步地，将评估后最优的训练后预测模型确定为视网膜病变发病风险预测模型的步骤之后还包括：将拟测婴幼儿的所述相关建模因子对应的医学指标数据输入到所述视网膜病变发病风险预测模型当中，并根据预测结果构建shap图；计算出所述拟测婴幼儿的所述相关建模因子在所述shap图当中的预测概率相加，
得出所述拟测婴幼儿的视网膜病变发病风险概率。
12.进一步地，所述相关建模因子包括重度子痫前期史、出生评分1分钟、出生胎龄、极低体重儿史、输血史和新生儿高血糖症史；所述初始预测模型包括极端梯度提升树算法模型、随机森林算法模型、轻量级梯度提升机算法模型、自适应增强算法模型、补朴素贝叶斯分类算法模型和支持向量机算法模型。
13.根据本发明实施例的一种视网膜病变发病风险预测模型的构建系统，所述装置包括：数据获取模块，用于获取若干早产儿及其母亲的医学指标数据，所述若干早产儿当中含患有视网膜病变的早产儿和未患有视网膜病变的早产儿，所述医学指标数据包括医学指标及患病标识，每一所述医学指标对应形成一入选建模因子；数据清洗模块，用于采用预设数据清洗方法对所有所述入选建模因子进行清洗，以从中清洗出最终参与建模的相关建模因子，并将每个所述早产儿及其母亲的相关建模因子及其对应的患病标识构建训练样本集；模型训练模块，用于通过所述训练样本集分别对不同类型的多个初始预测模型进行训练，对应得到多个训练后预测模型；模型评估模块，用于采用预设模型评估指标对所述多个训练后预测模型进行评估，并将评估后最优的训练后预测模型确定为视网膜病变发病风险预测模型。
14.本发明还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的视网膜病变发病风险预测模型的构建方法。
15.本发明还提出一种视网膜病变发病风险预测模型的构建设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的视网膜病变发病风险预测模型的构建方法。
16.与现有技术相比：通过收集大量的早产儿及其母亲的医学指标数据，形成大量的入选建模因子，再基于预设数据清洗方法对入选建模因子进行清洗，找到与视网膜病变发病最重要的相关建模因子，并基于相关建模因子分别对不同类型的多个初始预测模型进行训练，从而训练得到不同类型的多种预测模型，最后再基于预设模型评估指标对该多种预测模型进行评估，以选取最适合早产儿视网膜病变场景的预测模型，从而最终训练得到能够在早期精准预测早产儿视网膜病变发病风险的预测模型，从而摆脱只能依赖眼底照片才能够预测rop的困境，并且这种方式不需要对婴儿眼睛进行检测，只需要输入婴儿相应的医学指标数据，从而不会对婴儿造成伤害，同时也可以降低眼科医生的工作量和要求，并且在服务不足和偏远地区也能够进行有效精准的rop预测。
附图说明
17.图1为本发明第一实施例中的视网膜病变发病风险预测模型的构建方法的流程图；图2为本发明实施例提供的最小间距聚类的示意图；图3为本发明第三实施例中的视网膜病变发病风险预测模型的构建系统的结构示意图；
图4为本发明第四实施例中的视网膜病变发病风险预测模型的构建设备的结构示意图。
18.以下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
19.为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
20.需要说明的是，当元件被称为“固设于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
21.除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。
22.实施例一请参阅图1，所示为本发明第一实施例中的视网膜病变发病风险预测模型的构建方法，所述方法具体包括步骤s01-步骤s04。
23.步骤s01，获取若干早产儿及其母亲的医学指标数据，所述若干早产儿当中含患有视网膜病变的早产儿和未患有视网膜病变的早产儿，所述医学指标数据包括医学指标及患病标识，每一所述医学指标对应形成一入选建模因子。
24.其中，早产儿人群为高发早产儿视网膜病变的群体，为了保证模型预测的可靠性，考虑到患儿母亲的医学指标数据可能会对早产儿视网膜病变产生影响，因此本实施例不仅收集视网膜病变患儿的医学指标数据，同时还收集患儿母亲的医学指标数据，其中早产儿及其母亲的医学指标数据属于同一样本，属于一个研究对象。患病标识为标识该早产儿是否患有早产儿视网膜病变的标识，例如可以用1来标识患有早产儿视网膜病变，用0来标识未患有早产儿视网膜病变。
25.在具体实施时，可以从医院临床科研大数据平台当中以时间段为搜索范围搜索在该时间段入院并接受早产儿视网膜病变筛查的早产儿。在本实施例当中研究对象纳入标准为：（1）23周＜出生胎龄＜37周的早产儿（即出生胎龄23 1到36 6周）；（2）明确的rop筛查诊断结果，即明确诊断患病或者不患病，其中在本次研究当中共筛选出满足上述条件的644位早产儿进行研究。然后调取满足上述条件的入选研究对象的医学指标数据，在本实施例一些可选实施例当中，具体引入的早产儿的医学指标包括：出生体重，出生胎龄，出生评分（apgar）1分钟，出生评分（apgar）5分钟，出生评分（apgar）10分钟，是否为多胎、珍贵儿，是否有新生儿高血糖症、新生儿缺血缺氧性脑病、新生儿窒息、新生儿胎粪吸入综合征、新生儿呼吸衰竭、新生儿呼吸窘迫综合症、动脉导管未闭、新生儿高胆红素血症、脑出血、新生儿窒息、先天性心脏病、新生儿败血症、新生儿气胸、新生儿低钙血症，是否输血及输血次数，是否吸氧及吸氧天数、是否接受气管内滴入猪肺磷脂治疗、辐射抢救等；具体引入的早产儿
母亲的医学指标包括：年龄，胎次、产次、羊水分度、是否有胎膜早破、宫内窘迫、胎盘早剥、妊高症、重度子痫前期、妊娠期糖尿病、妊娠期甲亢、系统性红斑狼疮、地中海贫血等。其中出生评分（apgar）1分钟、出生评分（apgar）5分钟及出生评分（apgar）10分钟的具体评分值一般为1-9分。
26.步骤s02，采用预设数据清洗方法对所有所述入选建模因子进行清洗，以从中清洗出最终参与建模的相关建模因子，并将每个所述早产儿及其母亲的相关建模因子及其对应的患病标识构建训练样本集。
27.需要说明的是，数据清洗的目的在于筛选出与早产儿视网膜病变最相关的医学指标，从而确定最优建模因子组合，提高模型训练速率和准确度。在具体实施时，可以通过对入选建模因子与早产儿视网膜病变（即患病标识）之间进行相关性分析，相关性分析手段可以为但不限于皮尔逊相关分析和基线分析，例如可以采用皮尔逊相关系数来拟合上述各医学指标与早产儿视网膜病变之间的相关关系，或者也可以基于基线分析来拟合上述各医学指标与早产儿视网膜病变之间的相关关系，然后从相关性分析结果当中筛选出p值（p value）小于阈值（例如0.05）的显著医学指标，以从众多医学指标当中找到相关性高于阈值的多个医学指标，从而确定最终参与建模的相关建模因子。
28.之后，将每个所述早产儿及其母亲的相关建模因子及其对应的患病标识构建训练样本，使得每个训练样本当中均包含该样本的相关建模因子及患病标识，从而构建训练样本集。
29.步骤s03，通过所述训练样本集分别对不同类型的多个初始预测模型进行训练，对应得到多个训练后预测模型。
30.在一些可选实施例当中，初始预测模型具体可以包括极端梯度提升树算法模型（extreme gradient boosting，简称xgboost）、随机森林算法模型（random forest，简称rf）、轻量级梯度提升机算法模型（light gradient boosting machine，简称lightgbm）、自适应增强算法模型（adaboost）、补朴素贝叶斯分类算法模型和支持向量机算法模型（complement naive bayes，简称gnb）。
31.也即本实施例旨在研究不同机器学习算法在预测早产儿视网膜病变场景当中的适用性，不同于现有技术的是，现有技术通常根据人为经验直接选定一种机器学习算法，然后再对所选取的机器学习算法进行训练，这种方式很难保证所选取的机器学习算法在所需领域研究中的适用性，所最终训练得到的机器模型很难保证高可靠性，由于本技术研究早产儿视网膜病变场景，考虑到早产儿视网膜病变的致盲和致低视力眼病率高、病情恶化速度快等特殊性，早产儿视网膜病变的预测应当具有极高的准确性。因此本技术不同于现有技术，而是采用同一训练样本集分别对不同的机器学习算法进行训练，得到多种训练后预测模型，再基于预设模型评估指标对多个训练后预测模型进行评估，从中确定出最适用于早产儿视网膜病变预测的机器学习算法模型，从而保证最终训练得到的视网膜病变发病风险预测模型的高可靠性，从而满足早产儿视网膜病变的特殊性要求。
32.步骤s04，采用预设模型评估指标对所述多个训练后预测模型进行评估，并将评估后最优的训练后预测模型确定为视网膜病变发病风险预测模型。
33.在优选实施例当中，可以采用曲线下面积（area under the curve，auc）、准确度（accuracy）、灵敏度（true positive rate，tpr）、特异度（true negative rate，tnr）、阳性
预测值（positive predictive value，ppv）、阴性预测值（negative predictivevalue，npv）和 f1分数（f1 score）评价机器学习算法这6项评估指标当中的一种或多种来对训练后预测模型进行评估。
34.综上，本发明上述实施例当中的视网膜病变发病风险预测模型的构建方法，通过收集大量的早产儿及其母亲的医学指标数据，形成大量的入选建模因子，再基于预设数据清洗方法对入选建模因子进行清洗，找到与视网膜病变发病最重要的相关建模因子，并基于相关建模因子分别对不同类型的多个初始预测模型进行训练，从而训练得到不同类型的多种预测模型，最后再基于预设模型评估指标对该多种预测模型进行评估，以选取最适合早产儿视网膜病变场景的预测模型，从而最终训练得到能够在早期精准预测早产儿视网膜病变发病风险的预测模型，从而摆脱只能依赖眼底照片才能够预测rop的困境，并且这种方式不需要对婴儿眼睛进行检测，只需要输入婴儿相应的医学指标数据，从而不会对婴儿造成伤害，同时也可以降低眼科医生的工作量和要求，并且在服务不足和偏远地区也能够进行有效精准的rop预测。
35.实施例二本发明第二实施例同样提出一种视网膜病变发病风险预测模型的构建方法，首先需要说明的是，由于在研究之前并不清楚具体哪些因子会对视网膜病变产生影响，因此在研究之前需要将尽可能多的因子纳入研究当中，然后通过可靠、快速的数据清洗方法来找到与视网膜病变相关的建模因子，同时由于在后续预测过程当中（也即模型实际使用当中），用户需要输入这些相关建模因子来完成发病风险预测，因此为了方便输入，这些相关建模因子应当尽可能少，所以还要求数据清洗方法能够将与视网膜病变最相关的关键建模因子筛选出来，从而实现在输入较少的关键建模因子之后，就能够高准确的预测出视网膜病变发病风险。为了达到上述目的，本实施例提出了一种全新的数据清洗方法，具体如下：本实施例当中的视网膜病变发病风险预测模型的构建方法与第一实施例当中的视网膜病变发病风险预测模型的构建方法的不同之处在于：其中，采用预设数据清洗方法对所有所述入选建模因子进行清洗，以从中清洗出最终参与建模的相关建模因子的步骤具体可以包括：对所有所述入选建模因子进行相关性分析，并从相关性分析结果当中筛选出p值小于第一阈值的候选建模因子，其中相关性分析可以为皮尔逊相关分析或者基线分析；将所述候选建模因子进行重要性排序，并根据重要性排序结果确定所述相关建模因子。
36.具体地，将所述候选建模因子进行重要性排序，并根据重要性排序结果确定所述相关建模因子的步骤包括：分别采用极端梯度提升树算法、随机森林算法、以及补朴素贝叶斯分类算法对所述候选建模因子进行重要性排序，对应得到三个重要性排序结果；分别从所述三个重要性排序结果当中选取前预设位的候选建模因子，得到三个候选建模因子集合；对所述三个候选建模因子集合求交集，确定出所述三个候选建模因子集合中的共有候选建模因子，以确定所述相关建模因子。
37.此外，对所有所述入选建模因子进行基线分析的步骤之前，还可以包括：
计算出每一所述入选建模因子的缺失比，所述缺失比为所有样本中缺失该入选建模因子的数量占总样本数的比值，每一早产儿及其母亲的数据对应为一个样本；去除缺失比大于第二阈值的入选建模因子。
38.进一步地，在本实施例一些可选情况当中，对所述三个候选建模因子集合求交集，确定出所述三个候选建模因子集合中的共有候选建模因子，以确定所述相关建模因子的步骤具体可以包括：计算未患有视网膜病变的早产儿和患有视网膜病变的早产儿的各项医学指标的平均差异值，得到各项医学指标的平均差异值；根据所述各项医学指标的平均差异值，以平均差异值和基础阈值之和为半径绘制多个同心圆，每个同心圆对应一项医学指标，对所述多个同心圆不断进行最小间距聚类，直到将所述多个同心圆进行分化聚类在两个类群当中，进而将各项医学指标的聚类在两个类群当中；选取平均差异值更大的类群中的医学指标作为建模因子并与所述共有候选建模因子求交集，得到所述相关建模因子。
39.其中，医学指标包括数值型医学指标和选项型医学指标，数值型医学指标是指指标值是数值的医学指标，例如出生评分1分钟、输血次数、出生胎龄等，选项型医学指标是指指标值是选项的医学指标，例如是否是极低体重儿、是否有新生儿胎粪吸入综合征等，选项型医学指标的指标值一般为“是”或“否”。针对数值型医学指标，可以直接计算指标值的差值来计算医学指标差异值，例如患病早产儿的出生评分1分钟为5，未患病早产儿的出生评分1分钟为9，则出生评分1分钟差异值为4。针对选项型医学指标，可以根据指标值的差异来计算医学指标差异值，即如果患病早产儿和未患病早产儿的指标值相同（都为“是”或都为“否”），则指标差异值为第一阈值，如果患病早产儿和未患病早产儿的指标值不相同（一个为“是”一个为“否”），则指标差异值为第二阈值，在具体研究时，定义第一阈值为0，第二阈值为6，但不限于此，可以根据具体情况具体修改。其中，第二阈值的赋值可以与数值型医学指标的平均指标差异值接近，而第一阈值的赋值则应当尽可能比第二阈值小，使得后面能够更好的将各项医学指标分化聚类在两个类群当中。
40.在具体实施时，患病早产儿和未患病早产儿会进行随机一一配对，每对都会产生一组各项指标的差异值，然后将各组的各项指标的差异值计算平均值，就得到了各项医学指标的平均差异值，例如有100对，则就会产生100个出生评分1分钟差异值，将这100个出生评分1分钟差异值计算平均值，就得到了出生评分1分钟的平均差异值，其他指标同理。
41.之后，根据各项医学指标的平均差异值，以平均差异值和基础阈值之和为半径绘制多个同心圆，每个同心圆对应一项医学指标，如图2所示（示例性的），其中加入基础阈值（例如为1）的目的是为了让平均差异值为0的医学指标同样能够正常绘制出对应的同心圆。然后，对所述多个同心圆不断进行最小间距聚类，最小间距聚类的过程为，计算每个同心圆与其相邻同心圆的间距，间距更小的归为一类，例如如图2所示，同心圆b与同心圆a的间距小于同心圆b与同心圆c的间距，因此同心圆b与同心圆a归为一类，其他依次类推，当经过一轮聚类之后，就会形成多类群，例如同心圆b与同心圆a为类群i，同心圆c与同心圆d为类群ii，同心圆e与同心圆f为类群iii，此时将会进行第二轮聚类，第二轮聚类时，会计算每一类群与其相邻类群的间距，间距更小的归为一类，而在计算类群之间的间距时，是以这两个类
群中距离最接近的两个同心圆来计算，例如类群i和类群ii的间距为同心圆b与同心圆c的间距，类群iii与类群ii的间距为同心圆d与同心圆e的间距，因此会将类群i和类群ii二次聚类为一个类群，而类群iii为单独一个类群。从而将多个同心圆进行分化聚类在两个类群当中，进而将各项医学指标的聚类在两个类群当中。
42.应当理解的，最终聚类的两个类群当中其中一个包含患病与不患病之间差异比较大的医学指标，可定义为差异化类群，而另一个则包含患病与不患病之间差异比较小的医学指标，可以定义为同质化类群，而差异比较大的医学指标必然与视网膜病变更相关，因此还会将差异化类群中的医学指标作为建模因子并与上述重要性排序得到的所述共有候选建模因子求交集，最终得到所述相关建模因子。因此本实施例采用重要性排序和差异化分析协同的数据清洗方式，能够最终将与视网膜病变最相关的关键建模因子筛选出来，从而实现在输入较少的关键建模因子之后，就能够高准确的预测出视网膜病变发病风险。
43.在具体研究中，先计算出每一入选建模因子的缺失比，剔除缺失比大于0.4的入选建模因子，然后再对剩下所有入选建模因子进行皮尔逊相关性分析，并从相关性分析结果当中筛选出p值小于第一阈值（0.05）的候选建模因子，具体为：出生评分1分钟、出生评分5分钟、辐射抢救、输血、输血次数、新生儿窒息、新生儿支气管肺发育不良、新生儿呼吸暂停、新生儿肺炎、先天性卵圆孔未闭、极低体重儿、先天性房间隔缺损、脑出血、新生儿短暂性中性白细胞减少病、新生儿胎粪吸入综合征、新生儿高胆红素血症、新生儿高血糖症、新生儿呼衰、新生儿肺透明膜病、失血性休克、动脉导管未闭、新生儿播散性血管内凝血、新生儿缺血缺氧性脑病、妊娠期糖尿病、重度子痫前期、产前保胎、妊娠期甲亢、肾病综合征、乙肝小三阳、分娩时母亲用药情况、rop治疗时间、出生胎龄以及保温箱。
44.然后分别采用极端梯度提升树算法、随机森林算法、以及补朴素贝叶斯分类算法对上述33个候选建模因子进行重要性排序，其中采用极端梯度提升树(xgboost)进行变量重要度分析，其重要度最高的15个变量（由高到低）分别为：出生评分1分钟、出生胎龄、新生儿高血糖症、重度子痫前期、输血、新生儿高胆红素血症、极低体重儿、新生儿窒息、新生儿缺血缺氧性脑病、出生评分5分钟、先天性心脏病、新生儿败血症、新生儿低钙血症、妊娠期糖尿病和妊娠期甲亢。采用随机森林算法（rf）进行变量重要度分析，其重要度最高的15个变量（由高到低）分别为：出生评分1分钟、出生胎龄、新生儿高血糖症、输血、新生儿窒息、新生儿缺血缺氧性脑病、重度子痫前期、极低体重儿、新生儿高胆红素血症、新生儿胎粪吸入综合征、辐射抢救、脑出血、新生儿呼衰、乙肝小三阳和动脉导管未闭。采用补朴素贝叶斯分类算法（cnb）进行变量重要度分析，其重要度最高的15个变量（由高到低）分别为：出生评分1分钟、输血、新生儿窒息、重度子痫前期、新生儿呼衰、极低体重儿、新生儿胎粪吸入综合征、新生儿缺血缺氧性脑病、乙肝小三阳、新生儿高血糖症、妊娠期甲亢、脑出血、出生胎龄、失血性休克和动脉导管未闭。取3个模型的变量重要性的 top15，画出韦恩图，取三方法的变量集合共有变量，具体为：重度子痫前期、出生评分1分钟、出生胎龄、极低体重儿、输血、新生儿高血糖症、新生儿窒息和新生儿缺血缺氧性脑病。
45.与此同时，还会进行如上所述的差异性分析，找出差异化类群，其中包含的差异化的医学指标包括：出生评分5分钟、重度子痫前期、出生评分1分钟、出生胎龄、极低体重儿、输血、新生儿高血糖症、新生儿呼吸窘迫综合症、先天性心脏病、辐射抢救、及吸氧。然后与上述共有变量：重度子痫前期、出生评分1分钟、出生胎龄、极低体重儿、输血、新生儿高血糖
症、新生儿窒息和新生儿缺血缺氧性脑病进行求交集，最终选择重度子痫前期史、出生评分1分钟、出生胎龄、极低体重儿史、输血史和新生儿高血糖症史这6个特征变量作为最终的相关建模因子。
46.此外，在本实施例当中，分别采用由上述6个相关建模因子构建的训练样本集对极端梯度提升树算法模型、随机森林算法模型、轻量级梯度提升机算法模型、自适应增强算法模型、补朴素贝叶斯分类算法模型和支持向量机算法模型进行训练，最后采用曲线下面积auc来对训练后的极端梯度提升树算法模型、随机森林算法模型、轻量级梯度提升机算法模型、自适应增强算法模型、补朴素贝叶斯分类算法模型和支持向量机算法模型进行评估，最终发现极端梯度提升树算法模型的auc无论是在训练集（0.96）还是在验证集（0.949）中表现最好，且模型稳定性也相对较优，其次为adaboost模型（训练集0.956，验证集0.942），rf、lightgbm和cnb算法的auc分别为0.948、0.945、0.940，svc算法在所有模型中auc最小（0.912），因此最终确定训练后的极端梯度提升树算法模型作为最终的视网膜病变发病风险预测模型。在具体实施时，训练集和验证集可以按8:2的比例分配，即将样本集按8:2的比例分配训练样本集和验证样本集。
47.进一步地，在一些可选实施例当中，通过所述训练样本集对初始预测模型进行训练的过程具体可以包括：复制奇数个初始预测模型，并将所述奇数个初始预测模型两两组合，形成具有训练顺序的多组初始预测模型和一个单独初始预测模型；通过所述训练样本集并按照所述训练顺序依次对每组当中的初始预测模型进行训练，每次对当前组内的初始预测模型训练完之后，取当前组内的两个训练后的预测模型的参数求平均值得到模型参数均值，并将所述模型参数均值作为下一组训练的两个初始预测模型的初始值；将最后一组训练后得到的模型参数均值作为模型初始值赋予给所述单独初始预测模型，并通过所述训练样本集对所述单独初始预测模型进行训练，得到所述训练后预测模型。
48.由于需要对不同模型进行训练、同时训练数据相对较大，建模因子相对较多，因此如何提高模型训练速度同时又能够保证模型训练的精度成为重点，传统模型训练通常是一组组数据逐一输入到模型当中，根据模型输出来调整模型参数之后再通过下一组数据进行迭代训练，通常需要经过几十次甚至上百次的迭代训练才能够完成最终模型，这种虽然能够保证模型训练的精度，但是模型训练速度慢，需要漫长的训练时间。为此，本实施例采用如下全新的模型训练方法：首先复制奇数个初始预测模型，将奇数个初始预测模型两两组合，形成具有训练顺序的多组初始预测模型和一个单独初始预测模型，然后通过训练样本集并按照训练顺序依次对每组当中的初始预测模型进行训练，每次对当前组内的初始预测模型训练完之后，取当前组内的两个训练后的预测模型的参数求平均值得到模型参数均值，并将模型参数均值作为下一组训练的两个初始预测模型的初始值，使得模型每训练一次至少相当于传统迭代训练两次，从而能够使模型快速收敛，最终训练时间能够至少缩短一半。
49.进一步地，在一些可选实施例当中，将评估后最优的训练后预测模型确定为视网膜病变发病风险预测模型的步骤之后还可以包括：
将拟测婴幼儿的所述相关建模因子对应的医学指标数据输入到所述视网膜病变发病风险预测模型当中，并根据预测结果构建shap图；计算出所述拟测婴幼儿的所述相关建模因子在所述shap图当中的预测概率相加，得出所述拟测婴幼儿的视网膜病变发病风险概率。
50.也即，本实施例通过shap图来进行可视化，具体地，shap概要图将特征重要性与特征效应结合在一起。图上的每个点都是一个特征和一个实例的shapley值，纵坐标轴上的位置由特征确定，横坐标轴上的位置由shapley值确定。基于shap图,可获得每个预测指标的评分,将所有点的评分相加即为该患者的总分,对应于总分的预测概率即为该患者出现早产儿视网膜病变的预测概率。其中，shap图分析表明，当阈值概率大于16.971%时，该shap图模型对早产儿视网膜病变的发生具有较好的预测效能。在其他实施例当中，模型的输出还可以是二分类结果，例如输出存在发病风险或不存在发病风险。
51.在具体实施时，当预测概率高于阈值概率（例如16.971%）时，则建议患者应当尽快就医做检查，以及时进行筛查治疗，经过实际验证，患者在输入重度子痫前期史、出生评分1分钟、出生胎龄、极低体重儿史、输血史和新生儿高血糖症史这6个特征变量之后，本方法训练得到的视网膜病变发病风险预测模型具有极高的预测准确性。
52.实施例三本发明另一方面还提供一种视网膜病变发病风险预测模型的构建系统，请查阅图3，所示为本发明第三实施例中的视网膜病变发病风险预测模型的构建系统，所述视网膜病变发病风险预测模型的构建系统包括：数据获取模块11，用于获取若干早产儿及其母亲的医学指标数据，所述若干早产儿当中含患有视网膜病变的早产儿和未患有视网膜病变的早产儿，所述医学指标数据包括医学指标及患病标识，每一所述医学指标对应形成一入选建模因子；数据清洗模块12，用于采用预设数据清洗方法对所有所述入选建模因子进行清洗，以从中清洗出最终参与建模的相关建模因子，并将每个所述早产儿及其母亲的相关建模因子及其对应的患病标识构建训练样本集；模型训练模块13，用于通过所述训练样本集分别对不同类型的多个初始预测模型进行训练，对应得到多个训练后预测模型；模型评估模块14，用于采用预设模型评估指标对所述多个训练后预测模型进行评估，并将评估后最优的训练后预测模型确定为视网膜病变发病风险预测模型。
53.进一步地，在本发明一些可选实施例当中，数据清洗模块12还用于对所有所述入选建模因子进行相关性分析，并从相关性分析结果当中筛选出p值小于第一阈值的候选建模因子；将所述候选建模因子进行重要性排序，并根据重要性排序结果确定所述相关建模因子。
54.进一步地，在本发明一些可选实施例当中，数据清洗模块12还用于分别采用极端梯度提升树算法、随机森林算法、以及补朴素贝叶斯分类算法对所述候选建模因子进行重要性排序，对应得到三个重要性排序结果；分别从所述三个重要性排序结果当中选取前预设位的候选建模因子，得到三个候选建模因子集合；对所述三个候选建模因子集合求交集，确定出所述三个候选建模因子集合中的共有候选建模因子，以确定所述相关建模因子。
55.进一步地，在本发明一些可选实施例当中，数据清洗模块12还用于计算未患有视
网膜病变的早产儿和患有视网膜病变的早产儿的各项医学指标的平均差异值，得到各项医学指标的平均差异值；根据所述各项医学指标的平均差异值，以平均差异值和基础阈值之和为半径绘制多个同心圆，每个同心圆对应一项医学指标，对所述多个同心圆不断进行最小间距聚类，直到将所述多个同心圆进行分化聚类在两个类群当中，进而将各项医学指标的聚类在两个类群当中；选取平均差异值更大的类群中的医学指标作为建模因子并与所述共有候选建模因子求交集，得到所述相关建模因子。
56.进一步地，在本发明一些可选实施例当中，所述数据清洗模块12还用于计算出每一所述入选建模因子的缺失比，所述缺失比为所有样本中缺失该入选建模因子的数量占总样本数的比值，每一早产儿及其母亲的数据对应为一个样本；去除缺失比大于第二阈值的入选建模因子。
57.进一步地，在本发明一些可选实施例当中，模型训练模块13还用于复制奇数个初始预测模型，并将所述奇数个初始预测模型两两组合，形成具有训练顺序的多组初始预测模型和一个单独初始预测模型；通过所述训练样本集并按照所述训练顺序依次对每组当中的初始预测模型进行训练，每次对当前组内的初始预测模型训练完之后，取当前组内的两个训练后的预测模型的参数求平均值得到模型参数均值，并将所述模型参数均值作为下一组训练的两个初始预测模型的初始值；将最后一组训练后得到的模型参数均值作为模型初始值赋予给所述单独初始预测模型，并通过所述训练样本集对所述单独初始预测模型进行训练，得到所述训练后预测模型。
58.进一步地，在本发明一些可选实施例当中，所述视网膜病变发病风险预测模型的构建系统还包括：概率输出模块，用于将拟测婴幼儿的所述相关建模因子对应的医学指标数据输入到所述视网膜病变发病风险预测模型当中，并根据预测结果构建shap图；计算出所述拟测婴幼儿的所述相关建模因子在所述shap图当中的预测概率相加，得出所述拟测婴幼儿的视网膜病变发病风险概率。
59.上述各模块、单元被执行时所实现的功能或操作步骤与上述方法实施例大体相同，在此不再赘述。
60.实施例四本发明另一方面还提出一种视网膜病变发病风险预测模型的构建设备，请参阅图4，所示为本发明第四实施例当中的视网膜病变发病风险预测模型的构建设备，包括存储器20、处理器10以及存储在存储器上并可在处理器上运行的计算机程序30，所述处理器10执行所述计算机程序30时实现如上述的视网膜病变发病风险预测模型的构建方法。
61.其中，所述视网膜病变发病风险预测模型的构建设备具体可以为计算机、服务器、上位机等，处理器10在一些实施例中可以是中央处理器（central processing unit, cpu）、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器20中存储的程序代码或处理数据，例如执行访问限制程序等。
62.其中，存储器20至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，sd或dx存储器等）、磁性存储器、磁盘、光盘等。存储器20在一些实施例中可以是视网膜病变发病风险预测模型的构建设备的内部存储单元，例如该视网膜病变发病风险预测模型的构建设备的硬盘。存储器20在另一些实施例中也可以是视
网膜病变发病风险预测模型的构建设备的外部存储装置，例如视网膜病变发病风险预测模型的构建设备上配备的插接式硬盘，智能存储卡（smart media card, smc），安全数字（secure digital, sd）卡，闪存卡（flash card）等。进一步地，存储器20还可以既包括视网膜病变发病风险预测模型的构建设备的内部存储单元也包括外部存储装置。存储器20不仅可以用于存储安装于视网膜病变发病风险预测模型的构建设备的应用软件及各类数据，还可以用于暂时地存储已经输出或者将要输出的数据。
63.需要指出的是，图4示出的结构并不构成对视网膜病变发病风险预测模型的构建设备的限定，在其它实施例当中，该视网膜病变发病风险预测模型的构建设备可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。
64.本发明实施例还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述的视网膜病变发病风险预测模型的构建方法。
65.本领域技术人员可以理解，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
66.计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（ram），只读存储器（rom），可擦除可编辑只读存储器（eprom或闪速存储器），光纤装置，以及便携式光盘只读存储器（cdrom）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。
67.应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或它们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（pga），现场可编程门阵列（fpga）等。
68.在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、
ꢀ“
示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
69.以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

视网膜病变发病风险预测模型的构建方法、系统及设备

相关文献

最热文献