一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于关系网络的骨质疏松症风险预测方法

2023-03-28 16:58:57 来源:中国专利 TAG:

技术特征:
1.一种基于关系网络的骨质疏松症风险预测方法,其特征在于:包括以下步骤:步骤一:建立数据集,数据集由受试者生理指标和调查问卷结果两部分组成;步骤二:问卷类数据包括疾病史、膳食习惯、吸烟、饮酒、体力活动情况等;骨质疏松症的有无为模型的输出变量,骨质疏松症的诊断以who推荐的t值参考范围为标准:降低程度≥2.5个标准差为骨质疏松;步骤三:数据集有骨质疏松症4808人,正常11880人,分别占总样本的28.8%和71.2%,为不平衡数据集;步骤四:数据集中,个人与对应的饮食习惯、病史等信息可视为两个互不相交的子集,这两个子集共同组成了一个二部图结构;步骤五:具体的,原始图表示为g=(v,e),v为顶点集、e为边集,v由u和v两个子集构成,分别表示个人和对应的属性,e包含了连接u中顶点与v中顶点的边,即个人连接到其对应的饮食或病史特征;步骤六:将原始的个人-属性的二部图转换为个人-个人的单部图结构,其现实意义可以理解为:在筛选与骨质疏松症相关的病史特征和饮食习惯特征后,如果两个人有相同的病史或相同的饮食习惯,则认为他们之间存在潜在的关系,相同病史反映了疾病之间共享的分子机制或环境因素,而疾病基因之间有很高的相互作用倾向,往往以共病形式表现,饮食习惯反映了日常摄入的各类营养因素,而饮食中的生物化学成分对疾病具有复杂的影响,相似的饮食习惯可能导致他们与某种疾病具有关联性,因此网络中的个人是相互关联的,他们可能有类似相关的疾病基因,环境因素或饮食结构;步骤七:特征集构建:特征集由个人特征和网络特征两个子集共同组成,用于构建关系网络的特征包括病史特征和饮食特征,病史特征包括高血压病史、糖尿病病史、慢性支气管炎病史、肺气肿病史、冠心病/心肌梗塞/心绞痛病史、高胆固醇血症史、骨折病史、痛风病史和类风湿性关节炎病史;饮食特征包括蔬果不足、蛋类不足、奶类不足、豆类不足、高糖饮食、高脂饮食和高钠饮食;步骤八:选择常见的五种网络特征:介数中心性、接近中心性、特征向量中心性、度中心性和节点层面的聚类系数;步骤九:模型构建:从数据集中构建图结构的关系网络,并提取相应的网络特征,网络特征与个人特征共同构成输入的特征集,并基于logistic回归、支持向量机(svm)、xgboost、catboost和随机森林五种算法建立骨质疏松症风险预测模型进行比较;步骤十:模型评价方法:采用5项常用评价指标来评价预测模型的性能,分别为准确率(accuracy)、灵敏度(sensitivity)、特异性(specificity)和受试者工作特征(receiver operating characteristic,roc)曲线下的面积(area under the roc curve,auc)。2.根据权利要求1所述的一种基于关系网络的骨质疏松症风险预测方法,其特征在于:所述步骤一中,数据集来源于某三甲医院的健康体检中心,该数据集包含16688例完整样本,其中13818名男性,2870名女性,受试者年龄在18-78岁之间。3.根据权利要求1所述的一种基于关系网络的骨质疏松症风险预测方法,其特征在于:所述步骤一中的生理指标包含身高、体重、身体指数(body mass index,bmi)、腰围、血压值、空腹血糖值、血脂四项等。4.根据权利要求1所述的一种基于关系网络的骨质疏松症风险预测方法,其特征在于:
所述步骤四中,预实验结果表明,原始数据集的不平衡会导致模型偏向将结果预测为正常。5.根据权利要求1所述的一种基于关系网络的骨质疏松症风险预测方法,其特征在于:所述步骤五中,该图的无向二部图表示:g=(u,v),分析二部图的常用方法是进行投影,转换为单部图进行分析。6.根据权利要求1所述的一种基于关系网络的骨质疏松症风险预测方法,其特征在于:所述步骤七中,筛选个人特征时,对连续变量使用皮尔逊相关系数,对分类变量使用卡方检验进行分析,选择相关性大的变量作为候选特征,最终选择的个人特征为:性别、年龄、身高、体重、体重指数、腰围、空腹血糖、血脂、血尿酸、吸烟、饮酒、体力活动情况。7.根据权利要求1所述的一种基于关系网络的骨质疏松症风险预测方法,其特征在于:所述步骤八中,网络特征含义分别如下:介数中心性:计算图中所有节点对间的最短路径,若多条最短路径经过某节点,则认为该节点介数中心性较高;接近中心性:计算某节点到所有其他节点的最短路径之和,总距离越小,则认为该节点接近中心性越高;特征向量中心性:若某节点与很多高中心性的节点相连,则该节点特征向量中心性较高。可简单理解为,邻居节点越重要,该节点越重要;度中心性:节点的度数,即与该节点连接的节点数量;聚类系数:该节点的相邻节点之间相互连接的程度,即该节点的两个邻居节点也相邻的概率。8.根据权利要求1所述的一种基于关系网络的骨质疏松症风险预测方法,其特征在于:所述步骤九中,数据集以8:2比例划分训练集和测试集,其中训练集用以构建预测模型,测试集用以评价模型性能,试验全部以python语言编写,抽取的关系网络以(起点,终点,权重)三元组形式的边集保存,网络相关的特征计算提取通过igraph库实现,随机森林、svm和logistic回归模型通过scikit-learn库实现,xgboost和catboost分别由各自算法包实现。9.根据权利要求1所述的一种基于关系网络的骨质疏松症风险预测方法,其特征在于:所述步骤十中,准确率指正确分类样本占总样本的比例,灵敏度是指预测为正的样本占全部正样本的比例。10.根据权利要求1所述的一种基于关系网络的骨质疏松症风险预测方法,其特征在于:所述步骤十中,特异性是指预测为负的样本占全部负样本的比例。

技术总结
本发明公开了一种基于关系网络的骨质疏松症风险预测方法,包括以下步骤:步骤一:建立数据集,数据集由受试者生理指标和调查问卷结果两部分组成,步骤二:问卷类数据包括疾病史、膳食习惯、吸烟、饮酒、体力活动情况等;骨质疏松症的有无为模型的输出变量,骨质疏松症的诊断以WHO推荐的T值参考范围为标准:降低程度≥2.5个标准差为骨质疏松;步骤三:数据集有骨质疏松症4808人,正常11880人,分别占总样本的28.8%和71.2%,为不平衡数据集,本发明通过提取关系网络中的关联信息,改进了模型的学习效果,使模型性能得到提高;使用网络特征来代替繁冗的病史和饮食类特征,解决了高维数据问题。题。题。


技术研发人员:马祖长 汪忠昊 李宜宾 孙怡宁
受保护的技术使用者:中国科学院合肥物质科学研究院
技术研发日:2022.12.02
技术公布日:2023/3/10
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献