一种基于COPD风险判断的被筛查患者AUC提升方法与流程

2022-06-02 14:12:45 来源：中国专利 TAG：

一种基于copd风险判断的被筛查患者auc提升方法
技术领域
1.本发明涉及待测者auc提升相关的技术领域，具体涉及一种基于copd风险判断的被筛查患者auc提升方法。

背景技术：

2.copd是一种由于气流不畅所致的阻塞性肺部疾病。copd的两个主要潜在原因是肺气肿和气道疾病(例如，支气管炎)。copd可以基于初步问卷进行诊断，并且如果根据问卷结果显得必要，则然后在吸入药物和没有吸入药物这两种情况下都进行呼吸测量(肺活量测定)。问卷信息覆盖广泛的信息，包括家族史、症状和习惯(例如，吸烟)史、疾病史和相应的严重程度(例如，哮喘、癌症等)、活动水平以及一般健康度量。肺活量测定测试的主要输出是1秒钟用力呼气值(fev1)和用力肺活量(fvc)。将这些值基于人口分布进行标准化。
3.copd筛查问卷(ps问卷)在临床使用中，一般是根据待测者选择的选项对应的分数，进行加和，对总分按照一个阈值来判断被筛查患者是否有copd风险。虽然这样的方法在技术实现方面非常简单，易于操作，但是这样也使得筛查效果无法得到提升，同时这样的传统方法限制了筛查的准确性。

技术实现要素：

4.本发明的目的在于提供一种基于copd风险判断的被筛查患者auc提升方法，通过机器学习的方法，能够极大的提升筛查的准确性，可将auc提升15个百分点，以解决上述背景技术中提出的问题。
5.为实现上述目的，本发明提供如下技术方案：
6.一种基于copd风险判断的被筛查患者auc提升方法，包括如下步骤：
7.s1、数据收集，每个受试者先进行基本信息收集和问卷填写，然后通过肺功能测试判断其copd是否阳性，形成数据库；
8.s2、对数据进行特征化，包括以下三种：
9.①
如果问题的答案是类别型的，直接转化为类别型特征变量，将文本化的答案进行归一标准化；
10.②
如果问题的答案是数值型的，对待测者的答案进行单位归一化后转化为数值；
11.③
如果问题的答案是开放性的，根据答案进行总结，转化为上述类别型的答案，进而转化为类别型变量；
12.s3、数据建模，采用五折交叉验证对单模进行评估，并回归等模型及其不同设定，对数据进行建模；
13.s4、剔除交叉验证的平均auc在后的模型，排名靠前的单模，用stacking方法进行集成，预测新的测试数据(即新筛查的待测者)。
14.其中，所述步骤s1中的数据收集可以包括医学扫描仪被配置成扫描待测者的肺部，产生表示待测者肺部的图像数据；图像处理器被配置成利用机器学习模型、基于图像数
据中表示的气道的分割和基于图像数据中表示的肺部的特征，从流动模型生成肺部中的copd指示；该特征可以是疾病的纹理或基于成像的指示，显示器被配置成显示copd指示。
15.其中，所述步骤s2中的对数据进行特征化的用于预测copd急性加重的系统所使用的变量进一步包括社交数据和基于社交数据服务器提供的变量。
16.其中，所述社交数据是在与待测者的所述病历数据或所述临床方面数据相关联的变量被创建的特定时间点之前以及包括该特定时间点的预定时间段内收集的数据，并且由所述社交数据服务器提供的变量包括能够在搜索引擎和社交媒体的数据中发现的copd相关术语的搜索频率、与copd的症状相关的术语的搜索频率或者与伴随copd的并发症相关的术语的搜索频率中的至少一种。
17.其中，所述步骤s3中的数据建模还包括：从第一成像数据分割肺部的气道，和/或实行针对气道的计算流动动力学；针对气流的值可以是应力、压力、速度或体积值。在其它实施例中，该建模是利用三维模型对气道的第一部分的建模，以及是利用降阶模型对气道的第二部分的建模；第二部分具有与第一部分的气道相比具有更小直径的气道。
18.其中，数据建模是利用三维模型对气道的第一部分的建模，以及是利用降阶模型对气道的第二部分的建模；第二部分具有与第一部分的气道相比具有更小直径的气道。
19.其中，所述步骤s1中的数据收集还可以通过视频、图片、语音和文字形式给测试者示范正确的测量引导，提示测试者在测量中的关键要领和更正测量过程中的错误，逐步引导测试者独立完成数据的收集。
20.其中，所述步骤s2中进行特征化的数据包含了与copd相关的症状和危险因素的填写，包括：现在及过去的吸烟量调查、是否患有哮喘病史和呼吸音数据采集等；同时，根据中国国民的体质标准和生活习惯，对问卷内容进行相应的更改；最后根据问卷调查结果进行评分，并将评分结果作为评估测试者肺机能的重要参考依据。
21.其中，所述呼吸音数据仅包括一种呼吸信息。其它种类的呼吸信息可以是主观的或客观的，并且可以包括关于呼吸系统的文本、图像、视频和数字信息，包括年龄、体重、地理位置、病史、生活方式和各种其它人口统计和简档信息，以及待测者对关于的呼吸系统的问题的回答。
22.综上所述，由于采用了上述技术，本发明的有益效果是：
23.本发明中，通过如下步骤数据收集、数据特征化、数据建模以及剔除交叉验证的平均auc在后的模型，排名靠前的单模，用stacking方法进行集成，预测新的测试数据，并将数据特征化分为三大类，根据类别进行转化，利用归一标准化统一被筛查患者的采集数据，极大程度的提升筛查的准确性。
附图说明
24.图1为本发明一种基于copd风险判断的被筛查患者auc提升方法的流程图。
具体实施方式
25.为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领
域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。
26.实施例1
27.本发明提供了如图1所示的一种基于copd风险判断的被筛查患者auc提升方法，包括如下步骤：
28.s1、数据收集，每个受试者先进行基本信息收集和问卷填写，然后通过肺功能测试判断其copd是否阳性，形成数据库；
29.s2、对数据进行特征化，包括以下三种：
30.①
如果问题的答案是类别型的，直接转化为类别型特征变量，将文本化的答案进行归一标准化；
31.②
如果问题的答案是数值型的，对待测者的答案进行单位归一化后转化为数值；
32.③
如果问题的答案是开放性的，根据答案进行总结，转化为上述类别型的答案，进而转化为类别型变量；
33.s3、数据建模，采用五折交叉验证对单模进行评估，并回归等模型及其不同设定，对数据进行建模；
34.s4、剔除交叉验证的平均auc在后的模型，排名靠前的单模，用stacking方法进行集成，预测新的测试数据(即新筛查的待测者)。
35.具体的，所述步骤s1中的数据收集可以包括医学扫描仪被配置成扫描待测者的肺部，产生表示待测者肺部的图像数据；图像处理器被配置成利用机器学习模型、基于图像数据中表示的气道的分割和基于图像数据中表示的肺部的特征，从流动模型生成肺部中的copd指示；该特征可以是疾病的纹理或基于成像的指示，显示器被配置成显示copd指示。
36.具体的，所述步骤s2中的对数据进行特征化的用于预测copd急性加重的系统所使用的变量进一步包括社交数据和基于社交数据服务器提供的变量。
37.具体的，所述社交数据是在与待测者的所述病历数据或所述临床方面数据相关联的变量被创建的特定时间点之前以及包括该特定时间点的预定时间段内收集的数据，并且由所述社交数据服务器提供的变量包括能够在搜索引擎和社交媒体的数据中发现的copd相关术语的搜索频率、与copd的症状相关的术语的搜索频率或者与伴随copd的并发症相关的术语的搜索频率中的至少一种。
38.具体的，所述步骤s3中的数据建模还包括：从第一成像数据分割肺部的气道，和/或实行针对气道的计算流动动力学；针对气流的值可以是应力、压力、速度或体积值。在其它实施例中，该建模是利用三维模型对气道的第一部分的建模，以及是利用降阶模型对气道的第二部分的建模；第二部分具有与第一部分的气道相比具有更小直径的气道。
39.具体的，数据建模是利用三维模型对气道的第一部分的建模，以及是利用降阶模型对气道的第二部分的建模；第二部分具有与第一部分的气道相比具有更小直径的气道。
40.具体的，所述步骤s1中的数据收集还可以通过视频、图片、语音和文字形式给测试者示范正确的测量引导，提示测试者在测量中的关键要领和更正测量过程中的错误，逐步
引导测试者独立完成数据的收集。
41.具体的，所述步骤s2中进行特征化的数据包含了与copd相关的症状和危险因素的填写，包括：现在及过去的吸烟量调查、是否患有哮喘病史和呼吸音数据采集等；同时，根据中国国民的体质标准和生活习惯，对问卷内容进行相应的更改；最后根据问卷调查结果进行评分，并将评分结果作为评估测试者肺机能的重要参考依据。
42.具体的，所述呼吸音数据仅包括一种呼吸信息。其它种类的呼吸信息可以是主观的或客观的，并且可以包括关于呼吸系统的文本、图像、视频和数字信息，包括年龄、体重、地理位置、病史、生活方式和各种其它人口统计和简档信息，以及待测者对关于的呼吸系统的问题的回答。
43.实施例2
44.基于copd风险判断的被筛查患者auc提升方法包括提升系统，该系统包括输入单元、数据收集单元和模型配置单元，输入单元包括从待测者接收用于预测待测者的copd急性加重发生的请求；数据收集单元，从用于从存储copd待测者的病历数据和临床方面数据的所有可用的医院服务器收集待测者医疗信息的医疗记录整合服务器、病毒信息服务器、天气数据服务器、社交数据服务器收集变量，并且在由待测者的预测模型选择的变量响应来自所述输入单元的待测者的copd急性加重的发生的预测请求而出现的每个时间点生成由包括变量的数据集构成的至少一个规范；模型配置单元，确定变量和与变量相关联的参数系数，以设置copd急性加重的预测模型，其中，从数据收集单元在预定的条件下选择的收集的变量及其相关联的参数中选择变量和参数系数；
45.实施例3
46.基于copd风险判断的被筛查患者auc提升方法包括另一种提升系统，该系统包括数据解析单元、数据整理更新单元、内存对照单元和数据存储单元，将与待测者的变量相关联的规范的变量和参数系数输入到由所述模型配置单元设置的模型中，以预测待测者的copd急性加重的发生；数据整理更新单元，更新预测模型且向所述数据解析单元提供更新后的模型；内存对照单元，向由待测者、医疗记录整合服务器和医院服务器组成的组中的至少一个待测者提供预测结果值；数据存储单元，存储由所述数据收集单元获得的预测结果值以及待测者的copd急性加重的实际发生的实际结果值；其中，在预定条件下确定的变量至少包括：从医疗记录整合服务器获取的病历数据和从病毒信息服务器获取的呼吸道病毒数据。
47.以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。
48.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于COPD风险判断的被筛查患者AUC提升方法与流程

相关文献

最热文献