一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于预测未来肺癌的风险的系统和方法与流程

2022-11-19 11:42:57 来源:中国专利 TAG:

用于预测未来肺癌的风险的系统和方法
1.交叉引用
2.本技术要求2020年1月17日提交的美国临时专利申请62/962,614的权益和优先权,该临时专利申请各自的全部公开内容据此以引用方式完全并入以用于所有目的。


背景技术:

3.肺癌最常始于肺结节的形成。结节可能是癌性的或可能是组织良性增生并随后发生恶性转化。放射学界公认了这一过程,并且为了使医学管理标准化,开发了评分系统来对ct扫描上发现的结节进行分期以评估其成为癌症的可能性。该分期系统被称为肺ct筛查、报告和数据系统(lung-rads)并且基于结节的大小、结节的生长速率和结节的外观。一般来讲,结节越大、其生长越快或其外观越不规则,则其成为癌症的可能性越大。
4.然而,在许多场景中,患者体内的肺结节在一定时间段内仍未被检出,或即使被检出,也可能已经指示癌症晚期。因此,即使在一个或多个肺结节的形成之前,也需要患者肺癌风险的早期预测。


技术实现要素:

5.本文所公开的本发明的实施方案涉及实现风险预测模型以分析图像(例如,ct扫描),从而预测肺癌未来风险。风险预测模型分析从图像提取的特征,诸如结节特定特征和非结节特定特征。在各种实施方案中,在风险预测模型中纳入非结节特定特征的益处在于使风险预测模型能够为尚未患有肺结节的受试者生成癌症未来风险预测。例如,通过分析非结节特定特征(其示例包括肺实质特征和/或身体组成特征),可实现风险预测模型以便在肺结节的形成之前进行肺癌的早期检测。在各种实施方案中,可实现风险预测模型以预测受试者是否有可能在下一年患癌症。在各种实施方案中,可实现风险预测模型以预测受试者是否有可能在接下来3年患癌症。在各种实施方案中,可实现风险预测模型以预测受试者是否有可能在接下来5年患癌症。在各种实施方案中,可实现风险预测模型以预测受试者是否有可能在m时间段内患癌症。在各种实施方案中,m为6个月、1年、1.5年、2年、2.5年、3年、3.5年、4年、4.5年、5年、5.5年、6年、6.5年、7年、7.5年、8年、8.5年、9年、9.5年、10年、10.5年、11年、11.5年、12年、12.5年、13年、13.5年、14年、14.5年、15年、15.5年、16年、16.5年、17年、17.5年、18年、18.5年、19年、19.5年或20年中的任一者。
6.风险预测模型可用于通过实现临床试验富集和最终临床护理来开发肺癌的预防性疗法。例如,由于事件率(未来肺癌)将高于本底,临床试验将更有效且可行,从而实现较小队列大小的入组并且减少为证实疗法能预防肺癌而需要治疗的患者的数量。作为另一个示例,获知受试者的癌症未来风险能够为受试者定制临床护理。可以以增加的频率监测和/或筛查处于癌症高风险的受试者。另外,可告知和/或建议处于癌症高风险的受试者降低其风险(例如,建议其改变生活方式,诸如戒烟)。作为另一个示例,由于癌症治疗涉及一些程度的风险,获知谁最可能患肺癌将影响关于为个体实施疗法的风险/收益决策分析和报销。
7.本文公开了一种用于预测受试者的一个或多个肺癌未来风险的方法,该方法包
括:获得在单个时间点从受试者捕获的一个或多个图像;从一个或多个所获得的图像提取特征,这些提取的特征包括至少非结节特定特征,其中非结节特定特征包括肺实质特征或身体组成特征中的一者或两者;通过应用一个或多个经训练的风险预测模型来分析来自一个或多个所获得的图像的提取的特征,从而预测受试者的一个或多个肺癌未来风险。在各种实施方案中,预测受试者的一个或多个肺癌未来风险包括应用m年风险预测模型来预测受试者是否有可能在m年内患肺癌,其中m年风险预测模型包括结节特定特征和非结节特定特征,其中具有最高特征重要性值的前3个提取的特征的大于50%是非结节特定特征,其中肺实质特征包括以下中的一者或多者:肺的低衰减区的百分比,肺的高衰减区的百分比,与下肺区相比上肺区中的低衰减区或高衰减区的比率,正常组织、小叶中央型肺气肿、小叶中央型结节、磨玻璃、蜂窝、线性瘢痕、结节状结构、网状结构、胸膜下线、其它肺气肿或囊肿中的任一者所占据的肺的百分比,并且其中身体组成特征包括以下中的一者或多者:胸肌横截面积、瘦胸肌(pectoralislean)横截面积或皮下脂肪横截面积。
8.在各种实施方案中,肺实质特征包括肺实质的密度度量或肺实质的局部直方图度量中的一者或多者。在各种实施方案中,肺实质的密度度量包括以下中的一者或多者:肺的低衰减区的百分比肺的高衰减区的百分比以及与下肺区相比上肺区中的低衰减区或高衰减区的比率。在各种实施方案中,肺实质的局部直方图度量包括正常组织、小叶中央型肺气肿、小叶中央型结节、磨玻璃、蜂窝、线性瘢痕、结节状结构、网状结构、胸膜下线、其它肺气肿或囊肿中的任一者所占据的肺的一个或多个百分比。在各种实施方案中,身体组成特征包括以下中的一者或多者:胸肌横截面积、瘦胸肌横截面积或皮下脂肪横截面积。
9.在各种实施方案中,提取的特征还包括结节特定特征。在各种实施方案中,结节特定特征包括以下中的一者或多者:结节特定衰减、结节边缘描述、结节大小、结节形状、结节纹理、结节直径、lung-rads评分或影像组学特征。在各种实施方案中,影像组学特征包括以下中的一者或多者:一阶统计量、基于3d形状的特征、基于2d形状的特征、灰度共生矩阵、灰度游程矩阵、灰度区域大小矩阵、邻域灰度差矩阵和灰度依赖性矩阵。在各种实施方案中,从已通过应用滤波(诸如子波滤波或高斯滤波)来变换的图像提取影像组学特征。因此,可从子波变换图像或高斯变换图像提取一阶统计量、基于3d形状的特征、基于2d形状的特征、灰度共生矩阵、灰度游程矩阵、灰度区域大小矩阵、邻域灰度差矩阵和灰度依赖性矩阵中的任一者。在各种实施方案中,从放射科医生报告提取结节特定特征。在各种实施方案中,通过实现图像分析算法来以计算方式提取结节特定特征。
10.在各种实施方案中,预测受试者的一个或多个肺癌未来风险包括应用5年风险预测模型来预测受试者是否有可能在5年内患肺癌。在各种实施方案中,5年风险预测模型包括结节特定特征和非结节特定特征,其中非结节特定特征具有高于结节特定特征的特征重要性值。在各种实施方案中,具有最高特征重要性值的前3个提取的特征的大于50%是非结节特定特征。在各种实施方案中,具有最高特征重要性值的前5个提取的特征的大于50%是非结节特定特征。在各种实施方案中,具有最高特征重要性值的前10个提取的特征的大于50%是非结节特定特征。在各种实施方案中,确定受试者是候选者包括获得受试者在lung-rads 1、lung-rads 2、lung-rads 3、lung-rads 4a或lung-rads 4b中的一者中的分类。在各种实施方案中,5年风险预测模型表现出至少0.74的曲线下面积(auc)值。在各种实施方案中,5年风险预测模型实现与本底率相比累积发病率的至少5.1倍增加。
11.在各种实施方案中,确定受试者是候选者还包括确定受试者被分类为lung-rads 1、lung-rads 2、lung-rads 3或lung-rads 4a中的任一者。在各种实施方案中,5年风险预测模型表现出至少0.72的曲线下面积(auc)值。在各种实施方案中,5年风险预测模型实现与本底率相比累积发病率的至少3.9倍增加。
12.在各种实施方案中,确定受试者是候选者还包括确定受试者被分类为lung-rads 1、lung-rads 2或lung-rads 3中的任一者。在各种实施方案中,5年风险预测模型表现出至少0.67的曲线下面积(auc)值。在各种实施方案中,5年风险预测模型实现与本底率相比累积发病率的至少3.7倍增加。
13.在各种实施方案中,确定受试者是候选者还包括确定受试者被分类为lung-rads 1或lung-rads 2中的任一者。在各种实施方案中,5年风险预测模型表现出至少0.65的曲线下面积(auc)值。在各种实施方案中,5年风险预测模型实现与本底率相比累积发病率的至少1.9倍增加。
14.在各种实施方案中,确定受试者是候选者还包括确定受试者被分类为lung-rads 1。在各种实施方案中,5年风险预测模型表现出至少0.57的曲线下面积(auc)值。在各种实施方案中,5年风险预测模型实现与本底率相比累积发病率的至少1.9倍增加。
15.在各种实施方案中,预测受试者的一个或多个肺癌未来风险包括应用3年风险预测模型来预测受试者是否有可能在3年内患肺癌。在各种实施方案中,3年风险预测模型包括结节特定特征和非结节特定特征,其中非结节特定特征具有高于结节特定特征的特征重要性值。在各种实施方案中,具有最高特征重要性值的前5个提取的特征的大于50%是非结节特定特征。在各种实施方案中,具有最高特征重要性值的前10个提取的特征的大于50%是非结节特定特征。
16.在各种实施方案中,确定受试者是候选者包括获得受试者在lung-rads 1、lung-rads 2、lung-rads 3、lung-rads 4a或lung-rads 4b中的一者中的分类。在各种实施方案中,3年风险预测模型表现出至少0.79的曲线下面积(auc)值。在各种实施方案中,3年风险预测模型实现与本底率相比累积发病率的至少6.3倍增加。
17.在各种实施方案中,确定受试者是候选者还包括确定受试者被分类为lung-rads 1、lung-rads 2、lung-rads 3或lung-rads 4a中的任一者。在各种实施方案中,3年风险预测模型表现出至少0.72的曲线下面积(auc)值。在各种实施方案中,3年风险预测模型实现与本底率相比累积发病率的至少5.1倍增加。
18.在各种实施方案中,确定受试者是候选者还包括确定受试者被分类为lung-rads 1、lung-rads 2或lung-rads 3中的任一者。在各种实施方案中,3年风险预测模型表现出至少0.72的曲线下面积(auc)值。在各种实施方案中,3年风险预测模型实现与本底率相比累积发病率的至少5.7倍增加。在各种实施方案中,3年风险预测模型表现出至少0.676的曲线下面积(auc)值。
19.在各种实施方案中,确定受试者是候选者还包括确定受试者被分类为lung-rads 1或lung-rads 2中的任一者。在各种实施方案中,3年风险预测模型表现出至少0.65的曲线下面积(auc)值。在各种实施方案中,3年风险预测模型实现与本底率相比累积发病率的至少3倍增加。在各种实施方案中,确定受试者是候选者还包括确定受试者被分类为lung-rads 1。在各种实施方案中,3年风险预测模型表现出至少0.60的曲线下面积(auc)值。在各
种实施方案中,3年风险预测模型实现与本底率相比累积发病率的至少2.3倍增加。
20.在各种实施方案中,预测受试者的一个或多个肺癌未来风险包括应用1年风险预测模型来预测受试者是否有可能在1年内患肺癌。在各种实施方案中,1年风险预测模型包括结节特定特征和非结节特定特征,其中非结节特定特征具有高于结节特定特征的特征重要性值。在各种实施方案中,确定受试者是候选者还包括确定受试者被分类为lung-rads 1或lung-rads 2中的任一者。在各种实施方案中,1年风险预测模型表现出至少0.72的曲线下面积(auc)值。在各种实施方案中,1年风险预测模型实现与本底率相比累积发病率的至少5.5倍增加。在各种实施方案中,确定受试者是候选者还包括确定受试者被分类为lung-rads 1。在各种实施方案中,1年风险预测模型表现出至少0.57的曲线下面积(auc)值。
21.在各种实施方案中,1年风险预测模型包括结节特定特征和非结节特定特征,其中结节特定特征具有高于非结节特定特征的特征重要性值。在各种实施方案中,具有最高特征重要性值的前3个提取的特征的大于50%是结节特定特征。在各种实施方案中,确定受试者是候选者包括获得受试者在lung-rads 1、lung-rads 2、lung-rads 3、lung-rads 4a或lung-rads 4b中的一者中的分类。在各种实施方案中,1年风险预测模型表现出至少0.90的曲线下面积(auc)值。在各种实施方案中,1年风险预测模型实现与本底率相比累积发病率的至少11倍增加。
22.在各种实施方案中,确定受试者是候选者还包括确定受试者被分类为lung-rads 1、lung-rads 2、lung-rads 3或lung-rads 4a中的任一者。在各种实施方案中,1年风险预测模型表现出至少0.81的曲线下面积(auc)值。在各种实施方案中,1年风险预测模型实现与本底率相比累积发病率的至少7.6倍增加。
23.在各种实施方案中,具有最高特征重要性值的前5个提取的特征的大于50%是结节特定特征。在各种实施方案中,确定受试者是候选者还包括确定受试者被分类为lung-rads 1、lung-rads 2或lung-rads 3中的任一者。在各种实施方案中,1年风险预测模型表现出至少0.82的曲线下面积(auc)值。在各种实施方案中,1年风险预测模型实现与本底率相比累积发病率的至少8.6倍增加。
24.在各种实施方案中,预测受试者的一个或多个肺癌未来风险包括应用多个风险预测模型来预测受试者是否有可能在n个不同时间段内患肺癌。在各种实施方案中,n个不同时间段中的至少一个时间段为6个月、1年、1.5年、2年、2.5年、3年、3.5年、4年、4.5年、5年、5.5年、6年、6.5年、7年、7.5年、8年、8.5年、9年、9.5年、10年、10.5年、11年、11.5年、12年、12.5年、13年、13.5年、14年、14.5年、15年、15.5年、16年、16.5年、17年、17.5年、18年、18.5年、19年、19.5年或20年中的任一者。在各种实施方案中,n为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个不同时间段。
25.在各种实施方案中,该一个或多个风险预测模型中的一者是lung-rads 1-4b预测模型,该lung-rads 1-4b预测模型被训练成使用从被分类为lung-rads 1-4b中的任一者的训练个体的训练队列捕获的训练图像来预测肺癌未来风险。在各种实施方案中,该一个或多个风险预测模型中的一者是lung-rads 1-4a模型,该lung-rads 1-4a模型被训练成使用从被分类为lung-rads 1-4a中的任一者的训练个体的训练队列捕获的训练图像来预测肺癌未来风险。在各种实施方案中,该一个或多个风险预测模型中的一者是lung-rads 1-3模型,以使用从被分类为lung-rads 1-3中的任一者的训练个体的训练队列捕获的训练图像
来预测肺癌未来风险。在各种实施方案中,该一个或多个风险预测模型中的一者是lung-rads 1-2模型,该lung-rads 1-2模型被训练成使用从被分类为lung-rads 1或2的训练个体的训练队列捕获的训练图像来预测肺癌未来风险。在各种实施方案中,该一个或多个风险预测模型中的一者是lung-rads 1模型,该lung-rads 1模型被训练成使用从被分类为lung-rads 1的训练个体的训练队列捕获的训练图像来预测肺癌未来风险。在各种实施方案中,训练队列中的大多数训练个体先前被分类为lung-rads 1。
26.在各种实施方案中,该一个或多个图像是计算机断层扫描(ct)图像或x射线图像。在各种实施方案中,该一个或多个图像是胸廓ct图像或胸部x射线图像。在各种实施方案中,使用国家肺筛查试验(nlst)的训练图像来训练风险预测模型。在各种实施方案中,本文所公开的方法还包括:在预测受试者的一个或多个肺癌未来风险之前:获得与受试者相对应的结节特定特征;基于结节特定特征来确定受试者是未来风险预测的候选者。
27.在各种实施方案中,确定受试者是候选者包括确定受试者未患有肺癌或处于患肺癌的低风险。在各种实施方案中,确定受试者处于患肺癌的低风险包括基于结节特定特征来确定受试者未患有结节。
28.在各种实施方案中,肺癌是非小细胞肺癌或小细胞肺癌。在各种实施方案中,肺癌是腺癌或鳞状细胞癌。在各种实施方案中,本文所公开的方法还包括基于预测的肺癌未来风险来选择受试者的临床反应。在各种实施方案中,选择受试者的临床反应包括选择用于治疗受试者的干预。在各种实施方案中,选择干预包括选择用于施用给受试者的治疗剂。在各种实施方案中,所选择的治疗剂被预防性地施用给受试者以延缓或预防肺癌的形成。在各种实施方案中,临床反应包括向受试者提供建议以改变受试者的行为。在各种实施方案中,临床反应包括增加受试者的随访频率。在各种实施方案中,临床反应包括执行或排定执行附加风险预测测试以确认预测的肺癌未来风险。在各种实施方案中,经训练的风险预测模型中的一者或多者是随机森林模型或梯度提升模型中的一者。
29.本文另外公开了一种用于预测受试者的一个或多个肺癌未来风险的非暂态计算机可读介质,该非暂态计算机可读介质包括指令,所述指令在由处理器执行时致使处理器:获得在单个时间点从受试者捕获的一个或多个图像;从一个或多个所获得的图像提取特征,这些提取的特征包括至少非结节特定特征,其中非结节特定特征包括肺实质特征或身体组成特征中的一者或两者;通过应用一个或多个经训练的风险预测模型来分析来自一个或多个所获得的图像的提取的特征,从而预测受试者的一个或多个肺癌未来风险。在各种实施方案中,致使处理器预测受试者的一个或多个肺癌未来风险的指令还包括这样的指令,所述指令在由处理器执行时致使处理器应用m年风险预测模型来预测受试者是否有可能在m年内患肺癌,其中m年风险预测模型包括结节特定特征和非结节特定特征,其中具有最高特征重要性值的前3个提取的特征的大于50%是非结节特定特征,其中肺实质特征包括以下中的一者或多者:肺的低衰减区的百分比,肺的高衰减区的百分比,与下肺区相比上肺区中的低衰减区或高衰减区的比率,正常组织、小叶中央型肺气肿、小叶中央型结节、磨玻璃、蜂窝、线性瘢痕、结节状结构、网状结构、胸膜下线、其它肺气肿或囊肿中的任一者所占据的肺的百分比,并且其中身体组成特征包括以下中的一者或多者:胸肌横截面积、瘦胸肌横截面积或皮下脂肪横截面积。
30.在各种实施方案中,肺实质特征包括肺实质的密度度量或肺实质的局部直方图度
量中的一者或多者。在各种实施方案中,肺实质的密度度量包括以下中的一者或多者:肺的低衰减区的百分比、肺的高衰减区的百分比以及与下肺区相比上肺区中的低衰减区或高衰减区的比率。在各种实施方案中,肺实质的局部直方图度量包括正常组织、小叶中央型肺气肿、小叶中央型结节、磨玻璃、蜂窝、线性瘢痕、结节状结构、网状结构、胸膜下线、其它肺气肿或囊肿中的任一者所占据的肺的一个或多个百分比。在各种实施方案中,身体组成特征包括以下中的一者或多者:胸肌横截面积、瘦胸肌横截面积或皮下脂肪横截面积。
31.在各种实施方案中,提取的特征还包括结节特定特征。在各种实施方案中,结节特定特征包括以下中的一者或多者:结节特定衰减、结节边缘描述、结节大小、结节形状、结节纹理、结节直径、lung-rads评分或影像组学特征。在各种实施方案中,影像组学特征包括以下中的一者或多者:一阶统计量、基于3d形状的特征、基于2d形状的特征、灰度共生矩阵、灰度游程矩阵、灰度区域大小矩阵、邻域灰度差矩阵和灰度依赖性矩阵。在各种实施方案中,从已通过应用滤波(诸如子波滤波或高斯滤波)来变换的图像提取影像组学特征。因此,可从子波变换图像或高斯变换图像提取一阶统计量、基于3d形状的特征、基于2d形状的特征、灰度共生矩阵、灰度游程矩阵、灰度区域大小矩阵、邻域灰度差矩阵和灰度依赖性矩阵中的任一者。在各种实施方案中,从放射科医生报告提取结节特定特征。在各种实施方案中,通过实现图像分析算法来以计算方式提取结节特定特征。
32.在各种实施方案中,致使处理器预测受试者的一个或多个肺癌未来风险的指令还包括这样的指令,所述指令在由处理器执行时致使处理器应用5年风险预测模型来预测受试者是否有可能在5年内患肺癌。在各种实施方案中,5年风险预测模型包括结节特定特征和非结节特定特征,其中非结节特定特征具有高于结节特定特征的特征重要性值。在各种实施方案中,具有最高特征重要性值的前3个提取的特征的大于50%是非结节特定特征。在各种实施方案中,具有最高特征重要性值的前5个提取的特征的大于50%是非结节特定特征。在各种实施方案中,具有最高特征重要性值的前10个提取的特征的大于50%是非结节特定特征。
33.在各种实施方案中,确定受试者是候选者包括获得受试者在lung-rads 1、lung-rads 2、lung-rads 3、lung-rads 4a或lung-rads 4b中的一者中的分类。在各种实施方案中,5年风险预测模型表现出至少0.74的曲线下面积(auc)值。在各种实施方案中,5年风险预测模型实现与本底率相比累积发病率的至少5.1倍增加。
34.在各种实施方案中,确定受试者是候选者还包括确定受试者被分类为lung-rads 1、lung-rads 2、lung-rads 3或lung-rads 4a中的任一者。在各种实施方案中,5年风险预测模型表现出至少0.72的曲线下面积(auc)值。在各种实施方案中,5年风险预测模型实现与本底率相比累积发病率的至少3.9倍增加。
35.在各种实施方案中,确定受试者是候选者还包括确定受试者被分类为lung-rads 1、lung-rads 2或lung-rads 3中的任一者。在各种实施方案中,5年风险预测模型表现出至少0.67的曲线下面积(auc)值。在各种实施方案中,5年风险预测模型实现与本底率相比累积发病率的至少3.7倍增加。
36.在各种实施方案中,确定受试者是候选者还包括确定受试者被分类为lung-rads 1或lung-rads 2中的任一者。在各种实施方案中,5年风险预测模型表现出至少0.65的曲线下面积(auc)值。在各种实施方案中,5年风险预测模型实现与本底率相比累积发病率的至
1。在各种实施方案中,1年风险预测模型表现出至少0.57的曲线下面积(auc)值。
46.在各种实施方案中,1年风险预测模型包括结节特定特征和非结节特定特征,其中结节特定特征具有高于非结节特定特征的特征重要性值。在各种实施方案中,具有最高特征重要性值的前3个提取的特征的大于50%是非结节特定特征。在各种实施方案中,确定受试者是候选者包括获得受试者在lung-rads 1、lung-rads 2、lung-rads 3、lung-rads 4a或lung-rads 4b中的一者中的分类。在各种实施方案中,1年风险预测模型表现出至少0.90的曲线下面积(auc)值。在各种实施方案中,1年风险预测模型实现与本底率相比累积发病率的至少11倍增加。
47.在各种实施方案中,确定受试者是候选者还包括确定受试者被分类为lung-rads 1、lung-rads 2、lung-rads 3或lung-rads 4a中的任一者。在各种实施方案中,1年风险预测模型表现出至少0.81的曲线下面积(auc)值。在各种实施方案中,1年风险预测模型实现与本底率相比累积发病率的至少7.6倍增加。在各种实施方案中,具有最高特征重要性值的前5个提取的特征的大于50%是非结节特定特征。
48.在各种实施方案中,确定受试者是候选者还包括确定受试者被分类为lung-rads 1、lung-rads 2或lung-rads 3中的任一者。在各种实施方案中,1年风险预测模型表现出至少0.82的曲线下面积(auc)值。在各种实施方案中,1年风险预测模型实现与本底率相比累积发病率的至少8.6倍增加。
49.在各种实施方案中,致使处理器预测受试者的一个或多个肺癌未来风险的指令还包括这样的指令,所述指令在由处理器执行时致使处理器应用多个风险预测模型来预测受试者是否有可能在n个不同时间段内患肺癌。在各种实施方案中,n个不同时间段中的至少一个时间段为6个月、1年、1.5年、2年、2.5年、3年、3.5年、4年、4.5年、5年、5.5年、6年、6.5年、7年、7.5年、8年、8.5年、9年、9.5年、10年、10.5年、11年、11.5年、12年、12.5年、13年、13.5年、14年、14.5年、15年、15.5年、16年、16.5年、17年、17.5年、18年、18.5年、19年、19.5年或20年中的任一者。在各种实施方案中,n为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个不同时间段。
50.在各种实施方案中,该一个或多个风险预测模型中的一者是lung-rads 1-4b预测模型,该lung-rads 1-4b预测模型被训练成使用从被分类为lung-rads 1-4b中的任一者的训练个体的训练队列捕获的训练图像来预测肺癌未来风险。在各种实施方案中,该一个或多个风险预测模型中的一者是lung-rads 1-4a模型,该lung-rads 1-4a模型被训练成使用从被分类为lung-rads 1-4a中的任一者的训练个体的训练队列捕获的训练图像来预测肺癌未来风险。在各种实施方案中,该一个或多个风险预测模型中的一者是lung-rads 1-3模型,以使用从被分类为lung-rads 1-3中的任一者的训练个体的训练队列捕获的训练图像来预测肺癌未来风险。在各种实施方案中,该一个或多个风险预测模型中的一者是lung-rads 1-2模型,该lung-rads 1-2模型被训练成使用从被分类为lung-rads 1或2的训练个体的训练队列捕获的训练图像来预测肺癌未来风险。在各种实施方案中,该一个或多个风险预测模型中的一者是lung-rads 1模型,该lung-rads 1模型被训练成使用从被分类为lung-rads 1的训练个体的训练队列捕获的训练图像来预测肺癌未来风险。在各种实施方案中,训练队列中的大多数训练个体先前被分类为lung-rads 1
51.在各种实施方案中,该一个或多个图像是计算机断层扫描(ct)图像或x射线图像。
在各种实施方案中,该一个或多个图像是胸廓ct图像或胸部x射线图像。在各种实施方案中,使用国家肺筛查试验(nlst)的训练图像来训练风险预测模型。
52.在各种实施方案中,非暂态计算机可读介质还包括这样的指令,所述指令在由处理器执行时致使处理器:在预测受试者的一个或多个肺癌未来风险之前:获得与受试者相对应的结节特定特征;基于结节特定特征来确定受试者是未来风险预测的候选者。
53.在各种实施方案中,致使处理器确定受试者是候选者的指令还包括这样的指令,所述指令在由处理器执行时致使处理器确定受试者未患有肺癌或处于患肺癌的低风险。在各种实施方案中,致使处理器确定受试者处于患肺癌的低风险的指令还包括这样的指令,所述指令在由处理器执行时致使处理器基于结节特定特征来确定受试者未患有结节。
54.在各种实施方案中,肺癌是非小细胞肺癌或小细胞肺癌。在各种实施方案中,肺癌是腺癌或鳞状细胞癌。在各种实施方案中,本文所公开的非暂态计算机可读介质还包括指令,所述指令在由处理器执行时致使处理器基于预测的肺癌未来风险来选择用于治疗受试者的干预。在各种实施方案中,致使处理器选择干预的指令还包括这样的指令,所述指令在由处理器执行时致使处理器选择用于施用给受试者的治疗剂。在各种实施方案中,所选择的治疗剂是用于延缓或预防肺癌的形成的预防性药物。在各种实施方案中,经训练的风险预测模型中的一者或多者是随机森林模型或梯度提升模型中的一者。
55.本文另外公开了一种用于预测受试者的一个或多个肺癌未来风险的系统,该系统包括:成像装置,该成像装置被配置成在单个时间点捕获受试者的一个或多个图像;以及计算装置,该计算装置被配置成执行以下步骤:获得在单个时间点从受试者捕获的一个或多个图像;从一个或多个所获得的图像提取特征,这些提取的特征包括至少非结节特定特征,其中非结节特定特征包括肺实质特征或身体组成特征中的一者或两者;通过应用一个或多个经训练的风险预测模型来分析来自一个或多个所获得的图像的提取的特征,从而预测受试者的一个或多个肺癌未来风险。在各种实施方案中,预测受试者的一个或多个肺癌未来风险包括应用m年风险预测模型来预测受试者是否有可能在m年内患肺癌,其中m年风险预测模型包括结节特定特征和非结节特定特征,其中具有最高特征重要性值的前3个提取的特征的大于50%是非结节特定特征,其中肺实质特征包括以下中的一者或多者:肺的低衰减区的百分比,肺的高衰减区的百分比,与下肺区相比上肺区中的低衰减区或高衰减区的比率,正常组织、小叶中央型肺气肿、小叶中央型结节、磨玻璃、蜂窝、线性瘢痕、结节状结构、网状结构、胸膜下线、其它肺气肿或囊肿中的任一者所占据的肺的百分比,并且其中身体组成特征包括以下中的一者或多者:胸肌横截面积、瘦胸肌横截面积或皮下脂肪横截面积。
56.在各种实施方案中,肺实质特征包括肺实质的密度度量或肺实质的局部直方图度量中的一者或多者。在各种实施方案中,肺实质的密度度量包括以下中的一者或多者:肺的低衰减区的百分比、肺的高衰减区的百分比以及与下肺区相比上肺区中的低衰减区或高衰减区的比率。在各种实施方案中,肺实质的局部直方图度量包括正常组织、小叶中央型肺气肿、小叶中央型结节、磨玻璃、蜂窝、线性瘢痕、结节状结构、网状结构、胸膜下线、其它肺气肿或囊肿中的任一者所占据的肺的一个或多个百分比。在各种实施方案中,身体组成特征包括以下中的一者或多者:胸肌横截面积、瘦胸肌横截面积或皮下脂肪横截面积。
57.在各种实施方案中,提取的特征还包括结节特定特征。在各种实施方案中,结节特
定特征包括以下中的一者或多者:结节特定衰减、结节边缘描述、结节大小、结节形状、结节纹理、结节直径、lung-rads评分或影像组学特征。在各种实施方案中,影像组学特征包括以下中的一者或多者:一阶统计量、基于3d形状的特征、基于2d形状的特征、灰度共生矩阵、灰度游程矩阵、灰度区域大小矩阵、邻域灰度差矩阵和灰度依赖性矩阵。在各种实施方案中,从已通过应用滤波(诸如子波滤波或高斯滤波)来变换的图像提取影像组学特征。因此,可从子波变换图像或高斯变换图像提取一阶统计量、基于3d形状的特征、基于2d形状的特征、灰度共生矩阵、灰度游程矩阵、灰度区域大小矩阵、邻域灰度差矩阵和灰度依赖性矩阵中的任一者。在各种实施方案中,从放射科医生报告提取结节特定特征。在各种实施方案中,通过实现图像分析算法来以计算方式提取结节特定特征。
58.在各种实施方案中,预测受试者的一个或多个肺癌未来风险包括应用5年风险预测模型来预测受试者是否有可能在5年内患肺癌。在各种实施方案中,5年风险预测模型包括结节特定特征和非结节特定特征,其中非结节特定特征具有高于结节特定特征的特征重要性值。在各种实施方案中,具有最高特征重要性值的前3个提取的特征的大于50%是非结节特定特征。在各种实施方案中,具有最高特征重要性值的前5个提取的特征的大于50%是非结节特定特征。在各种实施方案中,具有最高特征重要性值的前10个提取的特征的大于50%是非结节特定特征。
59.在各种实施方案中,确定受试者是候选者包括获得受试者在lung-rads 1、lung-rads 2、lung-rads 3、lung-rads 4a或lung-rads 4b中的一者中的分类。在各种实施方案中,5年风险预测模型表现出至少0.74的曲线下面积(auc)值。在各种实施方案中,5年风险预测模型实现与本底率相比累积发病率的至少5.1倍增加。
60.在各种实施方案中,确定受试者是候选者还包括确定受试者被分类为lung-rads 1、lung-rads 2、lung-rads 3或lung-rads 4a中的任一者。在各种实施方案中,5年风险预测模型表现出至少0.72的曲线下面积(auc)值。在各种实施方案中,5年风险预测模型实现与本底率相比累积发病率的至少3.9倍增加。
61.在各种实施方案中,确定受试者是候选者还包括确定受试者被分类为lung-rads 1、lung-rads 2或lung-rads 3中的任一者。在各种实施方案中,5年风险预测模型表现出至少0.67的曲线下面积(auc)值。在各种实施方案中,5年风险预测模型实现与本底率相比累积发病率的至少3.7倍增加。
62.在各种实施方案中,确定受试者是候选者还包括确定受试者被分类为lung-rads 1或lung-rads 2中的任一者。在各种实施方案中,5年风险预测模型表现出至少0.65的曲线下面积(auc)值。在各种实施方案中,5年风险预测模型实现与本底率相比累积发病率的至少1.9倍增加。
63.在各种实施方案中,确定受试者是候选者还包括确定受试者被分类为lung-rads 1。在各种实施方案中,5年风险预测模型表现出至少0.57的曲线下面积(auc)值。在各种实施方案中,5年风险预测模型实现与本底率相比累积发病率的至少1.9倍增加。
64.在各种实施方案中,预测受试者的一个或多个肺癌未来风险包括应用3年风险预测模型来预测受试者是否有可能在3年内患肺癌。在各种实施方案中,3年风险预测模型包括结节特定特征和非结节特定特征,其中非结节特定特征具有高于结节特定特征的特征重要性值。在各种实施方案中,具有最高特征重要性值的前5个提取的特征的大于50%是非结
1、lung-rads 2、lung-rads 3或lung-rads 4a中的任一者。在各种实施方案中,1年风险预测模型表现出至少0.81的曲线下面积(auc)值。在各种实施方案中,1年风险预测模型实现与本底率相比累积发病率的至少7.6倍增加。在各种实施方案中,具有最高特征重要性值的前5个提取的特征的大于50%是非结节特定特征。
74.在各种实施方案中,确定受试者是候选者还包括确定受试者被分类为lung-rads 1、lung-rads 2或lung-rads 3中的任一者。在各种实施方案中,1年风险预测模型表现出至少0.82的曲线下面积(auc)值。在各种实施方案中,1年风险预测模型实现与本底率相比累积发病率的至少8.6倍增加。
75.在各种实施方案中,预测受试者的一个或多个肺癌未来风险包括应用多个风险预测模型来预测受试者是否有可能在n个不同时间段内患肺癌。在各种实施方案中,n个不同时间段中的至少一个时间段为6个月、1年、1.5年、2年、2.5年、3年、3.5年、4年、4.5年、5年、5.5年、6年、6.5年、7年、7.5年、8年、8.5年、9年、9.5年、10年、10.5年、11年、11.5年、12年、12.5年、13年、13.5年、14年、14.5年、15年、15.5年、16年、16.5年、17年、17.5年、18年、18.5年、19年、19.5年或20年中的任一者。在各种实施方案中,n为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个不同时间段。
76.在各种实施方案中,该一个或多个风险预测模型中的一者是lung-rads 1-4b预测模型,该lung-rads 1-4b预测模型被训练成使用从被分类为lung-rads 1-4b中的任一者的训练个体的训练队列捕获的训练图像来预测肺癌未来风险。在各种实施方案中,该一个或多个风险预测模型中的一者是lung-rads 1-4a模型,该lung-rads 1-4a模型被训练成使用从被分类为lung-rads 1-4a中的任一者的训练个体的训练队列捕获的训练图像来预测肺癌未来风险。在各种实施方案中,该一个或多个风险预测模型中的一者是lung-rads 1-3模型,以使用从被分类为lung-rads 1-3中的任一者的训练个体的训练队列捕获的训练图像来预测肺癌未来风险。在各种实施方案中,该一个或多个风险预测模型中的一者是lung-rads 1-2模型,该lung-rads 1-2模型被训练成使用从被分类为lung-rads 1或2的训练个体的训练队列捕获的训练图像来预测肺癌未来风险。在各种实施方案中,该一个或多个风险预测模型中的一者是lung-rads 1模型,该lung-rads 1模型被训练成使用从被分类为lung-rads 1的训练个体的训练队列捕获的训练图像来预测肺癌未来风险。在各种实施方案中,训练队列中的大多数训练个体先前被分类为lung-rads 1。
77.在各种实施方案中,该一个或多个图像是计算机断层扫描(ct)图像或x射线图像。在各种实施方案中,该一个或多个图像是胸廓ct图像或胸部x射线图像。在各种实施方案中,使用国家肺筛查试验(nlst)的训练图像来训练风险预测模型。
78.在各种实施方案中,计算装置被进一步配置成:在预测受试者的一个或多个肺癌未来风险之前:获得与受试者相对应的结节特定特征;基于结节特定特征来确定受试者是未来风险预测的候选者。在各种实施方案中,确定受试者是候选者包括确定受试者未患有肺癌或处于患肺癌的低风险。在各种实施方案中,确定受试者处于患肺癌的低风险包括基于结节特定特征来确定受试者未患有结节。
79.在各种实施方案中,肺癌是非小细胞肺癌或小细胞肺癌。在各种实施方案中,肺癌是腺癌或鳞状细胞癌。在各种实施方案中,计算装置被进一步配置成执行基于预测的肺癌未来风险来选择用于治疗受试者的干预的步骤。在各种实施方案中,选择用于治疗受试者
的干预包括选择用于施用给受试者的治疗剂。在各种实施方案中,所选择的治疗剂是用于延缓或预防肺癌的形成的预防性药物。在各种实施方案中,经训练的风险预测模型中的一者或多者是随机森林模型或梯度提升模型中的一者。
附图说明
80.根据以下描述和附图,本发明的这些和其它特征、方面和优点将变得更好理解。
81.图1a描绘了根据实施方案的用于确定受试者的癌症预测的系统环境概览。
82.图1b描绘了根据实施方案的癌症预测系统的框图。
83.图2a描绘了根据第一实施方案的用于确定受试者的癌症未来风险以用于诸如患者富集之类的用途的示例性流程图。
84.图2b描绘了根据第二实施方案的用于确定受试者的癌症未来风险以用于诸如患者富集之类的用途的示例性流程图。
85.图3是根据实施方案的用于确定受试者的癌症未来风险以用于诸如患者富集之类的用途的示例性流过程。
86.图4示出了用于实现图1a、图1b、图2a、图2b和图3所示的实体的示例性计算机。
87.图5a描绘了用于跨lung-rads 1-4b患者预测1年内癌症的可能性的风险预测模型的性能。
88.图5b描绘了用于跨lung-rads 1-4b患者预测3年内癌症的可能性的风险预测模型的性能。
89.图5c描绘了用于跨lung-rads 1-4b患者预测5年内癌症的可能性的风险预测模型的性能。
90.图5d描绘了跨lung-rads 1-4b患者的3年累积发病率函数。
91.图6a描绘了用于跨lung-rads 1-4a患者预测1年内癌症的可能性的风险预测模型的性能。
92.图6b描绘了用于跨lung-rads 1-4a患者预测3年内癌症的可能性的风险预测模型的性能。
93.图6c描绘了用于跨lung-rads 1-4a患者预测5年内癌症的可能性的风险预测模型的性能。
94.图6d描绘了跨lung-rads 1-4a患者的3年累积发病率函数。
95.图7a描绘了用于跨lung-rads 1-3患者预测1年内癌症的可能性的风险预测模型的性能。
96.图7b描绘了用于跨lung-rads 1-3患者预测3年内癌症的可能性的风险预测模型的性能。
97.图7c描绘了用于跨lung-rads 1-3患者预测5年内癌症的可能性的风险预测模型的性能。
98.图7d描绘了跨lung-rads 1-3患者的3年累积发病率函数。
99.图8a描绘了用于跨lung-rads 1-2患者预测1年内癌症的可能性的风险预测模型的性能。
100.图8b描绘了用于跨lung-rads 1-2患者预测3年内癌症的可能性的风险预测模型
的性能。
101.图8c描绘了用于跨lung-rads 1-2患者预测5年内癌症的可能性的风险预测模型的性能。
102.图8d描绘了跨lung-rads 1-2患者的3年累积发病率函数。
103.图9a描绘了用于跨lung-rads 1患者预测1年内癌症的可能性的风险预测模型的性能。
104.图9b描绘了用于跨lung-rads 1患者预测3年内癌症的可能性的风险预测模型的性能。
105.图9c描绘了用于跨lung-rads 1患者预测5年内癌症的可能性的风险预测模型的性能。
106.图9d描绘了跨lung-rads 1患者的3年累积发病率函数。
107.图10a描绘了结合用于跨lung-rads 1-4b患者预测1年内癌症的可能性的影像组学特征的风险预测模型的性能。
108.图10b描绘了结合用于跨lung-rads 1-4b患者预测3年内癌症的可能性的影像组学特征的风险预测模型的性能。
109.图11a描绘了结合用于跨lung-rads 1-4a患者预测1年内癌症的可能性的影像组学特征的风险预测模型的性能
110.图11b描绘了结合用于跨lung-rads 1-4a患者预测3年内癌症的可能性的影像组学特征的风险预测模型的性能。
111.图12a描绘了结合用于跨lung-rads 1-3患者预测1年内癌症的可能性的影像组学特征的风险预测模型的性能
112.图12b描绘了结合用于跨lung-rads 1-3患者预测3年内癌症的可能性的影像组学特征的风险预测模型的性能。
113.图13a描绘了结合用于跨lung-rads 2-4b患者预测1年内癌症的可能性的影像组学特征的风险预测模型的性能
114.图13b描绘了结合用于跨lung-rads 2-4b患者预测3年内癌症的可能性的影像组学特征的风险预测模型的性能。
115.图14a描绘了结合用于跨lung-rads 4a-4b患者预测1年内癌症的可能性的影像组学特征的风险预测模型的性能
116.图14b描绘了结合用于跨lung-rads 4a-4b患者预测3年内癌症的可能性的影像组学特征的风险预测模型的性能。
具体实施方式
117.i.定义
118.除非另外指明,否则在权利要求和说明书中使用的术语按如下所阐述的那样定义。
119.术语“受试者”或“患者”可互换使用,并且涵盖细胞、组织或生物体、人或非人,而不论是体内、离体还是体外,男性或是女性。
120.术语“哺乳动物”涵盖人和非人两者,并且包括但不限于人、非人灵长类、犬、猫、
鼠、牛、马和猪。
121.术语“样品”或“测试样品”可包括单个细胞或多个细胞或细胞碎片或体液的等分试样(诸如血液样品),其通过包括静脉穿刺、排泄、射精、按摩、活检、针抽吸、灌洗样品、刮痧、手术切口或干预或本领域已知的其它手段的手段从受试者获取。体液的等分试样的示例包括羊水、房水、胆汁、淋巴液、母乳、间质液、血液、血浆、耵聍(耳垢)、考珀液(预射精液)、乳糜、食糜、女性潮射、月经、粘液、唾液、尿液、呕吐物、泪液、阴道润滑液、汗液、血清、精液、皮脂、脓、胸膜液、脑脊液、滑液、细胞内液和玻璃体液。在各种实施方案中,样品可以是组织(诸如肺肿瘤或肺结节)的活检。
122.术语“获得一个或多个图像”涵盖获得从受试者捕获的一个或多个图像或获得从取自受试者的样品捕获的一个或多个图像。获得一个或多个图像可涵盖执行从受试者或从取自受试者的样品捕获该一个或多个图像的步骤。该短语还可涵盖例如从第三方接收一个或多个图像,该第三方已执行从受试者或从取自受试者的样品捕获该一个或多个图像的步骤。本领域技术人员可经由多种已知方式(包括存储在存储内存上)获得该一个或多个图像。在各种实施方案中,“获得一个或多个图像”是指获得各自在单个时间点(例如,单次患者访视)从受试者捕获的一个或多个图像。
123.术语“训练图像”是指从个体捕获的用于训练风险预测模型(例如,肺癌风险预测模型,诸如本文所述的模型)的图像(例如,ct图像或x射线图像)。在各种实施方案中,训练图像是来自由患者的常规临床护理构建的队列(例如,来自常规筛查的患者)的计算机断层扫描(ct)图像。在各种实施方案中,训练图像是来自由研究调查(例如,联邦/行业赞助的研究调查)构建的队列的计算机断层扫描(ct)图像。在各种实施方案中,训练图像是来自国家肺癌筛查试验(nlst)队列的计算机断层扫描(ct)图像。在各种实施方案中,训练图像是包括在定制数据集中的计算机断层扫描(ct)图像。例如,可从训练个体捕获训练图像。术语“训练个体”是指从其捕获或以其它方式获得用于训练风险预测模型的训练图像的个体。
124.术语“结节特定特征”是指肺结节的特征,其示例包括结节特定衰减、结节边缘描述、结节大小、结节形状、结节纹理(例如,光滑、毛刺等)、结节直径和lung-rads评分。在各种实施方案中,(例如,通过实现图像分析算法)以计算方式从图像提取结节特定特征。例如,结节特定特征可以是使用图像处理算法(诸如pyradiomics)提取的影像组学特征。示例性影像组学特征可包括一阶统计量、基于3d形状的特征、基于2d形状的特征、灰度共生矩阵、灰度游程矩阵、灰度区域大小矩阵、邻域灰度差矩阵和灰度依赖性矩阵。在各种实施方案中,从已通过应用滤波(诸如子波滤波或高斯滤波)来变换的图像提取影像组学特征。因此,可从子波变换图像或高斯变换图像提取一阶统计量、基于3d形状的特征、基于2d形状的特征、灰度共生矩阵、灰度游程矩阵、灰度区域大小矩阵、邻域灰度差矩阵和灰度依赖性矩阵中的任一者。如本文所用,“结节特定特征”也被称为“主观特征”。在各种实施方案中,从分析受试者的图像(诸如受试者的ct扫描)的训练有素的专业人员(例如,放射科医生)编制的报告提取结节特定特征。
125.术语“非结节特定特征”是指肺实质特征或身体组成特征中的任一者。非结节特定特征可包括来自受试者的并非结节的特征。非结节特定特征可包括来自受试者的与结节无关的特征。肺实质特征可包括肺实质的密度度量,其可包括例如:以下区域所占据的肺的百分比:(i)低衰减区(laa),该laa被定义为具有小于-950亨氏单位(hu)的衰减的面积/体积,
和(ii)高衰减区(haa),该haa被定义为具有-600hu与-250hu之间的衰减的肺的面积/体积;以及上肺区中的laa与下肺区中的laa之间的比率(比率laa)。肺实质特征还可包括肺实质中的间质改变的度量,诸如肺实质的局部直方图度量,即由例如正常组织、小叶中央型肺气肿、小叶中央型结节、磨玻璃、蜂窝、线性瘢痕、结节状结构、网状结构、胸膜下线、其它肺气肿和/或囊肿所占据的肺的百分比。身体组成特征包括例如胸大肌横截面积、胸小肌横截面积、瘦胸大肌横截面积、瘦胸小肌横截面积、左或右胸大肌或胸小肌的总横截面积以及皮下脂肪横截面积。如本文所用,“非结节特定特征”也被称为“客观特征”。在各种实施方案中,以计算方式从图像(诸如从受试者捕获的图像)提取“非结节特定特征”。在各种实施方案中,以计算方式从特征提取的非结节特征可用于构建报告,诸如包括非结节特征的放射科医生报告。在各种实施方案中,“非结节特定特征”不包括肺气肿的持续时间或心血管疾病的持续时间。
126.短语“lung-radsx-y”旨在包括被分类为lung-radsx、lung-radsy以及数值变量“x”和“y”之间的任何值的个体。例如,lung-rads 1-3指示被分类为lung-rads 1、lung-rads 2和lung-rads 3的个体。
127.短语“lung-radsx-y预测模型”是指使用从被分类为lung-rads x-y中的任一者的训练个体捕获的训练图像来训练的风险预测模型。
128.短语“m年预测模型”是指经训练以预测“m”时间段内的癌症未来风险的风险预测模型。在各种实施方案中,“m”为6个月、1年、1.5年、2年、2.5年、3年、3.5年、4年、4.5年、5年、5.5年、6年、6.5年、7年、7.5年、8年、8.5年、9年、9.5年、10年、10.5年、11年、11.5年、12年、12.5年、13年、13.5年、14年、14.5年、15年、15.5年、16年、16.5年、17年、17.5年、18年、18.5年、19年、19.5年或20年中的任一者。在各种实施方案中,“m”是从采集受试者的一个或多个图像的时间开始测量的。因此,1年预测模型是指经训练以预测从采集受试者的一个或多个图像的时间开始1年内的癌症未来风险的风险预测模型。
129.短语“m年lung-radsx-y预测模型”是指1)使用从被分类为lung-radsx-y中的任一者的训练个体捕获的训练图像来训练并且2)经训练以预测“m”年内的癌症未来风险的风险预测模型。
130.短语“癌症未来风险”是指受试者会在给定时间段(例如,从t0开始1年或3年)内患癌症的风险。在各种实施方案中,癌症未来风险是指受试者会在从时间零(t0)开始的给定时间段内患癌症的可能性。在各种实施方案中,癌症未来风险是指受试者会在1年内患癌症的可能性。在各种实施方案中,癌症未来风险是指受试者会在3年内患癌症的可能性。在各种实施方案中,癌症未来风险是指受试者会在5年内患癌症的可能性。在各种实施方案中,癌症未来风险是指受试者会在至少1年、至少2年、至少3年、至少4年、至少5年、至少6年、至少7年、至少8年、至少9年、至少10年、至少11年、至少12年、至少13年、至少14年、至少15年、至少16年、至少17年、至少18年、至少19年或至少20年内患癌症的可能性。在各种实施方案中,“癌症未来风险”为二进制值(例如,0或1,其中0指示不太可能在该时间段内患癌症并且1指示有可能在该时间段内患癌症)。在各种实施方案中,“癌症未来风险”为连续值(例如,介于0和1之间,其中更接近1的值指示在该时间段内患癌症的更高可能性)。
131.术语肺癌的“治疗”或“疗法”应意指通过施用治疗来减缓、阻止或逆转癌症的进展。在一些实施方案中,治疗肺癌意指逆转癌症的进展,在理想情况下达到消除癌症自身的
程度。在各种实施方案中,肺癌的“治疗”或“疗法”包括向受试者施用治疗剂或药物组合物。另外,如本文所用,肺癌的“治疗”或“疗法”还包括施用治疗剂或药物组合物以达到预防性目的。癌症的预防是指施用组合物或治疗剂以预防癌症或一些或所有肺癌症状的发生、形成、发作、进展或复发或者减小肺癌发作的可能性。
132.必须注意,除非上下文明确地指明,否则如本说明书所用,单数形式“一个”、一种”、“该”和“所述”包括复数指代物。
133.ii.系统环境概览
134.图1a描绘了根据实施方案的用于确定受试者的癌症预测的系统环境概览。系统环境100提供上下文以便介绍受试者110、成像装置120和用于确定受试者110的癌症预测140的癌症预测系统130。尽管图1a描绘了为其生成癌症预测140的一个受试者110,但是在各种实施方案中,系统环境100包括两个或更多个受试者,使得癌症预测系统130生成该两个或更多个受试者的癌症预测140(例如,每个受试者的癌症预测)。
135.在各种实施方案中,受试者110是健康的。例如,受试者先前未被诊断为患有癌症或非疑似患有癌症。因此,本文所述用于癌症未来风险预测的方法可有益于健康受试者的癌症的早期检测。在特定实施方案中,受试者的癌症的类型为肺癌。因此,本文所述的方法可有益于肺癌的早期检测。在各种实施方案中,受试者先前被诊断为患有癌症。在此类实施方案中,受试者可处于缓解期,并且因此,用于癌症未来风险预测的方法可有益于确定受试者是否有可能在一定时间段内出现癌症复发。
136.在各种实施方案中,可向被预测为会在一定时间段内患癌症或出现癌症复发的受试者施用治疗,诸如减缓或预防癌症的发作或复发的预防性治疗。在各种实施方案中,选择被预测为会在一定时间段内患癌症或出现癌症复发的受试者,使之在临床试验中入组。
137.参见图1a,成像装置120从受试者110捕获图像。在各种实施方案中,成像装置120从取自受试者110的测试样品捕获图像。在各种实施方案中,可由第三方(例如,医疗专业人员)获得该图像和/或该样品。医疗专业人员的示例包括医师、急诊技师、护士、现场急救员、心理学家、采血师、医学物理学人员、执业护士、外科医生、牙医以及本领域技术人员已知的任何其他公认医疗专业人员。在各种实施方案中,可在医院环境或医疗诊所中获得该图像和/或该样品。在各种实施方案中,可使用成像装置(诸如移动成像装置)捕获该图像和/或该样品。
138.在一些实施方案中,成像装置120捕获受试者110的解剖位置的图像。受试者的示例性解剖位置可包括肺、胸腔、肾、肝、胰腺、脑、胃、肠、臀部、膝盖、腿、手臂和面部。在各种实施方案中,成像装置120捕获受试者110的胸腔的图像。在各种实施方案中,成像装置120捕获受试者的肺的图像。在各种实施方案中,成像装置120捕获受试者的胸部(例如,包括胸肌的胸壁)的图像。在各种实施方案中,成像装置120捕获包括受试者的肺的胸腔的图像。在各种实施方案中,成像装置120捕获包括受试者的胸部(例如,包括胸肌的胸壁)的胸腔的图像。在各种实施方案中,成像装置120捕获包括受试者的肺和受试者的胸部(例如,包括胸肌的胸壁)两者的胸腔的图像。
139.在各种实施方案中,成像装置120是计算机断层扫描(ct)扫描仪、磁共振成像(mri)扫描仪、正电子发射断层扫描(pet)扫描仪、x射线扫描仪或超声成像装置中的一者。在特定实施方案中,成像装置120是捕获受试者110的一个或多个图像的ct扫描仪。在特定
实施方案中,成像装置120是捕获包括受试者的肺和受试者的胸部(例如,包括胸肌的胸壁)两者的胸腔的一个或多个ct图像的ct扫描仪。在特定实施方案中,成像装置120是捕获包括受试者的肺和受试者的胸部(例如,包括胸肌的胸壁)两者的胸部的一个或多个x射线图像的x射线扫描仪。
140.一般来讲,癌症预测系统130分析从受试者110捕获的一个或多个图像(例如,由成像装置120捕获的图像)并且生成受试者110的癌症预测140。在各种实施方案中,癌症预测系统130所确定的癌症预测140是受试者110的预测的癌症未来风险。例如,癌症预测140是指示受试者110是否被预测为会在从自受试者110捕获图像的日期开始的一定时间段内(例如,1年内、3年内或5年内)患癌症的值。
141.在各种实施方案中,为了生成癌症预测140,癌症预测系统130从该一个或多个图像提取特征并且应用一个或多个经训练的风险预测模型以分析该一个或多个图像的特征。经训练的风险预测模型预测一定时间段内受试者110的癌症未来风险。例如,癌症预测系统130可应用经训练以预测3年内的癌症未来风险的风险预测模型。在各种实施方案中,癌症预测系统130通过应用多个经训练的风险预测模型来为受试者110确定跨不同时间段的癌症的多个未来风险。例如,除了应用经训练以预测3年内的癌症未来风险的风险预测模型之外,癌症预测系统130还应用经训练以预测5年内的癌症未来风险的第二风险预测模型。癌症预测系统130可应用对附加时间段(例如,1年、10年、15年、20年等)进行训练的更多经训练的风险预测模型。一般来讲,风险预测模型被独立地训练并且不是加和性的(例如,不能从3年内预测的癌症减去1年内预测的癌症来获得被预测为会在1年后但早于3年形成的癌症)。
142.在各种实施方案中,癌症预测140是从受试者的预测的癌症未来风险得出的指示,该指示鉴别受试者110是否将被纳入用于在临床试验中入组的患者队列或被排除在该患者队列之外。该指示可用于临床试验富集目的。例如,如果受试者110被预测为会在一定时间段内患癌症,则该指示鉴别受试者110将被纳入用于在临床试验中入组的患者队列。作为另一个示例,如果受试者110未被预测为会在一定时间段内患癌症,则该指示鉴别受试者110将被排除在用于在临床试验中入组的患者队列之外。
143.在各种实施方案中,癌症预测140可包括以预测的癌症未来风险为依据的受试者110的推荐干预。例如,如果癌症预测系统130确定受试者110可能在1年内患癌症,则癌症预测140可包括推荐干预以延缓或预防癌症在下一年内的快速发作。
144.癌症预测系统130可包括一个或多个计算机,该一个或多个计算机体现为如下文相对于图4所讨论的计算机系统400。因此,在各种实施方案中,在计算机上(insilico)执行参考癌症预测系统130所述的步骤。
145.在各种实施方案中,成像装置120和癌症预测系统130由不同方采用。例如,第一方操作成像装置120以从受试者110捕获一个或多个图像,然后将所捕获的一个或多个图像提供给第二方,该第二方实现癌症预测系统130以确定癌症预测140。在一些实施方案中,成像装置120和癌症预测系统130由同一方采用。
146.现在参考图1b,该图描绘了根据实施方案的示出癌症预测系统130的计算机逻辑部件的框图。此处,癌症预测系统130包括特征提取模块145、候选受试者模块150、风险训练模块155、风险部署模块160、富集模块165以及训练数据存储库170。在各种实施方案中,可
使用附加或更少模块不同地配置癌症预测系统130。例如,癌症预测系统130不必包括候选受试者模块150。作为另一个示例,癌症预测系统130不必包括风险训练模块155或训练数据存储库170(如图1b中其虚线所指示),而是相反,风险训练模块155和训练数据存储库170由不同系统和/或不同方采用。
147.一般来讲,特征提取模块145从捕获自受试者的图像或捕获自训练个体的训练图像提取特征。在各种实施方案中,特征提取模块145从图像或训练图像提取非结节特定特征。在各种实施方案中,特征提取模块145从图像或训练图像提取结节特定特征。在各种实施方案中,特征提取模块145从图像或训练图像提取结节特定特征和非结节特定特征。特征提取模块145将从训练图像提取的特征提供给风险训练模块155以便训练风险预测模型。在各种实施方案中,特征提取模块145将从捕获自受试者的图像提取的特征提供给候选受试者模块150以便鉴别候选受试者。在各种实施方案中,特征提取模块145将从捕获自受试者的图像提取的特征提供给风险部署模块160以便部署一个或多个经训练的风险预测模型。
148.候选受试者模块150分析从捕获自受试者的一个或多个图像提取的特征并且确定受试者是否为待接受未来风险预测的候选受试者。这可用于鉴别将接受未来风险预测的患者子集。例如,可能优选的是为低风险癌症患者(例如,当前未患有癌症和/或当前未患有指示癌症的肺结节的患者)预测癌症未来风险。因此,候选受试者模块150可鉴别用于后续未来风险预测的低风险癌症患者子集。在各种实施方案中,候选受试者模块150分析结节特定特征和非结节特定特征两者以确定受试者是否为候选受试者。在各种实施方案中,候选受试者模块150仅分析结节特定特征以确定受试者是否为候选受试者。在各种实施方案中,候选受试者模块150不必由癌症分期系统140实现。例如,在将分析所有受试者的癌症未来风险的场景中,则所有受试者都是将接受未来风险预测的候选受试者。
149.风险训练模块155使用从训练个体得出的训练数据来训练风险预测模型。例如,训练数据包括从捕获自训练个体的一个或多个训练图像提取的特征。在各种实施方案中,风险训练模块155训练包括结节特定特征和非结节特定特征两者的风险预测模型。在此类实施方案中,风险部署模块160实现风险预测模型以分析从获自受试者(例如,图1a中的受试者110)的图像提取的结节特定特征和非结节特定特征两者,从而确定癌症未来风险。在各种实施方案中,风险训练模块155训练仅包括非结节特定特征的风险预测模型。在此类实施方案中,风险部署模块160实现风险预测模型以仅分析从获自受试者(例如,图1a中的受试者110)的图像提取的非结节特定特征,从而确定癌症未来风险。
150.风险部署模块160实现风险预测模型以分析从获自受试者(例如,图1a中的受试者110)的图像提取的特征,从而确定受试者110的癌症预测,诸如癌症未来风险的预测。下文将进一步详细描述训练风险预测模型和部署风险预测模型。
151.富集模块165选择要纳入患者队列的受试者。在各种实施方案中,生成用于在临床试验中入组的患者队列。例如,富集模块165生成包括会在一定时间段内患癌症的较高百分比患者的患者队列(例如,富集的患者队列)。该富集的患者队列实现更少患者在临床试验中入组,和/或鉴别可受益于拦截和预防肺癌的疗法的人。
152.下文参考如下两个阶段描述癌症预测系统130的部件:1)训练阶段和2)部署阶段。更具体地,训练阶段是指风险训练模块155基于训练数据诸如从训练个体(例如,已知在一定时间段内会患癌症或不会患癌症的个体)捕获的训练图像来构建和训练一个或多个风险
预测模型。因此,使用训练数据来训练这些模型,使得在部署阶段期间,风险部署模块160实现这些模型能够预测受试者(例如,图1a中的受试者110)的癌症未来风险。
153.在一些实施方案中,在训练阶段和部署阶段中的一者期间应用癌症预测系统130的部件。例如,在训练阶段期间应用风险训练模块155和训练数据存储库170以训练风险模型。另外,在部署阶段期间应用风险部署模块160。在各种实施方案中,癌症预测系统130的部件可由不同方执行,这取决于是否在训练阶段或部署阶段期间应用这些部件。在此类场景中,预测模型的训练和部署由不同方执行。例如,在训练阶段期间应用的风险训练模块155和训练数据存储库170可由第一方采用(例如,以训练风险预测模型),并且在部署阶段期间应用的风险部署模块160可由第二方执行(例如,以部署风险预测模型)。
154.iii.用于预测癌症未来风险的方法
155.本文所述的实施方案包括用于通过应用一个或多个经训练的风险预测模型来确定受试者的癌症未来风险的方法。此类方法可由图1b中所述的癌症预测系统130执行。将进一步参考图2a,该图描绘了根据实施方案的用于确定受试者的癌症未来风险以用于诸如患者富集之类的用途的示例性流程图200。
156.如图2a所示,获得从受试者(例如,图1a中的受试者110)捕获的受试者图像210。在各种实施方案中,受试者图像210是通过执行受试者的ct扫描来捕获的ct图像。在各种实施方案中,受试者图像210是通过执行受试者的x射线扫描来捕获的x射线图像。在各种实施方案中,从受试者捕获超过一个受试者图像210。
157.在各种实施方案中,特征提取模块145提取受试者的特征215a。在各种实施方案中,受试者的特征215a包括与受试者相对应的临床数据,诸如年龄、性别、种族、吸烟史、地理位置、污染暴露和/或肺癌家族史。在各种实施方案中,特征提取模块145(图1b)从受试者图像210提取特征215a。在各种实施方案中,特征提取模块145实现图像分析算法以从受试者图像210提取特征215a。在各种实施方案中,特征提取模块145实现图像分析算法,该图像分析算法包括经训练以分析和提取来自图像的特征的机器学习模型。用于提取影像组学特征的方法在以下文献中进一步描述:肺结节的影像组学:定量成像特征的鲁棒性和一致性的多机构研究(radiomics of lung nodules:a multi-institutional study of robustness and agreement of quantitative imaging features),《断层扫描》(tomography),2016年;2(4):430-437以及影像组学:使用高级特征分析从医学图像提取更多信息(radiomics:extracting more information from medical images using advanced feature analysis),《欧洲癌症杂志》(eur j cancer),2012年;48(4):441-446,这些文献中的每一篇全文据此均以引用方式并入。
158.在各种实施方案中,特征提取模块145从受试者图像210提取至少2个特征。在各种实施方案中,特征提取模块145从受试者图像210提取至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个或至少10个特征。在各种实施方案中,特征提取模块145从受试者图像210提取至少15个、至少20个、至少25个、至少30个、至少35个、至少40个或至少45个特征。在各种实施方案中,特征提取模块145从受试者图像210提取至少50个特征。在各种实施方案中,特征提取模块145从受试者图像210提取至少100个特征、至少150个特征、至少200个特征、至少250个特征、至少300个特征、至少350个特征、至少400个特征、至少450个特征、至少500个特征、至少550个特征、至少600个特征、至少650个特征、至少700个特征、至少
750个特征、至少800个特征、至少850个特征、至少900个特征、至少950个特征或至少1000个特征。在各种实施方案中,特征提取模块145提取100个特征与1000个特征之间。在各种实施方案中,特征提取模块145提取300个特征与900个特征之间。在各种实施方案中,特征提取模块145提取500个特征与1000个特征之间。
159.在各种实施方案中,特征提取模块145提取包括结节特定特征的特征215a。结节特定特征是指肺结节(例如,受试者图像210中存在或不存在的肺结节)的特征。示例性结节特定特征包括结节特定衰减、结节边缘描述、结节大小、结节形状、结节纹理(例如,光滑、毛刺等)、结节直径和lung-rads评分。在各种实施方案中,结节特定特征可以是使用图像处理算法(诸如pyradiomics)提取的影像组学特征。示例性影像组学特征可包括一阶统计量、基于3d形状的特征、基于2d形状的特征、灰度共生矩阵、灰度游程矩阵、灰度区域大小矩阵、邻域灰度差矩阵和灰度依赖性矩阵。在各种实施方案中,从已通过应用滤波(诸如子波滤波或高斯滤波)来变换的图像提取影像组学特征。因此,可从子波变换图像或高斯变换图像提取一阶统计量、基于3d形状的特征、基于2d形状的特征、灰度共生矩阵、灰度游程矩阵、灰度区域大小矩阵、邻域灰度差矩阵和灰度依赖性矩阵中的任一者。
160.在特定实施方案中,特征提取模块145分析受试者图像210并且基于提取的结节特定特征中的一者或多者来向受试者图像210分配lung-rads评分。例如,基于一个或多个提取的结节特定特征(例如,诸如影像组学特征),特征提取模块145确定受试者图像210不包括肺结节。在此类场景中,特征提取模块145可向受试者图像210分配1的lung-rads评分。作为另一个示例,特征提取模块145分析受试者图像210并且基于提取的结节特定特征中的一者或多者来确定受试者图像210包括结节。然后,基于结节特定特征,特征提取模块145可根据lung-rads标准(诸如表1所示的当前lung-rads标准或未来lung-rads标准)来分配对应lung-rads评分(例如,lung-rads 2、lung-rads 3、lung-rads 4a、lung-rads 4b或lung-rads 4x)。
161.在各种实施方案中,特征提取模块145提取包括非结节特定特征的特征215a。非结节特定特征是指任何肺实质特征(例如,肺实质的密度度量和肺实质中的间质改变的度量)和肌肉系统/胸壁的身体组成度量。肺实质的密度度量可包括例如:以下区域所占据的肺的百分比:(i)低衰减区(laa),该laa被定义为具有小于-950亨氏单位(hu)的衰减的面积/体积,和(ii)高衰减区(haa),该haa被定义为具有-600hu与-250hu之间的衰减的肺的面积/体积;以及上肺区中的laa与下肺区中的laa之间的比率。肺实质中的间质改变的度量包括肺实质的局部直方图度量,即由例如正常组织、小叶中央型肺气肿、小叶中央型结节、磨玻璃、蜂窝、线性瘢痕、结节状结构、网状结构、胸膜下线、其它肺气肿和/或囊肿所占据的肺的百分比。肌肉系统/胸壁的身体组成度量可包括例如胸大肌横截面积、胸小肌横截面积、瘦胸大肌横截面积、瘦胸小肌横截面积、左或右胸大肌或胸小肌的总横截面积以及皮下脂肪横截面积。
162.在各种实施方案中,特征提取模块145提取包括结节特定特征和非结节特定特征的特征215a。在各种实施方案中,特征提取模块145提取仅包括非结节特定特征的特征215a。在特定实施方案中,特征提取模块145提取仅包括结节特定特征的特征215a。在各种实施方案中,特征提取模块145获得由第三方确定的结节特定特征。例如,结节特定特征可能已由分析受试者图像210的训练有素的专业人员(例如,放射科医生)确定。在各种实施方
案中,特征提取模块145从由第三方生成的报告提取结节特定特征。例如,特征提取模块145从由分析受试者图像210的训练有素的专业人员(例如,放射科医生)生成的报告提取结节特定特征。
163.候选受试者模块150(图1b)通过分析受试者图像210的特征215a来执行受试者分析220(图2a所示)。基于该分析,候选受试者模块150确定受试者是否为将接受未来风险预测的候选受试者。换句话说,受试者分析220是鉴别符合癌症未来风险预测的条件的候选受试者的筛查过程。例如,接受肺癌筛查的受试者被确定为未患有常见肺癌,随后评估其未来偶发肺癌的风险。
164.作为一个示例,如果受试者的特征215a(诸如受试者的临床数据)满足一个或多个标准,则候选受试者模块150确定受试者是待接受未来风险预测的候选受试者。例如,如果受试者的特征215a指示受试者吸烟超过阈值量,则受试者被视为待接受未来风险预测的候选受试者。作为另一个示例,如果受试者是低风险癌症患者(例如,当前未患有肺癌和/或当前未患有指示癌症的肺结节的患者),则候选受试者模块150确定受试者是待接受未来风险预测的候选受试者。在各种实施方案中,如果受试者是高风险癌症患者(例如,当前患有肺癌的患者和/或患有指示患肺癌的高风险的肺结节的患者),则候选受试者模块150确定受试者是待接受未来风险预测的非候选受试者。如图2a所示,如果受试者分析220确定受试者是候选受试者,则受试者图像210被看作是供后续未来风险预测分析的候选受试者图像225(虚线所示)。另选地,如果受试者分析220确定受试者是非候选受试者,则患者不进一步接受未来风险预测分析。作为一个示例,可将用于非候选受试者的干预218提供给受试者。例如,非候选受试者可以是这样的受试者,其已经患有肺癌或具有指示受试者患有晚期肺癌的肺结节。因此,非候选受试者不必接受癌症未来风险预测,而是相反,可向其提供用于非候选受试者的干预218,该干预可包括癌活检和/或施用治疗剂(例如,化学疗法、放射)以治疗非候选受试者的肺癌。
165.在各种实施方案中,候选受试者模块150基于包括结节特定特征的特征215a来确定受试者是候选受试者。作为一个示例,结节特定特征可包括lung-rads评分,诸如lung-rads 0、lung-rads 1、lung-rads 2、lung-rads 3、lung-rads 4a、lung-rads 4b或lung-rads 4x。表1中描述了肺结节的lung-rads评分分类和对应特性的总结。在各种实施方案中,候选受试者模块150基于特征215a(诸如结节特定特征)来确定受试者的lung-rads评分。例如,结节特定特征可包括以下中的一者或多者:结节特定衰减、结节边缘描述、结节大小、结节形状、结节纹理(例如,光滑、毛刺等)、结节直径、lung-rads评分和/或影像组学特征,诸如一阶统计量、基于3d形状的特征、基于2d形状的特征、灰度共生矩阵、灰度游程矩阵、灰度区域大小矩阵、邻域灰度差矩阵和灰度依赖性矩阵。因此,如果结节衰减特征指示肺结节是实性结节并且结节边缘和/或结节直径特征指示肺结节为5mm,则候选受试者模块150可基于表1中指定的标准来分配2的lung-rads评分。
166.在各种实施方案中,如果受试者被分配0的lung-rads评分,则候选受试者模块150确定受试者是候选受试者。在各种实施方案中,如果受试者被分配1的lung-rads评分,则候选受试者模块150确定受试者是候选受试者。在各种实施方案中,如果受试者被分配2的lung-rads评分,则候选受试者模块150确定受试者是候选受试者。在各种实施方案中,如果受试者被分配3的lung-rads评分,则候选受试者模块150确定受试者是候选受试者。在各种
实施方案中,如果受试者被分配4a的lung-rads评分,则候选受试者模块150确定受试者是候选受试者。在各种实施方案中,如果受试者被分配0或1的lung-rads评分,则候选受试者模块150确定受试者是候选受试者。在各种实施方案中,如果受试者被分配0、1或2的lung-rads评分,则候选受试者模块150确定受试者是候选受试者。在各种实施方案中,如果受试者被分配0、1、2或3的lung-rads评分,则候选受试者模块150确定受试者是候选受试者。在各种实施方案中,如果受试者被分配1、2或3的lung-rads评分,则候选受试者模块150确定受试者是候选受试者。
167.在各种实施方案中,如果受试者被分配3的lung-rads评分,则候选受试者模块150确定受试者是非候选受试者。在各种实施方案中,如果受试者被分配4a的lung-rads评分,则候选受试者模块150确定受试者是非候选受试者。在各种实施方案中,如果受试者被分配4b的lung-rads评分,则候选受试者模块150确定受试者是非候选受试者。在各种实施方案中,如果受试者被分配4a或4b的lung-rads评分,则候选受试者模块150确定受试者是非候选受试者。在各种实施方案中,如果受试者被分配3、4a或4b的lung-rads评分,则候选受试者模块150确定受试者是非候选受试者。
168.在各种实施方案中,如果结节特定特征指示受试者未患有肺结节,则候选受试者模块150确定受试者是候选受试者。例如,结节特定特征可包括以下中的一者或多者:结节衰减、结节边缘描述或结节直径。因此,如果结节特定特征指示受试者图像210不包括结节(例如,缺少衰减、缺少边缘或者近零或零直径),则候选受试者模块150确定受试者是候选受试者。
169.在各种实施方案中,即使受试者患有肺结节,候选受试者模块150也确定受试者是候选受试者。例如,如果结节特定特征指示受试者患有肺结节,则候选受试者模块150可进一步分析结节特定特征以将结节分类为较高风险结节或较低风险结节。在各种实施方案中,候选受试者模块150可基于结节是实性结节、半实性结节还是非实性结节来对结节进行分类。例如,候选受试者模块150可在结节是实性结节或半实性结节时将该结节分类为较高风险结节,并且可在结节是非实性结节时将该结节分类为较低风险结节。在各种实施方案中,如果受试者患有较低风险结节,候选受试者模块150确定受试者是候选受试者。如果受试者患有较高风险结节,则候选受试者模块150可确定受试者是非候选受试者。
170.返回到图2a,受试者分析220后,来自候选受试者的受试者图像210现在被视为候选受试者图像225。特征提取模块145从候选受试者图像225提取特征215b。在各种实施方案中,特征提取模块145从候选受试者图像225提取包括结节特定特征和非结节特定特征中的一者或两者的特征215b。在各种实施方案中,特征提取模块145提取仅包括非结节特定特征的特征215a。在各种实施方案中,特征提取模块145提取仅包括结节特定特征的特征215a。在各种实施方案中,特征提取模块145获得由第三方确定的候选受试者图像225的结节特定特征。例如,结节特定特征可能已由分析候选受试者图像225的训练有素的专业人员(例如,放射科医生)确定。在各种实施方案中,特征提取模块145从由第三方生成的报告提取结节特定特征。例如,特征提取模块145从由分析受试者图像225的训练有素的专业人员(例如,放射科医生)生成的报告提取结节特定特征。
171.在各种实施方案中,特征215b中的一者或多者与特征215a中的一者或多者相同。因此,相同特征不必再次提取并且可重复使用。例如,先前从受试者图像210提取为特征
215a的结节特定特征可以是特征215b中包括的相同结节特定特征。在各种实施方案中,先前从受试者图像210提取了所有特征215b,因此先前提取的特征可在此处作为特征215b重复使用。例如,特征提取模块145可在受试者分析220之前提取特征215a和特征215b。因此,特征215b不必进一步从候选受试者图像225提取并且可在此处重复使用。
172.在各种实施方案中,特征215b包括特征215a中不包括的附加特征。例如,特征215b包括特征215a中先前不包括的非结节特定特征。因此,特征提取模块145提取特征215a中先前不包括的这些附加特征。
173.在各种实施方案中,特征提取模块145从候选受试者图像225提取至少2个特征。在各种实施方案中,特征提取模块145从候选受试者图像225提取至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个或至少10个特征。在各种实施方案中,特征提取模块145从候选受试者图像225提取至少15个、至少20个、至少25个、至少30个、至少35个、至少40个或至少45个特征。在各种实施方案中,特征提取模块145从候选受试者图像225提取至少50个特征。在各种实施方案中,特征提取模块145从候选受试者图像225提取至少100个特征、至少150个特征、至少200个特征、至少250个特征、至少300个特征、至少350个特征、至少400个特征、至少450个特征、至少500个特征、至少550个特征、至少600个特征、至少650个特征、至少700个特征、至少750个特征、至少800个特征、至少850个特征、至少900个特征、至少950个特征或至少1000个特征。在各种实施方案中,特征提取模块145从候选受试者图像225提取100个特征与1000个特征之间。在各种实施方案中,特征提取模块145从候选受试者图像225提取300个特征与900个特征之间。在各种实施方案中,特征提取模块145从候选受试者图像225提取500个特征与1000个特征之间。
174.风险部署模块160(图1b)将提取的特征215b提供给经训练的风险预测模型230(图2a所示)以生成风险预测240。在各种实施方案中,如图2a所示,风险部署模块160将提取的特征215提供给多个经训练的风险预测模型230以生成多个风险预测240。在各种实施方案中,训练风险预测模型以生成一定时间段内的癌症未来风险预测(例如,1年内、3年内或5年内的癌症未来风险)。因此,为了生成多个时间段的预测,风险部署模块160选择并部署不同风险预测模型以分析提取的特征215b。例如,风险部署模块160可部署经训练以预测第一时间段内的癌症未来风险的第一风险预测模型,并且还可部署经训练以预测第二时间段内的癌症未来风险的第二风险预测模型。
175.在各种实施方案中,风险部署模块160部署1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个不同风险预测模型以分别生成1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个不同时间段内的癌症未来风险。在各种实施方案中,风险部署模块160部署5个不同风险预测模型以生成5个不同时间段内的癌症未来风险。在各种实施方案中,风险部署模块160部署3个不同风险预测模型以生成3个不同时间段内的癌症未来风险。例如,风险部署模块160部署1年风险预测模型、3年风险预测模型和5年风险预测模型以分别生成1年、3年和5年内的癌症未来风险的预测。
176.在各种实施方案中,被部署来分析特征215b的该一个或多个风险预测模型230中的每个风险预测模型先前在被分成不同区域(例如,不同肺区域)的训练图像上训练。例如,可训练第一风险预测模型230以预测肺的第一区域内癌症的存在,可训练第二风险预测模型230以预测肺的第二区域内癌症的存在,并且可训练第三风险预测模型230以预测肺的第
三区域内癌症的存在。作为一个示例,不同肺区域可包括按体积计肺的上、中和下三分之一或肺的单独叶。因此,为受试者生成的风险预测240可以是特定区域(例如,肺区域)内的癌症未来风险。
177.在各种实施方案中,被部署来分析特征215b的该一个或多个风险预测模型230中的每个风险预测模型先前使用与被确定为受试者分析220的结果的候选受试者队列相符的训练个体队列来训练。换句话说,风险预测模型230先前使用在接受受试者分析220时将符合候选受试者的资格的训练个体来训练。
178.在各种实施方案中,用于训练风险预测模型230的训练个体中的一者或多者与候选受试者共用至少一个特征。作为一个示例,如果候选受试者被分类为lung-rads 1,则用于训练风险预测模型230的训练个体中的一者或多者也被分类为lung-rads 1。在各种实施方案中,风险预测模型230可使用从被分类为lung-rads 1的训练个体捕获的训练图像来训练(被称为lung-rads 1风险预测模型)。在各种实施方案中,风险预测模型230可使用从被分类为lung-rads 1或lung-rads 2的训练个体捕获的训练图像来训练(被称为lung-rads 1-2风险预测模型)。在各种实施方案中,风险预测模型230可使用从被分类为lung-rads 1、lung-rads 2或lung-rads 3的训练个体捕获的训练图像来训练(被称为lung-rads 1-3风险预测模型)。在各种实施方案中,风险预测模型230可使用从被分类为lung-rads 1、lung-rads 2、lung-rads 3或lung-rads 4a的训练个体捕获的训练图像来训练(被称为lung-rads 1-4a风险预测模型)。在各种实施方案中,风险预测模型230可使用从被分类为lung-rads 1、lung-rads 2、lung-rads 3、lung-rads 4a或lung-rads 4b的训练个体捕获的训练图像来训练(被称为lung-rads 1-4b风险预测模型)。在各种实施方案中,风险预测模型230可使用从被分类为lung-rads 1、lung-rads 2、lung-rads 3、lung-rads 4a、lung-rads 4b或lung-rads 4x的训练个体捕获的训练图像来训练(被称为lung-rads 1-4x风险预测模型)。
179.在候选受试者被分类为lung-rads 1(例如,通过受试者分析220来分类或先前由第三方分类)的场景中,则风险部署模块160部署使用从先前也被分类为lung-rads 1的至少一个训练个体捕获的训练图像来训练的一个或多个风险预测模型230。因此,风险部署模块160可部署一个或多个风险预测模型230,它们各自为lung-rads 1预测模型、lung-rads 1-2预测模型、lung-rads 1-3预测模型、lung-rads 1-4a预测模型、lung-rads 1-4b预测模型或lung-rads 1-4x预测模型中的任一者。在特定实施方案中,风险部署模块160为lung-rads 1候选受试者部署lung-rads1预测模型。在特定实施方案中,风险部署模块160为lung-rads 1候选受试者部署lung-rads 1-2预测模型。在特定实施方案中,风险部署模块160为lung-rads 1候选受试者部署lung-rads 1-3预测模型。
180.在候选受试者被分类为lung-rads 2(例如,通过受试者分析220来分类或先前由第三方分类)的场景中,则风险部署模块160部署使用从先前也被分类为lung-rads 2的至少一个训练个体捕获的训练图像来训练的一个或多个风险预测模型230。因此,风险部署模块160可部署一个或多个风险预测模型230,它们各自为lung-rads 1-2预测模型、lung-rads 1-3预测模型、lung-rads 1-4a预测模型、lung-rads 1-4b预测模型或lung-rads 1-4x预测模型中的任一者。在特定实施方案中,风险部署模块160为lung-rads 2候选受试者部署lung-rads 1-2预测模型。在特定实施方案中,风险部署模块160为lung-rads 2候选受
试者部署lung-rads 1-3预测模型。
181.在候选受试者被分类为lung-rads 3(例如,通过受试者分析220来分类或先前由第三方分类)的场景中,则风险部署模块160部署使用从先前也被分类为lung-rads 3的至少一个训练个体捕获的训练图像来训练的一个或多个风险预测模型230。因此,风险部署模块160可部署一个或多个风险预测模型230,它们各自为lung-rads 1-3预测模型、lung-rads 1-4a预测模型、lung-rads 1-4b预测模型或lung-rads 1-4x预测模型中的任一者。
182.在候选受试者被分类为lung-rads 4a(例如,通过受试者分析220来分类或先前由第三方分类)的场景中,则风险部署模块160部署使用从先前也被分类为lung-rads 4a的至少一个训练个体捕获的训练图像来训练的一个或多个风险预测模型230。因此,风险部署模块160可部署一个或多个风险预测模型230,它们各自为lung-rads 1-4a预测模型、lung-rads 1-4b预测模型或lung-rads 1-4x预测模型中的任一者。
183.在候选受试者被分类为lung-rads 4b(例如,通过受试者分析220来分类或先前由第三方分类)的场景中,则风险部署模块160部署使用从先前也被分类为lung-rads 4b的至少一个训练个体捕获的训练图像来训练的一个或多个风险预测模型230。因此,风险部署模块160可部署一个或多个风险预测模型230,它们各自为lung-rads 1-4b预测模型或lung-rads 1-4x预测模型中的任一者。
184.在候选受试者被分类为lung-rads 4x(例如,通过受试者分析220来分类或先前由第三方分类)的场景中,则风险部署模块160部署使用从先前也被分类为lung-rads 4x的至少一个训练个体捕获的训练图像来训练的一个或多个风险预测模型230。因此,风险部署模块160可部署一个或多个风险预测模型230,它们各自为lung-rads 1-4x预测模型。
185.在各种实施方案中,风险预测模型1)使用与被确定为受试者分析220的结果的候选受试者队列相符的训练个体队列来训练,并且2)经训练以生成一定时间段内的癌症未来风险预测(例如,1年内、3年内或5年内的癌症未来风险)。例如,为了生成候选受试者的风险预测240,风险部署模块160应用一个或多个风险预测模型230,该一个或多个风险预测模型1)使用与候选受试者共用至少一个特征的一个或多个训练个体来训练,并且2)经训练以预测不同时间段内的癌症未来风险。
186.在候选受试者被分类为lung-rads“z”(例如,通过受试者分析220来分类或先前由第三方分类)的场景中,风险部署模块160部署一个或多个风险预测模型230,该一个或多个风险预测模型1)使用从先前也被分类为lung-rads“z”的至少一个训练个体捕获的训练图像来训练,并且2)预测不同时间段内的癌症未来风险。如本文所用,这些风险预测模型被称为“m年lung-radsx-y预测模型”,其中“m”是指时间段并且“x-y”是指训练个体的lung-rads评分范围。例如,1年lung-rads 1-3预测模型是指使用先前被分类为lung-rads 1-3的训练个体来训练并且经训练以预测1年内的癌症未来风险的风险预测模型。
187.在各种实施方案中,对于被分类为lung-rads 1的候选受试者而言,风险部署模块160部署一个或多个m年lung-radsx-y预测模型,其中“m”是可变的,但“x”和“y”是固定的。例如,对于被分类为lung-rads 1的候选受试者而言,“m”可在1至5年的范围内,而x=1并且y=1至4b中的任何值。作为一个示例,y=3,因此风险部署模块160可部署1年lung-rads 1-3预测模型、2年lung-rads 1-3预测模型、3年lung-rads 1-3预测模型、4年lung-rads 1-3预测模型和5年lung-rads 1-3预测模型。在其它实施方案中,风险部署模块160可部署比此
处所述更多的风险预测模型(例如,m的范围为1至10、1至15或1至20年,例如x和y被不同地选择以提供lung-rads评分的不同范围)。
188.在候选受试者被分类为lung-rads 1的特定实施方案中,风险部署模块160部署1)预测1年内的癌症未来风险的第一风险预测模型230(例如,1年lung-rads 1-3预测模型)、2)预测3年内的癌症未来的第二风险预测模型230(例如,3年lung-rads 1-3预测模型)以及3)预测5年内的癌症未来的第三风险预测模型230(例如,5年lung-rads 1-3预测模型)。
189.在候选受试者被分类为lung-rads 2的特定实施方案中,风险部署模块160部署1)预测1年内的癌症未来风险的第一风险预测模型230(例如,1年lung-rads 1-3预测模型)、2)预测3年内的癌症未来的第二风险预测模型230(例如,3年lung-rads 1-3预测模型)以及3)预测5年内的癌症未来的第三风险预测模型230(例如,5年lung-rads 1-3预测模型)。
190.在候选受试者被分类为lung-rads 3的特定实施方案中,风险部署模块160部署1)预测1年内的癌症未来风险的第一风险预测模型230(例如,1年lung-rads 1-3预测模型)、2)预测3年内的癌症未来的第二风险预测模型230(例如,3年lung-rads 1-3预测模型)以及3)预测5年内的癌症未来的第三风险预测模型230(例如,5年lung-rads 1-3预测模型)。
191.在候选受试者被分类为lung-rads 4a的特定实施方案中,风险部署模块160部署1)预测1年内的癌症未来风险的第一风险预测模型230(例如,1年lung-rads 1-4a预测模型)、2)预测3年内的癌症未来的第二风险预测模型230(例如,3年lung-rads 1-4a预测模型)以及3)预测5年内的癌症未来的第三风险预测模型230(例如,5年lung-rads 1-4a预测模型)。
192.在候选受试者被分类为lung-rads 4b的特定实施方案中,风险部署模块160部署1)预测1年内的癌症未来风险的第一风险预测模型230(例如,1年lung-rads 1-4b预测模型)、2)预测3年内的癌症未来的第二风险预测模型230(例如,3年lung-rads 1-4b预测模型)以及3)预测5年内的癌症未来的第三风险预测模型230(例如,5年lung-rads 1-4b预测模型)。
193.在候选受试者被分类为lung-rads 4x的特定实施方案中,风险部署模块160部署1)预测1年内的癌症未来风险的第一风险预测模型230(例如,1年lung-rads 1-4x预测模型)、2)预测3年内的癌症未来的第二风险预测模型230(例如,3年lung-rads 1-4x预测模型)以及3)预测5年内的癌症未来的第三风险预测模型230(例如,5年lung-rads 1-4x预测模型)。
194.如图2a所示,风险预测240可用于患者富集250。例如,受试者可包括在将在临床研究中入组的一个或多个患者队列中。下文将进一步详细描述用于患者富集的方法。
195.现在参考图2b,该图描绘了根据第二实施方案的用于确定受试者的癌症未来风险以用于诸如患者富集之类的用途的示例性流程图。此处,图2b与图2a的不同之处在于图2b不包括受试者分析步骤(例如,图2a所示的步骤220)。因此,图2b描绘了受试者不接受筛查的实施方案。相反,所有受试者都是随后将接受未来风险预测的候选受试者。在各种实施方案中,受试者患有或未患有肺结节。在各种实施方案中,受试者可在先前被分类为lung-rads 1、lung-rads 2、lung-rads 3、lung-rads 4a、lung-rads 4b或lung-rads 4x中的任一者。因此,在此类实施方案中,不论其肺结节分期和/或lung-rads评分如何,所有受试者都接受未来风险预测。
196.如图2b所示,候选受试者图像255经受特征提取以获得特征260。在各种实施方案中,特征260包括候选受试者图像225的结节特定特征和非结节特定特征中的一者或两者。在各种实施方案中,特征260仅包括非结节特定特征。在各种实施方案中,特征260仅包括结节特定特征。在各种实施方案中,特征提取模块140通过实现图像分析算法(诸如涉及实现经训练的机器学习模型的图像分析算法)来提取结节特定特征。在各种实施方案中,特征提取模块140通过实现pyradiomics来提取结节特定特征。pyradiomics在以下文献中进一步详细描述:“解码放射影像表型的计算影像组学系统(computationalradiomicssystemtodecodetheradiographic phenotype)”,《癌症研究》(cancerresearch);77(21):e104-e107,该文献全文据此均以引用方式并入。
197.在各种实施方案中,候选受试者图像255的结节特定特征由第三方确定。例如,结节特定特征可能已由分析候选受试者图像255的训练有素的专业人员(例如,放射科医生)确定。在各种实施方案中,特征提取模块145从由第三方生成的报告提取结节特定特征。例如,特征提取模块145从由分析受试者图像225的训练有素的专业人员(例如,放射科医生)生成的报告提取结节特定特征。
198.风险部署模块260应用一个或多个风险预测模型265来分析特征260以生成风险预测270。因此,风险预测270可用于患者富集275。在各种实施方案中,如图2b所示部署风险预测模型265来生成风险预测270是与如图2a所示部署风险预测模型230来生成风险预测240相同的过程。
199.此处,该一个或多个风险预测模型265在从跨越全范围可能受试者的训练个体获得的训练图像上训练。例如,风险预测模型265使用从患有肺结节或未患有肺结节的训练个体捕获的训练图像来训练。作为另一个示例,风险预测模型265使用从lung-rads 1、lung-rads 2、lung-rads 3、lung-rads 4a、lung-rads 4b或lung-rads 4x中的任一者的训练个体捕获的训练图像来训练(例如,lung-rads 1-4x风险预测模型)。
200.在各种实施方案中,风险部署模块260部署多个未来风险模型265来预测多个风险预测270。例如,风险部署模块260部署多个m年lung-rads 1-4x风险预测模型,其中“m”是指评估癌症风险的时间段。在各种实施方案中,“m”为至少1年、至少2年、至少3年、至少4年、至少5年、至少6年、至少7年、至少8年、至少9年、至少10年、至少11年、至少12年、至少13年、至少14年、至少15年、至少16年、至少17年、至少18年、至少19年和/或至少20年。在特定实施方案中,风险部署模块260部署1)1年lung-rads 1-4x风险预测模型、2)3年lung-rads1-4x风险预测模型和3)5年lung-rads 1-4x风险预测模型,从而生成1年、3年和5年时间段的癌症未来风险预测。
201.在各种实施方案中,在被部署时,风险预测模型分析提取的图像特征并且生成预测评分,该预测评分可指示受试者是否有可能在一定时间段内患癌症。例如,风险预测模型可以是回归模型(例如,逻辑回归或线性回归模型),其通过将经训练的参数集与提取的图像特征的值组合来计算预测评分。作为另一个示例,风险预测模型可以是神经网络模型,其通过将神经网络节点和层相关的经训练的参数集与提取的图像特征的值组合来计算预测评分。作为另一个示例,风险预测模型可以是随机森林模型,其通过将决策树节点相关的经训练的参数集与提取的图像特征的值组合来计算预测评分。作为另一个示例,风险预测模型可以是梯度提升机器模型,其通过将决策树节点相关的经训练的参数集与提取的图像特
征的值组合来计算预测评分。
202.在各种实施方案中,风险预测模型将预测评分与一个或多个参考评分进行比较。在各种实施方案中,该一个或多个参考评分是阈值截断值。例如,阈值截断值可介于0和1之间,诸如为0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8或0.9。在特定实施方案中,阈值为0.1。在特定实施方案中,阈值为0.3。因此,如果预测评分高于阈值参考评分,则受试者被分类为一个类别(例如,有可能患癌症)。如果预测评分低于阈值参考评分,则受试者被分类为不同类别(例如,不太可能患癌症)。
203.在各种实施方案中,可实现多个参考阈值评分以创建多个分类组。例如,第一阈值为0.1并且第二阈值为0.3。因此,如果预测评分低于第一阈值,则受试者被分类为第一类别(例如,不太可能患癌症)。如果预测评分介于第一阈值与第二阈值之间,则受试者被分类为第二类别(例如,患癌症的低风险)。如果预测评分大于第二阈值,则受试者被分类为第三类别(例如,患癌症的高风险)。
204.作为一个示例,参考评分对应于一个或多个训练个体。例如,参考评分可对应于已知会在该时间段内患癌症的训练个体。作为另一个示例,参考评分可对应于已知不会在该时间段内患癌症的训练个体。因此,如果与对应于已知会在该时间段内患癌症的训练个体的参考评分相比,受试者的预测评分没有显著差异(例如,p值》0.05),则风险预测模型可将受试者分类为有可能在该时间段内患癌症。如果与对应于已知会在该时间段内患癌症的训练个体的参考评分相比,受试者的预测评分有显著差异(例如,p值《0.05),则风险预测模型可将受试者分类为不太可能在该时间段内患癌症。如果与对应于已知不会在该时间段内患癌症的训练个体的参考评分相比,受试者的预测评分没有显著差异(例如,p值》0.05),则风险预测模型可将受试者分类为不太可能在该时间段内患癌症。如果与对应于已知不会在该时间段内患癌症的训练个体的参考评分相比,受试者的预测评分有显著差异(例如,p值《0.05),则风险预测模型可将受试者分类为有可能在该时间段内患癌症。
205.在各种实施方案中,在训练期间,定义将高风险受试者与低风险受试者分界的未来癌症风险阈值。然后,仅将高风险受试者包括在任何给定模型中。在各种实施方案中,每个风险预测模型具有用于将受试者界定为高或低风险的独特未来癌症阈值。一旦为每个风险预测模型定义这些阈值,就为受试者部署该风险预测模型以预测癌症未来风险。如果该风险高于训练中定义的阈值,则受试者可被分类为具有癌症的高未来风险。
206.如图2b所示,风险预测270可用于患者富集275。例如,受试者可包括在将在临床中入组的一个或多个患者队列中。下文将进一步详细描述用于患者富集的方法。
207.在各种实施方案中,可向用户(例如,临床医生用户)显示受试者的风险预测270。因此,临床医生用户可向受试者通知为受试者预测的癌症未来风险。在各种实施方案中,可向用户(例如,临床医生用户)显示附加/其它信息。例如,如果受试者的癌症未来风险预测指示受试者有可能在一定时间段内患癌症,则可向用户(例如,临床医生用户)显示诸如对癌症未来风险预测贡献最大的特征之类的信息。例如,被预测为具有癌症未来风险的受试者在很大程度上可归因于小叶中央型肺气肿所占据的受试者的肺的百分比。因此,可向用户(例如,临床医生用户)显示特征的鉴别和/或特征的值(例如,小叶中央型肺气肿所占据的受试者的肺的百分比)。在各种实施方案中,可向用户(例如,临床医生用户)显示对受试者的癌症未来风险预测贡献最大的前1个、前2个、前3个、前4个、前5个、前6个、前7个、前8
个、前9个或前10个特征。重大贡献的特征的显示可向临床医生用户提供上下文以便理解得出癌症未来风险预测的特征。
208.iv.患者富集的方法
209.一般来讲,由风险预测模型得出的癌症未来风险预测用于患者富集。例如,癌症未来风险预测提供关于受试者是否有可能在一定时间段内(例如,1年内、3年内或5年内)患癌症的洞察。因此,对于被预测为会在特定时间段内患癌症的受试者而言,可选择这些受试者以纳入将在临床试验中入组的患者队列中。考虑到由癌症未来风险预测提供的洞察,这实现了更少受试者在参与临床试验的患者队列中入组。因此,需要更少资源来开展临床试验并跟踪患者队列中的受试者。另外,未纳入患者队列的受试者(例如,被预测为不会在一定时间段内患癌症的受试者)可用于其它目的(例如,在其它临床试验中入组)。
210.在各种实施方案中,基于为患者生成的多个风险预测中的一者或多者来选择要纳入患者队列的受试者。例如,受试者可具有第一风险预测,该第一风险预测指示受试者不会在1年内患癌症,不会在3年内患癌症,但有可能在5年内患癌症。因此,选择该受试者以纳入用于在涉及预防性治疗剂的施用的癌症临床试验中入组的患者队列。
211.作为另一个示例,受试者可具有第一风险预测,该第一风险预测指示受试者有可能在1年内患癌症,因此也有可能在3年和5年内患癌症。因此,选择该受试者以纳入用于在涉及积极癌症治疗(例如,肿瘤切除和/或施用治疗剂)的癌症临床试验中入组的患者队列。
212.在各种实施方案中,使用多个受试者的风险预测的患者富集过程生成了与随机生成的患者队列相比更有可能患癌症的富集的患者队列。在各种实施方案中,患者富集过程生成了与随机生成的患者队列相比出现累积癌症发病率的至少1.5倍增加的富集的患者队列。在各种实施方案中,患者富集过程生成了与随机生成的患者队列相比出现累积癌症发病率的至少1.6倍增加、至少1.7倍增加、至少1.8倍增加、至少1.9倍增加、至少2倍增加、至少3倍增加、至少4倍增加、至少5倍增加、至少6倍增加、至少7倍增加、至少8倍增加、至少9倍增加、至少10倍增加、至少11倍增加、至少12倍增加、至少13倍增加、至少14倍增加、至少15倍增加、至少16倍增加、至少17倍增加、至少18倍增加、至少19倍增加、至少20倍增加、至少21倍增加、至少22倍增加、至少23倍增加、至少24倍增加、至少25倍增加、至少26倍增加、至少27倍增加、至少28倍增加、至少29倍增加或至少30倍增加的富集的患者队列。
213.v.训练风险预测模型
214.一般来讲,构建风险预测模型,使得其分析从图像提取的特征,诸如非结节特定特征和/或结节特定特征,并且基于提取的特征来预测受试者的未来癌症风险。在各种实施方案中,风险预测模型是以下的任一者:回归模型(例如,线性回归、逻辑回归或多项式回归)、决策树、随机森林、梯度提升机器学习模型、支持向量机、朴素贝叶斯模型、k均值聚类或神经网络(例如,前馈网络、卷积神经网络(cnn)、深度神经网络(dnn)、自编码神经网络、生成对抗网络或递归网络(例如,长短期记忆网络(lstm)、双向递归网络、深度双向递归网络)或它们的任何组合。在特定实施方案中,风险预测模型是逻辑回归模型。在特定实施方案中,风险预测模型是随机森林分类器。在特定实施方案中,风险预测模型是梯度提升模型。
215.风险预测模型可使用机器学习实现的方法来训练,该机器学习实现的方法诸如为以下的任一者:线性回归算法、逻辑回归算法、决策树算法、支持向量机分类、朴素贝叶斯分类、k最近邻分类、随机森林算法、深度学习算法、梯度提升算法以及降维技术诸如流形学
习、主成分分析、因子分析、自动编码器正则化和独立成分分析或它们的组合。在特定实施方案中,机器学习实现的方法是逻辑回归算法。在特定实施方案中,机器学习实现的方法是随机森林算法。在特定实施方案中,机器学习实现的方法是梯度提升算法,诸如xgboost。在各种实施方案中,风险预测模型使用监督学习算法、无监督学习算法、半监督学习算法(例如,部分监督)、弱监督、迁移、多任务学习或它们的任何组合来训练。
216.在各种实施方案中,风险预测模型具有一个或多个参数,诸如超参数或模型参数。通常在训练之前建立超参数。超参数的示例包括学习率、决策树的深度或叶子、深度神经网络中的隐藏层数量、k均值聚类中的聚类数量、回归模型中的惩罚以及与代价函数相关的正则化参数。通常在训练期间调节模型参数。模型参数的示例包括与神经网络层中的节点相关的权重、支持向量机中的支持向量、决策树中的节点值以及回归模型中的系数。使用训练数据来训练(例如,调节)风险预测模型的模型参数以提高风险预测模型的预测能力。
217.风险训练模块155使用训练数据来训练风险预测模型。可从训练数据存储库170存储和/或检索训练数据。在各种实施方案中,训练数据包括从获自训练个体(例如,已知会或不会在一定时间段内患癌症的个体)的训练图像提取的特征。在各种实施方案中,可从数据集的拆分获得训练数据。例如,数据集可经受50:50训练:测试数据集拆分。在一些实施方案中,数据集可经受60:40训练:测试数据集拆分。在一些实施方案中,数据集可经受80:20训练:测试数据集拆分。
218.在各种实施方案中,用于训练插补模型的训练数据包括指示训练个体在一定时间段内患癌症(下文也称为“阳性”或“ ”)或训练个体是否未在该时间段内患癌症(下文也称为“阴性”或
“‑”
)的参考真实值。在各种实施方案中,训练数据中的参考真实值为二进制值,诸如“1”或“0”。例如,在一定时间段内患癌症的训练个体可在训练数据中用值“1”标识,而未在该时间段内患癌症的训练个体可在训练数据中用值“0”标识。在各种实施方案中,风险训练模块155使用训练数据来训练风险预测模型以使损失函数最小化,使得风险预测模型可基于输入(例如,训练图像的提取的特征)来更好地预测结局(例如,未来在一定时间段内存在或不存在癌症)。在各种实施方案中,为最小绝对值收敛和选择算子(lasso)回归、岭回归或弹性网络回归中的任一者构建损失函数。在各种实施方案中,风险预测模型是随机森林模型,并且经训练以使得用于特征拆分的基尼不纯度或熵度量中的一者最小化,从而使风险预测模型能够更准确地预测未来癌症风险。
219.在各种实施方案中,可从公共可用数据库获得和/或得出训练数据。例如,可从国家肺筛查试验(nlst)获得和/或得出训练数据。在一些实施方案中,训练数据可独立于公共可用数据库来获得和收集,例如通过从多个训练个体捕获图像。此类训练数据可以是定制数据集。
220.在各种实施方案中,风险预测模型使用训练个体的特定队列来训练。在各种实施方案中,风险预测模型使用未患有肺结节的训练个体队列来训练。在各种实施方案中,风险预测模型使用患有肺结节的训练个体队列来训练。在各种实施方案中,风险预测模型是使用先前被分类为lung-rads 1的训练个体队列来训练的lung-rads 1预测模型。在各种实施方案中,风险预测模型是使用先前被分类为lung-rads 1-2中的任一者的训练个体队列来训练的lung-rads 2预测模型。在各种实施方案中,风险预测模型是使用先前被分类为lung-rads 1-3中的任一者的训练个体队列来训练的lung-rads 1-3预测模型。在各种实施
方案中,风险预测模型是使用先前被分类为lung-rads 1-4a中的任一者的训练个体队列来训练的lung-rads 1-4a预测模型。在各种实施方案中,风险预测模型是使用先前被分类为lung-rads 1-4b中的任一者的训练个体队列来训练的lung-rads 1-4b预测模型。在各种实施方案中,风险预测模型是使用先前被分类为lung-rads 1-4x中的任一者的训练个体队列来训练的lung-rads 1-4x预测模型。
221.在各种实施方案中,对于lung-rads 1预测模型、lung-rads 1-2预测模型、lung-rads 1-3预测模型、lung-rads 1-4a预测模型、lung-rads 1-4b预测模型或lung-rads 1-4x预测模型中的每一者而言,风险预测模型使用训练个体的训练队列来训练,其中训练队列中的大多数(例如,大于50%)训练个体先前被分类为lung-rads 1。在各种实施方案中,对于lung-rads 1预测模型、lung-rads 1-2预测模型、lung-rads 1-3预测模型、lung-rads 1-4a预测模型、lung-rads 1-4b预测模型或lung-rads 1-4x预测模型中的每一者而言,风险预测模型使用训练个体的训练队列来训练,其中训练队列中的大多数(例如,大于50%)训练个体先前被分类为lung-rads 2。在各种实施方案中,对于lung-rads 1预测模型、lung-rads 1-2预测模型、lung-rads 1-3预测模型、lung-rads 1-4a预测模型、lung-rads 1-4b预测模型或lung-rads 1-4x预测模型中的每一者而言,风险预测模型使用训练个体的训练队列来训练,其中训练队列中的大多数(例如,大于50%)训练个体先前被分类为lung-rads 1或lung-rads 2。如表1所示,约90%个体有可能落在lung-rads 1或lung-rads 2内。因此,此类个体可用于训练这些风险预测模型中的任一者。
222.在各种实施方案中,风险预测模型是“m”年预测模型,其经训练以预测“m”年内诸如至少1年、至少2年、至少3年、至少4年、至少5年、至少6年、至少7年、至少8年、至少9年、至少10年、至少11年、至少12年、至少13年、至少14年、至少15年、至少16年、至少17年、至少18年、至少19年或至少20年内的癌症未来风险。因此,用于训练插补模型的训练数据包括指示训练个体在“m”年内患癌症的参考真实值。
223.在各种实施方案中,风险预测模型1)使用训练个体的特定队列来训练,并且2)经训练以预测“m”年内的癌症未来风险。如上所述,训练个体的队列可先前在lung-rads评分范围(例如,lung-radsx-y)内分类。因此,风险预测模型可以是m年lung-radsx-y预测模型,其1)使用被分类为lung-radsx-y的训练个体队列来训练,并且2)经训练以预测“m”年内的癌症未来风险。
224.在各种实施方案中,风险预测模型包括非结节特定特征和结节特定特征两者。因此,在训练风险预测模型过程中,风险预测模型分析从训练图像提取的非结节特定特征和结节特定特征两者并且试图生成使损失函数最小化的预测。一般来讲,风险预测模型的特征具有反映每个特征对风险预测模型所生成的预测有多重大的影响的重要性值。例如,与具有更低重要性值的不同特征相比,特征的更高重要性值指示该特征对风险预测模型所生成的预测有更重大的影响。
225.在各种实施方案中,与非结节特定特征相比,风险预测模型的结节特定特征对癌症未来风险的预测有更重大的影响。例如,与风险预测模型的非结节特定特征相比,风险预测模型的结节特定特征具有更高特征重要性值。一般来讲,对于经训练以预测更短时间段(例如,1年而非3年或5年)内的癌症风险的风险预测模型而言,结节特定特征具有更高重要性值。另外,对于使用更高风险肺癌患者(例如,被分类为lung-rads 4a或lung-rads 4b的
患者)来训练的风险预测模型而言,结节特定特征具有更高重要性值。
226.在各种实施方案中,具有风险预测模型的最高重要性值的特征是结节特定特征。在各种实施方案中,具有风险预测模型的最高重要性值的前2个特征是结节特定特征。在各种实施方案中,具有风险预测模型的最高重要性值的前3个特征是结节特定特征。在各种实施方案中,具有风险预测模型的最高重要性值的前4个特征是结节特定特征。在各种实施方案中,具有风险预测模型的最高重要性值的前5、6、7、8、9或10个特征是结节特定特征。
227.在各种实施方案中,具有最高特征重要性值的前3个特征的大于50%是结节特定特征。在各种实施方案中,具有最高特征重要性值的前3个特征中的2个特征是结节特定特征。在各种实施方案中,具有最高特征重要性值的前5个特征中的3个特征是结节特定特征。在各种实施方案中,具有最高特征重要性值的前5个特征中的4个特征是结节特定特征。在各种实施方案中,具有最高特征重要性值的前5个特征的大于50%是结节特定特征。在各种实施方案中,具有最高特征重要性值的前10个特征的大于50%是结节特定特征。在各种实施方案中,具有最高特征重要性值的前10个特征中的6、7、8、9或10个特征是结节特定特征。
228.在各种实施方案中,这种风险预测模型(例如,其中风险预测模型的结节特定特征具有高于风险预测模型的非结节特定特征的特征重要性值的风险预测模型)是1年风险预测模型(例如,预测1年内患癌症的风险)。在各种实施方案中,这种风险预测模型是在包括高风险肺结节的训练图像上训练的模型。在各种实施方案中,这种风险预测模型可在源自被分类为lung-rads 4a的个体的训练图像上训练。在各种实施方案中,这种风险预测模型可在源自被分类为lung-rads 4b的个体的训练图像上训练。在各种实施方案中,这种风险预测模型可在源自被分类为lung-rads 4x的个体的训练图像上训练。在各种实施方案中,这种风险预测模型可在源自被分类为lung-rads 4a、lung-rads 4b、lung-rads 4x或它们的任何组合的个体的训练图像上训练。例如,这种风险预测模型可以是lung-rads 1-4a、lung-rads 1-4b或lung-rads 1-4x预测模型中的任一者。
229.在特定实施方案中,这种风险预测模型(例如,其中风险预测模型的结节特定特征具有高于风险预测模型的非结节特定特征的特征重要性值的风险预测模型)是1年lung-rads 1-4b预测模型。例如,如表3所示,1年lung-rads 1-4b预测模型的特征重要性方面的前三个特征是结节特定特征。另外,1年lung-rads 1-4b预测模型的特征重要性方面的前5个特征中的4个特征是结节特定特征。
230.在特定实施方案中,这种风险预测模型(例如,其中风险预测模型的结节特定特征具有高于风险预测模型的非结节特定特征的特征重要性值的风险预测模型)是3年lung-rads 1-4b预测模型。例如,如表3所示,3年lung-rads 1-4b预测模型的特征重要性方面的前3个特征中的2个特征是结节特定特征。另外,3年lung-rads 1-4b预测模型的特征重要性方面的前5个特征中的3个特征是结节特定特征。作为另一个示例,如表19所示,3年lung-rads 1-4b预测模型的特征重要性方面的前3个特征是结节特定特征。另外,3年lung-rads 1-4b预测模型的特征重要性方面的前5个特征中的4个特征是结节特定特征。
231.在特定实施方案中,这种风险预测模型(例如,其中风险预测模型的结节特定特征具有高于风险预测模型的非结节特定特征的特征重要性值的风险预测模型)是5年lung-rads 1-4b预测模型。例如,如表3所示,5年lung-rads 1-4b预测模型的特征重要性方面的前3个特征中的2个特征是结节特定特征。
232.在特定实施方案中,这种风险预测模型(例如,其中风险预测模型的结节特定特征具有高于风险预测模型的非结节特定特征的特征重要性值的风险预测模型)是1年lung-rads 1-4a预测模型。例如,如表6所示,1年lung-rads 1-4a预测模型的特征重要性方面的前3个特征是结节特定特征。另外,1年lung-rads 1-4a预测模型的特征重要性方面的前5个特征中的4个特征是结节特定特征。
233.在特定实施方案中,这种风险预测模型(例如,其中风险预测模型的结节特定特征具有高于风险预测模型的非结节特定特征的特征重要性值的风险预测模型)是3年lung-rads 1-4a预测模型。例如,如表6所示,3年lung-rads 1-4a预测模型的特征重要性方面的前3个特征是结节特定特征。另外,3年lung-rads 1-4a预测模型的特征重要性方面的前5个特征中的4个特征是结节特定特征。作为另一个示例,如表20所示,3年lung-rads 1-4a预测模型的特征重要性方面的前3个特征是结节特定特征。另外,3年lung-rads 1-4a预测模型的特征重要性方面的前5个特征中的4个特征是结节特定特征。
234.在特定实施方案中,这种风险预测模型(例如,其中风险预测模型的结节特定特征具有高于风险预测模型的非结节特定特征的特征重要性值的风险预测模型)是5年lung-rads 1-4a预测模型。例如,如表6所示,5年lung-rads 1-4a预测模型的特征重要性方面的前3个特征中的2个特征是结节特定特征。
235.在特定实施方案中,这种风险预测模型(例如,其中风险预测模型的结节特定特征具有高于风险预测模型的非结节特定特征的特征重要性值的风险预测模型)是1年lung-rads 1-3预测模型。例如,如表9所示,1年lung-rads 1-3预测模型的特征重要性方面的前3个特征中的2个特征是结节特定特征。
236.在特定实施方案中,这种风险预测模型(例如,其中风险预测模型的结节特定特征具有高于风险预测模型的非结节特定特征的特征重要性值的风险预测模型)是3年lung-rads 2-4b预测模型。例如,如表22所示,3年lung-rads 2-4b预测模型的特征重要性方面的前3个特征是结节特定特征。另外,3年lung-rads 2-4b预测模型的特征重要性方面的前5个特征是结节特定特征。
237.在特定实施方案中,这种风险预测模型(例如,其中风险预测模型的结节特定特征具有高于风险预测模型的非结节特定特征的特征重要性值的风险预测模型)是3年lung-rads 4a-4b预测模型。例如,如表23所示,3年lung-rads 4a-4b预测模型的特征重要性方面的前3个特征是结节特定特征。另外,3年lung-rads 4a-4b预测模型的特征重要性方面的前5个特征是结节特定特征。
238.在各种实施方案中,与结节特定特征相比,风险预测模型的非结节特定特征对癌症未来风险的预测有更重大的影响。例如,与风险预测模型的结节特定特征相比,风险预测模型的非结节特定特征具有更高特征重要性值。一般来讲,对于经训练以预测更长时间段(例如,3年或5年而非1年)内的癌症风险的风险预测模型而言,非结节特定特征具有更高重要性值。另外,对于使用处于更低肺癌风险的患者(例如,被分类为lung-rads 2或3的患者)或尚未患有结节(例如,lung-rads 1)的患者来训练的风险预测模型而言,非结节特定特征具有更高重要性值。
239.在各种实施方案中,具有风险预测模型的最高重要性值的特征是非结节特定特征。在各种实施方案中,具有风险预测模型的最高重要性值的前2个特征是非结节特定特
rads 1-4b预测模型。例如,如表3所示,5年lung-rads 1-4b预测模型的特征重要性方面的前5个特征中的3个特征是非结节特定特征。另外,5年lung-rads 1-4b预测模型的特征重要性方面的前10个特征中的7个特征是非结节特定特征。
246.在特定实施方案中,这种风险预测模型(例如,其中风险预测模型的非结节特定特征具有高于风险预测模型的结节特定特征的特征重要性值的风险预测模型)是5年lung-rads 1-4a预测模型。例如,如表6所示,5年lung-rads 1-4a预测模型的特征重要性方面的前5个特征中的3个特征是非结节特定特征。另外,5年lung-rads 1-4a预测模型的特征重要性方面的前10个特征中的6个特征是非结节特定特征。
247.在特定实施方案中,这种风险预测模型(例如,其中风险预测模型的非结节特定特征具有高于风险预测模型的结节特定特征的特征重要性值的风险预测模型)是1年lung-rads 1-3预测模型。例如,如表9所示,1年lung-rads 1-3预测模型的特征重要性方面的前5个特征中的3个特征是非结节特定特征。另外,1年lung-rads 1-3预测模型的特征重要性方面的前10个特征中的7个特征是非结节特定特征。
248.在特定实施方案中,这种风险预测模型(例如,其中风险预测模型的非结节特定特征具有高于风险预测模型的结节特定特征的特征重要性值的风险预测模型)是3年lung-rads 1-3预测模型。例如,如表9所示,3年lung-rads 1-3预测模型的特征重要性方面的前3个特征中的2个特征是非结节特定特征。另外,3年lung-rads 1-3预测模型的特征重要性方面的前5个特征中的4个特征是非结节特定特征。另外,3年lung-rads1-3预测模型的特征重要性方面的前10个特征中的8个特征是非结节特定特征。作为另一个示例,如表21所示,3年lung-rads 1-3预测模型的特征重要性方面的前3个特征中的2个特征是非结节特定特征。另外,3年lung-rads 1-3预测模型的特征重要性方面的前5个特征中的3个特征是非结节特定特征。另外,3年lung-rads 1-3预测模型的特征重要性方面的前10个特征中的8个特征是非结节特定特征。
249.在特定实施方案中,这种风险预测模型(例如,其中风险预测模型的非结节特定特征具有高于风险预测模型的结节特定特征的特征重要性值的风险预测模型)是5年lung-rads 1-3预测模型。例如,如表9所示,5年lung-rads 1-3预测模型的特征重要性方面的前3个特征中的2个特征是非结节特定特征。另外,5年lung-rads 1-3预测模型的特征重要性方面的前5个特征中的4个特征是非结节特定特征。另外,5年lung-rads 1-3预测模型的特征重要性方面的前10个特征中的9个特征是非结节特定特征。
250.在特定实施方案中,这种风险预测模型(例如,其中风险预测模型的非结节特定特征具有高于风险预测模型的结节特定特征的特征重要性值的风险预测模型)是1年lung-rads 1-2预测模型。例如,如表12所示,1年lung-rads 1-2预测模型的特征重要性方面的前5个特征中的4个特征是非结节特定特征。另外,1年lung-rads 1-2预测模型的特征重要性方面的前10个特征中的9个特征是非结节特定特征。
251.在特定实施方案中,这种风险预测模型(例如,其中风险预测模型的非结节特定特征具有高于风险预测模型的结节特定特征的特征重要性值的风险预测模型)是3年lung-rads 1-2预测模型。例如,如表12所示,3年lung-rads 1-2预测模型的特征重要性方面的前3个特征是非结节特定特征。另外,3年lung-rads 1-2预测模型的特征重要性方面的前5个特征是非结节特定特征。另外,3年lung-rads 1-2预测模型的特征重要性方面的前10个特
征中的8个特征是非结节特定特征。
252.在特定实施方案中,这种风险预测模型(例如,其中风险预测模型的非结节特定特征具有高于风险预测模型的结节特定特征的特征重要性值的风险预测模型)是5年lung-rads 1-2预测模型。例如,如表12所示,5年lung-rads 1-2预测模型的特征重要性方面的前3个特征是非结节特定特征。另外,5年lung-rads 1-2预测模型的特征重要性方面的前5个特征是非结节特定特征。另外,5年lung-rads 1-2预测模型的特征重要性方面的前10个特征是非结节特定特征。
253.在特定实施方案中,这种风险预测模型(例如,其中风险预测模型的非结节特定特征具有高于风险预测模型的结节特定特征的特征重要性值的风险预测模型)是1年lung-rads 1预测模型。例如,如表15所示,1年lung-rads 1预测模型的特征重要性方面的前3个特征是非结节特定特征。另外,1年lung-rads 1预测模型的特征重要性方面的前5个特征是非结节特定特征。另外,1年lung-rads 1预测模型的特征重要性方面的前10个特征是非结节特定特征。
254.在特定实施方案中,这种风险预测模型(例如,其中风险预测模型的非结节特定特征具有高于风险预测模型的结节特定特征的特征重要性值的风险预测模型)是3年lung-rads 1预测模型。例如,如表15所示,3年lung-rads 1预测模型的特征重要性方面的前3个特征是非结节特定特征。另外,3年lung-rads 1预测模型的特征重要性方面的前5个特征是非结节特定特征。另外,3年lung-rads 1预测模型的特征重要性方面的前10个特征是非结节特定特征。
255.在特定实施方案中,这种风险预测模型(例如,其中风险预测模型的非结节特定特征具有高于风险预测模型的结节特定特征的特征重要性值的风险预测模型)是5年lung-rads 1预测模型。例如,如表15所示,5年lung-rads 1预测模型的特征重要性方面的前3个特征是非结节特定特征。另外,5年lung-rads 1预测模型的特征重要性方面的前5个特征是非结节特定特征。另外,5年lung-rads 1预测模型的特征重要性方面的前10个特征是非结节特定特征。
256.在各种实施方案中,经训练的风险预测模型包括经训练的参数集,使得当部署风险预测模型时,使用经训练的参数集来修改图像的非结节特定特征和结节特定特征的值以生成受试者的癌症未来风险的预测。因此,在训练阶段期间设定经训练的风险预测模型的经训练的参数集。例如,经训练的参数集被设定为使得与结节特定特征相比非结节特定特征对未来风险预测有更重大的影响。作为另一个示例,经训练的参数集被设定为使得与非结节特定特征相比结节特定特征对未来风险预测有更重大的影响。
257.例如,如果风险预测模型是神经网络,则与对应于结节特定特征的神经网络的一个或多个节点相比,向对应于非结节特定特征的神经网络的一个或多个节点分配更大权重(例如,参数)。作为另一个示例,如果风险预测模型是随机森林模型,则其赋予非结节特定特征的权重比结节特定特征更大。
258.在各种实施方案中,还可训练风险预测模型以预测该未来癌症的位置。在各种实施方案中,训练图像被分成不同区域,因此根据不同区域来执行风险预测模型的训练。示例性不同区域可包括按体积计肺的上、中和下三分之一或肺的单独叶。本领域技术人员将理解,肺可被分成具有任何数量的构型的任何数量的区域。使风险预测模型能够预测未来癌
症的位置可引导干预的选择,诸如区域诊断性评估以及使用吸入和经支气管镜施用的药物和装置的治疗剂干预。
259.在各种实施方案中,本文所公开的风险预测模型实现性能度量。示例性性能度量包括接受者操作曲线的曲线下面积(auc)、阳性预测值和/或阴性预测值。在各种实施方案中,本文所公开的风险预测模型表现出至少0.5的auc值。在各种实施方案中,本文所公开的风险预测模型表现出至少0.6的auc值。在各种实施方案中,本文所公开的风险预测模型表现出至少0.7的auc值。在各种实施方案中,本文所公开的风险预测模型表现出至少0.8的auc值。在各种实施方案中,本文所公开的风险预测模型表现出至少0.9的auc值。在各种实施方案中,本文所公开的风险预测模型表现出至少0.95的auc值。在各种实施方案中,本文所公开的风险预测模型表现出至少0.99的auc值。在各种实施方案中,本文所公开的风险预测模型表现出至少0.51、至少0.52、至少0.53、至少0.54、至少0.55、至少0.56、至少0.57、至少0.58、至少0.59、至少0.60、至少0.61、至少0.62、至少0.63、至少0.64、至少0.65、至少0.66、至少0.67、至少0.68、至少0.69、至少0.70、至少0.71、至少0.72、至少0.73、至少0.74、至少0.75、至少0.76、至少0.77、至少0.78、至少0.79、至少0.80、至少0.81、至少0.82、至少0.83、至少0.84、至少0.85、至少0.86、至少0.87、至少0.88、至少0.89、至少0.90、至少0.91、至少0.92、至少0.93、至少0.94、至少0.95、至少0.96、至少0.97、至少0.98或至少0.99的auc值。
260.vi.用于预测癌症未来风险的示例性方法
261.图3是根据实施方案的用于确定受试者的癌症未来风险以用于诸如患者富集之类的用途的示例性流过程。步骤305涉及预测多个受试者的未来肺癌风险。步骤305包括步骤310、320、330和340,可为该多个受试者中的不同受试者重复执行这些步骤。
262.在步骤310处,从受试者捕获图像。在各种实施方案中,该图像是从受试者捕获的胸廓ct扫描。
263.在步骤320处,从该图像提取特征。在各种实施方案中,特征包括非结节特定特征和结节特定特征中的一者或两者。
264.步骤330是涉及基于提取的特征中的一者或多者来确定受试者是否为未来风险预测的候选受试者的任选步骤。在各种实施方案中,步骤330涉及分析结节特定特征以确定受试者为候选受试者。例如,步骤330可涉及分析结节特定特征以确定受试者未患有肺结节或未患有肺癌,因此符合接受癌症未来风险分析的条件。
265.步骤340涉及应用风险预测模型来分析所获得的图像的提取的特征以预测未来癌症风险。在各种实施方案中,风险预测模型分析非结节特定特征和结节特定特征两者。在各种实施方案中,非结节特定特征具有高于结节特定特征的特征重要性值。因此,与结节特定特征相比,非结节特定特征对未来癌症风险预测有更重大的影响。
266.步骤350涉及使用预测的未来癌症风险来跨该多个受试者执行富集。此处,被预测为会在一定时间段内患癌症(如其预测的未来癌症风险所指示)的受试者可被纳入用于在临床试验中入组的一个或多个患者队列。总之,这实现了减少数量的个体在临床试验中入组。
267.vii.癌症
268.本文所述的方法涉及实现用于预测癌症未来风险的风险预测模型。在各种实施方
案中,受试者的癌症可包括以下中的一者或多者:淋巴瘤、b细胞淋巴瘤、t细胞淋巴瘤、蕈样肉芽肿病、霍奇金氏病、骨髓性白血病、膀胱癌、脑癌、神经系统癌、头颈癌(head and neck cancer)、头颈鳞状细胞癌、肾癌(kidney cancer)、肺癌(lung cancer)、成神经细胞瘤/成胶质细胞瘤、卵巢癌、胰腺癌、前列腺癌、皮肤癌、肝癌、黑色素瘤、口腔、喉部、咽部和肺部的鳞状细胞癌、结肠癌、宫颈癌(cervical cancer)、宫颈癌(cervical carcinoma)、乳腺癌和上皮癌、肾癌(renal cancer)、泌尿生殖系统癌、肺癌(pulmonary cancer)、食管癌、胃癌、甲状腺癌、头颈癌(head and neck carcinoma)、大肠癌、造血系统癌、睾丸癌、结肠和/或直肠癌、子宫癌或前列腺癌。在一些实施方案中,受试者的癌症可为转移癌,包括膀胱癌、乳腺癌、结肠癌、肾癌、肺癌、黑色素瘤、卵巢癌、胰腺癌、前列腺癌、直肠癌、胃癌、甲状腺癌或子宫癌中的任一者。在特定实施方案中,癌症是肺癌。在特定实施方案中,癌症是一种类型的肺癌,包括小细胞肺癌、非小细胞肺癌、非小细胞癌、腺癌、鳞状细胞癌、大细胞癌、小细胞癌、复合性小细胞癌、神经内分泌肿瘤、肺肉瘤、肺淋巴瘤、支气管类癌中的任一者。
269.在各种实施方案中,本文所述的风险预测模型预测存在癌症(诸如肺癌)的未来风险。换句话讲,风险预测模型预测存在或不存在癌症(诸如肺癌)的风险。在各种实施方案中,本文所述的风险预测模型预测肺癌亚型的未来风险,该肺癌亚型包括小细胞肺癌、非小细胞肺癌、非小细胞癌、腺癌、鳞状细胞癌、大细胞癌、小细胞癌、复合性小细胞癌、神经内分泌肿瘤、肺肉瘤、肺淋巴瘤、支气管类癌中的任一者。换句话讲,风险预测模型将受试者分类为有可能在一定时间段(例如,1、3或5年)内患特定亚型的肺癌。在特定实施方案中,风险预测模型预测非小细胞肺癌或小细胞肺癌未来风险。
270.viii.干预
271.本文所述的实施方案涉及实现用于预测癌症未来风险的风险预测模型。在各种实施方案中,基于癌症未来风险预测来向受试者提供干预。在各种实施方案中,干预可为以下的任一者:应用诊断、应用预防性治疗剂或后续措施。示例性后续措施可包括受试者的后续测试以确认受试者是否患癌症。后续测试可包括后续活检(例如,癌活检或淋巴结活检)或后续图像扫描(例如,ct扫描、pet扫描、mri扫描、超声成像或x射线成像)中的任一者。在各种实施方案中,受试者的后续测试可在下一排定访视期间或在预测癌症未来风险之后的预先确定的时间量(例如,1个月、2个月、3个月、4个月、5个月、6个月、7个月、8个月、9个月、10个月、11个月、12个月、18个月或24个月)时进行。在各种实施方案中,附加后续措施可包括治疗受试者体内已形成的癌症的后续措施,诸如肿瘤切除、支气管镜诊断、选择和/或施用治疗剂、选择/施用药物组合物或它们的任何组合。
272.在各种实施方案中,可基于预测的癌症未来风险来选择治疗剂和/或将治疗剂施用给受试者。所选择的治疗剂有可能延缓或预防癌症(诸如肺癌)的形成。示例性治疗剂包括化学疗法、能量疗法(例如,体外射束、微波、射频消融、近距放射疗法、电穿孔、冷冻消融、光热消融、激光疗法、光动力学疗法、电烙术、化疗栓塞术、高强度聚焦超声、低强度聚焦超声)、抗原特异性单克隆抗体、消炎药、溶瘤病毒疗法或免疫疗法。在各种实施方案中,所选择的治疗剂是能量疗法并且可定制所施加的能量的量(例如,剂量和持续时间)以实现期望的治疗效果。在各种实施方案中,治疗剂是小分子或生物制剂,例如细胞因子、抗体、可溶性细胞因子受体、反义寡核苷酸、sirna等。此类生物制剂涵盖生物制剂的突变蛋白和衍生物,所述衍生物可包括例如融合蛋白、聚乙二醇化衍生物、胆固醇缀合的衍生物及本领域已知
的类似衍生物。还包括细胞因子和细胞因子受体的拮抗剂,例如诱捕网(trap)和单克隆拮抗剂。还包括与本文所阐述的活性剂具有生物类似性或生物等效性的药物。
273.肺癌的治疗剂可包括化疗药物,诸如多西他赛、顺铂、卡铂、吉西他滨、白蛋白结合型紫杉醇、紫杉醇、培美曲塞、吉非替尼、厄洛替尼、布加替尼卡马替尼塞尔帕替尼恩曲替尼劳拉替尼拉罗替尼达可替尼和长春瑞滨。肺癌的治疗剂可包括抗体疗法,诸如度伐利尤单抗纳武利尤单抗帕博利珠单抗阿替利珠单抗康纳单抗和雷莫芦单抗。
274.在各种实施方案中,所述治疗剂中的一种或多种治疗剂可组合为用于治疗受试者的联合疗法。
275.在各种实施方案中,可基于受试者转移癌风险水平来选择药物组合物和/或将药物组合物施用给受试者,所选择的治疗剂可能表现出抗癌疗效。施用给个体的药物组合物包括活性剂,诸如上述治疗剂。活性成分以治疗有效量(即,在施用时足以治疗由此介导的疾病或医学病症的量)存在。组合物还可包含增强递送和疗效(例如,增强活性成分的递送和稳定性)的各种其它药剂。因此,例如,根据所需的剂型,组合物还可包含药学上可接受的无毒载体或稀释剂,它们被定义为常用于配制供动物或人类施用的药物组合物的溶媒。选择稀释剂以便不影响该组合的生物活性。此类稀释剂的示例为蒸馏水、缓冲水、生理盐水、pbs、林格氏溶液、葡萄糖溶液和汉克斯溶液。此外,药物组合物或制剂可包含其它载体、佐剂或无毒、非治疗性、无致免疫性稳定剂、赋形剂等。组合物还可包含用于接近生理条件的附加物质,诸如ph调节和缓冲剂、毒性调节剂、润湿剂和去垢剂。组合物还可包含多种稳定剂中的任一种,诸如抗氧化剂。
276.可按多种不同方式施用本文所述的药物组合物或治疗剂。示例包括经由口、鼻内、模块内、病灶内、直肠、局部、腹膜内、静脉内、肌内、皮下、真皮下、经皮、鞘内、支气管内、经胸廓或颅内方法施用包含药学上可接受的载体的组合物。
277.在各种实施方案中,基于通过实现风险预测模型而为受试者生成的预测的癌症未来风险,来将临床反应提供给受试者。在各种实施方案中,临床反应可包括提供建议以改变受试者的行为(例如,建议患者戒烟以降低风险);开始施用可延缓/预防恶性转化、减缓肿瘤生长或甚至预防疾病扩散(转移)的吸入/局部、静脉内或肠内(经口)治疗剂;以与对息肉的结肠镜检查进行的操作类似的方式建立未来风险的自适应筛查时间表(例如,被预测为未来肺癌风险较高的个体应进行更频繁的随访和成像),或执行或排定执行附加风险预测测试以确认预测的肺癌未来风险(例如,被认为肺癌风险较高的人随后还可接受附加测试以确认该风险或缩小该人处于最高风险的癌类型)。在各种实施方案中,附加风险预测测试可包括基于血液的生物标志物(以寻找作为肺癌的已知风险的非特异性炎症)、代谢组学/蛋白质组学/基因表达/基因测序。该人还可接受组织(鼻上皮、支气管上皮等)的附加采样以检查呼吸道中的基因表达变化。
278.ix.计算机实现
279.在一些实施方案中,本发明的方法(包括实现用于预测癌症未来风险的风险预测模型的方法)在一个或多个计算机上执行。
280.例如,风险预测模型的构建和部署可在硬件或软件或两者的组合中实现。在本发明的一个实施方案中,提供了一种机器可读存储介质,该介质包括用机器可读数据编码的数据存储资料,当使用用指令编程的机器来使用所述数据时,该机器可读数据能够执行风险预测模型的训练或部署和/或显示本文所述的任何数据集或结果(例如,受试者的癌症未来风险预测)。本发明可在可编程计算机上执行的计算机程序中实现,所述可编程计算机包括处理器、数据存储系统(包括易失性和非易失性存储器和/或存储元件)、图形适配器、指向装置、网络适配器、至少一个输入装置和至少一个输出装置。显示器联接到图形适配器。将程序代码应用于输入数据以执行上述功能并生成输出信息。以已知方式将输出信息应用于一个或多个输出装置。计算机可以是例如常规设计的个人计算机、微型计算机或工作站。
281.每个程序可以高级过程语言或面向对象的编程语言来实现以与计算机系统通信。然而,这些程序可根据需要以汇编语言或机器语言来实现。在任何情况下,语言可为编译或解释语言。每个此类计算机程序优选地被存储在由通用或专用可编程计算机可读的存储介质或装置(例如,rom或磁盘)上,以便在计算机读取存储介质或装置时配置和操作计算机以执行本文所述的过程。该系统还可被视为被实现为配置有计算机程序的计算机可读存储介质,其中如此配置的存储介质使得计算机以特定且预定义的方式操作以执行本文所述的功能。
282.可在多种介质中提供签名模式及其数据库以促进其使用。“介质”是指包含本发明的签名模式信息的制品。可将本发明的数据库记录在计算机可读介质(例如,可由计算机直接读取和访问的任何介质)上。此类介质包括但不限于:磁存储介质,诸如软盘、硬盘存储介质和磁带;光学存储介质,诸如cd-rom;电存储介质,诸如ram和rom;以及这些类别的混合,诸如磁/光学存储介质。本领域技术人员可容易地理解,当前已知的计算机可读介质中的任一者可如何用于创建包含本发明数据库信息的记录的制品。“记录的”是指用于使用本领域已知的任何此类方法在计算机可读介质上存储信息的过程。可基于用于访问所存储的信息的装置来选择任何方便的数据存储结构。多种数据处理器程序和格式可用于存储,例如文字处理文本文件、数据库格式等。
283.在一些实施方案中,本发明的方法(包括用于通过实现风险预测模型来预测癌症未来风险的方法)在分布式计算系统环境中(例如,云计算环境中)的一个或多个计算机上执行。在本说明书中,“云计算”被定义为用于实现对可配置计算资源的共享集合的按需网络访问的模型。可采用云计算来提供对可配置计算资源的共享集合的按需访问。可配置计算资源的共享集合可经由虚拟化来快速提供,并且以低管理工作量或服务提供商交互来发布,然后相应地进行缩放。云计算模型可由诸如例如按需自助服务、广泛网络接入、资源池化、快速弹性、可计量服务等的各种特性组成。云计算模型还可暴露各种服务模型,诸如例如软件即服务(“saas”)、平台即服务(“paas”)和基础设施即服务(“iaas”)。还可使用诸如私有云、社区云、公共云、混合云等的不同部署模型来部署云计算模型。在本说明书和权利要求书中,“云计算环境”是其中采用云计算的环境。
284.图4示出了用于实现图1a、图1b、图2a、图2b和图3所示的实体的示例性计算机。计算机400包括联接到芯片组404的至少一个处理器402。芯片组404包括存储器控制器集线器420和输入/输出(i/o)控制器集线器422。存储器406和图形适配器412联接到存储器控制器集线器420,并且显示器418联接到图形适配器412。存储装置408、输入装置414和网络适配
器416联接到i/o控制器集线器422。计算机400的其它实施方案具有不同架构。
285.存储装置408是非暂态计算机可读存储介质,诸如硬盘驱动器、光盘只读存储器(cd-rom)、dvd或固态存储器装置。存储器406保存由处理器402使用的指令和数据。输入接口414是触摸屏界面、鼠标、跟踪球或其他类型的指向装置、键盘或它们的某种组合,并且用于将数据输入到计算机400中。在一些实施方案中,计算机400可被配置成经由来自用户的手势从输入接口414接收输入(例如,命令)。网络适配器416将计算机400联接到一个或多个计算机网络。
286.图形适配器412在显示器418上显示图像和其它信息。在各种实施方案中,显示器418被配置成使得用户(例如,放射科医生、肿瘤科医生、肺科医生)可在显示器418上输入用户选择以例如启动患者的风险预测,安排任何附加检查或过程,和/或设定风险预测模型的参数。在一个实施方案中,显示器418可包括触摸界面。在各种实施方案中,显示器418可示出受试者的一个或多个癌症未来风险预测。因此,访问显示器418的用户可向受试者通知为受试者预测的癌症未来风险。在各种实施方案中,显示器418可示出诸如对受试者的癌症未来风险预测贡献最大的特征之类的信息。例如,被预测为具有癌症未来风险的受试者在很大程度上可归因于小叶中央型肺气肿所占据的受试者的肺的百分比。因此,可在显示器418上向用户(例如,临床医生用户)示出特征的鉴别和/或特征的值(例如,小叶中央型肺气肿所占据的受试者的肺的百分比)。在各种实施方案中,可在显示器418上示出对受试者的癌症未来风险预测贡献最大的前1个、前2个、前3个、前4个、前5个、前6个、前7个、前8个、前9个或前10个特征。显示最大贡献的特征可向用户(例如,临床医生用户)提供上下文以便理解得出癌症未来风险预测的特征。可将患者概况、ct图像、所生成的风险评估和任何其它相关信息存储到存储器,使得可在任何给定时间访问患者信息/结果。
287.计算机400适于执行计算机程序模块以便提供本文所述的功能。如本文所用,术语“模块”是指用于提供指定功能的计算机程序逻辑。因此,模块可在硬件、固件和/或软件中实现。在一个实施方案中,程序模块被存储在存储装置408上,被加载到存储器406中,并且由处理器402执行。
288.图1a或图1b的实体所使用的计算机400的类型可根据实体所需的实施方案和处理能力而改变。例如,癌症预测系统130可在单个计算机400中运行或在彼此通过网络(诸如服务器农场)通信的多个计算机400中运行。计算机400可缺少上述部件中的一些部件,诸如图形适配器412和显示器418。
289.x.系统
290.本文进一步公开了实现用于预测癌症未来风险的风险预测模型的系统。在各种实施方案中,这种系统可包括至少上文在图1a中所描述的癌症预测系统130。在各种实施方案中,癌症预测系统130被体现为计算机系统,诸如具有图4中所述的示例性计算机400的计算机系统。
291.在各种实施方案中,该系统包括成像装置,诸如上文在图1a中所描述的成像装置120。在各种实施方案中,该系统包括癌症预测系统130(例如,计算机系统)和成像装置两者。在此类实施方案中,癌症预测系统130可与成像装置120通信地联接以接收从受试者捕获的图像(例如,ct扫描)。计算机系统在计算机上(insilico)实现风险预测模型以分析图像并且确定受试者的肺癌未来风险。
292.xi.附加实施方案
293.已经进行了大量研究以确定标志着从正常组织修复到不受控制的细胞生长和癌症的转变的最早分子变化。很多这样的工作都聚焦于鉴别谁对吸烟所致肺损伤具有最强恢复力或易感性。这些损伤模式包括导致呼气气流阻塞的远端小气道疾病、肺实质的肺气肿性破坏、胶原和瘢痕组织的异常沉积(间质改变和纤维化)以及肺血管重建。越来越清楚的是,这些肺损伤模式(所有模式都以独特的方式表现易感性)的某种混合的形成会增加患肺癌的风险。
294.观察研究已经反复证明,发生呼气气流阻塞的吸烟者(copd(慢性阻塞性肺疾病)的定义性特征)未来患肺癌的风险增加。在患有copd并且其远端空域出现肺气肿性破坏的那些人中,该风险进一步增加。另外的研究已将间质性肺疾病和肺纤维化(另一种形式的吸烟相关肺损伤)与升高的肺癌风险联系起来,这再次支持以慢性损伤和修复为特征的病症可导致恶性肿瘤的普遍论点。最后,存在对长期烟草烟雾暴露的易感性的肺外表现诸如肌肉萎缩(这也可鉴别疾病风险增加的那些人),可能是因为肌肉系统与癌症之间的直接联系,但也因为去脂体质和骨骼肌肉系统的损失可能是来自已经损伤的肺的炎性溢出物的反映。长期烟草烟雾暴露所致损伤的所有这些肺表现和肺外表现都可在计算机断层扫描(ct)成像上检测。
295.可参考以下说明和附图来理解本公开。本公开涉及将医学图像分析和应用高级机器学习技术中的专门技术整合到从国家肺筛查试验(nlst)中获得的医学图像提取的度量的系统和方法。从这些医学图像提取的特征用于生成风险模型以预测未来肺癌。具体地,风险模型鉴别特征的模式/混合,该模式/混合可用于鉴别未来患肺癌的风险增加的吸烟者。
296.国家肺筛查试验(nlst)是随机对照试验以确定年度ct扫描是否可降低因肺癌引起的死亡。推动该研究的原假设是ct成像提供较高分辨率的体内数据,该数据将检出更适于治疗和治愈的早期癌症(或较小大小的结节)。该研究招募了大约53,000名吸烟者,将其中一半随机分组到年度ct扫描并将另一半随机分组到年度胸部x射线检查(cxr)。接受年度ct扫描的那些吸烟者出现因肺癌引起的死亡率的大约20%降低。这些令人振奋的结果带来了医疗保健的改变,因为肺癌筛查ct是预防医学的报销部分。
297.nlstct扫描和临床数据现在可供生物医学界免费获取,并且获得了来自15,000名个体的基线(t0)、第1年(t1)和第2年(t2)ct扫描。根据示例性实施方案,图像分析算法应用于所有这些扫描以提取肺气肿、间质改变、保留的肺组织和胸肌大小(面积)的度量,其中后一肌肉度量用作身体组成或去脂体质的代用指标。在一个实施方案中,将15,000个t0ct扫描分成两半以构建数据的专用训练集(n=7,500)和数据的测试集(n=7,500)。使用从ct图像提取的客观特征以及目视确定的结节及其特性(大小、形状等)的主观报告,创建了用于预测未来肺癌的鲁棒模型。模型策略基于随机森林方法以在训练数据中开发和优化决策树,从而预测期望的结局。使用该方法而不选择一定疾病负担的固定阈值(即,》10%肺气肿或》10%间质改变),是因为几乎一定存在肺气肿、间质改变和肌少症的若干组合,这些组合鉴别升高的肺癌风险。例如,其25%肺具有肺气肿的吸烟者可与具有2%肺气肿、12%间质改变和减少的胸肌面积的吸烟者一样具有升高的未来肺癌风险。
298.独立地训练基于随机森林的模型以预测在nlst中入组的吸烟者的1年、3年和5年未来肺癌风险。然后修改这些模型以实现偶发(新发)癌症的预测,而不是仅在t0ct扫描上
鉴别患有常见(业已存在的)癌症的那些人。该最终步骤利用描述ct图像中的任何肺结节的特征的可视数据。尽管示例性实施方案示出和描述了基于随机森林的模型,但本领域技术人员将理解,也可利用其它建模方法,诸如例如逻辑回归和xgboost。本领域技术人员也将理解,尽管风险预测模型被具体地示出和描述为提供1年、3年和5年风险预测,但是可根据需要改变预测期限。
299.肺癌的生命历程最常始于肺结节的形成。该结节可能是癌性的或可能是组织良性增生并随后发生恶性转化。放射学界公认了这一过程,并且为了使医学管理标准化,开发了评分系统以按其成为癌症的可能性来对ct扫描上发现的结节进行分期。该分期系统被称为肺ct筛查、报告和数据系统(lungrads)并且基于结节的大小、结节的生长速率和结节的外观。一般来讲,结节越大、其生长越快或其外观越不规则,则其成为癌症的可能性越大。
300.在一个实施方案中,lungrads评分系统用于从风险模型中去除最可能在t0扫描时患有常见癌症的人。为此,将具有最高lungrads评分(4a、4b和4x)的人排除在该特定分析之外(但纳入其他模型),同时保留患有较小、较低风险结节(2和3)(这些结节可能在未来日期成为癌症)的人。在排除所有患有lungrads 4结节的人之后重新训练用于1年、3年和5年风险预测的模型,然后将这些模型应用于nlst的测试子队列(n=7,500)。
301.放射学特征的组合仍可鉴别具有患肺癌的10 %绝对3年风险的人。此外,这些人中的大约1/3在基线t0扫描上没有结节,这表明这些模型不只是预测哪些结节可变为癌性的,而是预测哪些人可形成结节并随后被诊断为患有肺癌。可使用该方法生成一系列风险预测模型。这些模型随至患癌的时间(1年、3年和5年风险)和被排除的结节的性质而改变。因此该提交包括跨lungrads阶段(包括lungrads 4a、4b和4x)的所有模型。
302.附加放射学特征诸如血管和气道钙化、肺血管形态及骨矿物质密度也可表示可用于预测未来肺癌的疾病易感性的独特度量。结节特定特征也可整合到这些模型中。结节特定特征可包括例如结节位置、离肺气肿和间质改变的接近度、结节特性的变化率(绝对变化率和相对于规范标准的变化率两者)。
303.在另外一个实施方案中,这些基于图像的模型可整合到更全面的生物标志物组套中以进行风险评估和结节鉴别。这些组套包括但不限于蛋白质组学、遗传学、基因表达、无细胞循环肿瘤dna等,其中预计组合及高度敏感且特异性的标志物可得到最佳模型性能。
304.这些风险预测模型建立在从ct图像提取的客观特征和主观特征的混合的基础上。先前广泛的研究表明ct上的客观特征而非主观特征随ct扫描仪品牌、生成和图像重建软件而改变。受试者之间的疾病负担的附加地理变异性可能反映对有毒物质暴露的实际差异(即,一些人对暴露所致损伤可更为敏感或较不敏感,并且更加可能或较不可能形成肺组织中的肺气肿或间质改变)。出于这些原因,不使用用于确定疾病ct度量的存在和严重性的绝对阈值。相反,测试子队列中的数据各自通过减去平均值并除以每个协变量的标准偏差来归一化。当聚合附加队列以进行模型细化时,将使用所有现有数据(跨队列)或所选数据子集来执行数据归一化,该所选数据子集包括但不限于被认为最佳反映患者特定生物学、暴露史、种族或待处理的医学图像的类型的那些数据子集。一旦归一化,就将该数据用于基于随机森林的方法中以进行建模。
305.在一个实施方案中,客观特征包括例如肺实质特征(例如,肺实质的密度度量和肺实质中的间质改变的度量)和肌肉系统/胸壁的身体组成度量。肺实质的密度度量可包括例
如:以下区域所占据的肺的百分比:(i)低衰减区(laa),该laa被定义为具有小于-950亨氏单位(hu)的衰减的面积/体积,和(ii)高衰减区(haa),该haa被定义为具有-600hu与-250hu之间的衰减的肺的面积/体积;以及上肺区中的laa与下肺区中的laa之间的比率。肺实质中的间质改变的度量包括肺实质的局部直方图度量,即由例如正常组织、小叶中央型肺气肿、小叶中央型结节、磨玻璃、蜂窝、线性瘢痕、结节状结构、网状结构、胸膜下线、其它肺气肿和/或囊肿所占据的肺的百分比。肌肉系统/胸壁的身体组成度量可包括例如胸大肌横截面积、胸小肌横截面积、瘦胸大肌横截面积、瘦胸小肌横截面积、左或右胸大肌或胸小肌的总横截面积以及皮下脂肪横截面积。
306.使用来自nlst的数据来训练的风险预测模型提供了多模态风险评估和富集方法。例如,考虑一下在nlst中入组3年内患癌症的两名患者。两人均在基线时患有lung-rads 3结节,两人均被该算法预测为会在3年内患癌症,并且两人均在3年内患ia期腺癌。实际上,这两名患者患癌症的预测概率彼此偏差在2%以内(患者1为84.8%并且患者2为86.4%)。患者1为65岁白人女性曾吸烟者,其具有76包年吸烟史、23.5的bmi、相对较小的胸肌质量以及上叶为主的明显肺气肿(基于局部直方图分析得出的31体积%肺气肿)。76包年吸烟史相当于每天吸一包(20支)香烟并持续76年或每天吸两包香烟并持续38年。相比之下,患者2为59岁白人男性曾吸烟者,其具有43包年吸烟史、29.8的bmi、相对保留的胸肌质量以及轻度肺气肿(基于局部直方图分析得出的2.6体积%肺气肿),但明显更多的间质性特征(7.1%相比于4%)。在该第二病例中,正是该最后特征及间质性特征与癌症之间的较强关系可能引起该算法预测会在3年内患癌症。这两个病例之间的临床和放射学差异突出了风险预测模型鉴别具有截然不同表型并可能患癌症的患者的能力。
307.根据另外一个实施方案,用于预测每人未来癌症风险的模型也可用于预测该未来癌症的位置。在一个实施方案中,该数据被分成三份以表示按体积计以及按叶计的肺的上、中和下三分之一。可执行模型训练和测试,并且可计算未来肺癌的区域(按1/3份计以及按叶计的体积)风险。这些附加数据使得能够使用吸入和经支气管镜施用的药物和装置来进行集中区域诊断评估和治疗干预。本领域技术人员将理解,肺可被分成具有任何数量的构型的任何数量的区域。
308.根据本公开的示例性实施方案的系统基于患者的肺的ct图像来预测未来肺癌的风险。该系统可包括处理器以及用户界面、显示器和存储器。处理器包括如上所述的风险预测模型,这些风险预测模型可提供与未来患癌症的可能性有关的患者特定的评估。这些风险预测模型可由处理器实现为例如由处理器执行的代码行,实现为由处理器执行的固件,实现为作为专用集成电路(asic)的处理器的功能等。本领域技术人员还将理解,尽管该系统被示出和描述为包括具有单个处理器、用户界面、显示器和存储器的计算系统,但是该系统可由计算系统的网络构成,每个计算系统包括上述部件中的一个或多个部件。在一个示例中,风险预测模型可经由网络的中央处理器执行,该网络可经由多个不同用户站访问。另选地,风险预测模型可经由一个或多个处理器执行。
309.为鉴别未来癌症风险最大的人而创建的风险预测模型将使得临床试验能够集中于高风险个体的癌症预防和治疗,以及能够通过鉴别哪些人应进行最积极的随访和筛查以在其最早期检出癌症,由此进行临床护理。可在一个或多个计算站的显示器上向用户输出和显示患者特定的风险评估。患者特定的风险评估可按多种配置中的任何配置提供。风险
评估可包括预测的风险水平和/或风险的时间表(例如,1年、3年和5年风险)。在一个实施方案中,为了启用建模数据的可视化,将按人和按区域对ct扫描进行颜色编码。具有最高风险的那些区域将被着色为红色。中等风险区域将为黄色并且低风险区域将为绿色。这样做的结果是未来肺癌低风险的人可具有着色为绿色的其全肺图像,而未来肺癌高风险的某人可具有带红色(对应于高风险)、黄色(中等风险)和绿色(低风险)区域的ct图像。例如,这些颜色编码图可呈现在胸部放射科医生的放射科阅片室中的显示器上(以帮助临床解释)以及呈现在由肺科医生、肿瘤科医生和程序医生(proceduralist)用来进行靶向治疗的基于图像的工作站的显示器上。根据一个实施方案,基于使用案例和可视化模式,将使用三种颜色以及从红色到绿色的连续颜色梯度来生成这些图。然而,本领域技术人员将理解,可使用多种颜色和配置中的任一者来生成这些图,只要所生成的图向用户指示预测的未来肺癌风险即可。
310.用户(例如,放射科医生、肿瘤科医生、肺科医生)可在用户界面上输入用户选择以例如启动患者的风险预测,安排任何附加检查或过程,和/或设定风险预测模型的参数。用户界面可包括输入装置,诸如例如键盘和/或鼠标。在一个实施方案中,用户界面可包括显示器上启用的触摸界面。可将患者概况、ct图像、所生成的风险评估和任何其它相关信息存储到存储器,使得可在任何给定时间经由用户访问患者信息/结果。
311.基于图像的风险预测可包括1年、3年和5年肺癌风险的预测。该系列模型将用于通过实现临床试验和最终临床护理来开发肺癌的预防性疗法。由于事件率(未来肺癌)将高于本底,临床试验将更有效且可行,从而允许较小的队列大小并且潜在地减少为减少一个肺癌病例而需要治疗的患者的数量。在鉴别用于预防肺癌的有效疗法之后,该模型可在临床试验之外用作临床护理中的生物标志物以鉴别可从治疗中获得最佳收益的那些人。由于所有治疗都涉及一些程度的风险,获知谁最可能患肺癌将影响关于为个体实施疗法的风险/收益决策分析和报销。
312.根据另外一个实施方案,风险预测模型可为鉴别肺癌的细胞类型(包括腺癌和鳞状细胞癌)的不同风险提供依据。这些差异基于癌症来源的细胞类型并且可能影响与治疗方法和患者结局相关的决策。
313.风险预测模型提供每个患者水平的患肺癌的概率。可使用肺易感性的区域度量修改这些模型以预测该个体的肺癌的未来位置。由于可能日渐利用支气管镜检查过程来诊断、治疗和预防肺癌,因此获知将形成肺癌的叶和叶的区域将有利于可疑病灶或结节的诊断性活检和/或疗法的局部施用以预防恶性转化。
314.本文所述的风险预测模型还可用于疗法选择和医疗决策。所有人都存在发病和死亡的竞争性风险。例如,吸烟者可能患肺癌、心脏病或脑血管疾病,所有这些疾病都可能是侵袭性的并会危及生命。本文档中详述的风险预测模型可与其他临床上利用的现有风险模型诸如(用于预测未来心脏病的)弗雷明汉心脏研究风险评分(framinghamheartstudyriskscore)整合在一起以提供如何维持患者健康的更全面评估并告知患者其最迫切的医疗保健需求。
315.该系统的处理器处理患者的ct图像以提取与实质损伤和身体组成相关的特征。需注意,附加建模可扩展那些特征的列表以包括其它数据(包括但不限于血管和气道钙化、肺血管形态、骨矿物质密度以及结节特定特征诸如生长速率及离肺气肿和间质改变两者的接
近度)。使用在训练集中收集的ct特征的分布来在每个受试者水平上归一化数据。该训练集将包括表示不同地理区域、暴露和肿瘤生物学的多个队列。利用随机森林生成的风险预测模型来预测未来肺癌的风险(每个人和每个肺区域)。可在显示器上向用户显示风险评估,在一个实施方案中,该风险评估可包括基于未来癌症的区域风险来对肺的颜色编码(红色、黄色和绿色表示未来癌症的高、中和低风险)。
316.本文公开了附加实施方案,这些附加实施方案包括一种方法,该方法包括:从患者的肺的ct图像提取特征;使数据(包括来自患者的肺的ct图像的提取的特征)归一化;以及使用风险预测模型来生成风险评估,该风险评估包括肺癌未来风险的预测。在各种实施方案中,风险评估包括以未来癌症的区域风险为依据的患者的肺的颜色编码图像。在各种实施方案中,风险预测模型鉴别指示肺癌风险增加的肺特征的模式和混合中的一者。在各种实施方案中,提取的特征包括肺气肿、间质改变、保留的肺组织和胸肌大小的度量中的一者。
317.本文另外公开了一种系统,该系统包括:存储可执行程序的非暂态计算机可读存储介质;以及处理器,该处理器执行可执行程序以致使该处理器:从患者的肺的ct图像提取特征;使数据(包括来自患者的肺的ct图像的提取的特征)归一化;以及使用风险预测模型来生成风险评估,该风险评估包括肺癌未来风险的预测。
318.示例
319.下面是用于执行本发明的特定实施方案的实施例。这些实施例仅提供用于说明目的,并不旨在以任何方式限制本发明的范围。已努力确保关于所使用的数字(例如量、温度等)的准确性,但应容许一些实验误差和偏差。
320.实施例1:构建风险预测模型和分析概述
321.分析来自国家肺癌筛查试验(nlst)队列的计算机断层扫描(ct)图像以跨不同未来跨度时间点(例如,1年内、3年内或5年内)预测患者患癌症的可能性。使用预测的癌症未来风险来鉴别针对肺癌形成进行富集的患者群体。
322.国家肺筛查试验(nlst)是随机对照试验以确定年度ct扫描是否可降低因肺癌引起的死亡。推动该研究的原假设是ct成像提供较高分辨率的体内数据,该数据将检出更适于治疗和治愈的早期癌症(或较小大小的结节)。该研究招募了大约53,000名吸烟者,将其中一半随机分组到年度ct扫描并将另一半随机分组到年度胸部x射线检查(cxr)。接受年度ct扫描的那些吸烟者出现因肺癌引起的死亡率的大约20%降低。这些令人振奋的结果带来了医疗保健的改变,因为肺癌筛查ct是预防医学的报销部分。
323.nlstct图像和临床数据现在可供生物医学界免费获取,并且获得了ct扫描。全部患者的总体人口统计学和详情示于表2中。图像分析算法应用于ct图像以提取诸如肺气肿、间质改变、保留的肺组织和胸肌大小(面积)之类的特征,其中后一肌肉度量用作身体组成或去脂体质的代用指标。将这些ct扫描分成两半以构建数据的专用训练集和数据的测试集。使用从ct图像提取的客观特征(例如,非结节特定特征)以及目视确定的结节及其特性(例如,结节特定特征诸如结节大小、形状等)的主观特征,创建了用于预测未来肺癌的鲁棒模型。
324.从ct图像提取特征(例如,变量)。基于先前的经验并基于可能的生物相关性来选择所包括的特征。
325.对于以下实施例2至11中所述的风险预测模型而言,使用以下非结节特定特征:
326.1)肺实质的密度度量
327.a.以下区域所占据的肺的百分比:
328.i.低衰减区(laa),该laa被定义为具有小于-950亨氏单位(hu)的衰减的面积/体积
329.ii.高衰减区(haa),该haa被定义为具有-600hu与-250hu之间的衰减的肺的面积/体积。
330.b.上肺区中的laa与下肺区中的laa之间的比率(比率laa)
331.2)肌肉系统/胸壁的身体组成度量
332.a.胸大肌横截面积
333.b.胸小肌横截面积
334.c.瘦胸大肌横截面积
335.d.瘦胸小肌横截面积
336.e.皮下脂肪横截面积(轴向或冠状位)
337.3)肺实质的局部直方图度量
338.a.以下区域所占据的肺的百分比:
339.i.正常组织
340.ii.小叶中央型肺气肿
341.iii.小叶中央型结节
342.iv.磨玻璃
343.v.蜂窝
344.vi.线性瘢痕
345.vii.结节状结构
346.viii.网状结构
347.ix.胸膜下线
348.x.其它肺气肿
349.xi.囊肿
350.对于以下实施例2至6中所述的风险预测模型而言,以下结节特定特征包括:
351.1)衰减
352.2)边缘描述
353.3)直径
354.4)肺ct筛查、报告和数据系统(lung-rads)评分
355.对于以下实施例7至11中所述的风险预测模型而言,从初始ct图像、子波变换的ct图像和高斯变换的ct图像提取以下影像组学特征(例如,结节特定特征)。
356.1)一阶统计量
357.2)基于3d形状的特征
358.3)基于2d形状的特征
359.4)灰度共生矩阵
360.5)灰度游程矩阵
361.6)灰度区域大小矩阵
362.7)邻域灰度差矩阵
363.8)灰度依赖性矩阵。
364.具体使用的特征不包括临床特性,这意味着总队列的临床特性是nlst特性。下面按肺癌预测类别示出了临床特性。
365.风险预测模型建立在从ct图像提取的客观特征(例如,非结节特定特征)和主观特征(例如,结节特定特征)的混合的基础上。ct上的客观特征而非主观特征随ct扫描仪品牌、生成和图像重建软件而改变。受试者之间的疾病负担的附加地理变异性可能反映对有毒物质暴露的实际差异(即,一些人对暴露所致损伤可更为敏感或较不敏感,并且更加可能或较不可能形成肺组织中的肺气肿或间质改变)。出于这些原因,不使用用于确定疾病ct度量的存在和严重性的绝对阈值。相反,测试子队列中的数据各自通过减去平均值并除以每个协变量的标准偏差来归一化。当聚合附加队列以进行模型细化时,将使用所有现有数据(跨队列)或所选数据子集来执行数据归一化,该所选数据子集包括但不限于被认为最佳反映患者特定生物学、暴露史、种族或待处理的医学图像的类型的那些数据子集。一旦归一化,就将该数据用于基于随机森林的方法中以进行建模。
366.首先进行数据的预处理。这包括使连续特征的值归一化(例如,通过定中心(减去平均值)和缩放(除以标准偏差))。仅使用来自训练集的信息执行测试集的归一化。即,使用训练集平均值和标准偏差来使训练集和测试集两者归一化。另外,预处理包括执行多数类别(无癌症)的降采样以考虑不平衡数据,即考虑癌症诊断相对罕见的事实。考虑了诸如smote和rose之类的替代方法,但这些方法具有与降采样类似的性能并具有更高的计算要求。
367.评估多种建模方法以构建包括逻辑回归、xgboost和随机森林的风险预测模型。独立地训练基于随机森林的模型以预测在nlst中入组的吸烟者的1年、3年和5年未来肺癌风险。模型策略基于随机森林方法以在训练数据中开发和优化决策树,从而预测期望的结局。使用该方法而不选择一定疾病负担的固定阈值(即,》10%肺气肿或》10%间质改变),是因为几乎一定存在肺气肿、间质改变和肌少症的若干组合,这些组合鉴别升高的肺癌风险。例如,其25%肺具有肺气肿的吸烟者可与具有2%肺气肿、12%间质改变和减少的胸肌面积的吸烟者一样具有升高的未来肺癌风险。然后修改这些模型以实现偶发(新发)癌症的预测,而不是仅在ct扫描上鉴别患有常见(业已存在的)癌症的那些人。该最终步骤利用描述ct图像中的任何肺结节的特征的可视数据。尽管示例性实施方案示出和描述了基于随机森林的模型和梯度提升模型,但本领域技术人员将理解,也可利用其它建模方法,诸如例如逻辑回归。本领域技术人员也将理解,尽管风险预测模型被具体地示出和描述为提供1年、3年和5年风险预测,但是可根据需要改变预测期限。
368.为了构建风险预测模型,将该队列按50/50拆分成训练组和测试组。在测试组上训练模型并使用重复三次的10倍交叉验证执行调优。通过使交叉采样的训练队列中的f评分最大化来执行预测概率的二分法。所建模的结局包括1年、3年和5年时癌症的诊断。性能度量和可视化包括roc曲线的呈现和对所有时间点的富集(如以下实施例中所述)。还在以下实施例中预测/示出了以3年癌症预测为依据的富集和非富集队列的累积发病率函数和人口统计学。
369.构建模型以预测整个患者队列或患者亚组的癌症未来风险。基于在基线时被评定/分类为lung-rads《4b、《4a、《3和《2的结节来对患者的亚组进行分类。lung-rads《4b包括被分类为lung-rads 1-4a的患者。lung-rads《4a包括被分类为lung_rads 1-3的患者。lung-rads《3包括被分类为lung_rads 1-2的患者。lung-rads《2包括被分类为lung_rads 1的患者。表1总结了不同lung-rads分类的特性。全队列的人口统计信息和患者特性(包括lung-rads分类)示于表2中。
370.为每个患者亚组创建了单独风险预测模型。即,所指定的性能不是仅仅应用于所阐述的亚组的整个队列的模型的性能,而是在该亚组的患者上训练的亚组特定模型的性能。
371.如以下实施例中所示,所有结果表示基于在训练队列中开发/训练且随后应用于测试队列的模型的性能/发现。在富集表中,单独地训练每个时间跨度(1年、3年和5年)的风险预测模型,因为1年癌症风险的最重要特征不一定与3年和5年癌症风险的最重要特征相同。这意味着例如3年的累积发病率不只是从上一行(1年)起的累积发病率加上病例区间数。
372.当解释累积发病率函数图时,由于删失和死亡,y轴上的原始概率受到风险集变化的显著影响。包括这些图主要是为了按亚组展示其形状的变化。需特别注意的是这样的事实:在排除更大/更令人担忧的结节的情况下,第一年没有那么突然的癌症诊断增加。
373.当审查接受者操作特性(roc)曲线和曲线下面积(auc)值时,需注意,包括这些曲线和值主要是为了参考(鉴于它们的熟悉性和在文献中的使用)。由于这些模型被调优(例如,被称为“经调优的风险预测模型”)到查准率-查全率曲线下面积,因此roc下面积并未因该调优过程而显著改善。
374.当考虑入组的潜在资格时,需注意,基于lung-rads标准,患有4a和4b结节的那些个体将需要提早评估。然而,两者、尤其是4a的显著百分比将不是常见癌症,因此可潜在地能够在未来偶发癌症的潜在研究中入组。
375.相对入组比率和百分比是lung-rads亚组的ct筛查与入组比率。绝对入组百分比基于总队列的大小。
376.实施例2:预测lung-rads 1-4b的未来风险
377.使用实施例1中所述的方法利用全患者队列来构建三个单独模型。具体地,第一模型是1年lung-rads 1-4b风险预测模型,第二模型是3年lung-rads 1-4b风险预测模型,并且第三模型是5年lung-rads 1-4b风险预测模型。对于每个风险预测模型而言,训练集(例如,50%的队列)用于训练风险预测模型并且测试集(例如,另50%的队列)用于测试风险预测模型。
378.1年、3年和5年风险预测模型各自的前10个重要特征示于表3中。值得注意的是,1年风险预测模型的大多数重要特征包括结节特定特征,而3年和5年风险预测模型的大多数重要特征是客观特征(例如,非结节特定特征,诸如身体和/或肺实质的特征)。
379.值得注意的是,对于1年lung-rads 1-4b预测模型而言,特征重要性方面的前三个特征是结节特定特征。另外,1年lung-rads 1-4b预测模型的特征重要性方面的前5个特征中的4个特征是结节特定特征。另外,1年lung-rads 1-4b预测模型的特征重要性方面的前10个特征中的6个特征是非结节特定特征。对于3年lung-rads 1-4b预测模型而言,特征重
要性方面的前3个特征中的2个特征是结节特定特征。另外,3年lung-rads 1-4b预测模型的特征重要性方面的前5个特征中的3个特征是结节特定特征。另外,3年lung-rads 1-4b预测模型的特征重要性方面的前10个特征中的6个特征是非结节特定特征。对于5年lung-rads 1-4b预测模型而言,特征重要性方面的前3个特征中的2个特征是结节特定特征。另外,5年lung-rads 1-4b预测模型的特征重要性方面的前5个特征中的3个特征是非结节特定特征。另外,5年lung-rads 1-4b预测模型的特征重要性方面的前10个特征中的7个特征是非结节特定特征。
380.图5a描绘了用于跨lung-rads 1-4b患者预测1年内癌症的可能性的风险预测模型的性能。基础随机森林风险预测模型表现出0.92的auc值,而经调优的随机森林风险预测模型表现出0.90的auc值。图5b描绘了用于跨lung-rads 1-4b患者预测3年内癌症的可能性的风险预测模型的性能。基础随机森林风险预测模型表现出0.79的auc值,而经调优的随机森林风险预测模型表现出0.79的auc值。另外,表4根据3年风险预测模型所确定的癌症预测来记载lung-rads 1-4b患者的特性。
381.图5c描绘了用于跨lung-rads 1-4b患者预测5年内癌症的可能性的风险预测模型的性能。基础随机森林风险预测模型表现出0.74的auc值,而经调优的随机森林风险预测模型表现出0.74的auc值。总之,图5a至图5c的结果表明,可构建并部署不同风险预测模型以跨不同未来跨度时间点预测lung-rads 1-4b患者的癌症可能性。
382.图5d描绘了跨lung-rads 1-4b患者的3年累积发病率函数。此处,风险预测模型预测450名患者会患癌症并且另外6643名患者不会患癌症。考虑到这包括lung-rads 1-4b患者(其包括肺癌风险最大的结节,例如lung-rads 4a/4b),450名预测癌症患者的累积发病率函数反映了在最初几个月内(例如,0与6个月之间)发病率更高,相比之下,在随后几年内发病率更低。
383.表5描绘了使用来自1年、3年或5年风险预测模型的未来癌症预测得出的全患者队列的富集结果。具体地,表5示出了与初始队列中的癌症本底率(在表5中称为“零模型”)相比风险预测模型的富集结果。风险预测模型的应用显著改善了累积发病率(表5的最后一列)。
384.具体地,对于1年模型而言,本底率(“零模型”)具有1.79的累积发病率(例如,队列中的1.79%患者在1年内被诊断为患有癌症)。应用1年风险预测模型(“随机森林”)能够进行患者富集,这实现了19.72的累积发病率(例如,因1年风险预测模型的预测而纳入队列中的19.72%患者在1年内被诊断为患有癌症)。因此,1年风险预测模型的应用实现了累积发病率的11倍增加。
385.对于3年模型而言,本底率(“零模型”)具有4.2的累积发病率(例如,队列中的4.2%患者在3年内被诊断为患有癌症)。应用3年风险预测模型(“随机森林”)能够进行患者富集,这实现了26.44的累积发病率(例如,因3年风险预测模型的预测而纳入队列中的26.44%患者在3年内被诊断为患有癌症)。因此,3年风险预测模型的应用实现了累积发病率的6.3倍增加。
386.对于5年模型而言,本底率(“零模型”)具有5.58的累积发病率(例如,队列中的5.58%患者在5年内被诊断为患有癌症)。应用5年风险预测模型(“随机森林”)能够进行患者富集,这实现了28.43的累积发病率(例如,因5年风险预测模型的预测而纳入队列中的
28.43%患者在5年内被诊断为患有癌症)。因此,5年风险预测模型的应用实现了累积发病率的5.1倍增加。
387.总之,表5指示可实现各种风险预测模型以便富集lung-rads 1-4b患者,从而减少需要在临床试验中入组的患者的数量。
388.实施例3:预测lung-rads 1-4a患者的未来风险
389.使用实施例1中所述的方法利用lung-rads 1-4a患者来构建三个单独模型。具体地,第一模型是1年lung-rads 1-4a风险预测模型,第二模型是3年lung-rads 1-4a风险预测模型,并且第三模型是5年lung-rads 1-4a风险预测模型。对于每个风险预测模型而言,训练集(例如,50%的队列)用于训练风险预测模型并且测试集(例如,另50%的队列)用于测试风险预测模型。
390.1年、3年和5年风险预测模型各自的前10个重要特征示于表6中。值得注意的是,1年风险预测模型的前10个特征中的5个特征包括结节特定特征,而3年和5年风险预测模型的大多数重要特征是客观特征(例如,非结节特定特征,诸如身体和/或肺实质的特征)。
391.具体地,对于1年lung-rads 1-4a预测模型而言,特征重要性方面的前3个特征是结节特定特征。另外,1年lung-rads 1-4a预测模型的特征重要性方面的前5个特征中的4个特征是结节特定特征。另外,1年lung-rads 1-4a预测模型的特征重要性方面的前10个特征中的5个特征是结节特定特征。
392.对于3年lung-rads 1-4a预测模型而言,特征重要性方面的前3个特征中的2个特征是结节特定特征。另外,3年lung-rads 1-4a预测模型的特征重要性方面的前5个特征中的4个特征是结节特定特征。另外,3年lung-rads 1-4a预测模型的特征重要性方面的前10个特征中的5个特征是结节特定特征。
393.对于5年lung-rads 1-4a预测模型而言,特征重要性方面的前3个特征中的2个特征是结节特定特征。另外,5年lung-rads 1-4a预测模型的特征重要性方面的前5个特征中的3个特征是非结节特定特征。另外,5年lung-rads 1-4a预测模型的特征重要性方面的前10个特征中的8个特征是非结节特定特征。
394.图6a描绘了用于跨lung-rads 1-4a患者预测1年内癌症的可能性的风险预测模型的性能。基础随机森林风险预测模型表现出0.81的auc值,而经调优的随机森林风险预测模型表现出0.85的auc值。图6b描绘了用于跨lung-rads 1-4a患者预测3年内癌症的可能性的风险预测模型的性能。基础随机森林风险预测模型表现出0.73的auc值,而经调优的随机森林风险预测模型表现出0.72的auc值。另外,表7根据3年风险预测模型所确定的癌症预测来记载lung-rads 1-4a患者队列的特性。
395.图6c描绘了用于跨lung-rads 1-4a患者预测5年内癌症的可能性的风险预测模型的性能。基础随机森林风险预测模型表现出0.73的auc值,而经调优的随机森林风险预测模型表现出0.72的auc值。总之,图6a至图6c的结果表明,可构建并部署不同风险预测模型以跨不同未来跨度时间点预测lung-rads 1-4a患者队列的癌症可能性。换句话讲,即使已去除风险最高的患者(例如,lung-rads 4b),风险预测模型仍能够准确地预测较低风险患者(例如,lung-rads 1-4a)的癌症未来风险的可能性。
396.图6d描绘了跨lung-rads 1-4a患者的3年累积发病率函数。此处,风险预测模型预测392名患者会患癌症并且另外6531名患者不会患癌症。考虑到与实施例2(图5d所示)相比
患者队列排除了lung-rads 4b患者,图6d所示的392名预测癌症患者的累积发病率函数反映了在最初几个月内(例如,0与6个月之间)发病率更低(例如,在t0ct扫描时存在更少常见癌症或更少癌症)。
397.表8描绘了使用来自1年、3年或5年风险预测模型的未来癌症预测得出的lung-rads 1-4a患者队列的富集结果。具体地,表8示出了与初始队列中的癌症本底率(在表8中称为“零模型”)相比风险预测模型的富集结果。风险预测模型的应用显著改善了累积发病率(表8的最后一列)。
398.具体地,对于1年模型而言,本底率(“零模型”)具有0.98的累积发病率(例如,队列中的0.98%患者在1年内被诊断为患有癌症)。应用1年风险预测模型(“随机森林”)能够进行患者富集,这实现了7.48的累积发病率(例如,因1年风险预测模型的预测而纳入队列中的7.48%患者在1年内被诊断为患有癌症)。因此,1年风险预测模型的应用实现了累积发病率的7.6倍增加。
399.对于3年模型而言,本底率(“零模型”)具有3.28的累积发病率(例如,队列中的3.28%患者在3年内被诊断为患有癌症)。应用3年风险预测模型(“随机森林”)能够进行患者富集,这实现了16.84的累积发病率(例如,因3年风险预测模型的预测而纳入队列中的26.44%患者在3年内被诊断为患有癌症)。因此,3年风险预测模型的应用实现了累积发病率的5.1倍增加。
400.对于5年模型而言,本底率(“零模型”)具有4.65的累积发病率(例如,队列中的4.65%患者在5年内被诊断为患有癌症)。应用5年风险预测模型(“随机森林”)能够进行患者富集,这实现了17.97的累积发病率(例如,因5年风险预测模型的预测而纳入队列中的17.97%患者在5年内被诊断为患有癌症)。因此,5年风险预测模型的应用实现了累积发病率的3.9倍增加。
401.总之,表8指示可实现各种未来风险预测模型以便富集lung-rads 1-4a队列中的患者,从而减少需要在临床试验中入组的患者的数量。
402.实施例4:预测lung-rads 1-3患者的未来风险
403.使用实施例1中所述的方法利用lung-rads 1-3患者来构建三个单独模型。具体地,第一模型是1年lung-rads 1-3风险预测模型,第二模型是3年lung-rads 1-3风险预测模型,并且第三模型是5年lung-rads 1-3风险预测模型。对于每个风险预测模型而言,训练集(例如,50%的队列)用于训练风险预测模型并且测试集(例如,另50%的队列)用于测试风险预测模型。
404.1年、3年和5年风险预测模型各自的前10个重要特征示于表9中。值得注意的是,1年风险预测模型的大多数重要特征包括结节特定特征,而3年和5年风险预测模型的大多数重要特征是客观特征(例如,非结节特定特征,诸如身体和/或肺实质的特征)。
405.值得注意的是,对于1年lung-rads 1-3预测模型而言,特征重要性方面的前3个特征中的2个特征是结节特定特征。另外,1年lung-rads1-3预测模型的特征重要性方面的前5个特征中的3个特征是非结节特定特征。另外,1年lung-rads 1-3预测模型的特征重要性方面的前10个特征中的7个特征是非结节特定特征。
406.对于3年lung-rads 1-3预测模型而言,特征重要性方面的前3个特征中的2个特征是非结节特定特征。另外,3年lung-rads 1-3预测模型的特征重要性方面的前5个特征中的
4个特征是非结节特定特征。另外,3年lung-rads 1-3预测模型的特征重要性方面的前10个特征中的8个特征是非结节特定特征。
407.对于5年lung-rads 1-3预测模型而言,特征重要性方面的前3个特征中的2个特征是非结节特定特征。另外,5年lung-rads 1-3预测模型的特征重要性方面的前5个特征中的4个特征是非结节特定特征。另外,5年lung-rads 1-3预测模型的特征重要性方面的前10个特征中的9个特征是非结节特定特征。
408.图7a描绘了用于跨lung-rads 1-3患者预测1年内癌症的可能性的风险预测模型的性能。基础随机森林风险预测模型表现出0.82的auc值,而经调优的随机森林风险预测模型表现出0.82的auc值。图7b描绘了用于跨lung-rads 1-3患者预测3年内癌症的可能性的风险预测模型的性能。基础随机森林风险预测模型表现出0.72的auc值,而经调优的随机森林风险预测模型表现出0.73的auc值。另外,表10根据3年风险预测模型所确定的癌症预测来记载lung-rads 1-3患者队列的特性。
409.图7c描绘了用于跨lung-rads 1-3患者预测5年内癌症的可能性的风险预测模型的性能。基础随机森林风险预测模型表现出0.67的auc值,而经调优的随机森林风险预测模型表现出0.68的auc值。总之,图7a至图7c的结果表明,可构建并部署不同风险预测模型以跨不同未来跨度时间点预测lung-rads 1-3患者队列的癌症可能性。换句话讲,即使已去除风险最高的患者(例如,lung-rads 4a/4b),风险预测模型仍能够准确地预测较低风险患者(例如,lung-rads 1-3)的癌症未来风险的可能性。
410.图7d描绘了跨lung-rads 1-3患者的3年累积发病率函数。此处,风险预测模型预测324名患者会患癌症并且另外6085名患者不会患癌症。考虑到患者队列排除了lung-rads 4a和4b患者两者,4a和4b患者的去除表现为与图5d所示的实施例2中的预测癌症患者相比在最初几个月内(例如,0与6个月之间)324名预测癌症患者的癌症发病率更低。具体地,lung-rads 1-3患者队列的1年标记时的累积发病率小于0.1(图7d所示),而全患者队列(例如,lung-rads 1-4b)的1年标记时的累积发病率为约0.2。
411.表11描绘了使用来自1年、3年或5年风险预测模型的未来癌症预测得出的lung-rads 1-3患者队列的富集结果。具体地,表11示出了与初始队列中的癌症本底率(在表11中称为“零模型”)相比风险预测模型的富集结果。风险预测模型的应用显著改善了累积发病率(表11的最后一列)。
412.具体地,对于1年模型而言,本底率(“零模型”)具有0.70的累积发病率(例如,队列中的0.70%患者在1年内被诊断为患有癌症)。应用1年风险预测模型(“随机森林”)能够进行患者富集,这实现了6.03的累积发病率(例如,因1年风险预测模型的预测而纳入队列中的6.03%患者在1年内被诊断为患有癌症)。因此,1年风险预测模型的应用实现了累积发病率的8.6倍增加。
413.对于3年模型而言,本底率(“零模型”)具有2.73的累积发病率(例如,队列中的2.73%患者在3年内被诊断为患有癌症)。应用3年风险预测模型(“随机森林”)能够进行患者富集,这实现了15.43的累积发病率(例如,因3年风险预测模型的预测而纳入队列中的15.43%患者在3年内被诊断为患有癌症)。因此,3年风险预测模型的应用实现了累积发病率的5.7倍增加。
414.对于5年模型而言,本底率(“零模型”)具有4.06的累积发病率(例如,队列中的
4.06%患者在5年内被诊断为患有癌症)。应用5年风险预测模型(“随机森林”)能够进行患者富集,这实现了14.88的累积发病率(例如,因5年风险预测模型的预测而纳入队列中的14.88%患者在5年内被诊断为患有癌症)。因此,5年风险预测模型的应用实现了累积发病率的3.7倍增加。
415.总之,表11指示可实现各种风险预测模型以便富集lung-rads 1-3队列中的患者,从而减少需要在临床试验中入组的患者的数量。
416.实施例5:预测lung-rads 1-2患者的未来风险
417.使用实施例1中所述的方法利用lung-rads 1-2患者来构建三个单独模型。具体地,第一模型是1年lung-rads 1-2风险预测模型,第二模型是3年风险lung-rads 1-2预测模型,并且第三模型是5年风险lung-rads 1-2预测模型。对于每个风险预测模型而言,训练集(例如,50%的队列)用于训练风险预测模型并且测试集(例如,另50%的队列)用于测试风险预测模型。
418.1年、3年和5年风险预测模型各自的前10个重要特征示于表12中。值得注意的是,1年风险预测模型的大多数重要特征包括结节特定特征,而3年和5年风险预测模型的大多数重要特征是客观特征(例如,非结节特定特征,诸如身体和/或肺实质的特征)。
419.值得注意的是,对于1年lung-rads 1-2预测模型而言,特征重要性方面的前3个特征中的2个特征是结节特定特征。另外,1年lung-rads1-2预测模型的特征重要性方面的前5个特征中的3个特征是非结节特定特征。另外,1年lung-rads 1-2预测模型的特征重要性方面的前10个特征中的8个特征是非结节特定特征。
420.对于3年lung-rads 1-2预测模型而言,特征重要性方面的前3个特征是非结节特定特征。另外,3年lung-rads 1-2预测模型的特征重要性方面的前5个特征是非结节特定特征。另外,3年lung-rads 1-2预测模型的特征重要性方面的前10个特征中的8个特征是非结节特定特征。
421.对于5年lung-rads 1-2预测模型而言,特征重要性方面的前3个特征是非结节特定特征。另外,5年lung-rads 1-2预测模型的特征重要性方面的前5个特征是非结节特定特征。另外,5年lung-rads 1-2预测模型的特征重要性方面的前10个特征是非结节特定特征。
422.图8a描绘了用于跨lung-rads 1-2患者预测1年内癌症的可能性的风险预测模型的性能。基础随机森林风险预测模型表现出0.73的auc值,而经调优的随机森林风险预测模型表现出0.72的auc值。图8b描绘了用于跨lung-rads 1-2患者预测3年内癌症的可能性的风险预测模型的性能。基础随机森林风险预测模型表现出0.66的auc值,而经调优的随机森林风险预测模型表现出0.65的auc值。另外,表13根据3年风险预测模型所确定的癌症预测来记载lung-rads 1-2患者队列的特性。
423.图8c描绘了用于跨lung-rads 1-2患者预测5年内癌症的可能性的风险预测模型的性能。基础随机森林风险预测模型表现出0.65的auc值,而经调优的随机森林风险预测模型表现出0.65的auc值。总之,图8a至图8c的结果表明,可构建并部署不同风险预测模型以跨不同未来跨度时间点预测lung-rads 1-2患者队列的癌症可能性。换句话讲,即使已去除风险较高的患者(例如,lung-rads 3/4a/4b),风险预测模型仍能够准确地预测低风险患者(例如,lung-rads 1-2)的癌症未来风险的可能性。值得注意的是,如表1所示,lung-rads 1-2个体的患病率为该群体的约90%。因此,能够预测lung-rads 1-2患者队列的癌症可能
性的风险预测模型很有价值,因为其可应用于患者群体的绝大多数。
424.图8d描绘了跨lung-rads 1-2患者的3年累积发病率函数。此处,风险预测模型预测294名患者会患癌症并且另外5314名患者不会患癌症。考虑到患者队列排除了lung-rads 3、4a和4b患者,lung-rads 3、4a和4b患者的去除表现为与图5d所示的实施例2相比在最初几个月内(例如,0与6个月之间)294名预测癌症患者的癌症发病率更低。具体地,lung-rads 1-2患者队列的1年标记时的累积发病率为约0.025(图8d所示),而全患者队列(例如,lung-rads 1-4b)的1年标记时的累积发病率为约0.2。
425.表14描绘了使用来自1年、3年或5年风险预测模型的未来癌症预测得出的lung-rads 1-2患者队列的富集结果。具体地,表14示出了与初始队列中的癌症本底率(在表14中称为“零模型”)相比风险预测模型的富集结果。风险预测模型的应用显著改善了累积发病率(表14的最后一列)。
426.具体地,对于1年模型而言,本底率(“零模型”)具有0.43的累积发病率(例如,队列中的0.43%患者在1年内被诊断为患有癌症)。应用1年风险预测模型(“随机森林”)能够进行患者富集,这实现了2.37的累积发病率(例如,因1年风险预测模型的预测而纳入队列中的2.37%患者在1年内被诊断为患有癌症)。因此,1年风险预测模型的应用实现了累积发病率的5.5倍增加。
427.对于3年模型而言,本底率(“零模型”)具有2.37的累积发病率(例如,队列中的2.37%患者在3年内被诊断为患有癌症)。应用3年风险预测模型(“随机森林”)能够进行患者富集,这实现了7.14的累积发病率(例如,因3年风险预测模型的预测而纳入队列中的7.14%患者在3年内被诊断为患有癌症)。因此,3年风险预测模型的应用实现了累积发病率的3倍增加。
428.对于5年模型而言,本底率(“零模型”)具有3.67的累积发病率(例如,队列中的3.67%患者在5年内被诊断为患有癌症)。应用5年风险预测模型(“随机森林”)能够进行患者富集,这实现了7.06的累积发病率(例如,因5年风险预测模型的预测而纳入队列中的7.06%患者在5年内被诊断为患有癌症)。因此,5年风险预测模型的应用实现了累积发病率的1.9倍增加。
429.总之,表14指示可实现各种风险预测模型以便富集lung-rads 1-2队列中的患者,从而减少需要在临床试验中入组的患者的数量。
430.实施例6:预测lung-rads 1患者的未来风险
431.使用实施例1中所述的方法利用lung-rads 1患者来构建三个单独模型。具体地,第一模型是1年lung-rads 1风险预测模型,第二模型是3年lung-rads 1风险预测模型,并且第三模型是5年风险lung-rads 1预测模型。对于每个风险预测模型而言,训练集(例如,50%的队列)用于训练风险预测模型并且测试集(例如,另50%的队列)用于测试风险预测模型。
432.1年、3年和5年风险预测模型各自的前10个重要特征示于表15中。值得注意的是,1年风险预测模型的大多数重要特征包括结节特定特征,而3年和5年风险预测模型的大多数重要特征是客观特征(例如,非结节特定特征,诸如身体和/或肺实质的特征)。
433.值得注意的是,对于1年lung-rads 1预测模型而言,特征重要性方面的前3个特征是非结节特定特征。另外,1年lung-rads 1预测模型的特征重要性方面的前5个特征是非结
节特定特征。
434.对于3年lung-rads 1预测模型而言,特征重要性方面的前3个特征是非结节特定特征。另外,3年lung-rads 1预测模型的特征重要性方面的前5个特征是非结节特定特征。另外,3年lung-rads 1预测模型的特征重要性方面的前10个特征是非结节特定特征。
435.对于5年lung-rads 1预测模型而言,特征重要性方面的前3个特征是非结节特定特征。另外,5年lung-rads 1预测模型的特征重要性方面的前5个特征是非结节特定特征。另外,5年lung-rads 1预测模型的特征重要性方面的前10个特征是非结节特定特征。
436.图9a描绘了用于跨lung-rads 1患者预测1年内癌症的可能性的风险预测模型的性能。基础随机森林风险预测模型表现出0.57的auc值,而经调优的随机森林风险预测模型表现出0.63的auc值。图9b描绘了用于跨lung-rads 1患者预测3年内癌症的可能性的风险预测模型的性能。基础随机森林风险预测模型表现出0.63的auc值,而经调优的随机森林风险预测模型表现出0.60的auc值。另外,表16根据3年风险预测模型所确定的癌症预测来记载lung-rads 1患者队列的特性。
437.图9c描绘了用于跨lung-rads 1患者预测5年内癌症的可能性的风险预测模型的性能。基础随机森林风险预测模型表现出0.57的auc值,而经调优的随机森林风险预测模型表现出0.61的auc值。总之,图9a至图9c的结果表明,可构建并部署不同风险预测模型以跨不同未来跨度时间点预测lung-rads 1患者队列的癌症可能性。
438.图9d描绘了跨lung-rads 1患者的3年累积发病率函数。此处,风险预测模型预测261名患者会患癌症并且另外4077名患者不会患癌症。此处,患者队列仅包括lung-rads 1患者,即在不久的将来患癌症的风险最低的患者。如图9d所示,lung-rads 1患者队列的261名预测癌症患者的1年标记时的累积发病率小于0.02,而全患者队列(例如,lung-rads 1-4b)的1年标记时的累积发病率为约0.2。
439.表17描绘了使用来自1年、3年或5年风险预测模型的未来癌症预测得出的lung-rads 1患者队列的富集结果。具体地,表17示出了与初始队列中的癌症本底率(在表17中称为“零模型”)相比风险预测模型的富集结果。风险预测模型的应用显著改善了累积发病率(表17的最后一列)。
440.具体地,对于3年模型而言,本底率(“零模型”)具有2.31的累积发病率(例如,队列中的2.31%患者在3年内被诊断为患有癌症)。应用3年风险预测模型(“随机森林”)能够进行患者富集,这实现了5.36的累积发病率(例如,因3年风险预测模型的预测而纳入队列中的5.36%患者在3年内被诊断为患有癌症)。因此,3年风险预测模型的应用实现了累积发病率的2.3倍增加。
441.对于5年模型而言,本底率(“零模型”)具有3.67的累积发病率(例如,队列中的3.67%患者在5年内被诊断为患有癌症)。应用5年风险预测模型(“随机森林”)能够进行患者富集,这实现了6.80的累积发病率(例如,因5年风险预测模型的预测而纳入队列中的6.80%患者在5年内被诊断为患有癌症)。因此,5年风险预测模型的应用实现了累积发病率的1.9倍增加。
442.总之,表17指示可实现各种风险预测模型以便富集lung-rads 1队列中的患者,从而减少需要在临床试验中入组的患者的数量。
443.实施例7:使用影像组学特征来预测lung-rads 1-4b受试者的癌症未来风险
444.使用实施例1中所述的方法利用lung-rads 1-4b受试者来构建两个单独模型。具体地,第一模型是1年lung-rads 1-4b风险预测模型,并且第二模型是3年lung-rads 1-4b风险预测模型。对于每个风险预测模型而言,训练集(例如,50%的队列)用于训练风险预测模型并且测试集(例如,另50%的队列)用于测试风险预测模型。1年lung-rads 1-4b和3年lung-rads 1-4b风险预测模型的性能示于表18中。
445.1年和3年风险预测模型各自的前10个重要特征(例如,包括影像组学特征的结节特定特征及非结节特定特征)示于表19中。值得注意的是,对于1年lung-rads 1-4b预测模型而言,特征重要性方面的前3个特征中的2个特征是结节特定特征。另外,1年lung-rads 1-4b预测模型的特征重要性方面的前5个特征中的3个特征是结节特定特征。
446.对于3年lung-rads 1-4b预测模型而言,特征重要性方面的前3个特征是结节特定特征。另外,3年lung-rads 1-4b预测模型的特征重要性方面的前5个特征是结节特定特征。
447.图10a描绘了结合用于跨lung-rads 1-4b患者预测1年内癌症的可能性的影像组学特征的风险预测模型的性能。xgboost风险预测模型表现出0.889的auc值。图10b描绘了结合用于跨lung-rads 1-4b患者预测3年内癌症的可能性的影像组学特征的风险预测模型的性能。xgboost风险预测模型表现出0.792的auc值。
448.实施例8:使用影像组学特征来预测lung-rads 1-4a受试者的癌症未来风险
449.使用实施例1中所述的方法利用lung-rads 1-4a受试者来构建两个单独模型。具体地,第一模型是1年lung-rads 1-4a风险预测模型,并且第二模型是3年lung-rads 1-4a风险预测模型。对于每个风险预测模型而言,训练集(例如,50%的队列)用于训练风险预测模型并且测试集(例如,另50%的队列)用于测试风险预测模型。1年lung-rads 1-4a和3年lung-rads 1-4a风险预测模型的性能示于表18中。
450.1年和3年风险预测模型各自的前10个重要特征(例如,包括影像组学特征的结节特定特征及非结节特定特征)示于表20中。值得注意的是,对于1年lung-rads 1-4a预测模型而言,特征重要性方面的前3个特征是非结节特定特征。另外,1年lung-rads 1-4a预测模型的特征重要性方面的前5个特征中的3个特征是非结节特定特征。
451.对于3年lung-rads 1-4a预测模型而言,特征重要性方面的前3个特征是结节特定特征。另外,3年lung-rads 1-4a预测模型的特征重要性方面的前5个特征中的4个特征是结节特定特征。
452.图11a描绘了结合用于跨lung-rads 1-4a患者预测1年内癌症的可能性的影像组学特征的风险预测模型的性能。xgboost风险预测模型表现出0.779的auc值。图11b描绘了结合用于跨lung-rads 1-4a患者预测3年内癌症的可能性的影像组学特征的风险预测模型的性能。xgboost风险预测模型表现出0.696的auc值。
453.实施例9:使用影像组学特征来预测lung-rads 1-3受试者的癌症未来风险
454.使用实施例1中所述的方法利用lung-rads 1-3受试者来构建两个单独模型。具体地,第一模型是1年lung-rads 1-3风险预测模型,并且第二模型是3年lung-rads 1-3风险预测模型。对于每个风险预测模型而言,训练集(例如,50%的队列)用于训练风险预测模型并且测试集(例如,另50%的队列)用于测试风险预测模型。1年lung-rads 1-3和3年lung-rads 1-3风险预测模型的性能示于表18中。
455.1年和3年风险预测模型各自的前10个重要特征(例如,包括影像组学特征的结节
特定特征及非结节特定特征)示于表21中。值得注意的是,对于1年lung-rads 1-3预测模型而言,特征重要性方面的前3个特征是非结节特定特征。另外,1年lung-rads 1-3预测模型的特征重要性方面的前5个特征中的3个特征是非结节特定特征。
456.对于3年lung-rads 1-3预测模型而言,特征重要性方面的前3个特征中的2个特征是非结节特定特征。另外,3年lung-rads 1-3预测模型的特征重要性方面的前5个特征中的3个特征是非结节特定特征。
457.图12a描绘了结合用于跨lung-rads 1-3患者预测1年内癌症的可能性的影像组学特征的风险预测模型的性能。xgboost风险预测模型表现出0.793的auc值。图12b描绘了结合用于跨lung-rads 1-3患者预测3年内癌症的可能性的影像组学特征的风险预测模型的性能。xgboost风险预测模型表现出0.676的auc值。
458.实施例10:使用影像组学特征来预测lung-rads 2-4b受试者的癌症未来风险
459.使用实施例1中所述的方法利用lung-rads 2-4b受试者来构建两个单独模型。具体地,第一模型是1年lung-rads 2-4b风险预测模型,并且第二模型是3年lung-rads 2-4b风险预测模型。对于每个风险预测模型而言,训练集(例如,50%的队列)用于训练风险预测模型并且测试集(例如,另50%的队列)用于测试风险预测模型。1年lung-rads 2-4b和3年lung-rads 2-4b风险预测模型的性能示于表18中。
460.1年和3年风险预测模型各自的前10个重要特征(例如,包括影像组学特征的结节特定特征及非结节特定特征)示于表22中。值得注意的是,对于1年lung-rads 2-4b预测模型而言,特征重要性方面的前3个特征是结节特定特征。另外,1年lung-rads 2-4b预测模型的特征重要性方面的前5个特征是结节特定特征。
461.对于3年lung-rads 2-4b风险预测模型而言,特征重要性方面的前3个特征是结节特定特征。另外,3年lung-rads 2-4b风险预测模型的特征重要性方面的前5个特征是结节特定特征。
462.图13a描绘了结合用于跨lung-rads 2-4b患者预测1年内癌症的可能性的影像组学特征的风险预测模型的性能。xgboost风险预测模型表现出0.928的auc值。图13b描绘了结合用于跨lung-rads 2-4b患者预测3年内癌症的可能性的影像组学特征的风险预测模型的性能。xgboost风险预测模型表现出0.809的auc值。
463.实施例11:使用影像组学特征来预测lung-rads 4a-4b受试者的癌症未来风险
464.使用实施例1中所述的方法利用lung-rads 4a-4b受试者来构建两个单独模型。具体地,第一模型是1年lung-rads 4a-4b风险预测模型,并且第二模型是3年lung-rads 4a-4b风险预测模型。对于每个风险预测模型而言,训练集(例如,50%的队列)用于训练风险预测模型并且测试集(例如,另50%的队列)用于测试风险预测模型。1年lung-rads 4a-4b和3年lung-rads 4a-4b风险预测模型的性能示于表18中。
465.1年和3年风险预测模型各自的前10个重要特征(例如,包括影像组学特征的结节特定特征及非结节特定特征)示于表23中。值得注意的是,对于1年lung-rads 4a-4b预测模型而言,特征重要性方面的前3个特征是结节特定特征。另外,1年lung-rads 4a-4b预测模型的特征重要性方面的前5个特征是结节特定特征。
466.对于3年lung-rads 4a-4b风险预测模型而言,特征重要性方面的前3个特征是结节特定特征。另外,3年lung-rads 4a-4b风险预测模型的特征重要性方面的前5个特征是结
节特定特征。
467.图14a描绘了结合用于跨lung-rads 4a-4b患者预测1年内癌症的可能性的影像组学特征的风险预测模型的性能。xgboost风险预测模型表现出0.91的auc值。图14b描绘了结合用于跨lung-rads 4a-4b患者预测3年内癌症的可能性的影像组学特征的风险预测模型的性能。xgboost风险预测模型表现出0.798的auc值。
468.实施例12:预测lung-rads 1-4b受试者的癌症未来风险的附加实施例
469.使用实施例1中所述的方法利用lung-rads 1-4b受试者来构建附加模型。例如,此类模型可结合实施例1中所述的非结节特征以及实施例1中所述的结节特定特征(诸如影像组学特征)。
470.附加模型是随机森林模型或梯度提升模型。具体地,第一模型是6月lung-rads 1-4b风险预测模型,第二模型是1.5年lung-rads 1-4b风险预测模型,第三模型是2.5年lung-rads 1-4b风险预测模型,第四模型是4年lung-rads 1-4b风险预测模型,第五模型是4.5年lung-rads 1-4b风险预测模型,第六模型是5.5年lung-rads 1-4b风险预测模型,第七模型是6年lung-rads 1-4b风险预测模型,第八模型是7年lung-rads 1-4b风险预测模型,第九模型是8年lung-rads 1-4b风险预测模型,第十模型是9年lung-rads 1-4b风险预测模型,第十一型是10年lung-rads 1-4b风险预测模型,第十二模型是11年lung-rads 1-4b风险预测模型,第十三模型是11年lung-rads 1-4b风险预测模型,第十四模型是12年lung-rads 1-4b风险预测模型,第十五模型是13年lung-rads 1-4b风险预测模型,第十六模型是14年lung-rads 1-4b风险预测模型,第十七模型是15年lung-rads 1-4b风险预测模型,第十八模型是16年lung-rads 1-4b风险预测模型,第十九模型是17年lung-rads 1-4b风险预测模型,第二十模型是18年lung-rads 1-4b风险预测模型,第二十一模型是19年lung-rads 1-4b风险预测模型,并且第二十二模型是20年lung-rads 1-4b风险预测模型。
471.附加模型表现出至少0.55的auc值。附加模型中的至少一者表现出至少0.60的auc值。附加模型中的至少一者表现出至少0.65的auc值。附加模型中的至少一者表现出至少0.70的auc值。附加模型中的至少一者表现出至少0.75的auc值。附加模型中的至少一者表现出至少0.80的auc值。
472.实施例13:预测lung-rads 1-4a受试者的癌症未来风险的附加实施例
473.使用实施例1中所述的方法利用lung-rads 1-4a受试者来构建附加模型。例如,此类模型可结合实施例1中所述的非结节特征以及实施例1中所述的结节特定特征(诸如影像组学特征)。
474.附加模型是随机森林模型或梯度提升模型。具体地,第一模型是6月lung-rads 1-4a风险预测模型,第二模型是1.5年lung-rads 1-4a风险预测模型,第三模型是2.5年lung-rads 1-4a风险预测模型,第四模型是4年lung-rads 1-4a风险预测模型,第五模型是4.5年lung-rads 1-4a风险预测模型,第六模型是5.5年lung-rads 1-4a风险预测模型,第七模型是6年lung-rads 1-4a风险预测模型,第八模型是7年lung-rads 1-4a风险预测模型,第九模型是8年lung-rads 1-4a风险预测模型,第十模型是9年lung-rads 1-4a风险预测模型,第十一型是10年lung-rads 1-4a风险预测模型,第十二模型是11年lung-rads 1-4a风险预测模型,第十三模型是11年lung-rads 1-4a风险预测模型,第十四模型是12年lung-rads 1-4a风险预测模型,第十五模型是13年lung-rads 1-4a风险预测模型,第十六模型是14年
lung-rads 1-4a风险预测模型,第十七模型是15年lung-rads 1-4a风险预测模型,第十八模型是16年lung-rads 1-4a风险预测模型,第十九模型是17年lung-rads 1-4a风险预测模型,第二十模型是18年lung-rads 1-4a风险预测模型,第二十一模型是19年lung-rads 1-4a风险预测模型,并且第二十二模型是20年lung-rads 1-4a风险预测模型。
475.附加模型表现出至少0.55的auc值。附加模型中的至少一者表现出至少0.60的auc值。附加模型中的至少一者表现出至少0.65的auc值。附加模型中的至少一者表现出至少0.70的auc值。附加模型中的至少一者表现出至少0.75的auc值。附加模型中的至少一者表现出至少0.80的auc值。
476.实施例14:预测lung-rads 1-3受试者的癌症未来风险的附加实施例
477.使用实施例1中所述的方法利用lung-rads 1-3受试者来构建附加模型。例如,此类模型可结合实施例1中所述的非结节特征以及实施例1中所述的结节特定特征(诸如影像组学特征)。
478.附加模型是随机森林模型或梯度提升模型。具体地,第一模型是6月lung-rads 1-3风险预测模型,第二模型是1.5年lung-rads 1-3风险预测模型,第三模型是2.5年lung-rads 1-3风险预测模型,第四模型是4年lung-rads 1-3风险预测模型,第五模型是4.5年lung-rads 1-3风险预测模型,第六模型是5.5年lung-rads 1-3风险预测模型,第七模型是6年lung-rads 1-3风险预测模型,第八模型是7年lung-rads 1-3风险预测模型,第九模型是8年lung-rads 1-3风险预测模型,第十模型是9年lung-rads 1-3风险预测模型,第十一型是10年lung-rads 1-3风险预测模型,第十二模型是11年lung-rads 1-3风险预测模型,第十三模型是11年lung-rads 1-3风险预测模型,第十四模型是12年lung-rads 1-3风险预测模型,第十五模型是13年lung-rads 1-3风险预测模型,第十六模型是14年lung-rads 1-3风险预测模型,第十七模型是15年lung-rads 1-3风险预测模型,第十八模型是16年lung-rads 1-3风险预测模型,第十九模型是17年lung-rads 1-3风险预测模型,第二十模型是18年lung-rads 1-3风险预测模型,第二十一模型是19年lung-rads 1-3风险预测模型,并且第二十二模型是20年lung-rads 1-3风险预测模型。
479.附加模型表现出至少0.55的auc值。附加模型中的至少一者表现出至少0.60的auc值。附加模型中的至少一者表现出至少0.65的auc值。附加模型中的至少一者表现出至少0.70的auc值。附加模型中的至少一者表现出至少0.75的auc值。附加模型中的至少一者表现出至少0.80的auc值。
480.实施例15:预测lung-rads 1-2受试者的癌症未来风险的附加实施例
481.使用实施例1中所述的方法利用lung-rads 1-2受试者来构建附加模型。例如,此类模型可结合实施例1中所述的非结节特征以及实施例1中所述的结节特定特征(诸如影像组学特征)。
482.附加模型是随机森林模型或梯度提升模型。具体地,第一模型是6月lung-rads 1-2风险预测模型,第二模型是1.5年lung-rads 1-2风险预测模型,第三模型是2.5年lung-rads 1-2风险预测模型,第四模型是4年lung-rads 1-2风险预测模型,第五模型是4.5年lung-rads 1-2风险预测模型,第六模型是5.5年lung-rads 1-2风险预测模型,第七模型是6年lung-rads 1-2风险预测模型,第八模型是7年lung-rads 1-2风险预测模型,第九模型是8年lung-rads 1-2风险预测模型,第十模型是9年lung-rads 1-2风险预测模型,第十一
型是10年lung-rads 1-2风险预测模型,第十二模型是11年lung-rads 1-2风险预测模型,第十三模型是11年lung-rads 1-2风险预测模型,第十四模型是12年lung-rads 1-2风险预测模型,第十五模型是13年lung-rads 1-2风险预测模型,第十六模型是14年lung-rads 1-2风险预测模型,第十七模型是15年lung-rads 1-2风险预测模型,第十八模型是16年lung-rads 1-2风险预测模型,第十九模型是17年lung-rads 1-2风险预测模型,第二十模型是18年lung-rads 1-2风险预测模型,第二十一模型是19年lung-rads 1-2风险预测模型,并且第二十二模型是20年lung-rads 1-2风险预测模型。
483.附加模型表现出至少0.55的auc值。附加模型中的至少一者表现出至少0.60的auc值。附加模型中的至少一者表现出至少0.65的auc值。附加模型中的至少一者表现出至少0.70的auc值。附加模型中的至少一者表现出至少0.75的auc值。附加模型中的至少一者表现出至少0.80的auc值。
484.实施例15:预测lung-rads 1受试者的癌症未来风险的附加实施例
485.使用实施例1中所述的方法利用lung-rads 1受试者来构建附加模型。例如,此类模型可结合实施例1中所述的非结节特征以及实施例1中所述的结节特定特征(诸如影像组学特征)。
486.附加模型是随机森林模型或梯度提升模型。具体地,第一模型是6月lung-rads 1风险预测模型,第二模型是1.5年lung-rads 1风险预测模型,第三模型是2.5年lung-rads 1风险预测模型,第四模型是4年lung-rads 1风险预测模型,第五模型是4.5年lung-rads 1风险预测模型,第六模型是5.5年lung-rads 1风险预测模型,第七模型是6年lung-rads1风险预测模型,第八模型是7年lung-rads 1风险预测模型,第九模型是8年lung-rads 1风险预测模型,第十模型是9年lung-rads 1风险预测模型,第十一型是10年lung-rads 1风险预测模型,第十二模型是11年lung-rads 1风险预测模型,第十三模型是11年lung-rads 1风险预测模型,第十四模型是12年lung-rads 1风险预测模型,第十五模型是13年lung-rads 1风险预测模型,第十六模型是14年lung-rads 1风险预测模型,第十七模型是15年lung-rads 1风险预测模型,第十八模型是16年lung-rads 1风险预测模型,第十九模型是17年lung-rads 1风险预测模型,第二十模型是18年lung-rads 1风险预测模型,第二十一模型是19年lung-rads 1风险预测模型,并且第二十二模型是20年lung-rads 1风险预测模型。
487.附加模型表现出至少0.55的auc值。附加模型中的至少一者表现出至少0.60的auc值。附加模型中的至少一者表现出至少0.65的auc值。附加模型中的至少一者表现出至少0.70的auc值。附加模型中的至少一者表现出至少0.75的auc值。附加模型中的至少一者表现出至少0.80的auc值。
488.实施例16:两名患者的示例性未来风险预测
489.使用来自nlst的数据来训练的风险预测模型提供了多模态风险评估和富集方法。例如,考虑一下在nlst中入组3年内患癌症的两名患者。两人均在基线时患有lung-rads 3结节,两人均被该算法预测为会在3年内患癌症,并且两人均在3年内患ia期腺癌。实际上,这两名患者患癌症的预测概率彼此偏差在2%以内(患者1为84.8%并且患者2为86.4%)。患者1为65岁白人女性曾吸烟者,其具有76包年吸烟史、23.5的bmi、相对较小的胸肌质量以及上叶为主的明显肺气肿(基于局部直方图分析得出的31体积%肺气肿)。76包年吸烟史相当于每天吸一包(20支)香烟并持续76年或每天吸两包香烟并持续38年。相比之下,患者2为
59岁白人男性曾吸烟者,其具有43包年吸烟史、29.8的bmi、相对保留的胸肌质量以及轻度肺气肿(基于局部直方图分析得出的2.6体积%肺气肿),但明显更多的间质性特征(7.1%相比于4%)。在该第二病例中,正是该最后特征及间质性特征与癌症之间的较强关系可能引起该算法预测会在3年内患癌症。这两个病例之间的临床和放射学差异突出了风险预测模型鉴别具有截然不同表型并可能患癌症的患者的能力。
490.本技术中引用的所有出版物、专利、专利申请和其他文献出于所有目的据此全文以引用方式并入,其程度如同每个单独的出版物、专利、专利申请或其他文献被单独地指示为出于所有目的以引用方式并入。
491.虽然已经示出和描述了各种特定实施方案,但上述说明书不是限制性的。应当理解,在不脱离本公开的精神和范围的情况下,可进行各种改变。在查看本说明书后,许多变型形式对于本领域技术人员将变得显而易见。
492.493.494.495.496.497.498.499.500.501.502.503.504.505.506.507.508.509.510.511.512.513.514.515.516.517.518.519.520.521.522.523.524.525.526.527.528.
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献