一种影响因素确定方法及其相关设备与流程

2022-06-29 15:51:09 来源：中国专利 TAG：

1.本技术涉及数据处理技术领域，具体涉及一种影响因素确定方法及其相关设备。

背景技术：

2.近年来，随着医疗信息化的快速发展，医疗大数据得以存储和分析，数据挖掘技术应用在医疗卫生领域，挖掘医疗数据蕴含的知识，并将发现的知识或规则应用于辅助诊疗过程，具有重要的社会意义和商业价值。为了便于理解，下面结合示例进行说明。
3.例如，对于体检人群采集所得的体检数据来说，可以从这些体检数据中，挖掘出某种疾病(例如，脂肪肝等)的影响因素，以促进医疗研究事业快速发展，发挥协助决策和辅助作用，提高临床医生的决策效率，减少药物治疗事故。
4.然而，如何挖掘某种疾病的影响因素是一项亟待解决的技术问题。

技术实现要素：

5.有鉴于此，本技术实施例提供一种影响因素确定方法及其相关设备，能够实现针对某种疾病的影响因素的挖掘目的。
6.为解决上述问题，本技术实施例提供的技术方案如下：
7.本技术实施例提供了一种影响因素确定方法，所述方法包括：获取至少一个体检样本、以及所述至少一个体检样本在目标疾病下的实际分类标签；其中，所述体检样本包括至少一个候选指标的指标值；初始化待使用羊群的羊群表征数据；其中，所述待使用羊群的羊群表征数据包括所述待使用羊群的个体数量、以及所述待使用羊群中每个个体的个体表示特征；所述个体表示特征用于表示各所述候选指标与所述目标疾病的相关程度；根据所述至少一个体检样本、所述至少一个体检样本在目标疾病下的实际分类标签、以及所述待使用羊群中每个个体的个体表示特征，确定所述待使用羊群中每个个体的适应度值；根据所述待使用羊群中每个个体的适应度值，从所述待使用羊群的所有个体中确定出所述待使用羊群中领头羊；根据所述待使用羊群中每个个体的适应度值、以及所述待使用羊群中领头羊，更新所述待使用羊群中每个个体的个体表示特征，并继续执行所述根据所述至少一个体检样本、所述至少一个体检样本在目标疾病下的实际分类标签、以及所述待使用羊群中每个个体的个体表示特征，确定所述待使用羊群中每个个体的适应度值的步骤；直至在确定达到预设停止条件之后，根据所述待使用羊群中领头羊的个体表示特征，确定所述目标疾病的至少一个影响因素。
8.本技术实施例还提供了一种影响因素确定装置，包括：
9.样本获取单元，用于获取至少一个体检样本、以及所述至少一个体检样本在目标疾病下的实际分类标签；其中，所述体检样本包括至少一个候选指标的指标值；
10.羊群初始化单元，用于初始化待使用羊群的羊群表征数据；其中，所述待使用羊群的羊群表征数据包括所述待使用羊群的个体数量、以及所述待使用羊群中每个个体的个体表示特征；所述个体表示特征用于表示各所述候选指标与所述目标疾病的相关程度；
11.适应度确定单元，用于根据所述至少一个体检样本、所述至少一个体检样本在目标疾病下的实际分类标签、以及所述待使用羊群中每个个体的个体表示特征，确定所述待使用羊群中每个个体的适应度值；
12.领头羊确定单元，用于根据所述待使用羊群中每个个体的适应度值，从所述待使用羊群的所有个体中确定出所述待使用羊群中领头羊；
13.羊群更新单元，用于根据所述待使用羊群中每个个体的适应度值、以及所述待使用羊群中领头羊，更新所述待使用羊群中每个个体的个体表示特征，并返回所述适应度确定单元执行所述根据所述至少一个体检样本、所述至少一个体检样本在目标疾病下的实际分类标签、以及所述待使用羊群中每个个体的个体表示特征，确定所述待使用羊群中每个个体的适应度值的步骤；
14.因素确定单元，用于在确定达到预设停止条件之后，根据所述待使用羊群中领头羊的个体表示特征，确定所述目标疾病的至少一个影响因素。
15.本技术实施例还提供了一种影响因素确定设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现本技术实施例提供的影响因素确定方法的任一实施方式。
16.本技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行本技术实施例提供的影响因素确定方法的任一实施方式。
17.本技术实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行本技术实施例提供的影响因素确定方法的任一实施方式。
18.由此可见，本技术实施例具有如下有益效果：
19.本技术实施例提供的技术方案中，首先，从大量体检数据中提取出至少一个体检样本(例如，各个候选指标的指标值)、以及各个体检样本在目标疾病下的实际分类标签，并初始化待使用羊群中每个个体的个体表示特征，以使该个体表示特征能够表示出各候选指标与目标疾病的相关程度；其次，根据这些体检样本及其实际分类标签、以及待使用羊群中每个个体的个体表示特征，确定每个个体的适应度值，以使该适应度值能够表示出该个体所表征的影响因素对目标疾病的普适程度；然后，根据这些个体的适应度值，确定该待使用羊群中领头羊；最后，根据这些个体的适应度值以及领头羊，更新这些个体的个体表示特征，并返回继续执行上述“根据这些体检样本及其实际分类标签、以及待使用羊群中每个个体的个体表示特征，确定每个个体的适应度值”的步骤，直至在确定达到预设停止条件之后，根据待使用羊群中领头羊的个体表示特征，确定该目标疾病的影响因素，如此能够通过迭代过程逐步找到该目标疾病的最佳影响因素，从而能够实现针对某种疾病的影响因素的挖掘目的。
附图说明
20.图1为本技术实施例提供的一种影响因素确定方法的流程图；
21.图2为本技术实施例提供的一种体检报告的部分内容的示意图；
22.图3为本技术实施例提供的一种二值化处理过程的示意图；
23.图4为本技术实施例提供的一种普通羊靠近领头羊的因素选择示意图；
24.图5为本技术实施例提供的一种影响因素确定过程的示意图；
25.图6为本技术实施例提供的一种影响因素确定装置的结构示意图。
具体实施方式
26.为使本技术的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本技术实施例作进一步详细的说明。
27.发明人在针对大量体检数据的研究中发现，在这些体检数据中隐藏有与某种疾病(例如，脂肪肝等)相关的一些检验指标，故可以从这些体检数据中，挖掘出该疾病的影响因素，以促进医疗研究事业快速发展，发挥协助决策和辅助作用，提高临床医生的决策效率，减少药物治疗事故。然而，如何从大量体检数据中挖掘出某种疾病的影响因素是一项亟待解决的技术问题。
28.基于上述发现，为了解决背景技术部分所述的技术问题，本技术实施例还提供了一种影响因素确定方法，该方法包括：首先，从大量体检数据中提取出至少一个体检样本(例如，各个候选指标的指标值)、以及各个体检样本在目标疾病下的实际分类标签，并初始化待使用羊群中每个个体的个体表示特征，以使该个体表示特征能够表示出各候选指标与目标疾病的相关程度；其次，根据这些体检样本及其实际分类标签、以及待使用羊群中每个个体的个体表示特征，确定每个个体的适应度值，以使该适应度值能够表示出该个体所表征的影响因素对目标疾病的普适程度；然后，根据这些个体的适应度值，确定该待使用羊群中领头羊；最后，根据这些个体的适应度值以及领头羊，更新这些个体的个体表示特征，并返回继续执行上述“根据这些体检样本及其实际分类标签、以及待使用羊群中每个个体的个体表示特征，确定每个个体的适应度值”的步骤，直至在确定达到预设停止条件之后，根据待使用羊群中领头羊的个体表示特征，确定该目标疾病的影响因素，如此能够通过迭代过程逐步找到该目标疾病的最佳影响因素，从而能够实现针对某种疾病的影响因素的挖掘目的。
29.另外，本技术实施例不限定影响因素确定方法的执行主体，例如，本技术实施例提供的影响因素确定方法可以应用于终端设备或服务器等数据处理设备。其中，终端设备可以为智能手机、计算机、个人数字助理(personal digital assitant，pda)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。
30.为了便于理解本技术，下面结合附图对本技术实施例提供的影响因素确定方法进行说明。
31.参见图1，该图为本技术实施例提供的一种影响因素确定方法的流程图，该影响因素确定方法可以包括s1-s7：
32.s1：获取至少一个体检样本、以及该至少一个体检样本在目标疾病下的实际分类标签。
33.上述“体检样本”用于记录某个人的一次体检结果；而且该“体检样本”包括至少一个候选指标的指标值。
34.另外，本技术实施例不限定上述“至少一个候选指标”，例如，其可以包括以下73个检验指标：性别、年龄、白细胞计数、粒细胞计数、淋巴细胞计数、单核细胞计数、嗜酸性粒细胞计数、嗜碱性粒细胞计数、粒细胞比率、淋巴细胞比率、单核细胞比率、嗜酸性粒细胞比
率、嗜碱性粒细胞比率、红细胞计数、血红蛋白浓度、红细胞比积测定、平均红细胞体积、平均红细胞hb含量、平均红细胞hb浓度、红细胞分布宽度cv、红细胞分布宽度sd、血小板计数、血小板分布宽度、大型血小板比率、平均血小板比积、平均血小板体积、血清天门冬氨酸氨基转移酶测定、血清丙氨酸氨基转移酶测定、血清碱性磷酸酶测定、血清γ谷氨酰基转移酶测定、血清总蛋白测定、血清白蛋白测定、血清总胆汁酸测定、血清总胆红素测定、尿素测定、肌酐测定、葡萄糖测定(空腹)、血清甘油三酯测定、血清总胆固醇测定、血清高密度脂蛋白胆固醇测定、血清低密度脂蛋白胆固醇测定、血清尿酸测定、舒张压、脉搏、收缩压、潜血、比重、红细胞、红细胞每高倍视野、蛋白质、葡萄糖、酮体、尿胆原、胆红素、亚硝酸盐、酸碱度测定、白细胞酯酶、白细胞、细菌、白细胞每高倍视野、上皮细胞每高倍视野、上皮细胞、生理管型、身高、体重、身体指数、腰围、细菌每高倍视野、生理管型每低倍视野、癌胚抗原测定、c14呼气实验20分钟dpm值。
35.此外，本技术实施例不限定上述“体检样本”的表示方式，例如，其可以采用公式(1)进行表示。
[0036][0037]
式中，di表示第i个体检样本；表示该第i个体检样本中所记录的第n个候选指标的指标值(也就是，针对第n个候选指标的检验结果)；n为正整数，n≤n，n为正整数，n表示候选指标的个数；i为正整数，i≤i，i为正整数，i表示体检样本的个数。
[0038]
需要说明的是，本技术实施例不限定上述例如，其可以为第n个候选指标的指标值(例如，图2所示的5.93)。又如，其也可以采用二元组的方式进行表示(例如，如图2所示，等)。
[0039]
此外，本技术实施例不限定上述“第i个体检样本”的获取过程，例如，其具体可以为：先从体检数据库中提取一份体检结果(如图2所示)；再从该体检结果中抽取出该第i个体检样本，以使该第i个体检样本能够表示出该体检结果。其中，体检数据库用于存储在至少一个医疗机构中已经完成的大量体检结果。
[0040]
需要说明的是，本技术实施例不限定上述“第i个体检样本”的抽取过程，例如，当体检结果按照图2所示的存储方式(也就是，列方式)进行存储时，该“第i个体检样本”的抽取过程，具体可以为：将体检结果中按列记录的不同指标转化为一条体检数据的不同字段，得到该第i个体检样本。
[0041]
实际上，发明人在针对体检结果的研究中发现，体检结果可能会出现以下
①‑③
所示的三种情况：
①
有一些指标并非是常见的检验指标(例如，血清睾酮测定、尿微量白蛋白测定等)，使得大量体检结果中这些不常见的检验指标的填充率比较低(例如，上述“血清睾酮测定”的填充率只有0.35％，上述“尿微量白蛋白测定”的填充率只有0.77％等)，从而导致这些不常见的检验指标通常不具备参考价值，故为了避免这些检验指标造成不良影响，应该对其进行删除处理。
②
有些检验指标的指标值通常是一些文本字符串(例如，“ ”、“2 ”等字符串)，而且文本字符串通常不利于进行数据处理，故为了更好地使用这些指标值，可以将这些指标值转换为数字变量。
③
有些检验指标(尤其是，比较常见的检验指标)的指标值可能会发生指标值缺失现象，故为了避免这些缺失值造成不良影响，可以针对这些缺
失值进行填充处理。
[0042]
基于上述发现，本技术实施例还提供了获取上述“第i个体检样本”的一种可能的实施方式，其具体可以包括步骤11-步骤14：
[0043]
步骤11：从体检数据库中获取待使用体检结果。
[0044]
上述“待使用体检结果”是指在构建第i个体检样本时所需使用的体检结果；而且本技术实施例不限定该“待使用体检结果”，例如，其可以包括图2所示的内容。
[0045]
步骤12：从待使用体检结果中确定出第i个待使用体检数据。
[0046]
上述“第i个待使用体检数据”用于表示待使用体检结果中所记录的各项检验指标下的检验结果；而且本技术实施例不限定该“第i个待使用体检数据”，例如，其可以包括至少一个检验指标的指标值。
[0047]
另外，本技术实施例不限定上述“第i个待使用体检数据”的表示方式，例如，其可以采用公式(2)进行表示。
[0048][0049]
式中，di表示第i个待使用体检数据；表示该第i个待使用体检数据中所记录的第h个检验指标的指标值(也就是，针对该第h个检验指标的检验结果)；h为正整数，h≤h，h为正整数，h≥n，h表示该第i个待使用体检数据所涉及的检验指标个数(也就是，待使用体检结果中所记录的检验指标个数)；i为正整数，i≤i，i为正整数，i表示体检样本的个数。
[0050]
需要说明的是，本技术实施例不限定上述例如，其可以为第h个检验指标的指标值(例如，图2所示的5.93)。又如，其也可以采用二元组的方式进行表示(例如，如图2所示，等)。
[0051]
步骤13：按照预设数据清洗规则，对第i个待使用体检数据进行清洗处理，得到第i个体检样本。
[0052]
上述“预设数据清洗规则”可以预先设定；而且本技术实施例不限定该“预设数据清洗规则”，例如，其具体可以包括以下三个规则：
[0053]
规则一：剔除待剔除指标的指标值；而且该待剔除指标的填充率小于预设填充率阈值(例如，30％)。
[0054]
需要说明的是，本技术实施例不限定上述“待剔除指标的填充率”的确定过程，例如，可以利用体检数据库中所有体检结果，确定该“待剔除指标的填充率”，以使该“待剔除指标的填充率”能够表示出该体检数据库中具有有效指标值的待剔除指标的个数与该待剔除指标的总个数之间的比值。又如，当上述“至少一个体检样本”包括i个体检样本，且该i个体检样本是从i个体检报告中确定的时，该“待剔除指标的填充率”的确定过程可以为：利用该i个体检报告确定该“待剔除指标的填充率”，以使该“待剔除指标的填充率”能够表示出该i个体检报告中具有有效指标值的待剔除指标的个数与该待剔除指标的总个数之间的比值。
[0055]
规则二：将以文本字符串进行表示的指标值进行数值转换处理。
[0056]
需要说明的是，本技术实施例不限定上述“数值转换处理”的转换过程，例如，其可以采用任意一种能够将文本转换为数值的方式进行实施。又如，还可以借助预先构建的用
于记录不同文本与不同数值之间对应关系的映射列表进行实施。
[0057]
规则三：当上述“第i个待使用体检数据”中某个检验指标的指标值处于缺失状态时，则可以利用该检验指标对应的预设指标值，对该检验指标的缺失值进行填充处理。
[0058]
需要说明的是，本技术实施例不限定上述“预设指标值”，例如，若第h个检验指标存在正常范围值，则可以将该第h个检验指标的正常范围的中间值，确定为该第h个检验指标对应的预设指标值。又如，若第h个检验指标不存在正常范围值，则可以将该第h个检验指标对应的中位数，确定为该第h个检验指标对应的预设指标值。其中，h为正整数，h≤h，h为正整数。
[0059]
还需要说明的是，本技术实施例不限定上述“第h个检验指标对应的中位数”的确定过程，例如，其可以是通过对体检数据库中所有体检结果所记录的该第h个检验指标下的所有指标值进行中位数统计处理得到。又如，当上述“至少一个体检样本”包括i个体检样本，且该i个体检样本是从i个体检报告中确定的时，该“第h个检验指标对应的中位数”的确定过程具体可以为：对该i个体检报告所记录的该第h个检验指标下的所有指标值进行中位数统计处理，得到该第h个检验指标对应的中位数。
[0060]
基于上述步骤11至步骤13的相关内容可知，在从体检数据库中获取到待使用体检结果之后，可以先从该待使用体检结果中确定出第i个待使用体检数据，以使该第i个待使用体检数据能够表示出该待使用体检结果所记录的各项检验指标下的指标值；再按照预设数据清洗规则，对该第i个待使用体检数据进行清洗处理，得到第i个体检样本，以使该第i个体检样本中不存在填充率比较低的待剔除指标的指标值、以文本字符串形式表示的指标值、以及处于缺失状态的指标值，如此使得该第i个体检样本能够避免填充率比较低的检验指标、文本字符串形式表示指标值的检验指标、指标值发生缺失现象的检验指标所造成的干扰，从而有利于提高目标疾病的影响因素提取效果。
[0061]
上述“目标疾病”是指需要进行影响因素挖掘处理的疾病；而且本技术实施例不限定该“目标疾病”，例如，其可以是脂肪肝。
[0062]“第i个体检样本在目标疾病下的实际分类标签”用于表示具有该第i个体检样本所记录的指标值的体检者实际上是否患有该目标疾病；而且本技术实施例不限定该“第i个体检样本在目标疾病下的实际分类标签”的获取过程，为了便于理解，下面结合示例进行说明。
[0063]
作为示例，当上述“第i个体检样本”是根据待使用体检结果确定，而且上述“目标疾病”为脂肪肝时，上述“第i个体检样本在目标疾病下的实际分类标签”的获取过程，具体可以为：先获取该待使用体检结果对应的体检报告文本；再从该体检报告文本中查找是否存在“脂肪肝”这三个字，如果存在“脂肪肝”这三个字，则可以确定具有该待使用体检结果的体检者患有脂肪肝，故可以将该第i个体检样本在目标疾病下的实际分类标签设定为1，以便后续能够将(“第i个体检样本”，“第i个体检样本在目标疾病下的实际分类标签”)这一组数据作为正样本进行使用；然而，如果不存在“脂肪肝”这三个字，则可以确定具有该待使用体检结果的体检者没有患有脂肪肝，故可以将该第i个体检样本在目标疾病下的实际分类标签设定为0，以便后续能够将(“第i个体检样本”，“第i个体检样本在目标疾病下的实际分类标签”)这一组数据作为负样本进行使用。
[0064]
需要说明的是，上述“待使用体检结果对应的体检报告文本”是指基于该待使用体
检结果所编写的体检报告。
[0065]
基于上述s1的相关内容可知，当想要从大量体检数据中挖掘出目标疾病(例如，脂肪肝等)的影响因素时，可以从体检数据库所存储的大量体检结果及其对应的体检报告文本中获取到至少一个体检样本、以及该至少一个体检样本在目标疾病下的实际分类标签，以便后续能够利用这些体检样本及其在目标疾病下的实际分类标签，构建大量正负样本(例如，2000例正样本 2000例负样本等)进行使用。
[0066]
s2：初始化待使用羊群的羊群表征数据。
[0067]
上述“待使用羊群的羊群表征数据”用于表征该待使用羊群所具有的特点；而且该“待使用羊群的羊群表征数据”可以包括该待使用羊群的个体数量、以及该待使用羊群中每个个体的个体表示特征。
[0068]
上述“待使用羊群的个体数量”用于表示该待使用羊群中有多少个体；而且本技术实施例不限定该“待使用羊群的个体数量”，例如，其可以为m(例如，m＝500)。其中，m为正整数。
[0069]“待使用羊群中第m个个体的个体表示特征”用于描述该待使用羊群中第m个个体所具有的特点，以使该“待使用羊群中第m个个体的个体表示特征”能够表示出各候选指标与目标疾病的相关程度，以使该第m个个体能够代表所有候选指标对目标疾病的一种影响情况。其中，m为正整数，m≤m，m为正整数。
[0070]
另外，本技术实施例不限定上述“待使用羊群中第m个个体的个体表示特征”，例如，其可以包括至少一个候选指标对目标疾病的相关程度表征值。可见，当上述“至少一个候选指标”包括n个候选指标时，该“待使用羊群中第m个个体的个体表示特征”可以包括n个候选指标对目标疾病的相关程度表征值，以使该“待使用羊群中第m个个体的个体表示特征”能够表示出该n个候选指标对目标疾病的一种影响情况。
[0071]
此外，本技术实施例不限定上述“待使用羊群中第m个个体的个体表示特征”的表示方式，例如，其可以采用公式(3)-(4)所示的向量形式进行表示，以使该“待使用羊群中第m个个体的个体表示特征”的向量维度等于候选指标的个数。
[0072]
sepm＝(e
m,1
,e
m,2
,
…
,e
m,n
)
ꢀꢀꢀ
(3)
[0073]em,n
＝random(0,1)
ꢀꢀꢀ
(4)
[0074]
式中，sepm表示待使用羊群中第m个个体的个体表示特征；e
m,n
表示上述“待使用羊群中第m个个体的个体表示特征”中第n个候选指标对目标疾病的相关程度表征值，以使该e
m,n
能够表示出该第n个候选指标与目标疾病的相关程度，而且该e
m,n
可以取值为(0,1)范围内服从均匀分布的随机数；n为正整数，n≤n，n为正整数，n表示候选指标的个数；random(0,1)表示从(0,1)范围内抽取服从均匀分布的随机数。
[0075]
基于上述s2的相关内容可知，如果想要从大量体检数据中挖掘出目标疾病(例如，脂肪肝等)的影响因素，则可以初始化待使用羊群的羊群表征数据，以使该“待使用羊群的羊群表征数据”能够模拟出所有候选指标对目标疾病的不同影响情况，以便后续能够基于该“待使用羊群的羊群表征数据”，确定出该目标疾病的影响因素。
[0076]
需要说明的是，本技术实施例不限定s1和s2的执行顺序，例如，可以依次执行s1和s2，也可以依次执行s2和s1，还可以同时执行s1和s2。
[0077]
s3：根据至少一个体检样本、该至少一个体检样本在目标疾病下的实际分类标签、
以及待使用羊群中每个个体的个体表示特征，确定该待使用羊群中每个个体的适应度值。
[0078]
其中，“待使用羊群中第m个个体的适应度值”用于表示该第m个个体所代表的所有候选指标对目标疾病的影响情况的普适程度；而且该“待使用羊群中第m个个体的适应度值”越大，则表示该第m个个体所代表的所有候选指标对目标疾病的影响情况的普适程度越高。m为正整数，m≤m，m为正整数。
[0079]
另外，本技术实施例不限定上述“待使用羊群中第m个个体的适应度值”的确定过程，例如，其可以采用下文所示的确定“待使用羊群中第m个个体的适应度值”的任一实施方式进行实施。
[0080]
基于上述s3的相关内容可知，在获取到大量体检样本及其在目标疾病下的实际分类标签、以及待使用羊群中每个个体的个体表示特征之后，可以利用这些体检样本及其在目标疾病下的实际分类标签，验证这些个体表示特征所代表的所有候选指标对目标疾病的影响情况的普适程度，得到这些个体的适应度值，以便后续能够基于这些适应度值，确定出具有最高普适程度的个体。
[0081]
s4：根据待使用羊群中每个个体的适应度值，从该待使用羊群的所有个体中确定出待使用羊群中领头羊。
[0082]
其中，“领头羊”用于表示待使用羊群的所有个体中具有最高普适程度的个体。
[0083]
另外，本技术实施例不限定上述“领头羊”的确定过程，例如，其具体可以为：先对待使用羊群中所有个体的适应度值进行最大值分析，得到最高适应度值；再将该待使用羊群中具有最高适应度值的个体，确定为该待使用羊群中领头羊。
[0084]
基于上述s4的相关内容可知，在获取到待使用羊群中每个个体的适应度值之后，可以依据这些适应度值，从该待使用羊群的所有个体中挑选出具有最高普适程度的个体，确定为该待使用羊群中领头羊，以便后续能够基于该领头羊，更新待使用羊群中每个个体的个体表示特征。
[0085]
s5：判断是否达到预设停止条件，若是，则执行s7；若否，执行s6。
[0086]
上述“预设停止条件”可以预先设定；而且本技术实施例不限定该“预设停止条件”，例如，其可以是：迭代次数达到预设次数阈值，或者，待使用羊群中领头羊的适应度值达到预设适应度阈值(例如，预设适应度阈值为0.8569)。其中，预设次数阈值、以及预设适应度阈值均可以预先设定。
[0087]
s6：根据待使用羊群中每个个体的适应度值、以及待使用羊群中领头羊，更新待使用羊群中每个个体的个体表示特征，并返回执行s3及其后续步骤。
[0088]
本技术实施例中，在确定当前迭代仍未达到预设停止条件时，可以确定当前迭代所确定的领头羊所代表的所有候选指标对目标疾病的影响情况的普适程度仍然比较低，故为了进一步提高目标疾病的影响因素的准确性，可以参考该待使用羊群中每个个体的适应度值、以及该待使用羊群中领头羊，更新该待使用羊群中每个个体的个体表示特征，以便后续能够基于这些个体更新后的个体表示特征，继续执行s3及其后续步骤，以实现针对下一轮领头羊筛选过程，如此能够通过多轮迭代过程逐步找到普适程度比较高的领头羊，从而能够实现逐步找到该目标疾病的最佳影响因素的目的。
[0089]
需要说明的是，本技术实施例不限定上述“待使用羊群中每个个体的个体表示特征”的更新过程，例如，其可以采用下文所示的更新“待使用羊群中每个个体的个体表示特
征”的任一实施方式进行实施。
[0090]
s7：根据待使用羊群中领头羊的个体表示特征，确定目标疾病的至少一个影响因素。
[0091]
本技术实施例中，在确定当前迭代已达到预设停止条件时，可以确定当前迭代所确定的领头羊所代表的所有候选指标对目标疾病的影响情况的普适程度比较高，故可以直接参考该领头羊的个体表示特征，确定目标疾病的至少一个影响因素(例如，可以将该领头羊的个体表示特征中相关程度表征值比较高的α个候选指标，均确定为目标疾病的影响因素)，以使该目标疾病的这些影响因素与该目标疾病的相关性更大，如此能够实现从大量体检结果中挖掘出目标疾病的影响因素的目的。例如，筛选所得的脂肪肝的影响因素可以包括以下16项影响因素：身体指数，血清甘油三酯测定，体重，腰围，血清尿酸测定，血清γ谷氨酰基转移酶测定，血清高密度脂蛋白胆固醇测定，血清丙氨酸氨基转移酶测定，葡萄糖测定(空腹)，血红蛋白浓度，红细胞计数，性别，舒张压，红细胞比积测定，收缩压，肌酐测定。
[0092]
需要说明的是，本技术实施例不限定α，例如，α＝16；而且α可以预先设定。
[0093]
基于上述s1至s7的相关内容可知，对于本技术实施例提供的影响因素确定方法来说，首先，从大量体检数据中提取出至少一个体检样本(例如，各个候选指标的指标值)、以及各个体检样本在目标疾病下的实际分类标签，并初始化待使用羊群中每个个体的个体表示特征，以使该个体表示特征能够表示出各候选指标与目标疾病的相关程度；其次，根据这些体检样本及其实际分类标签、以及待使用羊群中每个个体的个体表示特征，确定每个个体的适应度值，以使该适应度值能够表示出该个体所表征的影响因素对目标疾病的普适程度；然后，根据这些个体的适应度值，确定该待使用羊群中领头羊；最后，根据这些个体的适应度值以及领头羊，更新这些个体的个体表示特征，并返回继续执行上述“根据这些体检样本及其实际分类标签、以及待使用羊群中每个个体的个体表示特征，确定每个个体的适应度值”的步骤，直至在确定达到预设停止条件之后，根据待使用羊群中领头羊的个体表示特征，确定该目标疾病的影响因素，如此能够通过迭代过程逐步找到该目标疾病的最佳影响因素，从而能够实现针对某种疾病的影响因素的挖掘目的。
[0094]
在一种可能的实施方式中，为了进一步提高目标疾病的影响因素的查找效果，本技术实施例还提供了s3的另一种可能的实施方式，其具体可以包括s31-s32：
[0095]
s31：对待使用羊群中每个个体的个体表示特征进行二值化处理，得到该待使用羊群中每个个体的因素选择描述数据。
[0096]
其中，“待使用羊群中第m个个体的因素选择描述数据”用于以二值化数据描述该待使用羊群中第m个个体所具有的特点，以使该“待使用羊群中第m个个体的因素选择描述数据”能够表示出针对目标疾病所选择的候选指标组，从而使得该第m个个体能够更好地代表所有候选指标对目标疾病的一种影响组合。m为正整数，m≤m，m为正整数。
[0097]
另外，本技术实施例不限定上述“待使用羊群中第m个个体的因素选择描述数据”，例如，其可以包括至少一个候选指标的筛选结果，以使该“待使用羊群中第m个个体的因素选择描述数据”能够以二值化方式表征出这些候选指标对目标疾病的一种影响情况(也就是，针对目标疾病的一种影响因素组合情况)。可见，当上述“至少一个候选指标”包括n个候选指标时，该“待使用羊群中第m个个体的因素选择描述数据”可以包括n个候选指标的筛选结果。
[0098]
此外，本技术实施例不限定上述“待使用羊群中第m个个体的因素选择描述数据”的表示方式，例如，其可以采用公式(5)所示的向量形式进行表示，以使该“待使用羊群中第m个个体的因素选择描述数据”的向量维度等于候选指标的个数。
[0099]
clsm＝(c
m,1
,c
m,2
,
…
,c
m,n
)
ꢀꢀꢀ
(5)
[0100]
其中，clsm表示待使用羊群中第m个个体的因素选择描述数据；c
m,n
表示上述“待使用羊群中第m个个体的因素选择描述数据”中第n个候选指标的筛选结果，以使该c
m,n
能够表示出是否选择该第n个候选指标作为目标疾病的影响因素，而且如果e
m,n
满足预设筛选条件，则选择该第n个候选指标作为目标疾病的影响因素，故该c
m,n
为第一数值(例如，1)，如果e
m,n
不满足预设筛选条件，则不选择该第n个候选指标作为目标疾病的影响因素，故该c
m,n
为第二数值(例如，0)；n为正整数，n≤n，n为正整数，n表示候选指标的个数。
[0101]
上述“预设筛选条件”用于从n个候选指标中挑选出作为目标疾病的影响因素；而且本技术实施例不限定上述“预设筛选条件”，例如，如果想要针对目标疾病确定出α个影响因素，则该“预设筛选条件”具体可以为从sepm中挑选出α个比较高的相关程度表征值，以使该“预设筛选条件”能够实现基于该sepm，从n个候选指标中挑选出对目标疾病的相关程度表征值比较高的候选指标的目的。
[0102]
可见，在获取到上述“待使用羊群中第m个个体的个体表示特征”sepm之后，可以将该sepm中所有元素e
m,1
、e
m,2
、
……
、以及e
m,n
按照数值从小大排序，得到第一排序结果；如果该第一排序结果表示e
m,n
的排列位置≤α，则可以确定该e
m,n
满足预设筛选条件，从而可以选择该第n个候选指标作为目标疾病的影响因素，故可以设定该c
m,n
为第一数值(例如，1)；然而，如果该第一排序结果表示e
m,n
的排列位置＞α，则可以确定该e
m,n
不满足预设筛选条件，从而可以舍弃该第n个候选指标，故可以设定该c
m,n
为第二数值(例如，0)。其中，n为正整数，n≤n，n为正整数，n表示候选指标的个数。
[0103]
实际上，上述sepm所包括的n个相关程度表征值之间可能存在数量级差别，故为了避免该数量级差别所造成的干扰，本技术实施例还提供了确定上述“待使用羊群中第m个个体的因素选择描述数据”的另一种可能的实施方式(如图3所示)，其具体可以包括s311-s313：
[0104]
s311：对待使用羊群中第m个体的个体表示特征进行归一化处理，得到该第m个体的归一化特征。
[0105]
上述“归一化处理”用于消除多个数据之间可能存在数量级差别；而且本技术实施例不限定该“归一化处理”的实施方式，例如，可以采用softmax归一化方法进行实施。
[0106]
上述“第m个体的归一化特征”用于表示该待使用羊群中第m个个体所具有的特点；而且本技术实施例不限定该“第m个体的归一化特征”，例如，其可以包括至少一个候选指标的归一化影响表征值。可见，当上述“至少一个候选指标”包括n个候选指标时，该“第m个体的归一化特征”可以包括n个候选指标的归一化影响表征值。
[0107]
另外，本技术实施例不限定上述“第m个体的归一化特征”的表示方式，例如，其可以采用公式(6)-(7)所示的向量形式进行表示，以使该“第m个体的归一化特征”的向量维度等于候选指标的个数。
[0108]
nsm＝(s
m,1
,s
m,2
,
…
,s
m,n
)
ꢀꢀꢀ
(6)
[0109][0110]
式中，nsm表示第m个体的归一化特征；s
m,n
表示上述“第m个体的归一化特征”中第n个候选指标的归一化影响表征值，以使该s
m,n
能够表示出该第n个候选指标对目标疾病的归一化后的相关程度；n为正整数，n≤n，n为正整数，n表示候选指标的个数。
[0111]
s312：从第m个体的归一化特征中确定出满足预设选择条件的至少一个待选择位置、以及不满足预设选择条件的至少一个待舍弃位置。
[0112]
上述“预设选择条件”可以预先设定，例如，当将上述nsm中所有元素按照数值从大到小进行排序之后，该“预设选择条件”可以是排在前α的元素在上述nsm中所处位置，以使该“预设选择条件”能够基于该nsm，从n个候选指标中挑选出对目标疾病的相关程度比较高的候选指标的目的。
[0113]
可见，在获取到上述“第m个体的归一化特征”nsm之后，可以将该nsm中所有元素s
m,1
、s
m,2
、
……
、以及s
m,n
按照数值从小大排序，得到第二排序结果；如果该第二排序结果表示s
m,n
的排列位置≤α，则可以确定该s
m,n
满足预设选择条件，从而可以选择该第n个候选指标作为目标疾病的影响因素，故可以将该s
m,n
在上述nsm中所处位置，标记为待选择位置；然而，如果该第二排序结果表示s
m,n
的排列位置＞α，则可以确定该s
m,n
不满足预设选择条件，从而可以舍弃该第n个候选指标，故可以将该s
m,n
在上述nsm中所处位置，标记为待舍弃位置。其中，n为正整数，n≤n，n为正整数，n表示候选指标的个数。
[0114]
s313：将第m个体的归一化特征中各待选择位置设定为第一数值，并将该第m个体的归一化特征中各待舍弃位置设定为第二数值，得到待使用羊群中第m个体的因素选择描述数据。
[0115]
本技术实施例中，在获取到上述“第m个体的归一化特征”对应的至少一个待选择位置以及至少一个待舍弃位置之后，可以将该“第m个体的归一化特征”中各待选择位置设定为第一数值(例如，1)，并将该“第m个体的归一化特征”中各待舍弃位置设定为第二数值(例如，0)，得到待使用羊群中第m个体的因素选择描述数据，以使该“第m个体的因素选择描述数据”的向量维度与该“第m个体的归一化特征”的向量维度保持一致，从而使得该“第m个体的因素选择描述数据”能够表示出基于该nsm从所有候选指标中挑选所得的对目标疾病的相关程度比较高的候选指标，进而使得该“第m个体的因素选择描述数据”能够表示出所有候选指标对目标疾病的一种影响情况。
[0116]
基于上述s31的相关内容可知，在获取到待使用羊群中第m个个体的个体表示特征之后，可以针对该第m个个体的个体表示特征进行二值化处理(例如，图3所示的二值化处理过程)，得到该第m个体的因素选择描述数据，以使该“第m个体的因素选择描述数据”能够以二值化数据表示该第m个个体所具有的特点，从而使得该“第m个体的因素选择描述数据”能够以二值化方式表征出这些候选指标对目标疾病的一种影响情况(也就是，针对目标疾病的一种影响因素组合情况)。
[0117]
s32：根据至少一个体检样本、该至少一个体检样本在目标疾病下的实际分类标签、以及待使用羊群中每个个体的因素选择描述数据，确定该待使用羊群中每个个体的适应度值。
[0118]
作为示例，s32具体可以包括s321-s324：
[0119]
s321：根据至少一个体检样本、以及该至少一个体检样本在目标疾病下的实际分类标签，确定至少一个训练数据、该至少一个训练数据的实际分类标签、至少一个测试数据、以及该至少一个测试数据的实际分类标签。
[0120]
上述“训练数据”用于表示在模型构建过程中所需使用的体检样本。
[0121]
上述“测试数据”用于表示在模型测试过程中所需使用的体检样本。
[0122]
需要说明的是，本技术实施例不限定上述“训练数据”的个数、以及上述“测试数据”的个数，例如，上述“训练数据”的个数与上述“测试数据”的个数之和等于上述“体检样本”的个数。
[0123]
另外，本技术实施例不限定s321的实施方式，为了便于理解，下面结合示例进行说明。
[0124]
作为示例，当上述“至少一个体检样本”、以及上述“至少一个体检样本在目标疾病下的实际分类标签”能够构建出2000例正样本 2000例负样本时，可以先将2000例正样本和2000例负样本进行混洗，得到4000例待划分样本；再将该4000例待划分样本按照预设划分比例(例如，4:1等)划分得到训练数据集以及测试数据集，以使该训练数据集能够用于训练模型，并使得该测试数据集能够用于测试模型；最后，将该训练数据集中各例待划分样本所记录的体检样本及其在目标疾病下的实际分类标签，确定为一个训练数据及其该训练数据的实际分类标签，并将该测试数据集中各例待划分样本所记录的体检样本及其在目标疾病下的实际分类标签，确定为一个测试数据及其该测试数据的实际分类标签。
[0125]
需要说明的是，本技术实施例不限定上述“待划分样本”的表示方式，例如，其可以采用公式(8)所示的方式进行表示。
[0126][0127]
式中，sdr表示第r例待划分样本；表示第r例待划分样本中所记录的体检样本；l
(r)
表示第r例待划分样本中所记录的体检样本在目标疾病下的实际分类标签；其中，r为正整数，r≤r，r为正整数，r表示待划分样本的个数。
[0128]
s322：利用待使用羊群中每个个体的因素选择描述数据，对至少一个训练数据进行指标选择处理，得到待使用羊群中每个个体对应的至少一个训练样本。
[0129]
其中，第m个个体对应的第b个训练样本是利用该第m个个体的因素选择描述数据，对第b个训练数据进行指标选择处理得到的。其中，m为正整数，m≤m，m为正整数，b为正整数，b≤b，b为正整数，b表示训练数据的个数。
[0130]
另外，本技术实施例不限定上述“第m个个体对应的第b个训练样本”的确定过程，为了便于理解，下面结合三个示例进行说明。
[0131]
示例1，上述“第m个个体对应的第b个训练样本”的确定过程，具体可以为：先将上述“第m个个体的因素选择描述数据”中各个第二数值所处位置，均确定为待掩码位置；再将第b个训练数据中各个待掩码位置的数值均替换为零，得到该第m个个体对应的第b个训练样本，以使该“第m个个体对应的第b个训练样本”中只保留了由该“第m个个体的因素选择描述数据”所选择的各个候选指标的指标值。
[0132]
示例2，当上文“第一数值”为1，且上文“第二数值”为0时，上述“第m个个体对应的第b个训练样本”的确定过程，也可以利用公式(9)-(10)进行实施。
[0133][0134][0135]
式中，表示第m个个体对应的第b个训练样本；表示上述“第m个个体对应的第b个训练样本”中第n个候选指标的加权指标值，以使该能够表示出在上述“第m个个体的因素选择描述数据”中是否选择了该第n个候选指标作为目标疾病的影响因素；表示第b个训练数据；表示第b个训练数据中所记录的第n个候选指标的指标值(也就是，针对第n个候选指标的检验结果)；c
m,n
表示上述“待使用羊群中第m个个体的因素选择描述数据”中第n个候选指标的筛选结果；n为正整数，n≤n，n为正整数，n表示候选指标的个数；b为正整数，b≤b，b为正整数，b表示训练数据的个数。
[0136]
示例3，上述“第m个个体对应的第b个训练样本”的确定过程，具体可以为：先将上述“第m个个体的因素选择描述数据”中各个第二数值所处位置，均确定为待删除位置；再将第b个训练数据中各个待删除位置进行删除处理，得到该第m个个体对应的第b个训练样本，以使该“第m个个体对应的第b个训练样本”只用于记录由该“第m个个体的因素选择描述数据”所选择的各个候选指标的指标值。
[0137]
基于上述s322的相关内容可知，在获取到待使用羊群中第m个个体的因素选择描述数据、以及至少一个训练数据之后，可以利用该第m个个体的因素选择描述数据对各个训练数据进行指标选择处理(也就是，指定哪些候选指标的指标值可以保留，以及哪些候选指标的指标值可以舍弃)，得到该第m个个体对应的各个训练样本，以便后续能够利用这些样本数据，构建该第m个个体所对应的分类模型。
[0138]
s323：利用待使用羊群中每个个体对应的至少一个训练样本、以及至少一个训练数据的实际分类标签，对待处理分类模型进行训练，得到该待使用羊群中每个个体对应的分类模型。
[0139]
上述“待处理分类模型”是指需要进行训练的分类模型；而且本技术实施例不限定该“待处理分类模型”，例如，其可以采用现有的或者未来出现的任意一种分类模型进行实施。又如，其可以采用基于高斯核的支持向量机进行实施。
[0140]
第m个个体对应的分类模型用于参考该“第m个个体的因素选择描述数据”所选择的各个候选指标进行分类处理。其中，m为正整数，m≤m，m为正整数。
[0141]
另外，本技术实施例不限定上述“第m个个体对应的分类模型”的确定过程，例如，其具体可以包括s3231-s3232：
[0142]
s3231：将第b个训练数据的实际分类标签，确定为第m个个体对应的第b个训练样本的实际分类标签。其中，m为正整数，m≤m，m为正整数，b为正整数，b≤b，b为正整数，b表示训练数据的个数。
[0143]
s3232：利用第m个个体对应的b个训练样本、以及该第m个个体对应的b个训练样本的实际分类标签，训练待处理分类模型，得到该第m个个体对应的分类模型。
[0144]
需要说明的是，本技术实施例不限定s3232的实施方式，例如，可以采用现有的或者未来出现的任意一种分类模型训练方法进行实施。
[0145]
基于上述s323的相关内容可知，在获取到待使用羊群中第m个个体对应的至少一
个训练样本及其实际分类标签之后，可以利用这些训练样本及其实际分类标签，对待处理分类模型进行训练，得到待使用羊群中第m个个体对应的分类模型，以使该“第m个个体对应的分类模型”能够具有参考该“第m个个体的因素选择描述数据”所选择的各个候选指标进行分类处理的功能。
[0146]
s324：利用待使用羊群中每个个体对应的分类模型、至少一个测试数据、以及该至少一个测试数据的实际分类标签，确定该待使用羊群中每个个体的适应度值。
[0147]
作为示例，s324具体可以包括s3241-s3243：
[0148]
s3241：利用待使用羊群中第m个体对应的分类模型，确定各测试数据的第m个模型分类结果。其中，m为正整数，m≤m，m为正整数。
[0149]
其中，“第f个测试数据的第m个模型分类结果”是指利用上述“第m个体对应的分类模型”预测所得的该第f个测试数据是否属于目标疾病(例如，脂肪肝等)。f为正整数，f≤f，f为正整数，f表示测试数据的个数。
[0150]
另外，本技术实施例不限定上述“第f个测试数据的第m个模型分类结果”的确定过程，例如，其具体可以为：直接将第f个测试数据输入第m个体对应的分类模型，得到该“第m个体对应的分类模型”输出的该第f个测试数据的第m个模型分类结果。
[0151]
此外，为了进一步提高模型分类效果，本技术实施例还提供了确定上述“第f个测试数据的第m个模型分类结果”的另一种可能的实施方式，其具体可以包括步骤21-步骤22：
[0152]
步骤21：利用待使用羊群中第m个个体的因素选择描述数据，对第f个测试数据进行指标选择处理，得到该第m个个体对应的第f个测试样本。
[0153]
需要说明的是，步骤21的实施方式类似于上文s322所示的“第m个个体对应的第b个训练样本”的确定过程的实施方式。
[0154]
步骤22：将第m个个体对应的第f个测试样本输入第m个体对应的分类模型，得到该“第m个体对应的分类模型”输出的该第f个测试数据的第m个模型分类结果。
[0155]
基于上述s3241的相关内容可知，在获取到第m个体对应的分类模型之后，可以利用该“第m个体对应的分类模型”对第f个测试数据进行分类处理，得到该第f个测试数据的第m个模型分类结果，以使该“第f个测试数据的第m个模型分类结果”能够表示出该第f个测试数据是否属于目标疾病。其中，f为正整数，f≤f，f为正整数，f表示测试数据的个数。
[0156]
s3242：根据至少一个测试数据的第m个模型分类结果、以及该至少一个测试数据的实际分类标签，确定第m个体对应的分类模型的分类性能表征数据。
[0157]
上述“第m个体对应的分类模型的分类性能表征数据”用于表示该第m个体对应的分类模型所具有的分类性能；而且本技术实施例不限定该“第m个体对应的分类模型的分类性能表征数据”，例如，其可以包括该第m个体对应的分类模型的f1分数。
[0158]
另外，本技术实施例不限定上述“第m个体对应的分类模型的分类性能表征数据”的确定过程(也就是，s3242的实施方式)，例如，具体可以包括s32421-s32424：
[0159]
s32421：根据至少一个测试数据的第m个模型分类结果、以及该至少一个测试数据的实际分类标签，确定第m个体对应的分类模型的精确率。
[0160]
s32422：根据至少一个测试数据的第m个模型分类结果、以及该至少一个测试数据的实际分类标签，确定第m个体对应的分类模型的召回率。
[0161]
s32423：利用第m个体对应的分类模型的精确率、以及该第m个体对应的分类模型
的召回率，确定该第m个体对应的分类模型的f1分数。
[0162]
s32424：将第m个体对应的分类模型的f1分数，确定为该第m个体对应的分类模型的分类性能表征数据。
[0163]
s3243：将第m个体对应的分类模型的分类性能表征数据，确定为待使用羊群中第m个体的适应度值。
[0164]
本技术实施例中，在获取到第m个体对应的分类模型的分类性能表征数据之后，可以将该分类性能表征数据，直接确定为该第m个体的适应度值，以使该能够表示出由上述“第m个个体的因素选择描述数据”所选择的候选指标组合对目标疾病的影响效果，从而使得该“第m个体的适应度值”能够更好地表示该第m个体所表征的影响因素对目标疾病的普适程度。
[0165]
基于上述s324的相关内容可知，在获取到待使用羊群中第m个个体对应的分类模型之后，可以利用至少一个测试数据、以及该至少一个测试数据的实际分类标签，对该第m个个体对应的分类模型进行模型测试处理，得到该第m个体的适应度值，以使该“第m个体的适应度值”能够表示出由上述“第m个个体的因素选择描述数据”所选择的候选指标组合对目标疾病的影响效果，从而使得该“第m个体的适应度值”能够更好地表示该第m个体所表征的影响因素对目标疾病的普适程度，以便后续能够基于该“第m个体的适应度值”，确定该目标疾病的影响因素。
[0166]
基于上述s31至s32的相关内容可知，在获取到待使用羊群中第m个个体的个体表示特征之后，可以借助二值化处理、以及适应度计算过程，确定该第m个体的适应度值，以使该“第m个体的适应度值”能够表示出由上述“第m个个体的因素选择描述数据”所选择的候选指标组合对目标疾病的影响效果，从而使得该“第m个体的适应度值”能够更好地表示出该第m个个体所代表的所有候选指标对目标疾病的影响情况的普适程度，如此有利于提高目标疾病的影响因素的挖掘效果。
[0167]
在一种可能的实施方式中，为了进一步提高目标疾病的影响因素的挖掘效果，本技术实施例还提供了上文s6的一种可能的实施方式(也就是，个体表示特征更新过程的一种可能的实施方式)，其具体可以包括s61-s66：
[0168]
s61：将待使用羊群中除了领头羊以外的各个个体均确定为普通羊。
[0169]
本技术实施例中，在获取到待使用羊群中领头羊之后，可以将该待使用羊群中除了领头羊以外的各个个体均确定为普通羊，以使该“普通羊”能够代表待使用羊群中除了领头羊以外的各个个体。可见，如果待使用羊群包括m个个体，则可以将该待使用羊群中除了领头羊这一个体以外的其他m-1个个体均确定为普通羊，以使该待使用羊群中包括1个领头羊和m-1个普通羊。
[0170]
s62：根据待使用羊群中领头羊的因素选择描述数据，对各普通羊的因素选择描述数据进行预更替处理，得到各普通羊对应的因素选择预更替数据。
[0171]
其中，“第l个普通羊对应的因素选择预更替数据”是指第l个普通羊向领头羊靠近时所具有的特点，以使该“第l个普通羊对应的因素选择预更替数据”能够表示出在第l个普通羊向领头羊靠近时针对目标疾病所选择的候选指标组。其中，l为正整数，l≤l，l为正整数，l表示普通羊个数。
[0172]
另外，本技术实施例不限定上述“第l个普通羊对应的因素选择预更替数据”的确
定过程(如图4所示)，例如，其具体可以包括s621-s622：
[0173]
s621：将待使用羊群中领头羊的因素选择描述数据与第l个普通羊的因素选择描述数据进行比较，得到该第l个普通羊对应的比较结果，以使该“第l个普通羊对应的比较结果”用于表示该领头羊的因素选择描述数据与第l个普通羊的因素选择描述数据之间的区别。
[0174]
s622：根据第l个普通羊对应的比较结果，确定第一更替位置和第二更替位置。
[0175]
作为示例，s622具体可以包括s6221-s6222：
[0176]
s6221：若上述“第l个普通羊对应的比较结果”表示上述“领头羊的因素选择描述数据”中目标位置上的数值为第一数值(例如，1)，且上述“第l个普通羊的因素选择描述数据”中目标位置上的数值为第二数值(例如，0)时，可以将该目标位置确定为第一更替位置(例如，图4所示的第4个数据位置)，以使该“第一更替位置”能够表示出第l个普通羊的因素选择描述数据中需要更替为第一数值的位置，以实现第l个普通羊向领头羊靠近的目的。
[0177]
s6222：若上述“第l个普通羊对应的比较结果”表示上述“领头羊的因素选择描述数据”中目标位置上的数值为第二数值(例如，0)，且上述“第l个普通羊的因素选择描述数据”中目标位置上的数值为第一数值(例如，1)时，可以将该目标位置确定为第二更替位置(例如，图4所示的第8个数据位置)，以使该“第二更替位置”能够表示出第l个普通羊的因素选择描述数据中需要更替为第二数值的位置，以实现第l个普通羊向领头羊靠近的目的。
[0178]
s623：将第l个普通羊的因素选择描述数据中第一更替位置上数值替换为第一数值，并将该第l个普通羊的因素选择描述数据中第二更替位置上数值替换为第二数值，得到该第l个普通羊对应的因素选择预更替数据。
[0179]
基于上述s62的相关内容可知，在获取到第l个普通羊之后，可以参考待使用羊群中领头羊的因素选择描述数据，对该第l个普通羊的因素选择描述数据进行预更替处理，得到该第l个普通羊对应的因素选择预更替数据，以使该第l个普通羊对应的因素选择预更替数据更接近于该领头羊的因素选择描述数据，从而使得该“第l个普通羊对应的因素选择预更替数据”能够表示出在第l个普通羊向领头羊靠近时所具有的特点，如此能够实现第l个普通羊向领头羊靠近的目的。其中，l为正整数，l≤l，l为正整数，l表示普通羊个数。
[0180]
s63：根据至少一个体检样本、该至少一个体检样本在目标疾病下的实际分类标签、以及各普通羊对应的因素选择预更替数据，确定各普通羊对应的预更替后适应度值。
[0181]
其中，“第l个普通羊对应的预更替后适应度值”用于表示由上述“第l个普通羊对应的因素选择预更替数据”所选择的候选指标组合对目标疾病的影响效果，以使该“第l个普通羊对应的预更替后适应度值”能够表示出预更替处理后的第l个普通羊所代表的所有候选指标对目标疾病的影响情况的普适程度。其中，l为正整数，l≤l，l为正整数，l表示普通羊个数。
[0182]
需要说明的是，s63的实施方式与上文s32的实施方式类似，为了简要起见，在此不再赘述。
[0183]
s64：将各普通羊对应的预更替后适应度值与各普通羊的适应度值之间的差值，确定为各普通羊对应的预更替收益值。
[0184]
其中，第l个普通羊对应的预更替收益值用于表示在第l个普通羊向领头羊靠近时所产生的收益；而且该“第l个普通羊对应的预更替收益值”可以是正值，也可以是负值。其
中，l为正整数，l≤l，l为正整数，l表示普通羊个数。
[0185]
另外，本技术实施例不限定上述“第l个普通羊对应的预更替收益值”的确定过程，例如，其具体可以采用公式(11)进行实施。
[0186][0187]
其中，gain
l
表示第l个普通羊对应的预更替收益值；表示第l个普通羊对应的预更替后适应度值；表示第l个普通羊对应的因素选择预更替数据；d
test
表示上文“至少一个测试数据”；fit(cls
l
,d
test
)表示第l个普通羊的适应度值；cls
l
表示第l个普通羊的因素选择描述数据。
[0188]
s65：根据所有普通羊对应的预更替收益值，更新领头羊的个体表示特征。
[0189]
作为示例，s65具体可以包括s651-s653：
[0190]
s651：初始化tamp＝1。
[0191]
s652：根据第tamp个普通羊对应的预更替收益值、以及该第tamp个普通羊对应的第一更替位置和第二更替位置，更新领头羊的个体表示特征。
[0192]
作为示例，s652具体可以包括s6521-s6523：
[0193]
s6521：根据第tamp个普通羊对应的预更替收益值、以及该第tamp个普通羊对应的第一更替位置，对领头羊的个体表示特征中该第一更替位置上数值进行更新，得到第一更新后数值。
[0194]
上述“第tamp个普通羊对应的第一更替位置”是指从第二数值更替为第一数值的位置(例如，0
→
1)。例如，当第tamp个普通羊对应的因素选择预更替数据中第w
tamp
个位置上数值为第一数值(例如，1)，第tamp个普通羊的因素选择描述数据中第w
tamp
个位置上数值为第二数值(例如，0)，且领头羊的因素选择描述数据中第w
tamp
个位置上数值为第一数值时，上述“第tamp个普通羊对应的第一更替位置”就是w
tamp
。
[0195]
另外，本技术实施例不限定s6521的实施方式，例如，其可以采用公式(12)进行实施。
[0196][0197]
式中，表示第一更新后数值；表示领头羊的个体表示特征中w
tamp
上数值；sep
lead
＝(e
lead,1
,e
lead,2
,
…
,e
lead,n
)表示领头羊的个体表示特征；w
tamp
表示第tamp个普通羊对应的第一更替位置，且w
tamp
∈{1,2,
…
,n}；gain
tamp
表示第tamp个普通羊对应的预更替收益值；δ是激励调节参数，δ》0，且δ可以预先设定。
[0198]
s6522：根据第tamp个普通羊对应的预更替收益值、以及该第tamp个普通羊对应的第二更替位置，对领头羊的个体表示特征中第二更替位置上数值进行更新，得到第二更新后数值。
[0199]
上述“第tamp个普通羊对应的第二更替位置”是指从第一数值更替为第二数值的位置(例如，1
→
0)。例如，当第tamp个普通羊对应的因素选择预更替数据中第p
tamp
个位置上数值为第二数值(例如，0)，第tamp个普通羊的因素选择描述数据中第p
tamp
个位置上数值为第一数值(例如，1)，且领头羊的因素选择描述数据中第p
tamp
个位置上数值为第二数值时，上述“第tamp个普通羊对应的第二更替位置”就是p
tamp
。
[0200]
另外，本技术实施例不限定s6522的实施方式，例如，其可以采用公式(13)进行实
施。
[0201][0202]
式中，表示第二更新后数值；表示领头羊的个体表示特征中p
tamp
上数值；sep
lead
＝(e
lead,1
,e
lead,2
,
…
,e
lead,n
)表示领头羊的个体表示特征；p
tamp
表示第tamp个普通羊对应的第二更替位置，且p
tamp
∈{1,2,
…
,n}；gain
tamp
表示第tamp个普通羊对应的预更替收益值；δ是激励调节参数，δ》0，且δ可以预先设定。
[0203]
s6523：利用第一更新后数值替换领头羊的个体表示特征中第一更替位置w
tamp
上数值，并利用第二更新后数值替换领头羊的个体表示特征中第二更替位置p
tamp
上数值，得到领头羊更新后的个体表示特征(例如，当w
tamp
《p
tamp
时，领头羊更新后的个体表示特征可以利用公式(14)进行表示)。
[0204][0205]
式中，sep
′
lead
表示领头羊更新后的个体表示特征；表示第一更新后数值；表示第二更新后数值。
[0206]
基于上述s652的相关内容可知，在获取到tamp之后，可以参考该第tamp个普通羊对应的预更替收益值、以及该第tamp个普通羊对应的第一更替位置和第二更替位置，更新领头羊的个体表示特征，以实现在第tamp个普通羊向领头羊靠近时对该领头羊所产生的激励机制。
[0207]
s653：判断tamp是否达到l，若是，则完成针对领头羊的个体表示特征的更新过程；若否，则执行s654。
[0208]
本技术实施例中，如果tamp达到l，则可以确定已完成由l个普通羊对领头羊的激励过程，故可以结束针对领头羊的个体表示特征的更新过程；然而，如果tamp没有达到l，则可以确定还未执行至少一个普通羊对领头羊的激励过程，故可以执行s654及其后续步骤。
[0209]
s654：更新tamp(如公式(15)所示)，并返回执行s652及其后续步骤。
[0210]
tamp
′
＝tamp 1
ꢀꢀꢀ
(15)
[0211]
式中，tamp
′
表示更新后的tamp。
[0212]
基于上述s65的相关内容可知，在获取到所有普通羊对应的预更替收益值之后，可以利用所有普通羊对应的预更替收益值，对领头羊的个体表示特征，以实现在所有普通羊向领头羊靠近时对该领头羊所产生的激励机制。
[0213]
s66：根据领头羊的个体表示特征，更新待使用羊群中每个个体的个体表示特征。
[0214]
实际上，在待使用羊群中领头羊获取到激励之后，该待使用羊群中各个普通羊会以该领头羊作为学习目标来更新自身表示特征。基于此，本技术实施例提供了s66的一种可能的实施方式，其具体可以包括s661-s662：
[0215]
s661：根据领头羊的个体表示特征，更新各个普通羊的个体表示特征(如公式(16)所示)。
[0216][0217]
式中，表示第l个普通羊更新后的个体表示特征；表示第l个普通
羊更新前的个体表示特征；sep
′
lead
表示领头羊更新后的个体表示特征；η表示学习率，η》0，且η可以预先设定；其中，l为正整数，l≤l，l为正整数，l表示普通羊个数。
[0218]
s662：根据领头羊的个体表示特征、以及各个普通羊的个体表示特征，确定待使用羊群中每个个体更新后的个体表示特征。
[0219]
本技术实施例中，在完成针对领头羊的个体表示特征、以及各个普通羊的个体表示特征的更新之后，可以将该领头羊的个体表示特征(也就是，sep
′
lead
)、以及这些普通羊的个体表示特征(也就是，)进行集合，得到待使用羊群中每个个体更新后的个体表示特征(也就是，中每个个体更新后的个体表示特征(也就是，)。
[0220]
基于上述s66的相关内容可知，在完成针对领头羊的个体表示特征的更新之后，可以参考该领头羊的个体表示特征，更新各个普通羊的个体表示特征，如此能够实现针对待使用羊群中每个个体的个体表示特征进行更新的目的，以便后续能够基于待使用羊群中每个个体更新后的个体表示特征，继续执行s3及其后续步骤，以实现针对下一轮领头羊筛选过程，如此能够通过多轮迭代过程逐步找到普适程度比较高的领头羊，从而能够逐步找到该目标疾病的最佳影响因素。
[0221]
基于上述s61至s66的相关内容可知，在获取到待使用羊群中每个个体的适应度值、以及待使用羊群中领头羊之后，可以先利用待使用羊群中各个普通羊对该领头羊进行激励，得到该领头羊更新后的个体表示特征；再参考该领头羊更新后的个体表示特征，更新各个普通羊的个体表示特征，如此能够实现针对待使用羊群中每个个体的个体表示特征进行更新的目的，以便后续能够基于待使用羊群中每个个体更新后的个体表示特征，继续执行s3及其后续步骤，以实现针对下一轮领头羊筛选过程。可见，本技术可以采用激励机制快速地待使用羊群中每个个体的个体表示特征，如此有利于提高目标疾病的影响因素的挖掘效率。
[0222]
实际上，上文“领头羊的因素选择描述数据”能够更好地表示出哪些候选指标能够对目标疾病产生影响。基于此，为了提高目标疾病的影响因素的挖掘效果，本技术实施例还提供了s7的另一种可能的实施方式，其具体可以包括：根据待使用羊群中领头羊的因素选择描述数据，确定目标疾病的至少一个影响因素。
[0223]
可见，在确定当前迭代已达到预设停止条件时，可以确定当前迭代所确定的领头羊所代表的所有候选指标对目标疾病的影响情况的普适程度比较高，故可以直接将该领头羊的因素选择描述数据所选择的各个候选指标，确定为目标疾病的各个影响因素(也就是，将该领头羊的因素选择描述数据各个第一数值对应的候选指标，均确定为目标疾病的影响因素)。其中，因上述“领头羊的因素选择描述数据”能够更直白地表示出选择哪些候选指标作为目标疾病的影响因素，使得后续能够基于该“领头羊的因素选择描述数据”快速地确定出目标疾病的各个影响因素，如此有利于提高目标疾病的影响因素的挖掘效率。
[0224]
发明人在针对羊群的研究中发现，该羊群中有些个体之间差别不大，但是有些个体之间差别比较大，故可以将那些差别不大的个体划分到同一个种群中，并将那些差别比较大的个体划分到不同种群中，以便后续能够以每个种群为单元进行目标疾病的影响因素的挖掘处理，如此有利于大幅度地提高目标疾病的影响因素的挖掘效率。
[0225]
基于此，为了进一步提高目标疾病的影响因素的挖掘效果，本技术实施例还提供
了影响因素确定方法的另一种可能的实施方式，其具体可以包括步骤31-步骤38：
[0226]
步骤31：获取至少一个体检样本、以及该至少一个体检样本在目标疾病下的实际分类标签。
[0227]
需要说明的是，步骤31的相关内容请参见上文s1。
[0228]
步骤32：初始化待使用羊群的羊群表征数据。
[0229]
上述“待使用羊群的羊群表征数据”用于表征该待使用羊群所具有的特点；而且该“待使用羊群的羊群表征数据”可以包括该待使用羊群的个体数量、该待使用羊群的分组个数、以及该待使用羊群中每个个体的个体表示特征。
[0230]
上述“待使用羊群的分组个数”用于表示该待使用羊群中有多少个种群；而且本技术实施例不限定该“待使用羊群的分组个数”，例如，其可以为g(例如，g＝25)。其中，g为正整数。需要说明的是，上述“待使用羊群的分组个数”可以预先设定。
[0231]
另外，上述“待使用羊群的个体数量”的相关内容、以及上述“待使用羊群中每个个体的个体表示特征”的相关内容请参见上文s2的相关内容。
[0232]
步骤33：根据至少一个体检样本、该至少一个体检样本在目标疾病下的实际分类标签、以及待使用羊群中每个个体的个体表示特征，确定该待使用羊群中每个个体的适应度值。
[0233]
需要说明的是，步骤33的相关内容请参见上文s3。
[0234]
步骤34：根据待使用羊群中每个个体的个体表示特征，对该待使用羊群中所有个体进行聚类处理，得到g个种群。其中，各种群包括至少一个个体。
[0235]
上述“聚类处理”用于将待使用羊群中个体表示特征比较相似的两个个体划分到同一类(也就是，同一个分组或者同一个种群)中，并将个体特征不相似的两个个体划分到不同类(也就是，不同分组或者不同种群)中；而且本技术实施例不限定上述“聚类处理”的实施方式，例如，其可以采用现有的或者未来出现的任意一种聚类算法(例如，k-means 聚类算法等)进行实施。
[0236]
第g个种群用于表示经过聚类处理所得的第g簇；而且该第g个种群包括至少一个个体。其中，g为正整数，g≤g，g为正整数，g表示种群个数(也就是，分组个数或者聚类类别数)。
[0237]
需要说明的是，本技术实施例不限定步骤34与步骤33之间的执行顺序，例如，可以依次执行步骤34和步骤33，也可以依次执行步骤33与步骤34，还可以同时执行步骤34和步骤33。另外，为了便于说明，下面以“依次执行步骤33与步骤34”作为示例进行说明。
[0238]
步骤35：根据第g个种群中每个个体的适应度值，从该第g个种群的所有个体中确定出该第g个种群中领头羊。其中，g为正整数，g≤g，g为正整数。
[0239]
上述“第g个种群中领头羊”用于表示第g个种群的所有个体中具有最高普适程度的个体。
[0240]
另外，本技术实施例不限定上述“第g个种群中领头羊”的确定过程，例如，其具体可以为：先对第g个种群中所有个体的适应度值进行最大值分析，得到最高适应度值；再将该第g个种群中具有最高适应度值的个体，确定为该第g个种群中领头羊(如公式(17所示))。
[0241][0242][0243][0244]
式中，best
(t,g)
代表在第t迭代下第g个种群中领头羊的个体表示特征；表示在第t迭代下第g个种群中第v个个体的个体表示特征；表示在第t迭代下第g个种群中第v个个体的因素选择描述数据；d
test
表示上文“至少一个测试数据”；表示在第t迭代下第g个种群中第v个个体的适应度值；表示在第t迭代下第g个种群的个体数量；表示第g个种群中具有最高适应度值的个体的个体表示特征。
[0245]
步骤36：判断是否达到预设停止条件，若是，则执行步骤38；若否，执行步骤37。
[0246]
需要说明的是，上述“预设停止条件”的相关内容请参见上文s5。
[0247]
步骤37：根据第g个种群中每个个体的适应度值、以及该第g个种群中领头羊，更新该第g个种群中每个个体的个体表示特征，并返回执行步骤33及其后续步骤。
[0248]
需要说明的是，步骤37可以采用上文s6的任一实施方式进行实施，只需将上文s6的任一实施方式中“待使用羊群”替换为“第g个种群”即可。可见，步骤37可以借助公式(20)-(24)所示的过程进行实施。
[0249][0250][0251][0252][0253][0254]
式中，表示第t迭代下第g个种群中第j个普通羊对应的预更替收益值；表示第t迭代下第g个种群中第j个普通羊对应的预更替后适应度值；表示第t迭代下第g个种群中第j个普通羊对应的因素选择预更替数据；d
test
表示上文“至少一个测试数据”；表示第t迭代下第g个种群中第j个普通羊的适应度值；表示第t迭代下第g个种群中第j个普通羊的因素选择描述数据；j为正整数，j≤j，j表示第t迭代下第g个种群中普通羊的个数，j＝class
g-1；
表示第t迭代下第g个种群中领头羊的个体表示特征；表示第t迭代下第g个种群中第tamp个普通羊的个体表示特征中w
tamp
上数值；w
tamp
表示第t迭代下第g个种群中第tamp个普通羊对应的第一更替位置，且w
tamp
∈{1,2,
…
,j}；第t迭代下第g个种群中第tamp个普通羊对应的预更替收益值；表示第t迭代下第g个种群中第tamp个普通羊对应的第一更新后数值；表示第t迭代下第g个种群中第tamp个普通羊的个体表示特征中p
tamp
上数值；p
tamp
表示第t迭代下第g个种群中第tamp个普通羊对应的第二更替位置，且p
tamp
∈{1,2,
…
,j}；表示第t迭代下第g个种群中第tamp个普通羊对应的第二更新后数值；best
(t,g)
′
表示第t迭代下第g个种群中领头羊更新后的个体表示特征；表示第t迭代下第g个种群中第l个普通羊更新后的个体表示特征；表示第t迭代下第g个种群中第l个普通羊更新前的个体表示特征。
[0255]
需要说明的是，公式(20)-(24)类似于上文公式(11)-(14)以及(16)，为了简要起见，在此不再赘述。
[0256]
基于上述步骤37的相关内容可知，本技术实施例中，在确定当前迭代仍未达到预设停止条件时，可以确定当前迭代所确定的g个种群中领头羊所代表的所有候选指标对目标疾病的影响情况的普适程度仍然比较低，故为了进一步提高目标疾病的影响因素的准确性，可以参考该第g个种群中每个个体的适应度值、以及该第g个种群中领头羊，更新该第g个种群中每个个体的个体表示特征，以便后续能够基于该第g个种群中所有个体更新后的个体表示特征，继续执行步骤33及其后续步骤，以实现针对下一轮领头羊筛选过程，如此能够通过多轮迭代过程逐步找到普适程度比较高的领头羊，从而能够逐步找到该目标疾病的最佳影响因素。
[0257]
步骤38：根据g个种群中领头羊，确定目标疾病的至少一个影响因素。
[0258]
需要说明的是，本技术实施例不限定步骤38的实施方式，为了便于理解，下面结合两个示例进行说明。
[0259]
示例1，步骤38具体可以包括步骤381-步骤382：
[0260]
步骤381：将g个种群中领头羊的适应度值进行比较，得到比较结果，以使该“比较结果”能够表示出g个种群中领头羊的适应度值之间的相对大小。
[0261]
步骤382：当g个种群包括待使用种群，且比较结果表示该待使用种群中领头羊的适应度值最高时，根据该待使用种群中领头羊的个体表示特征，确定目标疾病的至少一个影响因素。
[0262]
本技术实施例中，若待使用种群中领头羊的适应度值最高，则可以确定该待使用种群中领头羊所代表的所有候选指标对目标疾病的影响情况的普适程度最高，故可以直接参考该待使用种群中领头羊的个体表示特征，确定目标疾病的至少一个影响因素(例如，可以将该待使用种群中领头羊的个体表示特征中相关程度表征值比较高的α个候选指标，均确定为目标疾病的影响因素)，以使该目标疾病的这些影响因素与该目标疾病的相关性更大，如此能够实现从大量体检结果中挖掘出目标疾病的影响因素的目的。
[0263]
基于上述步骤381至步骤382的相关内容可知，在确定当前迭代已达到预设停止条件之后，可以依据g个种群中领头羊的个体表示特征，确定目标疾病的至少一个影响因素，以使该目标疾病的影响因素更准确。
[0264]
示例2，步骤38具体可以包括步骤383-步骤384：
[0265]
步骤383：将g个种群中领头羊的适应度值进行比较，得到比较结果，以使该“比较结果”能够表示出g个种群中领头羊的适应度值之间的相对大小。
[0266]
步骤384：当g个种群包括待使用种群，且比较结果表示该待使用种群中领头羊的适应度值最高时，根据该待使用种群中领头羊的因素选择描述数据，确定目标疾病的至少一个影响因素。
[0267]
本技术实施例中，若待使用种群中领头羊的适应度值最高，则可以确定该待使用种群中领头羊所代表的所有候选指标对目标疾病的影响情况的普适程度最高，故可以直接将该领头羊的因素选择描述数据所选择的各个候选指标，确定为目标疾病的各个影响因素(也就是，将该领头羊的因素选择描述数据各个第一数值对应的候选指标，均确定为目标疾病的影响因素)。其中，因上述“待使用种群中领头羊的因素选择描述数据”能够更直白地表示出选择哪些候选指标作为目标疾病的影响因素，使得后续能够基于该“待使用种群中领头羊的因素选择描述数据”快速地确定出目标疾病的各个影响因素，如此有利于提高目标疾病的影响因素的挖掘效率。
[0268]
基于上述步骤383至步骤384的相关内容可知，在确定当前迭代已达到预设停止条件之后，可以依据g个种群中领头羊的因素选择描述数据，确定目标疾病的至少一个影响因素，如此有利于提高该目标疾病的影响因素的确定效果。
[0269]
基于上述步骤38的相关内容可知，在确定当前迭代已达到预设停止条件时，可以确定当前迭代所确定的g个种群中领头羊所代表的所有候选指标对目标疾病的影响情况的普适程度比较高，故可以直接参考g个种群中领头羊的个体表示特征(或者，因素选择描述数据)，确定目标疾病的至少一个影响因素，以使该目标疾病的这些影响因素与该目标疾病的相关性更大，如此能够实现从大量体检结果中挖掘出目标疾病的影响因素的目的。
[0270]
基于上述步骤31至步骤38的相关内容可知，可以先针对待使用羊群进行种群划分，得到多个种群；再针对各个种群分别迭代进行组内最优搜索处理以及组内激励更新处理，得到各个种群中领头羊；最后，根据这些领头羊，确定目标疾病的影响因素。可见，因按照分组进行迭代搜索的方式能够有效地降低每次搜索的搜索范围，使得按照分组进行迭代搜索的方式能够有效地提高最优搜索效率，从而使得基于该分组进行迭代搜索的方式进行实施的目标疾病的影响因素的挖掘过程收敛比较快，如此有利于提高目标疾病的影响因素的挖掘效率。
[0271]
发明人在针对羊群的研究中还发现，可以借助不同种群之间的个体迁移过程来提高种群多样性。基于此，为了进一步提高目标疾病的影响因素的全局搜索能力，本技术实施例还提供了影响因素确定方法的另一种可能的实施方式，在该实施方式中，该影响因素确定方法除了包括上述步骤31-步骤38以外，该方法可以还包括步骤39-步骤41：
[0272]
步骤39：根据第g个种群的个体数量，确定该第g个种群的个体迁离概率。其中，g为正整数，g≤g，g为正整数。
[0273]
上述“第g个种群的个体数量”用于表示该第g个种群中有多少个个体。
[0274]
上述“第g个种群的个体迁离概率”用于表示该第g个种群中个体离开该第g个种群的概率；而且该“第g个种群的个体迁离概率”越大，则表示该第g个种群中发生个体离开的可能性越大。
[0275]
而且本技术实施例不限定该“第g个种群的个体迁离概率”的确定过程，例如，其可以采用公式(25)进行实施。
[0276][0277]
式中，表示在第t迭代下第g个种群的个体迁离概率；l是一个可以预先设定的常数，而且本技术实施例不限定l，例如，当上述“待使用羊群的个体数量”为4000时，l＝0.001；表示在第t迭代下第g个种群的个体数量；min表示群内个体迁移阈值，而且min可以预先设定。
[0278]
步骤40：根据第g个种群的个体迁离概率，确定该第g个种群的个体迁离条件。其中，g为正整数，g≤g，g为正整数。
[0279]
上述“第g个种群的个体迁离条件”用于表示当第g个种群中某个个体离开该第g个种群时所达到的条件；而且该“第g个种群的个体迁离条件”可以预先设定。
[0280]
另外，本技术实施例不限定上述“第g个种群的个体迁离条件”，例如，其具体可以为：个体的迁离表征数据达到预设迁离阈值。需要说明的是，上述“迁离表征数据”的相关内容请参见下文步骤41。
[0281]
另外，本技术实施例不限定上述“第g个种群的个体迁离条件”的确定过程，例如，其具体可以为：从预先构建的待使用映射关系中查找上述“第g个种群的个体迁离概率”对应的候选迁离条件，确定为该第g个种群的个体迁离条件。
[0282]
上述“待使用映射关系”用于记录各个候选迁离概率段对应的候选迁离条件；而且本技术实施例不限定该“待使用映射关系”，例如，其具体可以包括：第1个候选迁离概率段与第1个候选迁离条件之间的对应关系、第2个候选迁离概率段与第2个候选迁离条件之间的对应关系、
……
、以及第u个候选迁离概率段与第u个候选迁离条件之间的对应关系。其中，u为正整数。
[0283]
可见，在获取到第g个种群的个体迁离概率之后，可以将该“第g个种群的个体迁离概率”与待使用映射关系中各个候选迁离概率段进行匹配，得到匹配结果；如果该匹配结果表示该第g个种群的个体迁离概率”属于待使用映射关系中第u个候选迁离概率段，则可以直接将该第u个候选迁离概率段对应的第u个候选迁离条件，确定为该第g个种群的个体迁离条件。其中，u为正整数，u∈{1，2，
……
，u}。
[0284]
步骤41：在获取到第g个种群中各个个体的迁离表征数据之后，若该第g个种群中目标个体的迁离表征数据满足该第g个种群的个体迁离条件，则从该第g个种群中删除该目标个体，并将该目标个体添加至待扩充种群。其中，g为正整数，g≤g，g为正整数。
[0285]
其中，“第g个种群中第v个体的迁离表征数据”用于表示该第g个种群中第v个体离开该第g个种群的可能性；而且该“第g个种群中第v个体的迁离表征数据”越大，则表示该第v个体越有可能离开该第g个种群。
[0286]
另外，本技术实施例不限定上述“第g个种群中第v个体的迁离表征数据”的确定过程，例如，其具体可以为：从0到1之间随机抽取一个数，确定为该第g个种群中第v个体的迁
离表征数据。
[0287]
上述“目标个体”是指第g个种群中存在的且满足该第g个种群的个体迁离条件的个体；而且本技术实施例不限定该“目标个体”的筛选过程，例如，其具体可以为：在获取到第g个种群中第v个体的迁离表征数据之后，如果该第v个体的迁离表征数据满足第g个种群的个体迁离条件(例如，该第v个体的迁离表征数据达到预设迁离阈值)，则可以将该第v个体确定为目标个体；然而，如果该第v个体的迁离表征数据不满足第g个种群的个体迁离条件(例如，该第v个体的迁离表征数据未达到预设迁离阈值)，则可以舍弃该第v个体。其中，v为正整数，v≤第g个种群的个体数量。
[0288]
上述“待扩充种群”是指增加目标个体的种群；而且该“待扩充种群”是一个不同于第g个种群的种群。可见，上述“待扩充种群”可以根据g个种群中除了第g个种群以外的其他种群进行确定。
[0289]
另外，本技术实施例不限定上述“待扩充种群”的确定过程，例如，其具体可以为：先将g个种群中除了第g个种群以外的其他各个种群均确定为候选种群；再从g-1个候选种群中筛选出具有最小个体数量的待扩充种群(也就是，规模最小的种群)，以便后续能够将目标个体从第g个种群中迁移至该待扩充种群，如此能够实现不同种群之间的个体迁移过程。
[0290]
实际上，为了进一步提高种群多样性，本技术实施例还提供了确定上述“待扩充种群”的另一种可能的实施方式，其具体可以为：先将g个种群中除了第g个种群以外的其他各个种群均确定为候选种群；该从g-1个候选种群中随机选择一个候选种群，确定为待扩充种群，以便后续能够将目标个体从第g个种群中迁移至该待扩充种群，如此能够实现不同种群之间的个体迁移过程。其中，因待扩充种群从g-1个候选种群中随机选择的，使得该待扩充种群的随机性比较大，从而使得目标个体的迁移目标的随机性比较大，如此有利于进一步提高不同种群之间的个体迁移过程的随机性，从而有利于提高种群多样性，进而有利于进一步提高目标疾病的影响因素的全局搜索能力。
[0291]
需要说明的是，步骤41的执行时间晚于步骤37的执行时间。另外，本技术实施例不限定步骤39-步骤40的执行时间与步骤37的执行时间之间的关系，例如，可以早于、晚于、或者等于。
[0292]
基于上述步骤31至步骤41的相关内容可知，在每次迭代过程中，不仅可以更新待使用羊群中每个个体的个体表示特征，还可以借助不同种群之间的迁移过程，更新种群，如此有利于提高种群多样性，从而有利于提高目标疾病的影响因素的全局搜索能力，进而有利于提高目标疾病的影响因素的挖掘效率以及稳定性，如此使得本技术实施例提供的影响因素确定方法(如图5所示)能够具有搜索效率高、全局寻优能力强、算法具有较强的通用性等特点，以便后续能够利用该影响因素确定方法，从大量体检数据中挖掘出任一疾病的影响因素。
[0293]
基于上述影响因素确定方法的相关内容，本技术实施例还提供了一种影响因素确定装置，为了便于理解，下面结合附图进行说明。
[0294]
参见图6，该图为本技术实施例提供的一种影响因素确定装置的结构示意图，而且如图6所示，该影响因素确定装置600，包括：
[0295]
样本获取单元601，用于获取至少一个体检样本、以及所述至少一个体检样本在目
标疾病下的实际分类标签；其中，所述体检样本包括至少一个候选指标的指标值；
[0296]
羊群初始化单元602，用于初始化待使用羊群的羊群表征数据；其中，所述待使用羊群的羊群表征数据包括所述待使用羊群的个体数量、以及所述待使用羊群中每个个体的个体表示特征；所述个体表示特征用于表示各所述候选指标与所述目标疾病的相关程度；
[0297]
适应度确定单元603，用于根据所述至少一个体检样本、所述至少一个体检样本在目标疾病下的实际分类标签、以及所述待使用羊群中每个个体的个体表示特征，确定所述待使用羊群中每个个体的适应度值；
[0298]
领头羊确定单元604，用于根据所述待使用羊群中每个个体的适应度值，从所述待使用羊群的所有个体中确定出所述待使用羊群中领头羊；
[0299]
羊群更新单元605，用于根据所述待使用羊群中每个个体的适应度值、以及所述待使用羊群中领头羊，更新所述待使用羊群中每个个体的个体表示特征，并返回所述适应度确定单元执行所述根据所述至少一个体检样本、所述至少一个体检样本在目标疾病下的实际分类标签、以及所述待使用羊群中每个个体的个体表示特征，确定所述待使用羊群中每个个体的适应度值的步骤；
[0300]
因素确定单元606，用于在确定达到预设停止条件之后，根据所述待使用羊群中领头羊的个体表示特征，确定所述目标疾病的至少一个影响因素。
[0301]
在一种可能的实施方式中，所述适应度确定单元603，包括：
[0302]
二值化处理子单元，用于对所述待使用羊群中每个个体的个体表示特征进行二值化处理，得到所述待使用羊群中每个个体的因素选择描述数据；其中，所述因素选择描述数据用于表示针对所述目标疾病所选择的候选指标组；
[0303]
第一确定子单元，用于根据所述至少一个体检样本、所述至少一个体检样本在目标疾病下的实际分类标签、以及所述待使用羊群中每个个体的因素选择描述数据，确定所述待使用羊群中每个个体的适应度值。
[0304]
在一种可能的实施方式中，所述待使用羊群的个体数量为m；
[0305]
所述二值化处理子单元，具体用于：对所述第m个体的个体表示特征进行归一化处理，得到所述第m个体的归一化特征；从所述第m个体的归一化特征中确定出满足预设选择条件的至少一个待选择位置、以及不满足所述预设选择条件的至少一个待舍弃位置；将所述第m个体的归一化特征中各所述待选择位置设定为第一数值，并将所述第m个体的归一化特征中各所述待舍弃位置设定为第二数值，得到所述待使用羊群中第m个体的因素选择描述数据；m为正整数，m≤m，m为正整数。
[0306]
在一种可能的实施方式中，所述第一确定子单元，包括：
[0307]
第二确定子单元，用于根据所述至少一个体检样本、以及所述至少一个体检样本在目标疾病下的实际分类标签，确定至少一个训练数据、所述至少一个训练数据的实际分类标签、至少一个测试数据、以及所述至少一个测试数据的实际分类标签；
[0308]
指标选择子单元，用于利用所述待使用羊群中每个个体的因素选择描述数据，对所述至少一个训练数据进行指标选择处理，得到所述待使用羊群中每个个体对应的至少一个训练样本；
[0309]
模型训练子单元，用于利用所述待使用羊群中每个个体对应的至少一个训练样本、以及所述至少一个训练数据的实际分类标签，对待处理分类模型进行训练，得到所述待
使用羊群中每个个体对应的分类模型；
[0310]
第三确定子单元，用于利用所述待使用羊群中每个个体对应的分类模型、所述至少一个测试数据、以及所述至少一个测试数据的实际分类标签，确定所述待使用羊群中每个个体的适应度值。
[0311]
在一种可能的实施方式中，所述待使用羊群的个体数量为m；
[0312]
所述第三确定子单元，具体用于：利用所述第m个体对应的分类模型，确定各所述测试数据的第m个模型分类结果；根据所述至少一个测试数据的第m个模型分类结果、以及所述至少一个测试数据的实际分类标签，确定所述第m个体对应的分类模型的分类性能表征数据；将所述第m个体对应的分类模型的分类性能表征数据，确定为所述待使用羊群中第m个体的适应度值；其中，m为正整数，m≤m，m为正整数。
[0313]
在一种可能的实施方式中，所述羊群更新单元605，包括：
[0314]
第四确定子单元，用于将所述待使用羊群中除了所述领头羊以外的各个个体均确定为普通羊；
[0315]
预更替处理子单元，用于根据所述领头羊的因素选择描述数据，对各所述普通羊的因素选择描述数据进行预更替处理，得到各所述普通羊对应的因素选择预更替数据；
[0316]
第五确定子单元，用于根据所述至少一个体检样本、所述至少一个体检样本在目标疾病下的实际分类标签、以及各所述普通羊对应的因素选择预更替数据，确定各所述普通羊对应的预更替后适应度值；
[0317]
第六确定子单元，用于将各所述普通羊对应的预更替后适应度值与各所述普通羊的适应度值之间的差值，确定为各所述普通羊对应的预更替收益值；
[0318]
第一更新子单元，用于根据所有普通羊对应的预更替收益值，更新所述领头羊的个体表示特征；
[0319]
第二更新子单元，用于根据所述领头羊的个体表示特征，更新所述待使用羊群中每个个体的个体表示特征。
[0320]
在一种可能的实施方式中，所述因素确定单元606，具体用于：在确定达到预设停止条件之后，根据所述待使用羊群中领头羊的因素选择描述数据，确定所述目标疾病的至少一个影响因素。
[0321]
在一种可能的实施方式中，所述领头羊确定单元604，具体用于：将所述待使用羊群中具有最高适应度值的个体，确定为所述待使用羊群中领头羊。
[0322]
在一种可能的实施方式中，所述待使用羊群的羊群表征数据还包括所述待使用羊群的分组个数；所述分组个数为g；
[0323]
所述影响因素确定装置600还包括：
[0324]
种群划分单元，用于根据所述待使用羊群中每个个体的个体表示特征，对所述待使用羊群中所有个体进行聚类处理，得到g个种群；其中，各所述种群包括至少一个所述个体；
[0325]
所述领头羊确定单元604，具体用于：将第g个种群中具有最高适应度值的个体，确定为所述第g个种群中领头羊；其中，g为正整数，g≤g，g为正整数。
[0326]
在一种可能的实施方式中，所述羊群更新单元605，具体用于：根据所述第g个种群中每个个体的适应度值、以及所述第g个种群中领头羊，更新所述第g个种群中每个个体的
个体表示特征，并返回所述适应度确定单元执行所述根据所述至少一个体检样本、所述至少一个体检样本在目标疾病下的实际分类标签、以及所述待使用羊群中每个个体的个体表示特征，确定所述待使用羊群中每个个体的适应度值的步骤。
[0327]
在一种可能的实施方式中，所述因素确定单元606，具体用于：在确定达到预设停止条件之后，将g个种群中领头羊的适应度值进行比较，得到比较结果；若所述比较结果表示待使用种群中领头羊的适应度值最高，则根据所述待使用种群中领头羊的个体表示特征，确定所述目标疾病的至少一个影响因素；其中，所述g个种群包括所述待使用种群。
[0328]
在一种可能的实施方式中，所述影响因素确定装置600还包括：
[0329]
个体迁移单元，用于根据所述第g个种群的个体数量，确定所述第g个种群的个体迁离概率；根据所述第g个种群的个体迁离概率，确定所述第g个种群的个体迁离条件；在获取到所述第g个种群中各个个体的迁离表征数据之后，若所述第g个种群中目标个体的迁离表征数据满足所述第g个种群的个体迁离条件，则从所述第g个种群中删除所述目标个体，并将所述目标个体添加至待扩充种群；其中，所述待扩充种群是根据g个种群中除了所述第g个种群以外的其他种群确定的。
[0330]
在一种可能的实施方式中，所述影响因素确定装置600还包括：
[0331]
第一确定单元，用于将所述g个种群中除了所述第g个种群以外的其他各个种群均确定为候选种群；从g-1个候选种群中筛选出具有最小个体数量的待扩充种群；
[0332]
或者，
[0333]
第二确定单元，用于将所述g个种群中除了所述第g个种群以外的其他各个种群均确定为候选种群；从g-1个候选种群中随机选择一个候选种群，确定为待扩充种群。
[0334]
基于上述影响因素确定装置600的相关内容可知，对于影响因素确定装置600来说，首先，从大量体检数据中提取出至少一个体检样本(例如，各个候选指标的指标值)、以及各个体检样本在目标疾病下的实际分类标签，并初始化待使用羊群中每个个体的个体表示特征，以使该个体表示特征能够表示出各候选指标与目标疾病的相关程度；其次，根据这些体检样本及其实际分类标签、以及待使用羊群中每个个体的个体表示特征，确定每个个体的适应度值，以使该适应度值能够表示出该个体所表征的影响因素对目标疾病的普适程度；然后，根据这些个体的适应度值，确定该待使用羊群中领头羊；最后，根据这些个体的适应度值以及领头羊，更新这些个体的个体表示特征，并返回继续执行上述“根据这些体检样本及其实际分类标签、以及待使用羊群中每个个体的个体表示特征，确定每个个体的适应度值”的步骤，直至在确定达到预设停止条件之后，根据待使用羊群中领头羊的个体表示特征，确定该目标疾病的影响因素，如此能够通过迭代过程逐步找到该目标疾病的最佳影响因素，从而能够实现针对某种疾病的影响因素的挖掘目的。
[0335]
另外，上述“影响因素确定装置600”还通过将整个羊群进行聚类分组、采用二进制表示所选择的因素、对每个个体因素使用softmax进行归一化、利用激励机制快速更新优化组内最优个体参数、利用迁离机制提高全局搜索能力，保持种群多样性、以及迭代执行优化算法，逐步找到最佳相关因素等众多手段，来提高该影响因素确定装置600的搜索效率、全局寻优能力、以及挖掘通用性等性能，使得该影响因素确定装置600具有搜索效率高、全局寻优能力强、通用性强等特点，从而使得该影响因素确定装置600具有较高的挖掘速度和稳定性。
[0336]
另外，本技术实施例还提供了一种影响因素确定设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现本技术实施例提供的影响因素确定方法的任一实施方式。
[0337]
另外，本技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行本技术实施例提供的影响因素确定方法的任一实施方式。
[0338]
另外，本技术实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行本技术实施例提供的影响因素确定方法的任一实施方式。
[0339]
需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
[0340]
应当理解，在本技术中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“a和/或b”可以表示：只存在a，只存在b以及同时存在a和b三种情况，其中a，b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。
[0341]
还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0342]
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
[0343]
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种影响因素确定方法及其相关设备与流程

相关文献

最热文献