一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据的预测方法、装置、电子设备及计算机可读介质与流程

2022-07-15 22:59:07 来源:中国专利 TAG:


1.本公开涉及数据处理技术领域,具体而言,涉及一种数据的预测方法、数据的预测装置、电子设备及计算机可读介质。


背景技术:

2.在医疗、保险等相关的领域中,经常需要根据一些已有的信息来对医疗数据或保险数据等进行预测。
3.而现有的方法中,一般都是以经验数据为基础进行预测,由于考虑的因素不够全面,预测的结果往往也不够准确。
4.鉴于此,本领域亟需一种能够提高预测准确度的数据的预测方法。
5.需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现要素:

6.本公开的目的在于提供一种数据的预测方法、数据的预测装置、电子设备及计算机可读介质,进而至少在一定程度上提高数据预测结果的准确度。
7.根据本公开的第一个方面,提供一种数据的预测方法,包括:
8.获取预测对象的特征变量;
9.将所述预测对象的特征变量输入预先训练的分类模型中,得到所述预测对象关于预设特殊事件的事件发生概率;
10.获取在发生所述预设特殊事件之后,关于所述预设特殊事件中的预设特殊物品的频率拟合分布和数量拟合分布;
11.根据所述预设特殊物品的频率拟合分布和数量拟合分布,得到所述预设特殊物品的相关数据的预测值;
12.根据所述预设特殊事件的事件发生概率,以及所述预设特殊物品的相关数据的预测值,得到所述预测对象关于所述预设特殊物品的相关保障数据的预测值。
13.在本公开的一种示例性实施例中,所述分类模型的训练方法包括:
14.从样本数据库中获取训练样本,并根据所述训练样本的样本事件类型,以及所述训练样本对应的特征变量,构建所述分类模型的训练样本集;
15.根据所述训练样本集中所述训练样本对应的特征变量得到自变量,将所述样本事件类型作为因变量,根据所述训练样本集训练所述分类模型。
16.在本公开的一种示例性实施例中,所述从样本数据库中获取训练样本,包括:
17.获取训练所述分类模型所需的所述特征变量的变量名称;
18.从所述样本数据库中获取样本对象,并根据所述变量名称获取所述样本对象的特征变量;
19.根据所述样本对象的各个特征变量对应的预设筛选条件,对所述样本对象进行过
滤,得到训练样本。
20.在本公开的一种示例性实施例中,在对所述样本对象进行过滤之后,所述方法还包括:
21.从所述变量名称中确定一抽样分类变量,并根据所述抽样分类变量对所述样本对象进行分类,得到多个样本对象集合;
22.分别对各个所述样本对象集合中的所述样本对象进行抽样,得到所述训练样本。
23.在本公开的一种示例性实施例中,所述样本数据库包括真实世界数据。
24.在本公开的一种示例性实施例中,所述预设特殊物品的频率拟合分布的确定方法包括:
25.从样本数据库中获取拟合样本,并根据所述拟合样本获取所述预设特殊物品的频率,得到所述预设特殊物品的样本频率直方图;
26.根据所述样本频率直方图的分布情况,确定所述预设特殊物品的候选频率拟合分布;
27.若所述样本频率直方图与所述候选频率拟合分布之间的观测差值小于或等于频率差阈值,则将所述候选频率拟合分布确定为所述预设特殊物品的频率拟合分布;
28.若所述样本频率直方图与所述候选频率拟合分布之间的观测差值大于所述频率差阈值,则重新确定所述预设特殊物品的候选频率拟合分布。
29.在本公开的一种示例性实施例中,所述预设特殊物品的数量拟合分布的确定方法包括:
30.从样本数据库中获取拟合样本,并根据所述拟合样本在预设时间段内获取所述预设特殊物品的数量,得到所述预设特殊物品的样本数量直方图;
31.根据所述样本数量直方图的分布情况,确定所述预设特殊物品的候选数量拟合分布;
32.若所述样本数量直方图与所述候选数量拟合分布之间的观测差值小于或等于数量差阈值,则将所述候选数量拟合分布确定为所述预设特殊物品的数量拟合分布;
33.若所述样本数量直方图与所述候选数量拟合分布之间的观测差值大于所述数量差阈值,则重新确定所述预设特殊物品的候选数量拟合分布。
34.在本公开的一种示例性实施例中,所述根据所述预设特殊物品的频率拟合分布和数量拟合分布,得到所述预设特殊物品的相关数据的预测值,包括:
35.根据所述预设特殊物品的频率拟合分布得到所述预设特殊物品的频率统计值,并根据所述预设特殊物品的数量拟合分布得到所述预设特殊物品的数量统计值;
36.获取所述预设特殊物品的单一相关数据,并根据所述预设特殊物品的单一相关数据、所述频率统计值和所述数量统计值,得到所述预设特殊物品的相关数据的预测值。
37.在本公开的一种示例性实施例中,所述根据所述预设特殊事件的事件发生概率,以及所述预设特殊物品的相关数据的预测值,得到所述预测对象关于所述预设特殊物品的相关保障数据的预测值,包括:
38.获取所述预测对象关于所述预设特殊物品的相关数据保障比例;
39.根据所述预设特殊事件的事件发生概率,以及所述预设特殊物品的相关数据的预测值和所述相关数据保障比例,得到所述预测对象关于所述预设特殊物品的相关保障数据
的预测值。
40.根据本公开的第二方面,提供一种数据的预测装置,包括:
41.特征变量获取模块,用于获取预测对象的特征变量;
42.事件概率预测模块,用于将所述预测对象的特征变量输入预先训练的分类模型中,得到所述预测对象关于预设特殊事件的事件发生概率;
43.拟合分布获取模块,用于获取在发生所述预设特殊事件之后,关于所述预设特殊事件中的预设特殊物品的频率拟合分布和数量拟合分布;
44.相关数据预测模块,用于根据所述预设特殊物品的频率拟合分布和数量拟合分布,得到所述预设特殊物品的相关数据的预测值;
45.保障数据预测模块,用于根据所述预设特殊事件的事件发生概率,以及所述预设特殊物品的相关数据的预测值,得到所述预测对象关于所述预设特殊物品的相关保障数据的预测值。
46.根据本公开的第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的数据的预测方法。
47.根据本公开的第四方面,提供一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的数据的预测方法。
48.本公开示例性实施例可以具有以下有益效果:
49.本公开示例实施方式的数据的预测方法中,通过预先训练的分类模型以及预先拟合的频率分布和数量分布,分别得到预测对象关于预设特殊事件的事件发生概率,以及预测对象在发生预设特殊事件之后关于预设特殊事件中的预设特殊物品的相关数据预测值,进而得到预测对象关于预设特殊物品的相关保障数据的预测值。本公开示例实施方式中的数据的预测方法,首先通过分类模型预测事件发生的概率,然后通过预先拟合的频率分布和数量分布预测事件发生时所产生的预设特殊物品的相关数据,能够更加全面地考虑到影响事件发生概率,衡量预测对象行为的整体分布,使数据最终的预测更加准确。
50.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
51.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
52.图1示出了本公开示例实施方式的数据的预测方法的流程示意图;
53.图2示出了本公开示例实施方式的分类模型的训练方法的流程示意图;
54.图3示出了本公开示例实施方式的获取训练样本的流程示意图;
55.图4示出了根据本公开的一个具体实施方式中通过k-s检验确定分布的流程示意图;
56.图5示出了本公开示例实施方式的确定频率拟合分布的流程示意图;
57.图6示出了本公开示例实施方式的确定数量拟合分布的流程示意图;
58.图7示出了本公开示例实施方式的确定相关数据预测值的流程示意图;
59.图8示出了根据本公开的一个具体实施方式中数据的预测方法的流程示意图;
60.图9示出了本公开示例实施方式的数据的预测装置的框图;
61.图10示出了适于用来实现本公开实施方式的电子设备的计算机系统的结构示意图。
具体实施方式
62.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
63.此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
64.在医疗、保险等相关的领域中,经常需要根据一些已有的信息来对医疗数据或保险数据等进行预测。以特药险为例,在一些相关的实施例中,可以统计特药使用人群的用药行为、取药量等数据,然后根据大数定律用平均取药量及取药金额估计特药人群的真实取药行为,并依据各项平均值进行进一步的特药险定价精算。
65.然而,利用大数定律进行特药人群取药行为估计,可能会忽略取药行为的分布特征。例如,当真实取药分布是有偏分布时,仅采用样本平均值进行估计会产生偏倚。另外,在实际应用中的样本还可能出现缺失或者退出研究等情况,不能较好地代表持续取药的特药人群。如果没有使用大量真实世界的临床数据对假设进行检验,也难以保证结论的准确性。
66.基于上述问题,本示例实施方式首先提供了一种数据的预测方法。参考图1所示,上述数据的预测方法可以包括以下步骤:
67.步骤s110.获取预测对象的特征变量。
68.步骤s120.将预测对象的特征变量输入预先训练的分类模型中,得到预测对象关于预设特殊事件的事件发生概率。
69.步骤s130.获取在发生预设特殊事件之后,关于预设特殊事件中的预设特殊物品的频率拟合分布和数量拟合分布。
70.步骤s140.根据预设特殊物品的频率拟合分布和数量拟合分布,得到预设特殊物品的相关数据的预测值。
71.步骤s150.根据预设特殊事件的事件发生概率,以及预设特殊物品的相关数据的
预测值,得到预测对象关于预设特殊物品的相关保障数据的预测值。
72.本公开示例实施方式的数据的预测方法中,通过预先训练的分类模型以及预先拟合的频率分布和数量分布,分别得到预测对象关于预设特殊事件的事件发生概率,以及预测对象在发生预设特殊事件之后关于预设特殊事件中的预设特殊物品的相关数据预测值,进而得到预测对象关于预设特殊物品的相关保障数据的预测值。本公开示例实施方式中的数据的预测方法,首先通过分类模型预测事件发生的概率,然后通过预先拟合的频率分布和数量分布预测事件发生时所产生的预设特殊物品的相关数据,能够更加全面地考虑到影响事件发生概率,衡量预测对象行为的整体分布,使数据最终的预测更加准确。
73.下面,结合图2至图7对本示例实施方式的上述步骤进行更加详细的说明。
74.在步骤s110中,获取预测对象的特征变量。
75.本示例实施方式中,预测对象指的是需要对其进行相关数据预测的人,例如,对于购买特药险的人,需要对其购买特药险的价格进行预测,则该购买特药险的人即为预测对象。
76.预测对象的特征变量指的是用于预测相关数据所需的预测对象自身的一些属性变量,以特药险为例,预测对象的特征变量一般可以包括性别、年龄、既往病史、既往取药行为等特征变量,可以作为特药险价格预测的基础数据。
77.在步骤s120中,将预测对象的特征变量输入预先训练的分类模型中,得到预测对象关于预设特殊事件的事件发生概率。
78.本示例实施方式中,分类模型可以根据输入的预测对象的特征变量,判断预测对象是否发生预设特殊事件,以及发生预设特殊事件的概率是多少。例如,分类模型可以根据输入的患者的基础数据和医疗数据等特征变量,判断该购买特药险的患者索赔的概率。如图2所示,分类模型的训练方法具体可以包括以下几个步骤:
79.步骤s210.从样本数据库中获取训练样本,并根据训练样本的样本事件类型,以及训练样本对应的特征变量,构建分类模型的训练样本集。
80.本示例实施方式中,训练样本的样本事件类型包括发生预设特殊事件和未发生预设特殊事件这两种类型,以特药险为例,训练样本为患者样本,则样本事件类型包括该患者索赔或者不索赔这两种类型,训练样本对应的特征变量,可以包括性别、年龄、既往病史、既往取药行为等。
81.本示例实施方式中,样本数据库包括真实世界数据。国家药品审评中心将“真实世界研究(real world study,real world research,rwr)”定义为:在真实世界环境下收集与患者有关的rwd(real world data,真实世界数据),通过分析,获得医疗产品的使用价值及潜在获益或风险的临床证据rwe(real world evidence,真实世界证据),主要研究类型是观察性研究,也可以是临床试验。因此,本示例实施方式中,可以根据真实世界数据中的人群构建样本集,由于真实世界数据来自真实的医疗环境,因此可以反映实际诊疗过程和真实条件下的患者健康状况。
82.具体而言,在建立训练样本集之前,需要对真实世界数据进行数据关联、清洗、抽样。以特药险为例,在模型的训练过程中,对真实世界数据中使用某种特药的人群的取药数据进行筛选和抽样,获取具有较好代表性的样本集再进行进一步的数据分析。
83.本示例实施方式中,如图3所示,从样本数据库中获取训练样本,具体可以包括以
下几个步骤:
84.步骤s310.获取训练分类模型所需的特征变量的变量名称。
85.以特药险为例,特药取药数据往往来源于多个数据表,如需要通过诊断表框定满足特药诊断的人群,需要通过医嘱表获取医生开药记录,通过费用明细表获取院内取药费用和用量等,因此需要进行数据关联,确定所需的各个变量名称的数据字段,除了性别、年龄、既往疾病等基本数据以外,还可以包括例如诊断结果、取药日期、取药金额、医保类型等等特征变量。
86.步骤s320.从样本数据库中获取样本对象,并根据变量名称获取样本对象的特征变量。
87.在确定所需的特征变量的变量名称之后,从样本数据库中获取样本对象的同时,还需要根据已确定的各个变量名称的数据字段,从样本数据库中获取所需的样本对象的特征变量。
88.步骤s330.根据样本对象的各个特征变量对应的预设筛选条件,对样本对象进行过滤,得到训练样本。
89.在进行样本数据的获取之后,由于数据中可能存在一些错误或者不一致的数据项,因此在构建样本集时需要对数据进行清洗过滤。例如,对于检查数据中的逻辑错误,包括不可能的出生日期、取药日期、不一致的住院记录、不合理的取药金额记录等都可剔除。另外,由于存在患者中途放弃治疗、转院等情况,考虑到样本存续时间的一致性,可以在处理数据时增加取药时间大于观察期等筛选条件,以保证训练样本在观察期内为持续取药状态。
90.本示例实施方式中,在对样本对象进行数据关联和过滤之后,如果样本量充足,还可以对样本对象进行抽样之后再构建样本集,具体而言,可以从变量名称中确定一抽样分类变量,并根据抽样分类变量对样本对象进行分类,得到多个样本对象集合;分别对各个样本对象集合中的样本对象进行抽样,得到训练样本。例如,可以按照年龄和性别等分类变量对样本对象进行分类,然后通过分层抽样的方法进行抽样。除此之外,也可以采用随机抽样的方法,具体的抽样方法本示例实施方式中不做具体限定。
91.步骤s220.根据训练样本集中训练样本对应的特征变量得到自变量,将样本事件类型作为因变量,根据训练样本集训练分类模型。
92.以特药险为例,在确定训练样本集之后,还需要研究预测被保险人的索赔概率。本示例实施方式中,可以将是否满足特药险理赔条件作为因变量,结合医学专家意见通过特征变量建立的影响因子组合作为自变量,比如是否存在相关病史、性别、年龄、既往取药行为等。分类模型可以选取logistic或probit模型等,来预测被保险人的索赔概率。
93.以logistic模型为例,logistic回归的具体形式如下:
[0094][0095][0096]
其中,x为自变量,y为因变量,p(y=1|x)表示索赔的概率,p(y=-1|x)表示不索赔
的概率,b为常数。可以运用梯度下降法估计系数ω,进而得到被保险人索赔的概率。运用logistic回归得到的估计系数,可以显性地解释各个特征的贡献,在拟合效果较好的同时,具备较强的可解释性。
[0097]
在步骤s130中,获取在发生预设特殊事件之后,关于预设特殊事件中的预设特殊物品的频率拟合分布和数量拟合分布。
[0098]
在确定样本集之后,还可以研究样本获取预设特殊物品的频率和数量的分布。以特药险为例,可以研究样本的取药行为和取药量数据,并拟合分布以便后续使用,其中,取药行为可例如取药频率。
[0099]
本示例实施方式中,预设特殊物品的频率拟合分布和数量拟合分布可以通过k-s(kolmogorov-smirnov)检验或者w(shapiro-wilk)检验得到,通过观察样本数据的分布特点,选取几个满足规律的分布进行拟合优度检验,最终确定出拟合度最高的分布。如图4所示,以k-s检验为例,研究样本的用药行为,对其取药行为和取药量拟合分布的具体步骤为:
[0100]
步骤s410.通过描述性统计分析(直方图)了解数据特征。
[0101]
步骤s420.锁定可以用于拟合的分布。
[0102]
步骤s430.依据p-p图,缩小分布范围。
[0103]
步骤s440.通过k-s拟合优度检验。
[0104]
若未通过检验,则返回步骤s420,重新确定用于拟合的分布;若通过检验,则进入步骤s450。
[0105]
步骤s450.选定分布,测算理赔成本的基数。
[0106]
通过kolmogorov-smirnov检验可以基于累计分布函数,检验一个分布是否符合某种理论分布或比较两个经验分布是否有显著差异。原假设h0为:两个数据分布一致或者数据符合理论分布,实际观测值d=max|f(x)-g(x)|,其中f(x)为样本累计频率,g(x)为理论分布累计概率,当实际观测值d》d(n,α)时,则拒绝h0假设,否则接受h0假设,其中,n为样本数量,α为置信度,取值可例如0.05或0.005等。
[0107]
本示例实施方式中,如图5所示,预设特殊物品的频率拟合分布的确定方法,具体可以包括以下几个步骤:
[0108]
步骤s510.从样本数据库中获取拟合样本,并根据拟合样本获取预设特殊物品的频率,得到预设特殊物品的样本频率直方图。
[0109]
拟合样本指的是从样本数据库中获取的用于拟合预设特殊物品的频率和数量分布的样本。根据拟合样本获取预设特殊物品的频率,然后根据统计到的频率数据得到预设特殊物品的样本频率直方图。例如,可以根据样本的取药行为获取取药频率数据,然后生成样本获取药物的频率直方图。
[0110]
步骤s520.根据样本频率直方图的分布情况,确定预设特殊物品的候选频率拟合分布。
[0111]
得到样本频率直方图之后,通过分析样本的偏倚情况,确定多个能够拟合的候选频率拟合分布。比如样本数据呈现长尾右偏的特征时,可以考虑gamma分布,若样本数据呈现钟罩型分布且具备厚尾的特征,可考虑采用t分布。
[0112]
步骤s530.若样本频率直方图与候选频率拟合分布之间的观测差值小于或等于频率差阈值,则将候选频率拟合分布确定为预设特殊物品的频率拟合分布。
[0113]
随后,可以采用kolmogorov-smirnov等检验方法,比较样本数据的频率分布与候选频率拟合分布之间的契合程度。具体地,可以通过判断样本频率直方图与候选频率拟合分布之间的观测差值是否小于或等于预设的频率差阈值,若是,则直接将当前的候选频率拟合分布确定为预设特殊物品的频率拟合分布。
[0114]
步骤s540.若样本频率直方图与候选频率拟合分布之间的观测差值大于频率差阈值,则重新确定预设特殊物品的候选频率拟合分布。
[0115]
若样本频率直方图与候选频率拟合分布之间的观测差值大于频率差阈值,则表示样本数据的频率分布与候选频率拟合分布之间的契合程度不满足要求,则返回步骤s520重新确定一候选频率拟合分布,再次进行契合度的判断,直到找到满足要求的候选频率拟合分布为止。
[0116]
本示例实施方式中,如图6所示,预设特殊物品的数量拟合分布的确定方法,具体可以包括以下几个步骤:
[0117]
步骤s610.从样本数据库中获取拟合样本,并根据拟合样本在预设时间段内获取预设特殊物品的数量,得到预设特殊物品的样本数量直方图。
[0118]
首先根据拟合样本获取预设特殊物品的数量,然后根据统计到的数量得到预设特殊物品的样本数量直方图。例如,可以根据样本的取药行为获取取药数量,然后生成样本获取药物的数量直方图。
[0119]
步骤s620.根据样本数量直方图的分布情况,确定预设特殊物品的候选数量拟合分布。
[0120]
得到样本数量直方图之后,通过分析样本的偏倚情况,确定多个能够拟合的候选数量拟合分布。比如样本数据呈现长尾右偏的特征时,可以考虑gamma分布,若样本数据呈现钟罩型分布且具备厚尾的特征,可考虑采用t分布。
[0121]
步骤s630.若样本数量直方图与候选数量拟合分布之间的观测差值小于或等于数量差阈值,则将候选数量拟合分布确定为预设特殊物品的数量拟合分布。
[0122]
随后,可以采用kolmogorov-smirnov等检验方法,比较样本数据的数量分布与候选数量拟合分布之间的契合程度。具体地,可以通过判断样本数量直方图与候选数量拟合分布之间的观测差值是否小于或等于预设的数量差阈值,若是,则直接将当前的候选数量拟合分布确定为预设特殊物品的数量拟合分布。
[0123]
步骤s640.若样本数量直方图与候选数量拟合分布之间的观测差值大于数量差阈值,则重新确定预设特殊物品的候选数量拟合分布。
[0124]
若样本数量直方图与候选数量拟合分布之间的观测差值大于数量差阈值,则表示样本数据的数量分布与候选数量拟合分布之间的契合程度不满足要求,则返回步骤s620重新确定一候选数量拟合分布,再次进行契合度的判断,直到找到满足要求的候选数量拟合分布为止。
[0125]
以特药险为例,运用特定分布拟合样本取药行为和取药量之后再进行精算,能够更全面地衡量整体分布,而不仅仅是考量样本的均值。如果预设特殊物品的频率拟合分布和数量拟合分布无法通过一个分布来拟合,则可以采用构造组合分布的方式来拟合,例如,通过选择不同的损失分布组合,同时描述数据的小额损失、中额损失和大额损失部分来实现特药险定价。
[0126]
在步骤s140中,根据预设特殊物品的频率拟合分布和数量拟合分布,得到预设特殊物品的相关数据的预测值。
[0127]
本示例实施方式中,如图7所示,根据预设特殊物品的频率拟合分布和数量拟合分布,得到预设特殊物品的相关数据的预测值,具体可以包括以下几个步骤:
[0128]
步骤s710.根据预设特殊物品的频率拟合分布得到预设特殊物品的频率统计值,并根据预设特殊物品的数量拟合分布得到预设特殊物品的数量统计值。
[0129]
预设特殊物品的频率统计值可例如通过频率拟合分布得到的频率的平均值或者中位数等统计值,预设特殊物品的数量统计值可例如通过数量拟合分布得到的数量的平均值或者中位数等统计值。
[0130]
步骤s720.获取预设特殊物品的单一相关数据,并根据预设特殊物品的单一相关数据、频率统计值和数量统计值,得到预设特殊物品的相关数据的预测值。
[0131]
以特药险为例,单一相关数据指的是药品的单价,根据药品的单价以及频率统计值和数量统计值,可以计算得到索赔发生条件下产生的药品费用的预测值。
[0132]
在步骤s150中,根据预设特殊事件的事件发生概率,以及预设特殊物品的相关数据的预测值,得到预测对象关于预设特殊物品的相关保障数据的预测值。
[0133]
本示例实施方式中,可以先获取预测对象关于预设特殊物品的相关数据保障比例,再据预设特殊事件的事件发生概率,以及预设特殊物品的相关数据的预测值和相关数据保障比例,得到预测对象关于预设特殊物品的相关保障数据的预测值。
[0134]
以特药险为例,通过分类模型估计出索赔的概率,再通过拟合分布得到索赔发生条件下产生的药品费用的预测值后,可以得到预测对象关于预设特殊物品的相关保障数据的预测值,即特药险价格。例如,短期报销型医疗保险保费为:
[0135][0136]
其中p为保费,q为被保障的事件发生概率,k为保障范围内的平均理赔成本,e为费用附加率,t为安全附加。对于厘定特药险中药品费用报销保障的费率而言,被保险事故发生率q即为索赔发生概率,平均理赔成本k即为与特药相关的个人年度医疗费用的平均理赔成本,可由与特药相关的个人年度医疗费用扣除基本医疗保障统筹基金支付金额再乘以商业保险合同中约定的报销比例,即相关数据保障比例得到。
[0137]
如图8所示是本公开的一个具体实施方式中数据的预测方法的完整流程图,应用于特药险的定价,是对本示例实施方式中的上述步骤的举例说明,该流程图的具体步骤如下:
[0138]
步骤s810.根据真实世界数据抽样并构建样本集。
[0139]
对真实世界数据中使用特药的人群构建样本集,抽样。
[0140]
步骤s820.数据清洗、数据关联。
[0141]
步骤s830.拟合样本取药量和取药行为分布。
[0142]
研究样本的用药行为,对其取药行为和取药量拟合分布。
[0143]
步骤s840.精算特药险价格。
[0144]
根据拟合的取药行为分布和取药量分布精算特药险价格。
[0145]
应当注意,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并
非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
[0146]
进一步的,本公开还提供了一种数据的预测装置。参考图9所示,该数据的预测装置可以包括特征变量获取模块910、事件概率预测模块920、拟合分布获取模块930、相关数据预测模块940以及保障数据预测模块950。其中:
[0147]
特征变量获取模块910可以用于获取预测对象的特征变量;
[0148]
事件概率预测模块920可以用于将预测对象的特征变量输入预先训练的分类模型中,得到预测对象关于预设特殊事件的事件发生概率;
[0149]
拟合分布获取模块930可以用于获取在发生预设特殊事件之后,关于预设特殊事件中的预设特殊物品的频率拟合分布和数量拟合分布;
[0150]
相关数据预测模块940可以用于根据预设特殊物品的频率拟合分布和数量拟合分布,得到预设特殊物品的相关数据的预测值;
[0151]
保障数据预测模块950可以用于根据预设特殊事件的事件发生概率,以及预设特殊物品的相关数据的预测值,得到预测对象关于预设特殊物品的相关保障数据的预测值。
[0152]
在本公开的一些示例性实施例中,本公开提供的一种数据的预测装置还可以包括分类模型训练模块,可以包括训练样本集构建单元以及分类模型训练单元。其中:
[0153]
训练样本集构建单元可以用于从样本数据库中获取训练样本,并根据训练样本的样本事件类型,以及训练样本对应的特征变量,构建分类模型的训练样本集;
[0154]
分类模型训练单元可以用于根据训练样本集中训练样本对应的特征变量得到自变量,将样本事件类型作为因变量,根据训练样本集训练分类模型。
[0155]
在本公开的一些示例性实施例中,训练样本集构建单元可以包括变量名称获取单元、特征变量获取单元以及样本对象过滤单元。其中:
[0156]
变量名称获取单元可以用于获取训练分类模型所需的特征变量的变量名称;
[0157]
特征变量获取单元可以用于从样本数据库中获取样本对象,并根据变量名称获取样本对象的特征变量;
[0158]
样本对象过滤单元可以用于根据样本对象的各个特征变量对应的预设筛选条件,对样本对象进行过滤,得到训练样本。
[0159]
在本公开的一些示例性实施例中,训练样本集构建单元还可以包括样本对象分类单单元以及样本对象抽样单元。其中:
[0160]
样本对象分类单元可以用于从变量名称中确定一抽样分类变量,并根据抽样分类变量对样本对象进行分类,得到多个样本对象集合;
[0161]
样本对象抽样单元可以用于分别对各个样本对象集合中的样本对象进行抽样,得到训练样本。
[0162]
在本公开的一些示例性实施例中,本公开提供的一种数据的预测装置还可以包括频率拟合分布确定模块,可以包括频率直方图确定单元、候选频率拟合分布确定单元、频率拟合分布确定单元以及候选频率拟合分布更新单元。其中:
[0163]
频率直方图确定单元可以用于从样本数据库中获取拟合样本,并根据拟合样本获取预设特殊物品的频率,得到预设特殊物品的样本频率直方图;
[0164]
候选频率拟合分布确定单元可以用于根据样本频率直方图的分布情况,确定预设特殊物品的候选频率拟合分布;
[0165]
频率拟合分布确定单元可以用于若样本频率直方图与候选频率拟合分布之间的观测差值小于或等于频率差阈值,则将候选频率拟合分布确定为预设特殊物品的频率拟合分布;
[0166]
候选频率拟合分布更新单元可以用于若样本频率直方图与候选频率拟合分布之间的观测差值大于频率差阈值,则重新确定预设特殊物品的候选频率拟合分布。
[0167]
在本公开的一些示例性实施例中,本公开提供的一种数据的预测装置还可以包括数量拟合分布确定模块,可以包括数量直方图确定单元、候选数量拟合分布确定单元、数量拟合分布确定单元以及候选数量拟合分布更新单元。其中:
[0168]
数量直方图确定单元可以用于从样本数据库中获取拟合样本,并根据拟合样本在预设时间段内获取预设特殊物品的数量,得到预设特殊物品的样本数量直方图;
[0169]
候选数量拟合分布确定单元可以用于根据样本数量直方图的分布情况,确定预设特殊物品的候选数量拟合分布;
[0170]
数量拟合分布确定单元可以用于若样本数量直方图与候选数量拟合分布之间的观测差值小于或等于数量差阈值,则将候选数量拟合分布确定为预设特殊物品的数量拟合分布;
[0171]
候选数量拟合分布更新单元可以用于若样本数量直方图与候选数量拟合分布之间的观测差值大于数量差阈值,则重新确定预设特殊物品的候选数量拟合分布。
[0172]
在本公开的一些示例性实施例中,相关数据预测模块940可以包括统计值确定单元以及预测值确定单元。其中:
[0173]
统计值确定单元可以用于根据预设特殊物品的频率拟合分布得到预设特殊物品的频率统计值,并根据预设特殊物品的数量拟合分布得到预设特殊物品的数量统计值;
[0174]
预测值确定单元可以用于获取预设特殊物品的单一相关数据,并根据预设特殊物品的单一相关数据、频率统计值和数量统计值,得到预设特殊物品的相关数据的预测值。
[0175]
在本公开的一些示例性实施例中,保障数据预测模块950可以包括保障比例获取单元以及保障数据预测单元。其中:
[0176]
保障比例获取单元可以用于获取预测对象关于预设特殊物品的相关数据保障比例;
[0177]
保障数据预测单元可以用于根据预设特殊事件的事件发生概率,以及预设特殊物品的相关数据的预测值和相关数据保障比例,得到预测对象关于预设特殊物品的相关保障数据的预测值。
[0178]
上述数据的预测装置中各模块/单元的具体细节在相应的方法实施例部分已有详细的说明,此处不再赘述。
[0179]
图10示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。
[0180]
需要说明的是,图10示出的电子设备的计算机系统1000仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
[0181]
如图10所示,计算机系统1000包括中央处理单元(cpu)1001,其可以根据存储在只读存储器(rom)1002中的程序或者从存储部分1008加载到随机访问存储器(ram)1003中的
程序而执行各种适当的动作和处理。在ram 1003中,还存储有系统操作所需的各种程序和数据。cpu1001、rom 1002以及ram 1003通过总线1004彼此相连。输入/输出(i/o)接口1005也连接至总线1004。
[0182]
以下部件连接至i/o接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至i/o接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
[0183]
特别地,根据本发明的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(cpu)1001执行时,执行本技术的系统中限定的各种功能。
[0184]
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
[0185]
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0186]
作为另一方面,本技术还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。
[0187]
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
[0188]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。
[0189]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献