一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

药店风险等级识别模型生成方法及药店风险等级识别方法与流程

2023-01-17 12:44:36 来源:中国专利 TAG:


1.本技术涉及药品风险监管技术领域,更具体地,涉及一种药店风险等级识别模型生成方法、药店风险等级识别方法、装置、电子设备和存储介质。


背景技术:

2.对药品销售的监管不到位可能致使重大药品安全事故发生。因此,为了能够及时发现药店存在的风险事件,需要对药店进行风险管理。
3.在对药店进行风险管理的过程中,无可避免地需要确定药店的风险级别,而在相关技术中,药店风险等级的确定一般依赖于工作人员的个人经验,其结果具有一定的主观性,使得药店风险等级的识别精度较差。


技术实现要素:

4.有鉴于此,本技术提供了一种药店风险等级识别模型生成方法、药店风险等级识别方法、装置、电子设备和可读存储介质。
5.本技术的一个方面提供了一种药店风险等级识别模型生成方法,包括:采集多个药店的历史业务行为数据,得到第一样本数据集,其中,上述历史业务行为数据包括多个风险特征属性;基于上述第一样本数据集中的样本数量和多个上述药店的历史风险等级标签,确定上述第一样本数据集的第一信息熵;基于样本数据子集和上述历史风险等级标签来处理上述第一信息熵,得到上述样本数据子集的信息增益率,其中,上述第一样本数据集包括多个上述样本数据子集,多个上述样本数据子集与多个上述风险特征属性一一对应;基于与多个上述风险特征属性一一对应的多个信息增益率,确定多个风险权值;以及基于贝叶斯算法,利用多个上述风险权值和上述历史风险等级标签来生成风险等级识别模型。
6.本技术的另一个方面提供了一种药店风险等级识别方法,包括:采集目标药店的目标业务行为数据,得到第一目标数据集;以及利用风险等级识别模型来处理上述第一目标数据集,得到上述目标药店的风险等级识别结果;其中,上述风险等级识别模型包括使用如上所述的药店风险等级识别模型生成方法来生成的。
7.本技术的另一个方面提供了一种药店风险等级识别模型生成装置,包括:第一采集模块,用于采集多个药店的历史业务行为数据,得到第一样本数据集,其中,上述历史业务行为数据包括多个风险特征属性;第一确定模块,用于基于上述第一样本数据集中的样本数量和多个上述药店的历史风险等级标签,确定上述第一样本数据集的第一信息熵;第一处理模块,用于基于样本数据子集和上述历史风险等级标签来处理上述第一信息熵,得到上述样本数据子集的信息增益率,其中,上述第一样本数据集包括多个上述样本数据子集,多个上述样本数据子集与多个上述风险特征属性一一对应;第二确定模块,用于基于与多个上述风险特征属性一一对应的多个信息增益率,确定多个风险权值;以及第一生成模块,用于基于贝叶斯算法,利用多个上述风险权值和上述历史风险等级标签来生成风险等级识别模型。
8.本技术的另一个方面提供了一种药店风险等级识别装置,包括:第二采集模块,用于采集目标药店的目标业务行为数据,得到第一目标数据集;以及第二处理模块,用于利用风险等级识别模型来处理上述第一目标数据集,得到上述目标药店的风险等级识别结果;其中,上述风险等级识别模型包括使用如上所述的药店风险等级识别模型生成方法来生成的。
9.本技术的另一方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个指令,其中,当上述一个或多个指令被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如上所述的方法。
10.本技术的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,上述指令在被执行时用于实现如上所述的方法。
11.根据本技术的实施例,在进行风险等级识别模型的生成时,可以基于采集得到的第一样本数据集和历史风险等级标签来计算该第一样本数据集的第一信息熵,再基于第一信息熵来确定各个风险特征属性的信息增益率,然后,可以利用各个风险特征属性的信息增益率来确定各个风险特征属性的风险权值,该风险权值可以与基于贝叶斯算法确定的概率模型进行结合,以得到风险等级识别模型。通过对熵权法和贝叶斯算法的改进,即使用信息增益率取代信息增益作为风险权值的计算依据,并在贝叶斯算法中加入了利用风险权值进行加权运算的操作,可以有效降低样本不均衡对模型识别精度的影响,通过使用模型进行风险等级识别的方法,可以至少部分地克服相关技术中药店风险等级的识别精度较差的问题,可以有效降低实施成本,提高风险等级识别精度。
附图说明
12.通过以下参照附图对本技术实施例的描述,本技术的上述以及其他目的、特征和优点将更为清楚,在附图中:图1示意性示出了根据本技术实施例的可以应用药店风险等级识别模型生成方法或药店风险等级识别方法及装置的示例性系统架构。
13.图2示意性示出了根据本技术实施例的药店风险等级识别模型生成方法的流程图。
14.图3示意性示出了根据本技术另一实施例的药店风险等级识别模型生成方法的流程图。
15.图4示意性示出了根据本技术又一实施例的药店风险等级识别模型生成方法的流程图。
16.图5示意性示出了根据本技术实施例的药店风险等级识别方法的流程图。
17.图6示意性示出了根据本技术实施例的药店风险等级识别模型生成装置的框图。
18.图7示意性示出了根据本技术实施例的药店风险等级识别装置的框图。
19.图8示意性示出了根据本技术实施例的适于实现药店风险等级识别模型生成方法或药店风险等级识别方法的电子设备的框图。
具体实施方式
20.以下,将参照附图来描述本技术的实施例。但是应该理解,这些描述只是示例性
的,而并非要限制本技术的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本技术实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本技术的概念。
21.在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本技术。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
22.在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
23.在使用类似于“a、b和c等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有a、b和c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。在使用类似于“a、b或c等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有a、b或c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。
24.在本技术的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
25.在本技术的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
26.对药品销售的监管不到位可能致使重大药品安全事故发生。例如,如果有用户购买含麻药品超量,则将该用品用于非法行为的风险就较高。因此,为了能够及时发现药店存在的风险事件,需要对药店进行风险管理。
27.在对药店进行风险管理的过程中,无可避免地需要确定药店的风险级别,然而,由于现有的药店的进销存系统和仓库管理系统没有统一的标准,不同药店的系统之间信息孤岛现象严重,导致相关部门无法实时检测药店的风险级别。目前,针对药店的风险级别的主要检测手段依赖于工作人员到店检查经营漏洞、登记违规项以及人工记录检查结果,但这种工作方式主要依赖于工作人员的人为经验,检查结果存在一定的主观性,且即使耗费了大量的人力和物力资源,也无法及时发现药店存在的风险事件,药店风险等级的识别精度较差。
28.有鉴于此,本技术的实施例提供了一种药店风险等级识别模型生成方法、药店风险等级识别方法、装置、电子设备和可读存储介质。其中,药店风险等级识别模型生成方法包括:采集多个药店的历史业务行为数据,得到第一样本数据集,其中,历史业务行为数据包括多个风险特征属性;基于第一样本数据集中的样本数量和多个药店的历史风险等级标签,确定第一样本数据集的第一信息熵;基于样本数据子集和历史风险等级标签来处理第一信息熵,得到样本数据子集的信息增益率,其中,第一样本数据集包括多个样本数据子集,多个样本数据子集与多个风险特征属性一一对应;基于与多个风险特征属性一一对应的多个信息增益率,确定多个风险权值;以及基于贝叶斯算法,利用多个风险权值和历史风
险等级标签来生成风险等级识别模型。
29.图1示意性示出了根据本技术实施例的可以应用药店风险等级识别模型生成方法或药店风险等级识别方法及装置的示例性系统架构。需要注意的是,图1所示仅为可以应用本技术实施例的系统架构的示例,以帮助本领域技术人员理解本技术的技术内容,但并不意味着本技术实施例不可以用于其他设备、系统、环境或场景。
30.如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。
31.终端设备101、102、103可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。终端设备101、102、103上可以存储有药店的业务行为数据,或者,终端设备101、102、103可以通过有线或无线通信链路从外部存储设备中获取药店的业务行为数据。
32.网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
33.服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103实施的药店风险等级识别模型生成方法或药店风险等级识别方法提供计算资源及存储资源的支持。作为可选的实施方式,服务器也可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务(“virtual private server”,或简称“vps”)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
34.需要说明的是,本技术实施例所提供的药店风险等级识别模型生成方法或药店风险等级识别方法一般可以由服务器105执行。相应地,本技术实施例所提供的药店风险等级识别模型生成装置或药店风险等级识别装置一般可以设置于服务器105中。本技术实施例所提供的药店风险等级识别模型生成方法或药店风险等级识别方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本技术实施例所提供的药店风险等级识别模型生成装置或药店风险等级识别装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。或者,本技术实施例所提供的药店风险等级识别模型生成方法或药店风险等级识别方法也可以由终端设备101、102、或103执行,或者也可以由不同于终端设备101、102、或103的其他终端设备执行。相应地,本技术实施例所提供的药店风险等级识别模型生成装置或药店风险等级识别装置也可以设置于终端设备101、102、或103中,或设置于不同于终端设备101、102、或103的其他终端设备中。
35.例如,在进行风险等级识别模型的生成时,用户可以通过终端设备101从外部设备中获取历史业务行为数据,将该历史业务行为数据发送给服务器105后,服务器105可以执行本技术实施例提供的药店风险等级识别模型生成方法来生成风险等级识别模型。
36.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
37.图2示意性示出了根据本技术实施例的药店风险等级识别模型生成方法的流程图。
38.如图2所示,该方法包括操作s201~s205。
39.在操作s201,采集多个药店的历史业务行为数据,得到第一样本数据集,其中,历史业务行为数据包括多个风险特征属性。
40.在操作s202,基于第一样本数据集中的样本数量和多个药店的历史风险等级标签,确定第一样本数据集的第一信息熵。
41.在操作s203,基于样本数据子集和历史风险等级标签来处理第一信息熵,得到样本数据子集的信息增益率,其中,第一样本数据集包括多个样本数据子集,多个样本数据子集与多个风险特征属性一一对应。
42.在操作s204,基于与多个风险特征属性一一对应的多个信息增益率,确定多个风险权值。
43.在操作s205,基于贝叶斯算法,利用多个风险权值和历史风险等级标签来生成风险等级识别模型。
44.根据本技术的实施例,多个药店可以指具有相同的主营业务的多个药店,主营业务可以指处方药品经营业务、非处方药品经营业务、中草药经营业务等。采集具有相同主营业务的多个药店的历史行为数据,可以使得不同药店的历史业务行为数据中所包含的风险特征属性属于同一维度。
45.根据本技术的实施例,历史业务行为数据中包含的风险特征属性可以包括进销存数据的完备性、近效期药品的数量、执业药师考勤数据、许可证数据、电子处方完备性和含麻药品登记情况等。历史业务行为数据中的每一条数据可以和以上任意一项风险特征属性相关,例如,近效期药品这一风险特征属性可以与药品的进销存数据相关,具体与进销存数据中的药片生成日期数据、药片有效期数据等相关。
46.根据本技术的实施例,药店的历史风险等级标签可以包括基于该药店的历史业务行为数据中的每一条记录所确定的标签值,该标签值可以认为标定,也可以是基于现有的标签生成方法来确定,在此不作限定。
47.根据本技术的实施例,风险等级的数量及划分标准可以根据具体应用场景进行选择,在此不作限定。在一些实施例中,在多个药店的历史风险等级标签是基于不同的划分标准来确定的情况下,在执行操作s202的方法之前,还可以包括将多个药店的历史风险等级标签统一为某一标准下的风险等级标签的操作。
48.根据本技术的实施例,第一信息熵可以用于描述第一样本数据集的不确定程度。第一信息熵可以根据第一样本数据集中每个风险等级的出现次数来确定,如公式(1)所示:在式(1)中,s表示第一样本数据集;e(s)可以表示第一信息熵;n1可以表示风险等级的数量;n1可以表示第一样本数据集中样本的数量,每个样本可以表示为历史业务行为数据中的一条记录;n1[i]可以表示第i个风险等级出现的次数。
[0049]
根据本技术的实施例,第一样本数据集s可以包括多个样本数据子集s1,

,sm,其中,m表示风险特征属性的数量,第i个样本数据子集si可以和第i个风险特征属性相关。
[0050]
根据本技术的实施例,信息增益率可以是将信息增益消除偏好属性后得到的,通过利用信息增益率来计算权值,可以避免因样本的不均衡而带来的对样本数量较多的特征
的偏好。
[0051]
根据本技术的实施例,风险等级识别模型可以是基于概率模型生成的,该概率模型可以包含至少一个由贝叶斯算法确定的函数,多个风险权值和历史风险等级标签可以作为参数填入该至少一个函数中,以得到风险等级识别模型。
[0052]
根据本技术的实施例,在进行风险等级识别模型的生成时,可以基于采集得到的第一样本数据集和历史风险等级标签来计算该第一样本数据集的第一信息熵,再基于第一信息熵来确定各个风险特征属性的信息增益率,然后,可以利用各个风险特征属性的信息增益率来确定各个风险特征属性的风险权值,该风险权值可以与基于贝叶斯算法确定的概率模型进行结合,以得到风险等级识别模型。通过对熵权法和贝叶斯算法的改进,即使用信息增益率取代信息增益作为风险权值的计算依据,并在贝叶斯算法中加入了利用风险权值进行加权运算的操作,可以有效降低样本不均衡对模型识别精度的影响,通过使用模型进行风险等级识别的方法,可以至少部分地克服相关技术中药店风险等级的识别精度较差的问题,可以有效降低实施成本,提高风险等级识别精度。
[0053]
下面参考图3~图4,结合具体实施例对图2所示的方法做进一步说明。
[0054]
根据本技术的实施例,操作s203可以包括如下操作:对于每个样本数据子集,基于样本数据子集和历史风险等级标签来确定样本数据子集的第二信息熵和样本数据子集针对第一样本数据集的条件熵;基于条件熵和第一信息熵,确定样本数据子集的信息增益;以及基于样本数据子集的信息增益和第二信息熵,确定样本数据子集的信息增益率。
[0055]
根据本技术的实施例,每一项风险特征属性可以包括多个子特征属性,例如,对于电子处方完备性这一风险特征属性,可以包括电子处方的开方人、药品种类及数量、使用注意事项等子特征属性。
[0056]
根据本技术的实施例,对于样本数据子集si,其针对第一样本数据集的条件熵可以由样本数据子集si中每一个子特征属性出现的次数,即每一个子特征属性被判定为各个风险等级的次数来确定,如公式(2)所示:在式(2)中,e(s|si)可以表示样本数据子集si针对第一样本数据集s的条件熵;n3[j][k]可以表示样本数据子集si的第j个子特征属性被判定为第k个风险等级的次数;n2可以表示对应于样本数据子集si的风险特征属性包含的子特征属性的数量;n2[j]可以表示第j个子特征属性的出现次数;n2可以表示样本数据子集si中包含的样本数量。
[0057]
根据本技术的实施例,在式(2)中,对于任意的j和k的取值,满足n2[j]≠0且n3[j][k]≠0,即在进行条件熵的计算时,仅对具有数据记录的子特征属性及相应的风险等级进行统计。
[0058]
根据本技术的实施例,样本数据子集si的信息增益可以通过公式(3)计算得到:在式(3)中,g'(s|si)可以表示样本数据子集si的信息增益。
[0059]
根据本技术的实施例,由于信息增益会随着包含的样本数量的增多而增大,使得
基于信息增益计算得到的风险权值在面对不同数量的样本时的表达能力较差,因此,可以通过引入与信息增益具有相同趋势的惩罚项,即第二信息熵来计算信息增益率,并通过信息增益率来计算风险权值的方式,来避免上述影响。
[0060]
根据本技术的实施例,对于样本数据子集si,其第二信息熵可以由该样本数据子集si中每一个子特征属性出现的次数来确定,如公式(4)所示:在式(4)中,e(si)可以表示样本数据子集si的第二信息熵。
[0061]
根据本技术的实施例,样本数据子集si的信息增益率可以通过公式(5)计算得到:在式(5)中,gr'(s|si)可以表示样本数据子集si的信息增益率。
[0062]
根据本技术的实施例,在操作s204中,基于多个信息增益率来确定样本数据子集si的风险权值可以如公式(6)所示:在式(6)中,wi可以表示样本数据子集si的风险权值。
[0063]
根据本技术的实施例,通过采用利用信息增益率来计算风险权值的方式,可以避免因样本的不均衡带来的对样本数量多的特征的偏好,从而提高风险权值的表达能力及风险等级识别模型的鲁棒性。
[0064]
根据本技术的实施例,操作s205可以包括如下操作:基于多个药店的历史风险等级标签,确定多个风险等级中每个风险等级的历史概率;对于每个风险等级,基于多个药店的历史风险等级标签,确定多个风险特征属性中每个风险特征属性的后验概率;以及基于贝叶斯算法,利用多个风险权值、多个历史概率和多个后验概率来生成风险等级识别模型。
[0065]
根据本技术的实施例,第i个风险等级的历史概率可以指第i个风险等级出现的次数与多个风险等级出现的总次数的比值,即第一样本数据集中被标定为第i个风险等级的样本的数量与第一样本数据集的总数量的比值,如公式(7)所示:在式(7)中,pi可以表示第i个风险等级的历史概率;n3[i]可以表示第一样本数据集中被标定为第i个风险等级的样本的数量。
[0066]
根据本技术的实施例,第i个风险等级下,第j个风险特征属性的后验概率可以通过公式(8)计算得到:
在式(8)中,可以表示第i个风险等级下,第j个风险特征属性的后验概率;n4[i][j]可以表示第i个风险等级下,第j个风险特征属性的出现次数。
[0067]
根据本技术的实施例,基于贝叶斯算法,利用多个风险权值、多个历史概率和多个后验概率来生成的风险等级识别模型可以是一个函数模型,其输入为需要识别的药店的业务行为数据,输出为识别得到的风险等级。
[0068]
根据本技术的实施例,以需要识别的药店的业务行为数据为x={a1,a2,...,am}为例,风险等级识别模型可以如公式(9)所示:在式(9)中,fx
map
可以表示识别得到的风险等级;p(fxi)可以表示第i个风险等级的历史概率,可以通过公式(7)计算得到;p(aj|fx)可以表示在需要识别的药店的业务行为数据x第i个风险等级下第j个风险特征属性为aj的概率,可以通过公式(8)计算得到。
[0069]
图3示意性示出了根据本技术另一实施例的药店风险等级识别模型生成方法的流程图。
[0070]
如图3所示,该方法包括操作s301~s306。
[0071]
在操作s301,采集多个药店的历史业务行为数据,得到第一样本数据集,其中,历史业务行为数据包括多个风险特征属性。
[0072]
在操作s302,对第一样本数据集进行数据增强处理,得到第二样本数据集。
[0073]
在操作s303,基于第二样本数据集中的样本数量和多个药店的历史风险等级标签,确定第二样本数据集的第一信息熵。
[0074]
在操作s304,基于样本数据子集和历史风险等级标签来处理第一信息熵,得到样本数据子集的信息增益率,其中,第二样本数据集包括多个样本数据子集,多个样本数据子集与多个风险特征属性一一对应。
[0075]
在操作s305,基于与多个风险特征属性一一对应的多个信息增益率,确定多个风险权值。
[0076]
在操作s306,基于贝叶斯算法,利用多个风险权值和历史风险等级标签来生成风险等级识别模型。
[0077]
根据本技术的实施例,操作s301和操作s303~s306的方法可以根据操作s201~s205的方法来实现,将操作s201~s205中的第一样本数据集更换为第二样本数据集即可,在此不再赘述。
[0078]
根据本技术的实施例,在操作s302中,经数据增强后,第二样本数据集的样本数量可以大于第一样本数据集的样本数量,从而可以减少样本不均衡的影响,提高生成的风险等级识别模型的鲁棒性。
[0079]
根据本技术的实施例,操作s302可以包括如下操作:对第一样本数据集中的样本进行分类,得到属于第一类别的多个第一样本和属于第二类别的多个第二样本,其中,第一类别的样本数量大于第二类别的样本数量;对于每个第二样本,利用k近邻算法从第一样本数据集中确定多个第三样本;根据多个第三样本所属的类别,基于第二样本生成至少一个第四样本;以及基于多个第一样本和多个第四样本,生
成第二样本数据集。
[0080]
根据本技术的实施例,对第一样本数据集中的样本进行分类时可以采用任意的无监督聚类算法来实现,在此不作限定。
[0081]
根据本技术的实施例,第一类别可以指聚类后具有最多样本数量的类别,第二类别可以包括聚类后除该第一类别外的其他所有类别。相应的,第一类别的样本数量大于第二类别的样本数量可以理解为第一类别的样本数量比第二类包中任意一个类别的样本数量更多。
[0082]
根据本技术的实施例,利用k近邻算法确定的多个第三样本可以指在特征空间中,与第二样本最接近的多个样本,即第二样本的多个最近邻。
[0083]
根据本技术的实施例,第三样本可以与第二样本属于同一类别,即属于第二类别,也可以与第二样本属于不同类别,即属于第一类别。根据多个第三样本所属的类别,基于第二样本生成至少一个第四样本可以理解为根据多个第三样本属于第一类别或第二类别的统计结果,选择对应的策略来基于第二样本生成至少一个第四样本。
[0084]
根据本技术的实施例,对于第二样本p
x
,利用k近邻算法可以从第一样本数据集中确定b个第三样本。在b个第三样本中属于第一类别的样本数量小于第二预设阈值的情况下,可以将该第二样本p
x
定义为安全样本,相应可以采用安全处理策略来处理第二样本p
x
,例如,可以直接将第二样本p
x
确定为所生成的第四样本。该第二预设阈值可以根据具体应用场景进行设定,例如可以设置为b/2,在此不作限定。在b个第三样本中属于第一类别的样本数量大于或等于第二预设阈值的情况下,可以将该第二样本p
x
定义为危险样本,相应可以采用危险处理策略来处理第二样本p
x
,例如,可以先从b个第三样本中确定至少一个第五样本,如s个第五样本,再基于至少一个第五样本和第二样本来生成至少一个第四样本,如公式(10)所示:在式(10)中,p
x
'可以表示第四样本;rand(0,1)可以表示利用随机数算法从区间[0,1]中选择一个随机数;p
s,i
可以表示第i个第五样本;d(p
s,i-p
x
)可以表示第i个第五样本与第二样本之间的距离。
[0085]
根据本技术的实施例,通过如上数据增强方法,对于少数类样本,可以使用代表在少数类样本边界上的危险样本来合成新的样本数据,加入到少数类样本中,从而可以有效避免样本不均衡对模型性能的影响。
[0086]
根据本技术的实施例,第二样本数据集可以由原本的多个第一样本,以及分别由每一个第二样本所生产的第四样本构成。在利用第二样本数据集进行药店风险等级识别模型的生成时,使用第二样本数据集s'对将公式(1)~(9)中的第一样本数据集s进行替换即可,在此不再赘述。
[0087]
图4示意性示出了根据本技术又一实施例的药店风险等级识别模型生成方法的流程图。
[0088]
如图4所示,该方法包括操作s401~s404。
[0089]
在操作s401,采集多个药店的历史业务行为数据,得到第一样本数据集,其中,历史业务行为数据包括多个风险特征属性。
[0090]
在操作s402,判断第一样本数据集中包含的样本数量是否大于第一预设阈值。在确定第一样本数据集中包含的样本数量小于或等于第一预设阈值的情况下,执行操作s403;在确定第一样本数据集中包含的样本数量大于第一预设阈值的情况下,执行操作s404。
[0091]
在操作s403,利用熵权法和贝叶斯算法,基于第一样本数据集和历史风险等级标签来生成风险等级识别模型。
[0092]
在操作s404,利用第一样本数据集来训练初始网络模型,以生成风险等级识别模型。
[0093]
根据本技术的实施例,第一预设阈值可以根据具体应用场景来确定,例如,该第一预设阈值可以设置为训练得到具有较高鲁棒性的模型所需要的最低样本数量。
[0094]
根据本技术的实施例,在确定第一样本数据集中包含的样本数量小于或等于第一预设阈值的情况下,利用熵权法和贝叶斯算法,基于第一样本数据集和历史风险等级标签来生成风险等级识别模型可以理解为:在第一样本数据集中包含的样本数量小于或等于第一预设阈值的情况下,利用操作s202~s205的方法或操作s302~s306的方法来生成风险等级识别模型,在此不再赘述。
[0095]
根据本技术的实施例,利用第一样本数据集来训练初始网络模型,以生成风险等级识别模型可以是基于预设学习参数,利用第一样本数据集来训练初始网络模型,得到风险等级识别模型。
[0096]
作为一种可选的实施方式,在利用第一样本数据集进行训练时还可以包括对第一样本数据集进行预处理的过程。该预处理的过程例如可以包括:对第一样本数据集进行数据增强处理,得到第二样本数据集;以及对第二样本数据集中的样本数据作归一化处理,得到第三样本数据集。在完成预处理后,可以基于预设学习参数,利用第三样本数据集来训练初始网络模型,得到风险等级识别模型。
[0097]
根据本技术的实施例,对第一样本数据集进行数据增强处理,得到第二样本数据集可以采用如操作s302的方法来实现,在此不再赘述。
[0098]
根据本技术的实施例,对第二样本数据集中的样本数据作归一化处理,得到第三样本数据集可以是将第二样本数据集中的样本特征归一化,如公式(11)所示:在式(11)中,可以表示归一化后的样本特征,f可以表示归一化前的样本特征,max(n)可以表示归一化前的样本特征的最大值。
[0099]
图5示意性示出了根据本技术实施例的药店风险等级识别方法的流程图。
[0100]
如图5所示,该方法包括操作s501~s502。
[0101]
在操作s501,采集目标药店的目标业务行为数据,得到第一目标数据集。
[0102]
在操作s502,利用风险等级识别模型来处理第一目标数据集,得到目标药店的风险等级识别结果。
[0103]
根据本技术的实施例,目标药店与用于模型生成时的多个药店可以具有相同的主营业务,以使得目标药店的目标业务行为数据中所包含的风险特征属性与训练时的历史行为数据中所包含的风险特征属性属于同一维度。
[0104]
根据本技术的实施例,风险等级识别模型包括使用操作s201~s205的方法或操作s301~s306的方法而生成的风险等级识别概率模型,或者,使用操作s401~s404的方法来生成的风险等级识别网络模型。药店风险等级识别方法中的风险等级识别模型生成方法部分具体可以参考药店风险等级识别模型生成方法部分,在此不再赘述。
[0105]
根据本技术的实施例,在风险等级识别模型为风险等级识别概率模型的情况下,操作s502可以包括如下操作:从风险等级识别概率模型中获取与多个风险特征属性一一对应的多个风险权值、多个历史概率和多个后验概率,其中,历史概率包括多个风险等级中每个风险等级的历史概率,后验概率包括多个风险等级的每个风险等级下,多个风险特征属性中每个风险特征属性的后验概率;对于每个风险等级,基于风险等级下的与多个风险特征属性一一对应的多个后验概率和第一目标数据集,确定与多个风险特征属性一一对应的多个条件概率;利用多个风险权值来对多个条件概率进行加权求和,得到风险等级的最大后验概率;以及基于分别与多个风险等级对应的多个最大后验概率,确定风险等级识别结果。
[0106]
根据本技术的实施例,从风险等级识别概率模型中可以获取得到多个风险权值w1,

,wm,多个历史概率p1,

,pm,和多个后验概率p ̂1(s|s1),

,p ̂1(s|sm),

,p ̂
n1
(s|s1),

,p ̂
n1
(s|sm)。
[0107]
根据本技术的实施例,从目标业务行为数据中确定的第一目标数据集可以表示为x={a1,a2,...,am}。可以使用p(fxi|a1,a2,...,am)表示第一目标数据集x={a1,a2,...,am}属于第i个风险等级的概率。当属于第i个风险等级的概率p(fxi|a1,a2,...,am)最大时,则可以确定风险等级识别结果表示目标药店的风险等级为第i个风险等级。
[0108]
根据本技术的实施例,最大后验概率对应的风险等级可以如公式(12)所示:在式(12)中,fx
map
可以表示最大后验概率对应的风险等级;p(fxi|a1,a2,...,am)可以表示第i个风险等级下各个风险特征属性的条件概率,可以通过公式(13)计算得到:在式(13)中,p(a1,a2,...,am|fxi)可以表示第i个风险等级下,风险特征属性为x={a1,a2,...,am}的后验概率;p(a1,a2,...,am)可以表示为第一目标数据集的全概率。
[0109]
根据本技术的实施例,结合公式(12)和(13)及乘法定理,即可得到如公式(9)所示的风险等级识别模型。将第一目标数据集代入公式(9)中,即可确定最大后验概率对应的风险等级,即风险等级识别结果。
[0110]
根据本技术的实施例,在风险等级识别模型为风险等级网络概率模型的情况下,操作s502可以包括如下操作:对第一目标数据集作归一化处理,得到第二目标数据集;以及将第二目标数据集输入风险等级识别网络模型中,得到风险等级识别结果。
[0111]
根据本技术的实施例,归一化处理的过程可以如公式(11)所示。
[0112]
根据本技术的实施例,在得到风险等级识别结果后,还可以根据确定的风险等级进行风险预警。例如,可以设置一个阈值等级,在确定的目标药店的风险等级大于该阈值等
级时,可以向相关人员或部门的电子设备发送风险预警信息,以便及时发现问题,避免风险事件的发生。
[0113]
图6示意性示出了根据本技术实施例的药店风险等级识别模型生成装置的框图。
[0114]
如图6所示,药店风险等级识别模型生成装置600可以包括第一采集模块610、第一确定模块620、第一处理模块630、第二确定模块640和第一生成模块650。
[0115]
第一采集模块610,用于采集多个药店的历史业务行为数据,得到第一样本数据集,其中,历史业务行为数据包括多个风险特征属性。
[0116]
第一确定模块620,用于基于第一样本数据集中的样本数量和多个药店的历史风险等级标签,确定第一样本数据集的第一信息熵。
[0117]
第一处理模块630,用于基于样本数据子集和历史风险等级标签来处理第一信息熵,得到样本数据子集的信息增益率,其中,第一样本数据集包括多个样本数据子集,多个样本数据子集与多个风险特征属性一一对应。
[0118]
第二确定模块640,用于基于与多个风险特征属性一一对应的多个信息增益率,确定多个风险权值。
[0119]
第一生成模块650,用于基于贝叶斯算法,利用多个风险权值和历史风险等级标签来生成风险等级识别模型。
[0120]
根据本技术的实施例,在进行风险等级识别模型的生成时,可以基于采集得到的第一样本数据集和历史风险等级标签来计算该第一样本数据集的第一信息熵,再基于第一信息熵来确定各个风险特征属性的信息增益率,然后,可以利用各个风险特征属性的信息增益率来确定各个风险特征属性的风险权值,该风险权值可以与基于贝叶斯算法确定的概率模型进行结合,以得到风险等级识别模型。通过对熵权法和贝叶斯算法的改进,即使用信息增益率取代信息增益作为风险权值的计算依据,并在贝叶斯算法中加入了利用风险权值进行加权运算的操作,可以有效降低样本不均衡对模型识别精度的影响,通过使用模型进行风险等级识别的方法,可以至少部分地克服相关技术中药店风险等级的识别精度较差的问题,可以有效降低实施成本,提高风险等级识别精度。
[0121]
根据本技术的实施例,第一处理模块630包括第一处理单元、第二处理单元和第三处理单元。
[0122]
第一处理单元,用于对于每个样本数据子集,基于样本数据子集和历史风险等级标签来确定样本数据子集的第二信息熵和样本数据子集针对第一样本数据集的条件熵。
[0123]
第二处理单元,用于基于条件熵和第一信息熵,确定样本数据子集的信息增益。
[0124]
第三处理单元,用于基于样本数据子集的信息增益和第二信息熵,确定样本数据子集的信息增益率。
[0125]
根据本技术的实施例,药店风险等级识别模型生成装置600还可以包括第三处理模块。
[0126]
第三处理模块,用于对第一样本数据集进行数据增强处理,得到第二样本数据集。
[0127]
根据本技术的实施例,第一确定模块620包括第一确定单元。
[0128]
第一确定单元,用于基于第二样本数据集中的样本数量和多个药店的历史风险等级标签,确定第二样本数据集的第一信息熵。
[0129]
根据本技术的实施例,样本数据子集中包括第二样本数据集中与每个风险特征属
性对应的样本。
[0130]
根据本技术的实施例,药店风险等级识别模型生成装置600还可以包括第三确定模块和第二生成模块。
[0131]
第三确定模块,用于确定第一样本数据集中包含的样本数量。
[0132]
第二生成模块,用于在样本数量大于第一预设阈值的情况下,利用第一样本数据集来训练初始网络模型,以生成风险等级识别模型。
[0133]
根据本技术的实施例,第二生成模块包括第一生成子模块、第二生成子模块和第三生成子模块。
[0134]
第一生成子模块,用于对第一样本数据集进行数据增强处理,得到第二样本数据集。
[0135]
第二生成子模块,用于对第二样本数据集中的样本数据作归一化处理,得到第三样本数据集。
[0136]
第三生成子模块,用于基于预设学习参数,利用第三样本数据集来训练初始网络模型,得到风险等级识别模型。
[0137]
根据本技术的实施例,第三处理模块或第二生成子模块包括第四处理单元、第五处理单元、第六处理单元和第七处理单元。
[0138]
第四处理单元,用于对第一样本数据集中的样本进行分类,得到属于第一类别的多个第一样本和属于第二类别的多个第二样本,其中,第一类别的样本数量大于第二类别的样本数量。
[0139]
第五处理单元,用于对于每个第二样本,利用k近邻算法从第一样本数据集中确定多个第三样本。
[0140]
第六处理单元,用于根据多个第三样本所属的类别,基于第二样本生成至少一个第四样本。
[0141]
第七处理单元,用于基于多个第一样本和多个第四样本,生成第二样本数据集。
[0142]
根据本技术的实施例,第六处理单元包括第一处理子单元、第二处理子单元和第三处理子单元。
[0143]
第一处理子单元,用于在多个第三样本中属于第一类别的样本数量小于第二预设阈值的情况下,确定第四样本为第二样本。
[0144]
第二处理子单元,用于在多个第三样本中属于第一类别的样本数量大于或等于第二预设阈值的情况下,从第三样本中确定至少一个第五样本。
[0145]
第三处理子单元,用于基于至少一个第五样本和第二样本来生成至少一个第四样本。
[0146]
根据本技术的实施例,第一确定模块620包括第二确定单元。
[0147]
第二确定单元,用于在样本数量小于或等于第一预设阈值的情况下,基于第一样本数据集中的样本数量和多个药店的历史风险等级标签,确定第一样本数据集的第一信息熵。
[0148]
根据本技术的实施例,第一生成模块650包括第一生成单元、第二生成单元和第三生成单元。
[0149]
第一生成单元,用于基于多个药店的历史风险等级标签,确定多个风险等级中每
个风险等级的历史概率。
[0150]
第二生成单元,用于对于每个风险等级,基于多个药店的历史风险等级标签,确定多个风险特征属性中每个风险特征属性的后验概率。
[0151]
第三生成单元,用于基于贝叶斯算法,利用多个风险权值、多个历史概率和多个后验概率来生成风险等级识别模型。
[0152]
需要说明的是,本技术的实施例中药店风险等级识别模型生成装置部分与本技术的实施例中药店风险等级识别模型生成方法部分是相对应的,药店风险等级识别模型生成装置部分的描述具体参考药店风险等级识别模型生成方法部分,在此不再赘述。
[0153]
图7示意性示出了根据本技术实施例的药店风险等级识别装置的框图。
[0154]
如图7所示,药店风险等级识别装置700可以包括第二采集模块710和第二处理模块720。
[0155]
第二采集模块710,用于采集目标药店的目标业务行为数据,得到第一目标数据集。
[0156]
第二处理模块720,用于利用风险等级识别模型来处理第一目标数据集,得到目标药店的风险等级识别结果。
[0157]
根据本技术的实施例,风险等级识别模型可以包括使用如上的药店风险等级识别模型生成方法来生成,在此不再赘述。
[0158]
根据本技术的实施例,风险等级识别模型包括风险等级识别概率模型或风险等级识别网络模型。
[0159]
根据本技术的实施例,目标业务行为数据包括多个风险特征属性。
[0160]
根据本技术的实施例,第二处理模块720包括第八处理单元、第九处理单元、第十处理单元和第十一处理单元。
[0161]
第八处理单元,用于在风险等级识别模型为风险等级识别概率模型的情况下,从风险等级识别概率模型中获取与多个风险特征属性一一对应的多个风险权值、多个历史概率和多个后验概率,其中,历史概率包括多个风险等级中每个风险等级的历史概率,后验概率包括多个风险等级的每个风险等级下,多个风险特征属性中每个风险特征属性的后验概率。
[0162]
第九处理单元,用于对于每个风险等级,基于风险等级下的与多个风险特征属性一一对应的多个后验概率和第一目标数据集,确定与多个风险特征属性一一对应的多个条件概率。
[0163]
第十处理单元,用于利用多个风险权值来对多个条件概率进行加权求和,得到风险等级的最大后验概率。
[0164]
第十一处理单元,用于基于分别与多个风险等级对应的多个最大后验概率,确定风险等级识别结果。
[0165]
根据本技术的实施例,第二处理模块720包括第十二处理单元和第十三处理单元。
[0166]
第十二处理单元,用于在风险等级识别模型为风险等级识别网络模型的情况下,对第一目标数据集作归一化处理,得到第二目标数据集。
[0167]
第十三处理单元,用于将第二目标数据集输入风险等级识别网络模型中,得到风险等级识别结果。
[0168]
需要说明的是,本技术的实施例中药店风险等级识别装置部分与本技术的实施例中药店风险等级识别方法部分是相对应的,药店风险等级识别装置部分的描述具体参考药店风险等级识别方法部分,在此不再赘述。
[0169]
根据本技术的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本技术实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本技术实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本技术实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
[0170]
例如,第一采集模块610、第一确定模块620、第一处理模块630、第二确定模块640和第一生成模块650,或者,第二采集模块710和第二处理模块720中的任意多个可以合并在一个模块/单元/子单元中实现,或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者,这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合,并在一个模块/单元/子单元中实现。根据本技术的实施例,第一采集模块610、第一确定模块620、第一处理模块630、第二确定模块640和第一生成模块650,或者,第二采集模块710和第二处理模块720中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第一采集模块610、第一确定模块620、第一处理模块630、第二确定模块640和第一生成模块650,或者,第二采集模块710和第二处理模块720中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
[0171]
图8示意性示出了根据本技术实施例的适于实现药店风险等级识别模型生成方法或药店风险等级识别方法的电子设备的框图。图8示出的电子设备仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
[0172]
如图8所示,根据本技术实施例的计算机电子设备800包括处理器801,其可以根据存储在只读存储器(rom)802中的程序或者从存储部分808加载到随机访问存储器(ram)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic)),等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本技术实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
[0173]
在ram 803中,存储有电子设备800操作所需的各种程序和数据。处理器 801、rom 802以及ram 803通过总线804彼此相连。处理器801通过执行rom 802和/或ram 803中的程序来执行根据本技术实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除rom 802和ram 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一
个或多个存储器中的程序来执行根据本技术实施例的方法流程的各种操作。
[0174]
根据本技术的实施例,电子设备800还可以包括输入/输出(i/o)接口805,输入/输出(i/o)接口805也连接至总线804。电子设备800还可以包括连接至i/o接口805的以下部件中的一项或多项:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至i/o接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
[0175]
本技术还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本技术实施例的方法。
[0176]
根据本技术的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0177]
例如,根据本技术的实施例,计算机可读存储介质可以包括上文描述的rom 802和/或ram 803和/或rom 802和ram 803以外的一个或多个存储器。
[0178]
附图中的流程图和框图,图示了按照本技术各种实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解,本技术的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本技术中。特别地,在不脱离本技术精神和教导的情况下,本技术的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本技术的范围。
[0179]
以上对本技术的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本技术的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本技术的范围由所附权利要求及其等同物限定。不脱离本技术的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本技术的范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献