一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于随机森林的数据分析方法、装置、设备及存储介质与流程

2022-06-01 02:47:05 来源:中国专利 TAG:


1.本技术涉及人工智能技术领域,主要涉及了一种基于随机森林的数据分析方法、装置、设备及存储介质。


背景技术:

2.随着计算机和互联网的发展,很多业务都可以在网上进行。例如,股票、基金、期货、债券、衍生品、定期、转账等涉及资金交易的业务。对于资金交易的业务,必然存在确定交易侧和资金侧之间的数据是否相等(或称为对齐)的对账需求。若是,则可将该数据对应的账单称为平账。否则称为挂账,需要分析对账数据的问题(可称为挂账问题),得到挂账原因。目前,对于挂账问题的分析基本采用人工分析,存在效率低和准确率低的问题。


技术实现要素:

3.本技术实施例提供了一种基于随机森林的数据分析方法、装置、设备及存储介质,能够基于挂账数据的场景信息和与挂账数据关联的关联数据的属性信息识别出挂账原因,提高了挂账原因的识别率和准确率。
4.第一方面,本技术实施例提供一种基于随机森林的数据分析方法,其中:
5.接收挂账数据的分析指令,其中,所述分析指令包括挂账信息,所述挂账信息由所述挂账数据的属性信息按照预设格式生成;
6.基于所述预设格式对所述挂账信息进行解析,得到所述挂账数据的属性信息;
7.基于所述挂账数据的属性信息,获取所述挂账数据的场景信息和与所述挂账数据关联的关联数据的属性信息;
8.获取所述场景信息对应的目标随机森林模型;
9.将所述挂账数据的属性信息和所述关联数据的属性信息输入至所述目标随机森林模型,得到所述挂账数据的挂账原因。
10.第二方面,本技术实施例提供一种基于随机森林的数据分析装置,其中:
11.接收单元,用于接收挂账数据的分析指令,其中,所述分析指令包括挂账信息,所述挂账信息由所述挂账数据的属性信息按照预设格式生成;
12.解析单元,用于基于所述预设格式对所述挂账信息进行解析,得到所述挂账数据的属性信息;
13.获取单元,用于基于所述挂账数据的属性信息,获取所述挂账数据的场景信息和与所述挂账数据关联的关联数据的属性信息;获取所述场景信息对应的目标随机森林模型;
14.识别单元,用于将所述挂账数据的属性信息和所述关联数据的属性信息输入至所述目标随机森林模型,得到所述挂账数据的挂账原因。
15.第三方面,本技术实施例提供一种计算机设备,包括处理器、存储器、通信接口以及计算机程序,其中,上述存储器中存储有上述计算机程序,上述计算机程序被配置由上述
处理器执行,所述计算机程序包括用于如第一方面中所描述的部分或全部步骤的指令。
16.第四方面,本技术实施例提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行以实现如第一方面中所描述的部分或全部步骤。
17.实施本技术实施例,将具有如下有益效果:
18.采用了上述的基于随机森林的数据分析方法、装置、设备及存储介质之后,若接收到挂账数据的分析指令,则基于预设格式对分析指令中的挂账信息进行解析,得到挂账数据的属性信息。再基于挂账数据的属性信息获取挂账数据的场景信息和与挂账数据关联的关联数据的属性信息。然后将挂账数据的属性信息和关联数据的属性信息输入至场景信息对应的目标随机森林模型,得到挂账数据的挂账原因。如此,能够基于挂账数据的场景信息和与挂账数据关联的关联数据的属性信息识别出挂账原因,提高了挂账原因的识别率和准确率。
附图说明
19.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
20.其中:
21.图1为本技术实施例提供的一种基于随机森林的数据分析方法的流程示意图;
22.图2为本技术实施例提供的一种预设随机森林模型的示意图;
23.图3为本技术实施例提供的一种基于随机森林的数据分析装置的结构示意图;
24.图4为本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
25.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。根据本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
26.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
27.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
28.本技术实施例应用的网络架构包括服务器和电子设备。本技术实施例不限定电子
设备和服务器的数量,服务器可同时为多个电子设备提供服务。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器或者可以通过多个服务器组成的服务器集群来实现。
29.电子设备可以是个人计算机(personal computer,pc)、笔记本电脑或智能手机,还可以是一体机、掌上电脑、平板电脑(pad)、智能电视播放终端、车载终端或便捷式设备等。pc端的电子设备,例如一体机等,其操作系统可以包括但不限于linux系统、unix系统、windows系列系统(例如windows xp、windows 7等)、mac os x系统(苹果电脑的操作系统)等操作系统。移动端的电子设备,例如智能手机等,其操作系统可以包括但不限于安卓系统、ios(苹果手机的操作系统)、window系统等操作系统。
30.电子设备可以安装并运行应用程序,服务器可以是电子设备所安装的应用程序对应的服务器,为应用程序提供应用服务。其中,应用程序可以是单独集成的应用软件,或其它应用中嵌入的小程序,或者网页上的系统等,在此不做限定。在本技术实施例中,应用程序可以为对账系统或信息管理系统等,可应用于金融、医学、互联网等技术领域,在此不做限定。
31.挂账数据是指在对账的过程中,交易侧和资金侧之间数值不相等的数据。在本技术实施例中,电子设备和服务器可以为交易侧的设备,也可以为资金侧的设备。挂账数据可以包括交易侧的数据或资金侧的数据。若挂账数据对应的系统中存在第三方应用,则第三方应用相对于支付的用户(或企业)为交易侧,且相对于收款的用户(或企业)为资金侧。也就是说,在没有第三方应用时,资金侧的资金会直接进入交易侧的账户。在存在第三方应用时,资金侧的资金会被第三方应用保管,在满足一些条件时,才会打入交易侧的账户。例如,第三方应用为购物应用,用户在购物应用中提交第一物品的交易请求,并完成了支付。用户支付的金额会被购物应用保管。在用户确认收货或快递到达之后的预设时长(例如,15天)到达时,购物应用将用户支付的金额打入交易请求对应的商家。
32.本技术实施例提出一种基于随机森林的数据分析方法,该方法可以由基于随机森林的数据分析装置执行。该装置可由软件和/或硬件实现,一般可集成在服务器中,能够基于挂账数据的场景信息和与挂账数据关联的关联数据的属性信息识别出挂账原因,提高了挂账原因的识别率和准确率。
33.请参照图1,图1是本技术提供的一种基于随机森林的数据分析方法的流程示意图。以该方法应用于服务器为例进行举例说明,该方法包括如下步骤s101~s105,其中:
34.s101、接收挂账数据的分析指令,其中,所述分析指令包括挂账信息,所述挂账信息由所述挂账数据的属性信息按照预设格式生成。
35.挂账数据如前所述为在对账的过程中,交易侧和资金侧之间数值不相等的数据,在此不再赘述。本技术对于预设格式不做限定,该预设格式用于规定挂账数据的属性信息的描述方式,以生成挂账信息。挂账信息可采用表格或文本向量等形式进行描述。可选的,挂账数据中的文字可以转换为数字,例如,保险业务对应的数字为1,私募业务对应的数字为2,拍卖业务对应的数字为3等。数字可以转换为预设格式(例如,16进制)的数字。
36.挂账数据可包括多个属性,例如,业务类型、挂账方、挂账状态和数据类型等。其
中,业务类型可包括保险业务、私募业务、拍卖业务等。挂账方是指发送分析指令的对象,可以为交易侧或者资金侧。挂账状态用于指示该数据是否为挂账数据,即用于确定是否被平账。
37.数据类型可以包括数据名称,或者可以包括数据的处理类型,例如,支出类型、收入类型、借贷类型等。数据类型或者可以包括挂账数据中涉及的数值的类型,例如,金额、时间等。又例如,净营业周期、营业利润、利润总额、营运能力等。在本技术实施例中,挂账数据的数据类型可以称为目标数据类型。
38.需要说明的是,挂账数据中涉及的数值可以包括挂账数据中的子数据,还可以包括子数据的关联数据。每一属性对应至少一个数据,该数据可称为子数据。子数据和其对应的属性组成的键-值信息可称为挂账数据的属性信息。
39.在本技术实施例中,挂账数据的属性信息可以包括挂账数据的标识信息和其他属性信息。其中,标识信息可以为挂账数据的名称,例如,全称、简称、编码名称等。其他属性是指挂账数据的标识之外的属性,其他属性信息是指挂账数据的标识信息之外的属性信息。
40.预设格式还可用于规定每一属性的标识符,从而可基于标识符获取该标识符对应的属性信息。或者预设格式用于规定每一属性的顺序和每一属性的数据格式,从而在解析挂账信息时,可基于预设格式对挂账信息进行划分,得到多个属性信息。
41.本技术对于步骤s101的执行条件不做限定,可以为对账系统确定存在挂账数据之后,生成执行挂账数据的分析指令,以使执行步骤s101。或者在对账系统确定存在挂账数据之后,对该挂账数据进行标记,在完成对账之后,或预设的定期分析挂账问题的时长到达时,生成执行挂账数据的分析指令,以使执行步骤s101。
42.s102、基于所述预设格式对所述挂账信息进行解析,得到所述挂账数据的属性信息。
43.如前所述,预设格式用于规定挂账数据的属性信息的描述方式。因此,基于预设格式可从挂账信息中解析得到挂账数据的属性信息。本技术对于解析挂账信息的方法不做限定,在一种可能的示例中,所述挂账数据的属性信息包括所述挂账数据的标识信息和其他属性信息,步骤s102可以包括以下步骤:
44.基于所述预设格式对所述挂账信息进行划分,得到所述挂账数据的标识信息和其他属性对应的待转换数据;基于所述标识信息确定所述挂账数据的目标数据类型;基于所述挂账数据的目标数据类型对所述待转换数据进行格式转换,得到所述其他属性信息。
45.如前所述,其他属性是指挂账数据的标识之外的属性,其他属性信息是指挂账数据的标识信息之外的属性信息,预设格式可用于规定挂账数据的属性信息的描述方式。因此,在该示例中,可以对挂账信息进行划分,得到挂账数据的标识信息和其他属性对应的待转换数据。再基于挂账数据的标识信息确定挂账数据中的子数据的数据类型,从而可基于该数据类型将挂账信息中的待转换数据中进行格式转换,得到原始格式的子数据,以得到其他属性信息。如此,能够避免遗漏数据,可提高数据解析的效率和准确率。
46.s103、基于所述挂账数据的属性信息,获取所述挂账数据的场景信息和与所述挂账数据关联的关联数据的属性信息。
47.在本技术实施例中,挂账数据的场景信息用于描述挂账数据的场景特征,可以包括挂账数据的业务类型、数据类型和与挂账数据关联的关联数据的业务类型、数据类型等。
关联数据可以包括挂账数据的对账过程中涉及的数据,或者可以包括与挂账数据具有交互的数据,例如,上游数据或下游数据等。关联数据的属性信息可参照挂账数据的属性信息的描述,在此不再赘述。
48.本技术对于挂账数据的场景信息和关联数据的属性信息不做限定,在一种可能的示例中,步骤s103可以包括以下步骤:
49.从所述挂账数据的属性信息中,提取所述挂账数据的业务类型和目标数据类型;基于所述挂账数据的业务类型和目标数据类型,获取所述挂账数据的场景信息和与所述挂账数据关联的关联数据类型;基于所述挂账数据的属性信息和所述关联数据类型,查找与所述挂账数据关联的关联数据的属性信息。
50.其中,业务类型、数据类型和场景信息可参照前述,在此不再赘述。可以理解,在该示例中,基于挂账数据的业务类型和数据类型获取挂账数据的场景信息和与挂账数据关联的关联数据类型。其中,挂账数据的业务类型和数据类型是从挂账数据的属性信息中提取得到的,有利于提高获取场景信息和关联数据类型的准确率。然后基于挂账数据的属性信息和与挂账数据关联的关联数据类型,查找与挂账数据关联的关联数据的属性信息。如此,可以提高查找关联数据的属性信息的准确率。
51.在一种可能的示例中,基于所述挂账数据的业务类型和目标数据类型,获取所述挂账数据的场景信息和与所述挂账数据关联的关联数据类型,可以包括以下步骤:
52.获取与所述挂账数据的业务类型对应的知识图谱;从所述知识图谱中,查找所述挂账数据的目标数据类型对应的第一数据节点,以及与所述第一数据节点连接的第二数据节点;获取所述第二数据节点对应的参考数据类型的数据特征和所述挂账数据的数据特征;获取所述挂账数据的业务类型的场景特征;基于所述参考数据类型的数据特征和所述挂账数据的数据特征,从所述参考数据类型中选取与所述挂账数据关联的关联数据类型。
53.在本技术实施例中,将挂账数据的业务类型对应的知识图谱中与挂账数据的目标数据类型对应的数据节点称为第一数据节点。第二数据节点是该知识图谱中与第一数据节点具有连接关系的数据节点。参考数据类型是该第二数据节点的数据类型。
54.业务类型对应的知识图谱用于描述业务类型对应的数据之间的关联关系。也就是说,在第二数据节点与第一数据节点具有存在连接线的情况下,可以确定第一数据节点对应的数据和第二数据节点对应的数据之间存在关联关系。且第一数据节点和第二数据节点之间的连接线上可以包括第一数据节点对应的数据和第二数据节点对应的数据之间的运算表达式。知识图谱中的数据节点对应至少一个数据。
55.本技术对于获取挂账数据的业务类型对应的知识图谱的方法不做限定,可以预先存储不同业务类型对应的知识图谱,再查找挂账数据的业务类型对应的知识图谱。或者可以从预先存储各个业务领域对应的知识图谱中查找业务类型所属于的业务领域对应的知识图谱,再从该知识图谱中选取业务类型对应的分支,以得到挂账数据的业务类型对应的知识图谱等。
56.在本技术实施例中,数据特征可以包括数值的大小或范围或变化趋势等数值信息,还可以包括数据的获取时间和生效时间等时间信息,或者还可以包括用户标识、数据处理的权限、安全性等场景信息,或者还可以包括数据和其他数据之间的关联关系或运算表达式等,在此不做限定。场景特征可以包括挂账数据的发生时间、相关人物、发生地点、发生
环境等,或者可以包括挂账数据对应的业务流程所对应的人物、时间、地点等,在此也不做限定。
57.需要说明的是,获取参考数据类型的数据特征和挂账数据的数据特征的步骤可以在获取挂账数据的业务类型的场景特征的步骤之前执行,或者可以在获取挂账数据的业务类型的场景特征的之后执行,或者可以与获取挂账数据的业务类型的场景特征的同时执行。
58.本技术对于获取数据特征和场景特征的方法不做限定,可以基于预先存储的数据特征和场景特征进行获取。或者可以对参考数据类型对应的多个数据进行分析得到参考数据类型的数据特征,可以对挂账数据和挂账信息中的其他属性信息进行分析得到挂账数据的数据特征,可以对与挂账数据对应的业务类型对应的挂账信息进行分析得到该业务类型的场景特征。或者可以基于分析指令反馈信息获取指令,以使发送分析指令的用户或相关人员上传场景特征和数据特征等。
59.可以理解,在该示例中,先从与挂账数据的业务类型对应的知识图谱中查找挂账数据的目标数据类型对应的第一数据节点,以及与第一数据节点连接的第二数据节点。再基于第二数据节点对应的参考数据类型的数据特征和挂账数据的数据特征,从参考数据类型中选取与挂账数据关联的关联数据类型。然后基于与挂账数据关联的关联数据类型的数据特征和挂账数据的数据特征,从业务类型的场景特征中选取挂账数据的场景信息。如此,基于知识图谱、数据特征和场景特征获取与挂账数据关联的关联数据类型和挂账数据的场景信息,可提高获取数据类型和场景信息的准确率,有利于提高分析挂账数据的准确率。
60.本技术对于选取关联数据类型的方法不做限定,可以先获取挂账数据的数据特征和参考数据类型的数据特征之间的匹配值。再选取匹配值大于阈值a对应的参考数据类型,将该参考数据类型作为与挂账数据关联的关联数据类型。或者可以先基于挂账数据的数据特征确定与挂账数据关联的数据特征。再获取参考数据类型的数据特征与挂账数据关联的数据特征之间的匹配值,从而选取匹配值大于阈值b对应的参考数据类型,将该参考数据类型作为与挂账数据关联的关联数据类型。上述的阈值a和阈值b可以相等或不等,在此不做限定。
61.在一种可能的示例中,基于所述参考数据类型的数据特征和所述挂账数据的数据特征,从所述参考数据类型中选取与所述挂账数据关联的关联数据类型,可以包括以下步骤:
62.对所述关联数据类型的数据特征和所述挂账数据的数据特征进行特征融合,得到目标数据特征;从所述业务类型的场景特征中,获取与所述目标数据特征对应的目标场景特征,作为所述挂账数据的场景信息。
63.其中,目标数据特征为挂账数据的数据特征和与挂账数据关联的关联数据类型的数据特征之间的融合特征。可以对与挂账数据关联的关联数据类型的数据特征进行归类,以使每一类数据特征与挂账数据的数据特征相关;再对每一类数据特征进行去重处理,得到目标数据特征。目标场景特征为业务类型的场景特征中与目标数据特征对应的场景特征,可以基于各类场景特征和数据特征之间的关系进行确定。
64.可以理解,在该示例中,从业务类型的场景特征中,选取挂账数据的数据特征和与挂账数据关联的关联数据类型的数据特征之间的融合数据特征对应的目标场景特征,作为
挂账数据的场景信息。如此,可以提高获取场景信息的准确率。
65.s104、获取所述场景信息对应的目标随机森林模型。
66.在本技术实施例中,目标随机森林模型与场景信息对应,可提高分析挂账原因的效率和准确率。本技术对于获取目标随机森林模型的方法不做限定,在一种可能的示例中,步骤s104可以包括以下步骤:
67.从预设随机森林模型中获取所述场景信息对应的至少两个第三数据节点;基于所述第三数据节点之间的关联关系构建所述场景信息对应的目标随机森林模型。
68.其中,预设随机森林模型是针对所有业务的随机森林模型,可以包括所有业务中发生挂账的挂账原因和产生挂账原因的相关信息。在预设随机森林模型中的最后一层的子节点,称为决策树叶子节点,用于输出挂账数据的挂账原因。第三数据节点可以为预设随机森林模型中与场景信息对应的数据节点。
69.预设随机森林模型的结构如图2所示,可以包括私募业务子模型、保险业务子模型和拍卖业务子模型等。若挂账数据的业务类型为保险业务,则可以确定目标随机森林模型的首节点为保险业务子模型对应的节点,该首节点的子节点包括资金侧挂账节点和交易侧挂账节点。资金侧挂账节点包括金额不对节点和交易侧缺失节点。交易侧缺失节点包括交易侧数据状态错误节点和交易侧账务问题节点。如此,在确定挂账数据的业务类型为保险业务之后,先确定是资金侧挂账,还是交易侧挂账。若为资金侧挂账,再识别是金额不对,还是交易侧缺失。若为交易侧缺失,再识别是交易侧数据状态错误,还是交易侧账务问题,以此基于图2识别挂账数据的挂账原因。
70.本技术对于第三数据节点之间的关联关系构建目标随机森林模型的方法不做限定,可以基于预设随机森林模型确定同一层级的节点中是否包括均为第三数据节点。若均为第三数据节点,可以保留该层级的节点。否则,若存在未包括的第三数据节点,可以将该层级中未包括的第三数据节点进行删除,并重新分配该层级中第三数据节点的权重。本技术对第三数据节点的权重不做限定,可以基于该层级中第三数据节点的数量,以及预设随机森林模型中预先分配的权重进行确定等。
71.可以理解,在该示例中,基于预设随机森林模型中与场景信息对应的第三数据节点之间的关联关系,构建场景信息对应的目标随机森林模型。如此,可以提高目标随机森林模型识别挂账数据的挂账原因的准确率。
72.s105、将所述挂账数据的属性信息和所述关联数据的属性信息输入至所述目标随机森林模型,得到所述挂账数据的挂账原因。
73.在本技术实施例中,挂账原因是指挂账数据存在的原因,可以包括数据状态错误、数据缺失和账务问题等,在此不做限定。该挂账原因可以包括各个随机森林模型的决策子节点输出的概率,或者可以包括最大概率对应的决策子节点对应的挂账原因。可以理解,将挂账数据的属性信息和关联数据输入至目标随机森林模型,可提高分析挂账原因的准确率。
74.在一种可能的示例中,步骤s105可以包括以下步骤:
75.基于与所述挂账数据的业务类型对应的知识图谱,获取所述目标数据类型和所述关联数据类型之间的运算表达式;基于所述运算表达式,计算所述目标随机森林模型中每一决策树叶子节点的概率值;将所述概率值中的最大值对应的决策树叶子节点对应的内
容,作为所述挂账数据的挂账原因。
76.其中,知识图谱可参照前述,在此不再赘述。应理解,挂账数据与关联数据关联,则挂账数据对应的数据节点和关联数据对应的之间具有连接线。因此,可以基于挂账数据的业务类型对应的知识图谱,查找挂账数据对应的目标数据类型和关联数据对应的关联数据类型之间的连接线,并获取该目标数据类型和关联数据类型之间的关联信息,从而获取该目标数据类型和关联数据类型之间的运算表达式。
77.目标随机森林模型中每一决策树叶子节点的概率值用于表示该决策树叶子节点对应的内容为挂账数据的挂账原因的可能性。可以基于该运算表达式和目标随机森林模型中每一分支的权重进行计算,得到该分支的最后一层的子节点的数值,即得到目标随机森林模型中每一决策树叶子节点的概率值。
78.可以理解,在该示例中,基于与挂账数据的业务类型对应的知识图谱,获取目标数据类型和关联数据类型之间的运算表达式。再基于该运算表达式计算目标随机森林模型中每一决策树叶子节点的概率值,并将概率值中的最大值对应的决策树叶子节点对应的内容,作为挂账数据的挂账原因。如此,基于知识图谱中挂账数据对应的运算表达式计算每一挂账原因的概率,可以提高确定挂账原因的准确率。
79.在一种可能的示例中,在步骤s105之后,基于所述挂账原因调整对账系统。可以理解,若挂账原因为对账系统中有缺陷或遗漏,则可以调整对账系统,以完善对账系统,有利于提高数据对账的准确率。
80.在图1所示的方法中,若接收到挂账数据的分析指令,则基于预设格式对分析指令中的挂账信息进行解析,得到挂账数据的属性信息。再基于挂账数据的属性信息获取挂账数据的场景信息和与挂账数据关联的关联数据的属性信息。然后将挂账数据的属性信息和关联数据的属性信息输入至场景信息对应的目标随机森林模型,得到挂账数据的挂账原因。如此,能够基于挂账数据的场景信息和与挂账数据关联的关联数据的属性信息识别出挂账原因,提高了挂账原因的识别率和准确率。
81.上述详细阐述了本技术实施例的方法,下面提供了本技术实施例的装置。
82.与图1所示的实施例一致,请参照图3,图3是本技术提出的一种基于随机森林的数据分析装置的结构示意图。如图3所示,上述基于随机森林的数据分析装置300包括:
83.接收单元301用于接收挂账数据的分析指令,其中,所述分析指令包括挂账信息,所述挂账信息由所述挂账数据的属性信息按照预设格式生成;
84.解析单元302用于基于所述预设格式对所述挂账信息进行解析,得到所述挂账数据的属性信息;
85.获取单元303用于基于所述挂账数据的属性信息,获取所述挂账数据的场景信息和与所述挂账数据关联的关联数据的属性信息;获取所述场景信息对应的目标随机森林模型;
86.识别单元304用于将所述挂账数据的属性信息和所述关联数据的属性信息输入至所述目标随机森林模型,得到所述挂账数据的挂账原因。
87.在一种可能的示例中,所述获取单元303具体用于从所述挂账数据的属性信息中,提取所述挂账数据的业务类型和目标数据类型;基于所述挂账数据的业务类型和目标数据类型,获取所述挂账数据的场景信息和与所述挂账数据关联的关联数据类型;基于所述挂
账数据的属性信息和所述关联数据类型,查找与所述挂账数据关联的关联数据的属性信息。
88.在一种可能的示例中,所述获取单元303具体用于获取与所述挂账数据的业务类型对应的知识图谱;从所述知识图谱中,查找所述挂账数据的目标数据类型对应的第一数据节点,以及与所述第一数据节点连接的第二数据节点;获取所述第二数据节点对应的参考数据类型的数据特征和所述挂账数据的数据特征;获取所述挂账数据的业务类型的场景特征;基于所述参考数据类型的数据特征和所述挂账数据的数据特征,从所述参考数据类型中选取与所述挂账数据关联的关联数据类型;基于所述关联数据类型的数据特征和所述挂账数据的数据特征,从所述业务类型的场景特征中选取所述挂账数据的场景信息。
89.在一种可能的示例中,所述获取单元303具体用于对所述关联数据类型的数据特征和所述挂账数据的数据特征进行特征融合,得到目标数据特征;从所述业务类型的场景特征中,获取与所述目标数据特征对应的目标场景特征,作为所述挂账数据的场景信息。
90.在一种可能的示例中,所述获取单元303具体用于基于所述知识图谱,获取所述目标数据类型和所述关联数据类型之间的运算表达式;基于所述运算表达式,计算所述目标随机森林模型中每一决策树叶子节点的概率值;将所述概率值中的最大值对应的决策树叶子节点对应的内容,作为所述挂账数据的挂账原因。
91.在一种可能的示例中,所述获取单元303具体用于从预设随机森林模型中获取所述场景信息对应的至少两个第三数据节点;基于所述第三数据节点之间的关联关系构建所述场景信息对应的目标随机森林模型。
92.在一种可能的示例中,所述挂账数据的属性信息包括所述挂账数据的标识信息和其他属性信息,所述解析单元302具体用于基于所述预设格式对所述挂账信息进行划分,得到所述挂账数据的标识信息和其他属性对应的待转换数据;基于所述挂账数据的标识信息确定所述挂账数据的目标数据类型;基于所述挂账数据的目标数据类型对所述待转换数据进行格式转换,得到所述其他属性信息。
93.该基于随机森林的数据分析装置300中各个单元执行详细过程可以参见前述方法实施例中的执行步骤,此处不在赘述。
94.与图1的实施例一致,请参照图4,图4是本技术实施例提供的一种计算机设备的结构示意图。如图4所示,该计算机设备400包括处理器410、存储器420和通信接口430。处理器410、存储器420和通信接口430之间通过总线450互相连接。图3所示的接收单元301所实现的相关功能可通过通信接口430来实现,图3所示的解析单元302、获取单元303和识别单元304所实现的相关功能可通过处理器410来实现。
95.上述存储器420中存储有计算机程序440,计算机程序440被配置由上述处理器410执行,上述计算机程序440包括用于执行以下步骤的指令:
96.接收挂账数据的分析指令,其中,所述分析指令包括挂账信息,所述挂账信息由所述挂账数据的属性信息按照预设格式生成;
97.基于所述预设格式对所述挂账信息进行解析,得到所述挂账数据的属性信息;
98.基于所述挂账数据的属性信息,获取所述挂账数据的场景信息和与所述挂账数据关联的关联数据的属性信息;
99.获取所述场景信息对应的目标随机森林模型;
100.将所述挂账数据的属性信息和所述关联数据的属性信息输入至所述目标随机森林模型,得到所述挂账数据的挂账原因。
101.在一个可能的示例中,在所述基于所述挂账数据的属性信息,获取所述挂账数据的场景信息和与所述挂账数据关联的关联数据的属性信息方面,所述计算机程序440具体包括用于执行以下步骤的指令:
102.从所述挂账数据的属性信息中,提取所述挂账数据的业务类型和目标数据类型;
103.基于所述挂账数据的业务类型和目标数据类型,获取所述挂账数据的场景信息和与所述挂账数据关联的关联数据类型;
104.基于所述挂账数据的属性信息和所述关联数据类型,查找与所述挂账数据关联的关联数据的属性信息。
105.在一个可能的示例中,在所述基于所述挂账数据的业务类型和目标数据类型,获取所述挂账数据的场景信息和与所述挂账数据关联的关联数据类型方面,所述计算机程序440具体包括用于执行以下步骤的指令:
106.获取与所述挂账数据的业务类型对应的知识图谱;
107.从所述知识图谱中,查找所述挂账数据的目标数据类型对应的第一数据节点,以及与所述第一数据节点连接的第二数据节点;
108.获取所述第二数据节点对应的参考数据类型的数据特征和所述挂账数据的数据特征;
109.获取所述挂账数据的业务类型的场景特征;
110.基于所述参考数据类型的数据特征和所述挂账数据的数据特征,从所述参考数据类型中选取与所述挂账数据关联的关联数据类型;
111.基于所述关联数据类型的数据特征和所述挂账数据的数据特征,从所述业务类型的场景特征中选取所述挂账数据的场景信息。
112.在一个可能的示例中,在所述基于所述关联数据类型的数据特征和所述挂账数据的数据特征,从所述业务类型的场景特征中选取所述挂账数据的场景信息方面,所述计算机程序440具体包括用于执行以下步骤的指令:
113.对所述关联数据类型的数据特征和所述挂账数据的数据特征进行特征融合,得到目标数据特征;
114.从所述业务类型的场景特征中,获取与所述目标数据特征对应的目标场景特征,作为所述挂账数据的场景信息。
115.在一个可能的示例中,在所述将所述挂账数据的属性信息和所述关联数据的属性信息输入至所述目标随机森林模型,得到所述挂账数据的挂账原因方面,所述计算机程序440具体包括用于执行以下步骤的指令:
116.基于所述知识图谱,获取所述目标数据类型和所述关联数据类型之间的运算表达式;
117.基于所述运算表达式,计算所述目标随机森林模型中每一决策树叶子节点的概率值;
118.将所述概率值中的最大值对应的决策树叶子节点对应的内容,作为所述挂账数据的挂账原因。
119.在一个可能的示例中,在所述获取所述场景信息对应的目标随机森林模型方面,所述计算机程序440具体包括用于执行以下步骤的指令:
120.从预设随机森林模型中,获取所述场景信息对应的至少两个第三数据节点;
121.基于所述第三数据节点之间的关联关系,构建所述场景信息对应的目标随机森林模型。
122.在一个可能的示例中,所述挂账数据的属性信息包括所述挂账数据的标识信息和其他属性信息,在所述基于所述预设格式对所述挂账信息进行解析,得到所述挂账数据的属性信息方面,所述计算机程序440具体包括用于执行以下步骤的指令:
123.基于所述预设格式对所述挂账信息进行划分,得到所述挂账数据的标识信息和其他属性对应的待转换数据;
124.基于所述挂账数据的标识信息确定所述挂账数据的目标数据类型;
125.基于所述挂账数据的目标数据类型对所述待转换数据进行格式转换,得到所述其他属性信息。
126.本技术实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于存储计算机程序,该计算机程序使得计算机执行以实现方法实施例中记载的任一方法的部分或全部步骤,计算机包括电子设备和服务器。
127.本技术实施例还提供一种计算机程序产品,计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,计算机程序可操作来使计算机执行以实现方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,计算机包括电子设备和服务器。
128.在上述实施例中,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。例如,区块链中可存储预设格式、预设随机森林模型、业务类型对应的知识图谱和场景特征、挂账数据的数据特征等,在此不做限定。
129.本技术实施例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
130.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模式并不一定是本技术所必须的。
131.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
132.在本技术所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如至少一个单元或组件可以结合或者可
以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
133.作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到至少一个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
134.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模式的形式实现。
135.集成的单元如果以软件程序模式的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。根据这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的存储器包括:u盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
136.以上对本技术实施例进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本技术的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献