一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据合作的方法、装置、电子设备及存储介质与流程

2022-11-14 01:42:28 来源:中国专利 TAG:


1.本技术涉及联邦学习技术领域,特别涉及一种数据合作的方法、装置、电子设备及存储介质。


背景技术:

2.企业数字化转型中存在大多业务数据,数据片面、数据单一的问题。不同系统、不同组织、不同行业之间的数据共享开放程度较低,数据流转不畅,存在“数据孤岛”问题。随着数据价值日益提升,存在黑客攻击、数据违规交易等风险问题。随着国家对数据管控力度加强,存在数据融合安全及合规的困境问题。
3.目前,一些相关技术通过数据提供方发送给数据接收方的为对多条原始数据进行哈希处理后得到的哈希值的文件,数据接收方不可能根据哈希值反推出原始数据,以保证数据提供方数据的安全。
4.然而,相关技术存在盐池泄露风险,有可能导致数据被破解的结果。此外,相关技术采用开源底层架构、计算性能弱,不支持互联互通能力、非结构化数据计算、及图计算。支持的算法类型少,不支持分布式计算,对于促进数据合作,挖掘数据价值存在诸多不便,亟待解决。


技术实现要素:

5.本技术提供一种数据合作的方法、装置、电子设备及存储介质,以解决相关技术采用开源底层架构、计算性能弱,不支持互联互通能力,且支持的算法类型少,不支持分布式计算,难以有效挖掘数据潜在价值等问题。
6.本技术第一方面实施例提供一种数据合作的方法,包括以下步骤:基于预设的加密用户样本对齐方式确认双方的共有用户群体;根据所述共有用户群体获取训练数据;以及根据所述训练数据训练机器学习模型,生成最终模型。
7.可选地,在本技术的一个实施例中,所述根据所述共有用户群体的数据训练机器学习模型,生成合作训练模型,包括:基于对方的公钥加密交换数据;根据双方的交换数据控制所述双方进行本地训练,生成所述双方的中间结果;基于所述双方的中间结果获取加密的梯度值,计算最新梯度;利用所述最新梯度更新所述双方的模型参数,直至达到预设收敛条件,得到所述双方各自的最终模型。
8.可选地,在本技术的一个实施例中,所述计算最新梯度,包括:在所述双方中的一方计算最新梯度时,根据所述一方的标签数据计算当前损失;根据所述当前损失计算总梯度。
9.可选地,在本技术的一个实施例中,在确认所述双方的共有用户群体之前,还包括:检测所述双方的用户群体是否满足预设非完全重合条件;如果所述双方的用户群体满足所述预设非完全重合条件,则从所述双方的业务系统中提取各自用户的相关数据。
10.可选地,在本技术的一个实施例中,所述预设的加密用户样本对齐方式为rsa。
11.本技术第二方面实施例提供一种数据合作的装置,包括:确认模块,用于基于预设的加密用户样本对齐方式确认双方的共有用户群体;获取模块,用于根据所述共有用户群体获取训练数据;以及生成模块,用于根据所述训练数据训练机器学习模型,生成最终模型。
12.可选地,在本技术的一个实施例中,所述生成模块,包括:交换单元,用于基于对方的公钥加密交换数据;控制单元,用于根据双方的交换数据控制所述双方进行本地训练,生成所述双方的中间结果;计算单元,用于基于所述双方的中间结果获取加密的梯度值,计算最新梯度;更新单元,用于利用所述最新梯度更新所述双方的模型参数,直至达到预设收敛条件,得到所述双方各自的最终模型。
13.可选地,在本技术的一个实施例中,所述计算单元,包括:损失计算单元,用于在所述双方中的一方计算最新梯度时,根据所述一方的标签数据计算当前损失;总体度计算单元,用于根据所述当前损失计算总梯度。
14.可选地,在本技术的一个实施例中,还包括:检测模块,用于检测所述双方的用户群体是否满足预设非完全重合条件;提取模块,用于当所述双方的用户群体满足所述预设非完全重合条件时,从所述双方的业务系统中提取各自用户的相关数据。
15.可选地,在本技术的一个实施例中,所述预设的加密用户样本对齐方式为rsa。
16.本技术第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的数据合作的方法。
17.本技术第四方面实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,该程序被处理器执行时实现如上的数据合作的方法。
18.由此,本技术的实施例具有以下有益效果:
19.本技术实施例基于预设的加密用户样本对齐方式确认双方的共有用户群体;根据共有用户群体获取训练数据;以及根据训练数据训练机器学习模型,生成最终模型,从而使模型具备互联互通能力,支持分布式计算,保护了数据的安全,改善了计算性能,极大的促进了数据合作,对挖掘数据潜在价值具有重要意义。由此,解决了相关技术采用开源底层架构、计算性能弱,不支持互联互通能力,且支持的算法类型少,不支持分布式计算,难以有效挖掘数据潜在价值等问题。
20.本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。
附图说明
21.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
22.图1为根据本技术实施例提供的一种数据合作的方法的流程图;
23.图2为根据本技术的一个实施例提供的一种数据合作执行逻辑示意图;
24.图3为根据本技术的一个实施例提供的一种数据合作过程执行逻辑示意图;
25.图4为根据本技术实施例的数据合作的装置示例图;
26.图5为申请实施例提供的电子设备的结构示意图。
27.附图标记说明:确认模块-100、获取模块-200、生成模块-300;存储器-501、处理器-502、通信接口-503。
具体实施方式
28.下面详细描述本技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本技术,而不能理解为对本技术的限制。
29.下面参考附图描述本技术实施例的数据合作的方法、装置、电子设备及存储介质。针对上述背景技术中提到的问题,本技术提供了一种数据合作的方法,在该方法中,基于预设的加密用户样本对齐方式确认双方的共有用户群体;根据共有用户群体获取训练数据;以及根据训练数据训练机器学习模型,生成最终模型,从而使模型具备互联互通能力,支持分布式计算,保护了数据的安全,改善了计算性能,极大的促进了数据合作,对挖掘数据潜在价值具有重要意义。由此,解决了相关技术采用开源底层架构、计算性能弱,不支持互联互通能力,且支持的算法类型少,不支持分布式计算,难以有效挖掘数据潜在价值等问题。
30.具体而言,图1为本技术实施例所提供的一种数据合作的方法的流程图。
31.如图1所示,该数据合作的方法包括以下步骤:
32.在步骤s101中,基于预设的加密用户样本对齐方式确认双方的共有用户群体。
33.可以理解的是,不同企业间的数据缺乏关联性,数据库彼此无法兼容,且从数据隐私和安全角度出发,不同企业之间无法直接进行数据交换。因此,在本技术的实施例中,不同行业、不同系统、不同组织的企业可以通过彼此业务系统分别拥有的用户相关数据,通过加密用户样本对齐方式确认双方的共有用户群体,以联合训练一个机器学习模型,从而有效解决了企业数据片面、单一的问题,提高了数据共享的开放程度,保护了企业和用户的数据安全,促进了企业数字化转型。
34.可选地,在本技术的一个实施例中,在确认双方的共有用户群体之前,还包括:检测双方的用户群体是否满足预设非完全重合条件;如果双方的用户群体满足预设非完全重合条件,则从双方的业务系统中提取各自用户的相关数据。
35.需要说明的是,在确认双方的共有用户群体之前,还需检测双方的用户群体是否满足系统预设非完全重合条件,该条件可以根据参与各方数据源分布的情况进行设定。例如,当某商场与电商企业进行上述数据合作时,可以根据两公司数据集之间的用户以及用户特征(如月购物金额、购买商品类型以及月消费次数等)的重叠程度,并结合重叠阈值,以判断是否满足非完全重合条件。如,当重叠阈值设置为0.9时,若大于该阈值,则认为数据重复率过高,无需进行数据合作;若小于等于该阈值时,则可进行数据合作,从而提高了数据合作的效率,避免了数据重复度过高造成的计算资源的浪费。
36.可选地,在本技术的一个实施例中,预设的加密用户样本对齐方式为rsa。
37.具体地,当多个数据拥有方联合进行数据合作时,其业务系统分别拥有各自用户的相关数据,然而,为了保护各方的数据隐私和安全,数据拥有方之间不能够直接进行数据交换和共享。故而,本技术的实施例利用rsa对称加密算法进行用户样本对齐操作,如图2所示,从而在数据拥有方不公开各自数据的前提下确认双方的共有用户,并且不暴露不互相重叠的用户,以便联合这些用户的特征进行建模。
38.从而,进一步保障了用户以及数据拥有方的数据隐私安全,使得在数据合作过程中,保证数据融合安全合规。
39.在步骤s102中,根据共有用户群体获取训练数据。
40.在基于加密用户样本对齐方式确认双方的共有用户群体后,本技术的实施例可以根据共有用户群体获取训练数据,并对所获取的数据进行预处理。
41.举例而言,某地的银行与同一个地方的电商进行数据合作。它们的用户群体很有可能包含该地的大部分居民,因此用户的交集较大。但是,由于银行记录的都是用户的收支行为与信用评级,而电商则保有用户的浏览与购买历史,因此它们的用户特征交集较小。因此,本技术的实施例可以将数据集按照特征维度切分,并取出双方用户相同而用户特征不完全相同的那部分数据作为训练数据,并对其进行预处理操作,如统一量纲,或当数据中存在异常值或空值时,可利用该特征值的均值或方差等进行空值或异常值的填充,或者根据数据的方差值等设置合适的阈值,从而过滤含有异常值且方差值过大的特征,以降低数据的相关性,保证数据的质量。
42.在步骤s103中,根据训练数据训练机器学习模型,生成最终模型。
43.在确定共有用户群体后,进一步地,本技术的实施例可以利用上述获取的训练数据,结合数据拥有方数据集间互相不重叠的用户及用户特征,构建机器学习模型,从而提升了模型的计算性能,促进了数据合作,有利于深入挖掘数据的潜在价值。
44.可选地,在本技术的一个实施例中,根据共有用户群体的数据训练机器学习模型,生成合作训练模型,包括:基于对方的公钥加密交换数据;根据双方的交换数据控制双方进行本地训练,生成双方的中间结果;基于双方的中间结果获取加密的梯度值,计算最新梯度;利用最新梯度更新双方的模型参数,直至达到预设收敛条件,得到双方各自的最终模型。
45.具体地,下述以包含两个数据拥有方(即企业a和b)的场景为例,对模型的系统构架进行介绍,如图3所示,该构架可扩展至包含多个数据拥有方的场景。
46.假设企业a和b想联合训练一个机器学习模型,以线性回归模型为例,训练过程可分为以下5步:
47.第1步:a和b把各自公钥分发给对方,用以对训练过程中需要交换的数据进行加密。其中,在本技术的实施例中,上述加密过程支持基于知识图谱的多方安全图计算,且支持图片、人脸等非结构化数据加密计算,加密支持sm2、sm3以及sm4等国密算法;
48.第2步:a和b分别进行本地的训练,产生不含敏感信息的中间结果;
49.第3步:a和b之间以加密形式交互用于计算梯度的中间结果。本技术的实施例可通过psi(private-set intersection,隐私集合求交)、匿踪查询等方法计算双方共同客户,避免暴露对方没有的客户id(identity document,身份证标识号),并利用mpc(securemulti-partycomputation,多方安全计算)方法,进一步保障数据安全;
50.第4步:a和b分别基于加密的梯度值进行计算,b根据其标签数据计算损失,汇总计算总梯度;
51.第5步:a和b根据新计算的梯度更新各自模型的参数。
52.由此,迭代上述步骤直至损失函数收敛,双方在联邦学习的帮助下得以实现合作训练模型。在样本对齐及模型训练过程中,数据拥有方各自的数据均保留在本地,所以,训
练中的数据交互不会导致数据隐私泄露,有效保障了数据合作过程中数据隐私的安全,改善了计算性能,增强了模型互联互通的能力,极大的促进了不同行业间数据拥有方的数据合作,有利于深入挖掘数据的潜在价值。
53.可选地,在本技术的一个实施例中,计算最新梯度,包括:在双方中的一方计算最新梯度时,根据一方的标签数据计算当前损失;根据当前损失计算总梯度。
54.需要说明的是,上述计算最新梯度过程中,主要包括以下两个步骤:
55.(1)在双方中的一方计算最新梯度时,根据一方的标签数据计算当前损失;
56.(2)根据当前损失计算总梯度。
57.从而在数据加密安全的情况下,使得数据拥有方之间交互用于计算梯度的中间结果,如当前损失等,并进一步汇总计算总梯度,有效改善了模型训练的准确性。
58.根据本技术实施例提出的数据合作的方法,本技术的实施例基于预设的加密用户样本对齐方式确认双方的共有用户群体;根据共有用户群体获取训练数据;以及根据训练数据训练机器学习模型,生成最终模型,从而使模型具备互联互通能力,支持分布式计算,保护了数据的安全,改善了计算性能,极大的促进了数据合作,对挖掘数据潜在价值具有重要意义。
59.其次参照附图描述根据本技术实施例提出的数据合作的装置。
60.图4是本技术实施例的数据合作的装置的方框示意图。
61.如图4所示,该数据合作的装置10包括:确认模块100、获取模块200以及生成模块300。
62.其中,确认模块100,用于基于预设的加密用户样本对齐方式确认双方的共有用户群体。获取模块200,用于根据共有用户群体获取训练数据。生成模块300,用于根据训练数据训练机器学习模型,生成最终模型。
63.可选地,在本技术的一个实施例中,生成模块包括:交换单元、控制单元、计算单元以及更新单元。
64.其中,交换单元,用于基于对方的公钥加密交换数据。
65.控制单元,用于根据双方的交换数据控制双方进行本地训练,生成双方的中间结果。
66.计算单元,用于基于双方的中间结果获取加密的梯度值,计算最新梯度。
67.更新单元,用于利用最新梯度更新双方的模型参数,直至达到预设收敛条件,得到双方各自的最终模型。
68.可选地,在本技术的一个实施例中,计算单元包括:损失计算单元和总体度计算单元。
69.其中,损失计算单元,用于在双方中的一方计算最新梯度时,根据一方的标签数据计算当前损失。
70.总体度计算单元,用于根据当前损失计算总梯度。
71.可选地,在本技术的一个实施例中,本技术实施例所提出的数据合作的装置10还包括:检测模块和提取模块。
72.检测模块,用于检测双方的用户群体是否满足预设非完全重合条件。
73.提取模块,用于当双方的用户群体满足预设非完全重合条件时,从双方的业务系
统中提取各自用户的相关数据。
74.可选地,在本技术的一个实施例中,预设的加密用户样本对齐方式为rsa。
75.需要说明的是,前述对数据合作的方法实施例的解释说明也适用于该实施例的数据合作的装置,此处不再赘述。
76.根据本技术实施例提出的数据合作的装置,首先,两个或两个以上的的参与方们在各自终端计算初始化的模型,由于参与方们拥有不同的数据,各方所训练的模型也拥有不同的模型参数,并且不具有全局收敛性。其次,各参与方加密联合计算梯度值、损失函数,并使用最新一轮中间值开始下一次的本地迭代,以上的程序会一直重复,直到整个训练过程的收敛,生成最终模型,从而使模型具备互联互通能力,支持分布式计算,保护了数据的安全,改善了计算性能,极大的促进了数据合作,对挖掘数据潜在价值具有重要意义。
77.图5为本技术实施例提供的电子设备的结构示意图。该电子设备可以包括:
78.存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机程序。
79.处理器502执行程序时实现上述实施例中提供的数据合作的方法。
80.进一步地,电子设备还包括:
81.通信接口503,用于存储器501和处理器502之间的通信。
82.存储器501,用于存放可在处理器502上运行的计算机程序。
83.存储器501可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
84.如果存储器501、处理器502和通信接口503独立实现,则通信接口503、存储器501和处理器502可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(industry standard architecture,简称为isa)总线、外部设备互连(peripheral component,简称为pci)总线或扩展工业标准体系结构(extended industry standard architecture,简称为eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
85.可选地,在具体实现上,如果存储器501、处理器502及通信接口503,集成在一块芯片上实现,则存储器501、处理器502及通信接口503可以通过内部接口完成相互间的通信。
86.处理器502可能是一个中央处理器(central processing unit,简称为cpu),或者是特定集成电路(application specific integrated circuit,简称为asic),或者是被配置成实施本技术实施例的一个或多个集成电路。
87.本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的数据合作的方法。
88.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或n个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
89.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中,“n个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
90.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或n个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本技术的实施例所属技术领域的技术人员所理解。
91.在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或n个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
92.应当理解,本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,n个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
93.本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
94.此外,在本技术各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
95.上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本技术的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本技术的限制,本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献