使用基于语义的数据链接增强隐私数据集的方法和系统与流程

2022-06-01 08:31:39 来源：中国专利 TAG：

1.本发明一般涉及数据隐私管理领域，尤其涉及用于数据隐私管理的数据聚合技术。

背景技术：

2.信息或数据隐私是数据的收集和传播之间的关系、技术、隐私的公共期望以及围绕它们的法律和政治问题。数据隐私的重大挑战在于，它在试图保护个人的隐私偏好和个人可识别信息时依赖于数据。计算机安全、数据安全和信息安全领域都设计和使用软件、硬件和人力资源来解决数据隐私。
3.自然语言处理(有时被缩写为nlp)被认为是语言学、计算机科学和与计算机和人类语言之间的交互有关的人工智能的一个领域。尤其是如何对计算机编程以处理和分析大量的自然语言数据。
4.语义相似性是被应用于术语或文档集的度量，其中各项之间的距离是基于它们的语义内容或含义的相似性而不是词典上的相似性。这些是用于通过数字描述来近似语言单元、概念或实例之间的语义关系的强度的数学工具，而数字描述是通过比较支持它们的含义或描述它们的性质的信息而获得的。在高度一般性下，语义相似性、语义距离和语义相关性通常意味着“术语x与术语y的关系如何？”这个问题的回答通常被表示为范围在
ꢀ‑
1与1之间或在0与1之间的数值，其中1表示显著的相似度。

技术实现要素：

5.根据本发明的一个方面，一种方法、计算机程序产品和/或系统执行以下操作(不一定按照以下顺序)：(i)接收目标数据集，该目标数据集包括与多个实体相对应的多个子集，其中给定子集包括指示给定对应实体的至少一个属性的信息；(ii)对于给定子集，确定与给定实体的至少一个属性相对应的语义表示；以及(iii)使用目标数据集的所确定的语义表示作为初始参数来迭代地增强目标数据集，直到确定在所识别的辅助数据集中不存在给定实体的与从目标数据集中省略的属性相对应的语义表示，其包括：至少部分地基于目标数据集的所确定的语义表示，识别包括指示与给定实体相对应的属性的信息的辅助数据集，(b)确定在辅助数据集中存在的给定实体的属性的语义表示，(c)确定在所识别的辅助数据集中存在的给定实体的至少一个语义表示对应于从目标数据集中省略的属性，以及(d) 用所确定的与从目标数据集中省略的属性相对应的语义表示来增强目标数据集。
附图说明
6.图1是根据本发明的系统的第一实施例的框图；
7.图2是示出至少部分地由第一实施例系统执行的第一实施例方法的流程图；
8.图3是示出第一实施例系统的机器逻辑(例如，软件)部分的框图；
9.图4是由第一实施例系统生成的屏幕截图；以及
10.图5是根据本发明的第二实施例系统的框图。
具体实施方式
11.本发明的一些实施例针对用于跨越多个数据集链接关于个体实体的信息的技术。接收具有与实体的至少一个属性相对应的一些信息的目标数据集。对目标数据集执行语义处理以提取信息的语义表示和对应的属性，其用于在至少一个其他数据集中搜索在目标数据集中不存在的与实体的至少一个属性对应的附加信息，其用于用与实体对应的附加信息来增强目标数据集。这被迭代地重复，其中每个后续的迭代包括在先前迭代的搜索中找到的信息的语义表示，直到在用现在所增强的目标数据集的语义表示搜索多个数据集时没有找到关于实体的附加信息。在一些实施例中，所增强的目标数据集被用于确定实体的隐私风险。
12.该具体实施方式部分被分成以下子部分：(i)硬件和软件环境；(ii) 示例实施例；(iii)进一步的解释和/或实施例；和(iv)定义。
13.i.硬件和软件环境
14.本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括在其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的(一个或多个)计算机可读存储介质。
15.计算机可读存储介质(有时被称为机器可读存储设备)可以是可保持并存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或前述存储设备的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下：便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器 (eprom或闪存)、静态随机存取存储器(sram)、便携式光盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、诸如在上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码设备、以及上述设备的任何适当的组合。如本文所使用的计算机可读存储介质不应被解释为是暂时性信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤线缆的光脉冲)、或通过导线传输的电信号。
[0016]“存储设备”在此被定义为以使得计算机代码可被计算机处理器访问的方式被制造或适于存储计算机代码的任何事物。存储设备通常包括存储介质，其是在其中或在其上存储计算机代码的数据的材料。单个“存储设备”可以具有：(i)被间隔开或分布的多个离散部分(例如，分别位于六个膝上型计算机中的六个固态存储设备的组，其共同存储单个计算机程序)；和/或(ii)可以使用多个存储介质(例如，部分存储在计算机的非易失性存储设备的磁畴中并且部分存储在计算机的易失性存储器中的一组半导体开关中的一组计算机代码)。术语“存储介质”应当被解释为覆盖使用多种不同类型的存储介质的情况。
[0017]
本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络(例如互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的
计算机可读存储介质中。
[0018]
用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或者以一种或多种编程语言(包括面向对象的编程语言，例如smalltalk、c 等)和过程编程语言(例如“c”编程语言或类似的编程语言)的任意组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户的计算机上执行、部分在用户的计算机上执行、作为独立的软件包执行、部分在用户的计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种场景下，远程计算机可以通过任何类型的网络(包括局域网(lan)或广域网 (wan))连接到用户的计算机，或者可以连接到外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化，以便执行本发明的各方面。
[0019]
在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。
[0020]
这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，以使得经由计算机或其他可编程数据处理装置的处理器而执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作，已使得在其中存储有指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。
[0021]
计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以使一系列操作步骤将在计算机、其他可编程装置或其他设备上执行，以产生计算机实现的过程，以使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。
[0022]
附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上，流程图或框图中的每个框可以表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中，框中所注明的功能可不按图中所注明的次序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能。还将注意，框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。
[0023]
如图1所示，联网计算机系统100是用于本发明的各种实施例的硬件和软件环境的实施例。联网计算机系统100包括：语义数据链接子系统102 (在此有时被更简单地称为子系统102)；客户端子系统104、106、108、 110；以及通信网络114。语义数据链接子系统102包括：语义数据链接计算机200；通信单元202；处理器集204；输入/输出(i/o)接口集206；存储器208；永久性存储设备210；显示器212；(一个或多个)外部设备214；随机存取存储器(ram)
230；高速缓存232；以及程序300。
[0024]
子系统102可以是膝上型计算机、平板计算机、上网本计算机、个人计算机(pc)、台式计算机、个人数字助理(pda)、智能电话或任何其它类型的计算机(参见下面“定义”部分中“计算机”的定义)。程序300 是用于创建、管理和控制某些软件功能的机器可读指令和/或数据的集合，这些软件功能将在以下该具体实施方式部分的“示例实施例”小节中详细讨论。
[0025]
子系统102能够经由通信网络114与其它计算机子系统通信。网络114 可以是例如局域网(lan)、诸如互联网的广域网(wan)、或两者的组合，并且可以包括有线、无线或光纤连接。通常，网络114可以是支持服务器与客户端子系统之间的通信的连接和协议的任意组合。
[0026]
子系统102被示为具有许多双箭头的框图。这些双箭头(没有单独的附图标记)表示通信结构，其提供子系统102的各种组件之间的通信。该通信结构可以用被设计用于在处理器(诸如微处理器、通信和网络处理器等)、系统存储器、外围设备和计算机系统内的任何其它硬件组件之间传递数据和/或控制信息的任何架构来实现。例如，通信结构可以至少部分地用一个或多个总线来实现。
[0027]
存储器208和永久性存储设备210是计算机可读存储介质。通常，存储器208可以包括任何合适的易失性或非易失性计算机可读存储介质。还应注意，现在和/或在不久的将来：(i)(一个或多个)外部设备214可能能够为子系统102提供一些或全部存储器；和/或(ii)在子系统102外部的设备能够为子系统102提供存储器。存储器208和永久性存储设备210 两者：(i)以没有传输中的信号那么短暂的方式存储数据；以及(ii)将数据存储在有形介质(诸如磁畴或光域)上。在该实施例中，存储器208是易失性存储设备，而永久性存储设备210提供非易失性存储设备。永久性存储设备210所使用的介质也可以是可移除的。例如，可移除硬盘驱动器可被用于永久性存储设备210。其它示例包括光盘和磁盘、拇指驱动器和智能卡，它们被插入驱动器中以便转移到也是永久性存储设备210的一部分的另一个计算机可读存储介质上。
[0028]
通信单元202提供与在子系统102外部的其它数据处理系统或设备的通信。在这些示例中，通信单元202包括一个或多个网络接口卡。通信单元202可以通过使用物理和无线通信链路中的一种或两种来提供通信。本文所讨论的任何软件模块可以通过通信单元(诸如通信单元202)被下载到永久性存储设备(诸如永久性存储设备210)中。
[0029]
i/o接口集206允许与可以数据通信与服务器计算机200本地连接的其它设备输入和输出数据。例如，i/o接口集206提供到(一个或多个) 外部设备214的连接。(一个或多个)外部设备214通常包括诸如键盘、小键盘、触摸屏和/或一些其它合适的输入设备之类的设备。(一个或多个) 外部设备214还可以包括便携式计算机可读存储介质，诸如拇指驱动器、便携式光盘或磁盘、以及存储卡。用于实施本发明的实施例的软件和数据 (例如程序300)可以被存储在这种便携式计算机可读存储介质上。i/o接口集206还以数据通信与显示器212连接。显示器212是提供向用户显示数据的机制的显示设备，并且可以是例如计算机监视器或智能电话显示屏。
[0030]
在该实施例中，程序300被存储在永久性存储设备210中，以用于由处理器集204的一个或多个计算机处理器通常通过存储器208的一个或多个存储器访问和/或执行。本领域
技术人员将理解，程序300可以在其运行时期间和/或当其未运行时以更高度分布的方式被存储。程序300可包括机器可读且可执行的指令和/或实质数据(也就是说，被存储在数据库中的数据的类型)。在该特定实施例中，永久性存储设备210包括磁性硬盘驱动器。举一些可能的变型例，永久性存储设备210可以包括固态硬盘驱动器、半导体存储设备、只读存储器(rom)、可擦除可编程只读存储器 (eprom)、闪存、或能够存储程序指令或数字信息的任何其它计算机可读存储介质。
[0031]
本文所描述的程序是基于在本发明的特定实施例中实现它们的应用来标识的。然而，应当理解，这里的任何特定程序术语仅是为了方便而使用，因此，本发明不应当限于仅在由这样的术语标识和/或暗示的任何特定应用中使用。
[0032]
本文已经出于说明的目的呈现了对各种实施例的描述，但其并非旨在是穷尽性的或限于所公开的实施例。在不背离所描述的实施例的范围和精神的情况下，许多修改和变化对于本领域的普通技术人员将是显而易见的。选择本文所使用的术语以最好地解释实施例的原理、实际应用或对市场上存在的技术改进，或使本领域的其他普通技术人员能够理解本文所公开的实施例。
[0033]
ii.示例实施例
[0034]
如图1所示，联网计算机系统100是其中可以执行根据本发明的示例方法的环境。如图2所示，流程图250示出了根据本发明的示例方法。如图3所示，程序300执行或控制流程图250的至少一些方法操作的执行。现在将在以下段落的过程中广泛参考图1、图2和图3的框来讨论该方法和相关联的软件。
[0035]
处理在操作s255处开始，其中，目标数据集数据存储模块302接收目标数据集。在该简化实施例中，通过网络114从图1的客户端104接收的目标数据集包括与多个实体相对应的多个子集，其中，每个实体对应于人类个体。目标数据集还包括指示选择实体之一作为本发明的该实施例的后续操作的目标的信息。在该简化实施例中，目标数据集是公司前经理的列表，包括具有单一属性(前经理的姓名)的三个子集，包括以下：(i)
ꢀ“
乔治史密斯”；(ii)“鲍勃琼斯”；和(iii)“杰克布朗”。目标数据集进一步包括指示目标数据集是姓名列表的元数据和对子集(iii)作为目标实体的选择。本领域普通技术人员理解，，在该简化示例实施例中的目标数据集和子集的内容仅仅是示例，并根据本发明的实施例说明人类个体及其属性。在一些替代实施例中，省略了指示选择实体之一作为本发明的该实施例的后续操作的目标的信息，并且目标数据集的每个实体被依次分析。在一些替代实施例中，子集包括与相应的实体相对应的多个属性。
[0036]
处理进行到操作s260，其中，语义表示提取模块304从目标数据集中提取与实体的属性相对应的语义表示。在该简化实施例中，语义表示提取模块304使用在目标数据集中存在的元数据，从在目标数据集数据存储模块302中存储的目标数据集的子集(iii)中存在的“杰克布朗”提取语义表示“姓名＝杰克布朗”作为与被命名为“杰克布朗”的实体相对应的属性“姓名”。在一些替代实施例中，包含与多个实体相对应的标准化语义信息的外部数据集被用于辅助从目标数据集中提取语义表示。在一些替代实施例中，利用机器学习技术来训练用于从目标数据集中提取语义表示的机器学习模型，用于辅助从目标数据集中提取语义表示。
[0037]
处理进行到操作s265，其中，辅助数据集识别模块306使用目标数据集的所提取的
语义表示来识别辅助数据集，将所识别的辅助数据集存储在辅助数据集数据存储模块308中。在该简化实施例中，存在两个辅助数据集：(i)在图1的客户端106上的第一辅助数据集；以及(ii)在客户端 108上的第二辅助数据集。第一辅助数据集是公司前经理的姓名(第一辅助数据集的子集的第一属性)和指示它们在自公司建立以来公司经理的继任中的位置的编号(第一辅助数据集的子集的第二属性，有时被简称为“继任序号”)的另一列表，包括以下三个子集：(i)(a)乔治史密斯，(b) 第一任经理；(ii)(a)鲍勃琼斯，(b)第十六任经理；以及(iii)(a) 杰克布朗，(b)第三十二任经理。在该简化实施例中，第一辅助数据集另外包括将第一属性描述为对应于公司前经理的姓名并将第二属性描述为对应于继任序号的元数据。第二辅助数据集是列表子集，其包括与公司前经理的继任序号相对应的第一属性、与指示该经理任职多少年的数字相对应的第二属性、以及与其生日相对应的第三属性，包括以下三个子集：(i) (a)第1任经理，(b)8，和(c)1732年2月22日；(ii)(a)第16 任经理，(b)4，和(c)1809年2月12日；以及(iii)(a)第32任经理，(b)12，和(c)1882年1月30日。在该简化实施例中，第二辅助数据集另外包括将第一属性描述为对应于公司前经理的继任序号、将第二属性描述为对应于指示该经理任职多少年的数字、并将第三属性描述为对应于其生日的元数据。在一些替代实施例中，多个辅助数据集可用于识别，包括多个公共和私人可用的数据集，其中每个辅助数据集先前用元数据来注释。
[0038]
处理进行到操作s270，其中，语义表示提取模块304从被存储在辅助数据集数据存储模块308中的所识别的辅助数据集中提取语义表示。在该简化实施例中，语义表示提取模块304使用在第一辅助数据集中存在的元数据来从第一辅助数据集中提取以下语义表示：(i)(a)“姓名＝乔治史密斯”，(b)“继任序号＝1”；(ii)(a)“姓名＝鲍勃琼斯”，(b)
ꢀ“
继任序号＝16”；和(iii)(a)“姓名＝杰克布朗”，(b)“继任序号＝32”。同样在该简化实施例中，语义表示提取模块304使用在第二辅助数据集中存在的元数据来从第二辅助数据集中提取以下语义表示：(i)(a)
ꢀ“
继任序号＝1”，(b)“服务年限＝8”，和(c)“生日＝2-22-1732”； (ii)(a)“继任序号＝16”，(b)“服务年限＝4”，和(c)“生日＝2
‑ꢀ
12-1809”；以及(iii)(a)“继任序号＝32”，(b)“服务年限＝12”，和(c)“生日＝1-30-1882”。
[0039]
处理进行到操作s275，其中，新属性确定模块310确定在s270从辅助数据集所提取的表示是否包括新属性。在该简化实施例中，新属性确定模块310将从与所选择的目标实体相对应的辅助数据集(第一辅助数据集和第二辅助数据集)中所提取的语义表示与从与所选择的目标实体相对应的目标数据集中所提取的语义表示进行比较。如在s255所指示的，在该简化实施例中，子集(iii)“杰克布朗”是所选择的目标实体。从与所选择的目标实体相对应的目标数据集中所提取的语义表示仅包括“姓名＝杰克布朗”。该所提取的语义表示被用于与辅助数据集的语义表示进行比较，以确定哪些子集包括匹配的语义表示。
[0040]
如果发现一个或多个子集包括匹配的语义表示，则新属性确定模块 310针对任何其它(一个或多个)属性解析匹配的(一个或多个)子集，并将针对那些其它属性的语义表示与目标数据集中的与所选择的目标实体相对应的任何语义表示进行比较，以确定是否从目标数据集的子集中的与所选择的目标实体相对应的属性中省略其它(一个或多个)属性的任何语义表示。
[0041]
如果对匹配的(一个或多个)子集的解析导致识别从提取自目标数据集的语义表示中省略的一个或多个语义表示，则新属性确定模块310将被省略的语义表示确定为新属
性，并且处理将沿着路径p276进行到操作 s280，在下面进一步讨论。
[0042]
如果没有发现子集包括匹配的语义表示，或者如果解析匹配的(一个或多个)子集确定匹配的(一个或多个)子集的(一个或多个)属性已经被包括在目标数据集的与所选择的目标实体相对应的子集中，则处理沿着路径p278前进到操作s285，在下面进一步讨论。
[0043]
在该简化实施例中，如前所述，将来自目标数据集的语义表示“姓名＝杰克布朗”与辅助数据集的语义表示进行比较以确定是否存在任何匹配，在第一辅助数据集的子集(iii)的属性(a)中找到一个。第一辅助数据集或第二辅助数据集的其它子集都不包括匹配的语义表示。接下来，新属性确定模块310针对不是属性(a)的任何其他属性来解析第一辅助数据集的子集(iii)，找到包括所提取的语义表示“继任序号＝32”的属性(b)。接下来，将所提取的语义表示“继任序号＝32”与目标数据集的与所选择的目标实体相对应的语义表示进行比较，以确定是否存在任何匹配。此时，目标数据集的与所选择的目标实体相对应的语义表示仅包括“姓名＝杰克布朗”，导致新属性确定模块310发现不存在匹配，指示从目标数据集的与所选择的目标实体相对应的适当子集中省略了“继任序号＝32”。
[0044]
响应于新属性确定模块310确定在s270从辅助数据集中所提取的表示包括新属性，处理沿着路径p276前进到s280，其中，目标数据集增强模块312使用从辅助数据集中所提取的表示来增强目标数据集。在该简化实施例中，增强目标数据集包括附加来自(一个或多个)辅助数据集的匹配的(一个或多个)子集的从目标数据集的语义表示中省略的语义表示。使用在该简化实施例中讨论的示例，“继任序号＝32”被附加到目标数据集的子集(iii)，用来自第一辅助数据集的附加属性增强目标数据集。
[0045]
注意，在此时，还没有发现来自第二辅助数据集的属性的语义表示与目标数据集匹配，结果，也没有被附加到目标数据集。处理沿着路径p277 回到s265，但是在这次迭代中，现在被增强的目标数据集的所提取的表示包括“姓名＝杰克布朗”和“继任序号＝32”两者。与先前在目标数据集中不存在的属性相对应的该附加的语义表示便于发现在辅助数据集中可能存在的与所选择的目标实体相对应的附加属性。重复操作s265、s270、s275 和s280将导致确定尽管第一辅助数据集不包括所选择的目标实体的用以增强目标数据集的任何新属性，但第二辅助数据集包括具有“继任序号＝32”的匹配的子集(iii)。对第二辅助数据集的子集(iii)的其他属性的解析导致确定在第二辅助数据集的子集(iii)中存在与所选择的目标实体相对应的从(现在被增强的)目标数据集中省略的两个属性：属性(b)“服务年限＝12”，以及属性(c)“生日＝1-30-1882”。属性(b)和属性(c)都被附加到(现在被增强的)目标数据集的子集(iii)上，进一步增强目标数据集的子集(iii)。从这里开始，处理再次沿着路径p277前进，返回到操作s265。这次通过操作s265、s270和s275的进行导致确定在s270从辅助数据集中所提取的表示不包括新属性。
[0046]
响应于新属性确定模块310确定在s270从辅助数据集中所提取的表示不包括新属性，处理沿着路径p278前进到s285，其中，隐私评估生成模块314生成针对目标数据集中的实体的隐私评估。在该简化实施例中，隐私评估是指示使用目标数据集中的与所选择的目标实体相对应的属性 (或属性的语义表示)可以识别所选择的目标实体的可能性的数值。换句话说，使用(现在被增强的)目标数据集中的与所选择的目标实体相对应的属性或所述属性的语义表示来识别所选择的目标实体会有多大难度。对于与目标数据集中的所选择的目标实体相对应的每个属性(或属性的语义表示)，累积一个点。如果累积的点满足某些预
定义阈值，则识别的可能性被评分为低、中或高。在该简化实施例中，针对所选择的目标实体所累积的4个点指示高识别分数，通过图1的网络114将图4的屏幕截图400 的消息402输出到客户端110，在客户端110的显示设备的图形用户界面 (未示出)上显示该消息。
[0047]
在一些替代实施例中，预定义权重被分配给不同类型的属性(例如，生日比头发颜色携带朝着识别所选择的目标实体的更大权重)。在一些替代实施例中，所增强的目标数据集被提供给去识别化风险引擎，以评估现在被增强的目标数据集而不是原始提供的目标数据集。在其他替代实施例中，基于隐私评估来执行补救措施，包括但不限于：(i)自动编辑来自所接收的目标数据集的一个或多个属性；(ii)，输出所选择的目标实体具有由基于目标数据集的隐私评估所指示的识别风险的指示；以及(iii)输出包括哪个辅助数据集包括哪些附加属性的指示。
[0048]
评估所增强的目标数据集导致不仅评估原始目标数据集，而且评估目标数据集可以如何与可能产生所选择的目标实体的附加属性的其他可用数据集相组合。关于个体的信息通常扩散到许多不同的数据集上，其中一些数据集包括一些信息但不包括其他信息，或者在一些数据集中，如果剩余信息可以有效地与未被匿名化的其他数据集相关，则尝试匿名化关于个体的数据是无效的。
[0049]
iii.进一步的解释和/或实施例
[0050]
本发明的一些实施例认识到以下事实、潜在问题和/或潜在领域，以用于相对于现有技术的改进：(i)隐私法规(如通用数据保护条例(gdpr) 和加利福尼亚消费者隐私法(ccpa))要求数据控制器正确地评估数据泄漏风险和破坏在数据中表示的个体的隐私的固有风险；(ii)隐私风险评估是复杂的任务，因为在执行评估时应当考虑多个维度；(iii)需要考虑的关键方面是通过将这样的数据集与外部数据源(公共和/或私有资源)相链接来重新识别数据集中的个体的概率；此刻通过平等连接操作(equalityjoin operation)以普通的特别方式执行该操作，即链接数据集；(iv)确实存在更先进的技术，但是它们倾向于集中在通过预处理知识库以减小执行链接所依据的知识库的大小来提高这种链接的速度；以及(v)应当自动进行匿名化数据集的隐私风险相对于其对潜在数据链接攻击的脆弱性的评估，以便一旦释放该数据，则全面评估匿名化数据集相对于由攻击者潜在使用的现有数据储存库所暴露的风险。
[0051]
本发明的一些实施例可以包括以下操作、特征、特性和/或优点中的一个或多个：(i)通过增强和标准化在链接中所涉及的数据集来执行基于语义的数据集链接的新技术；(ii)将所涉及的数据集的每个单独的标签映射到语义概念，这些语义概念与语言、编码和在其中表示值的格式无关；(iii) 用于利用基于语义的数据标准化和增强来估计微数据集的数据链接风险的系统和相关联的方法；(iv)领域：在线隐私，匿名网络，网络应用；以及 (v)使用语义网络/链接数据技术来标准化和增强(微)数据集，以针对公共和私人可用的知识库(大的、可能非匿名的数据集)来执行经验数据链接。
[0052]
本发明的一些实施例可以包括以下操作、特征、特性和/或优点中的一个或多个：(i)目标数据集作为系统的输入被传递，可选地具有关于数据集的内容的附加信息；(ii)元数据提取器分析数据集，并按照模式、语义类型、语言、编码等识别其内容；(iii)如果这种信息由用户提供给系统作为输入，则该步骤可以是可选的；(iv)然后，由数据标准化器组件对目标数据集的内容和(可能提取的)元信息进行标准化；(v)此后，数据链接引擎将数据集
的各个标准化值和元信息(例如：实体“汤姆约翰逊”)映射到被包含在语义标准化知识库内的预先存在的标准化值(例如：公司经理)；(vi)该语义标准化知识库被填充了该系统使用外部知识库(例如， wikidata、dbpedia、或诸如wolfram知识库的专有知识库)运行的先验； (vii)链接目标发现负责根据上下文和任何可用的附加信息来识别要使用哪个数据集来扩展；(viii)数据链接引擎还将数据集与其它先前注释的私有和公共数据集相链接；(ix)此后，数据增强引擎使用由数据链接引擎提供的链接，并用被包含在每个数据实体所链接的各种数据储存库内的属性来增强数据集；(x)重复步骤v-vii和ix，直到不再可能在任何数据储存库中识别任何有意义的数据链接；以及(xi)最后，针对标准去识别化风险引擎来评估所增强的数据集。
[0053]
本发明的一些实施例可以包括以下操作、特征、特性和/或优点中的一个或多个：(i)用于使用基于语义的数据增强和标准化技术来估计数据集的重新识别风险的系统/方法，包括：(a)元数据提取器组件，(b)数据标准化器组件，(c)数据链接引擎，(d)数据增强引擎，以及(e)去识别化风险估计组件；(ii)先前提及的数据集分析组件分析输入数据集以提取元信息(诸如数据集模式、字段数据类型、推断字段语义类型、字段值分布等)；(iii)前述的数据标准化器组件使用前述的数据分析组件的输出以根据可选地用户提供的知识库来标准化被包含在数据集中的值，将各个值变换成该值本身的语义表示；(iv)前述的链接目标发现组件使用数据标准化组件的输出，并从一组(私有和公共)可访问的数据集中识别潜在的链接数据集；(v)数据增强组件执行由数据标准化器组件创建的标准化数据集的增强，并根据在由链接目标发现组件标识的匹配的数据集中可用的特征来扩展它的特征集；以及(vi)识别风险估计组件将风险度量、方法和系统应用于所增强的数据集以提供对识别在输入数据集中包含的个体的风险的可靠估计。
[0054]
参考图5，框图500描述了根据本发明的第二实施例的系统，其包括： (i)目标数据集502；(ii)可选的目标数据集模式/元信息504；(iii)基于语义的数据链接器506，其包括以下子组件：元数据提取器508，(b) 数据标准化器510，(c)数据链接引擎512，(d)数据增强引擎530，(e) 所增强的数据集532，以及(f)去识别化链接风险引擎534；(iv)可访问的数据集514，其包括以下数据集：(a)私人电子病历(emr)516，(b) 商业数据518，(c)投票者列表520，(d)客户详情524，以及(e)订单详情526；(v)语义标准化知识库528；以及(vi)链接风险分数536。
[0055]
在图5所示的第二实施例中，目标数据集502作为系统(被示为基于语义的数据链接器506)的输入被传递，可选地具有关于数据集的内容的附加信息，被示为目标数据集模式/元信息504。接下来，元数据提取器508 分析目标数据集502，并按照模式、语义类型、语言、编码等来识别它的内容。如果这种信息由用户提供给系统作为输入，例如目标数据集模式/元信息504，则该步骤是可选的。接下来，目标数据集502的内容和(可能提取的)元信息则由数据标准化器组件即数据标准化器510进行标准化。接着，数据链接引擎512将目标数据集的各个标准化值和元信息(例如，包括被称为“汤姆约翰逊”的实体)映射到在语义标准化知识库528内包含的预先存在的标准化值(例如，包括被称为“公司经理”的实体)。该语义标准化知识库被填充了该系统使用外部知识库(例如，wikidata、 dbpedia、或诸如wolfram知识库的专有知识库)运行的先验。链接目标发现负责根据上下文和任何可用的附加信息识别要使用哪个数据集来扩展。另外，数据链接引擎512还将目标数据集与其他先前注释的
私有和公共数据集(被示为可访问的数据集514)相链接，这些可访问的数据集包括： (i)私人电子病历(emr)516，(ii)商业数据518，(iii)投票者列表 520，(iv)客户详情524，以及(v)订单详情526。接下来，数据增强引擎530使用由数据链接引擎512提供的链接，并用在每个数据实体所链接的各种数据储存库内包含的属性来增强目标数据集。数据链接引擎512和数据增强引擎530迭代地执行它们的过程，直到不再可能在任何数据储存库中识别任何有意义的数据链接。最后，针对一个或多个标准去识别化风险引擎来评估所增强的数据集532，即数据增强引擎530的输出。
[0056]
本发明的一些实施例包括对来自一个或多个数据集的数据或信息进行标准化。在这种标准化的示例中，两个数据集包括包含采用两种不同语言的性别值的列。该示例还假设示例实施例在使用诸如dbpedia的知识库，该知识库包含概念(如“性别”)的语义表示、它的各种可能值，并具有与各种值相关联的标签的翻译。在该示例中，可以通过针对表示实际性别值的语义概念而不是特定标签对这两者进行转换来执行标准化。在另一个示例中，两个数据集将在“年龄”概念上被链接。第一数据集包含出生年份，第二数据集包含年龄值，并且通过上下文，系统具有用于该数据集的日期参考。在该示例中，标准化包括将数据集中的值转换成与另一个相同的格式。例如，用“出生年份”代替“年龄”。
[0057]
本发明的一些实施例可以包括以下操作、特征、特性和/或优点中的一个或多个：(i)允许加入包含语义相关但具有不同表示的值的数据集(表)； (ii)用于经由基于语义的数据泛化和增强来估计数据集的识别风险的第一系统；(iii)识别要与给定任意数据集链接的外部数据集，以便利用这种外部数据集以重新识别个体来识别数据集的哪些子集是易受攻击的；(iv) 在没有接收关于个体的信息作为输入的情况下的执行；(v)计算重新识别风险；(vi)基于在每次迭代时输入数据集的所识别的现有去识别化风险来动态合并外部数据集；(vii)识别与去识别化相关联的任何风险；(viii) 基于在每次增强迭代时对任意数据集的现有去识别化风险分析，用动态识别的外部数据集来增强数据集；(ix)将语义信息用于增强现有数据集； (x)提供用于将重新识别风险度量应用于所增强的数据集的功能；(xi) 提供可能导致高重新识别风险的链接数据集的证据；(xii)使用联合数据集来估计重新识别风险；(xiii)如何识别/选择适于加入的潜在相关数据集； (xiv)加入数据集(即结构化数据)加入以用于估计重新识别风险；(xv) 提供用于将重新识别风险度量应用于所增强的数据集的功能；以及(xvi) 提供可能导致高重新识别风险的链接数据集的证据。
[0058]
iv.定义
[0059]
本发明：不应被认为是由术语“本发明”所描述的主题被所提交的权利要求覆盖或者被在专利审查之后可能最终发布的权利要求覆盖的绝对指示；虽然术语“本发明”用于帮助读者获得本公开被认为是可能新的一般感觉，但是，如使用术语“本发明”所指示的，该理解是暂时和临时的，并且随着专利审查的过程而改变，因为相关信息出现并且权利要求可能被修改。
[0060]
实施例：参见上面“本发明”的定义，类似的警告适用于术语“实施例”。
[0061]
和/或：可兼或；例如，a、b“和/或”c意味着a或b或c中的至少一个是实际并可适用的。
[0062]
包括/包含：除非另有明确说明，否则表示“包括但不一定限于”。
[0063]
模块/子模块：可操作地工作以执行某种功能的任何硬件、固件和/或软件的集合，
而不考虑模块是否：(i)以单一的局部邻近中；(ii)被分布在广域上；(iii)在较大软件代码段内以单一邻近；(iv)位于单个软件代码段内；(v)位于单个存储设备、存储器或介质中；(vi)被机械地连接； (vii)被电连接；和/或(viii)以数据通信被连接。
[0064]
计算机：具有重要的数据处理和/或机器可读指令读取能力的任何设备，包括但不限于：台式计算机、大型计算机、膝上型计算机、基于现场可编程门阵列(fpga)的设备、智能电话、个人数字助理(pda)、机装式或插入式计算机、嵌入式设备类型的计算机、以及基于专用集成电路(asic) 的设备。
[0065]
没有实质性的人为干预：自动发生(通常通过机器逻辑的操作，诸如软件)的过程，而很少或没有人类输入；涉及“没有实质性的人为干预”的一些示例包括：(i)计算机正在执行复杂的处理，由于电网电力的断电，人将计算机切换到替代电源，以使得处理继续不中断；(ii)计算机将执行资源密集型处理，人确认确实应当进行资源密集型处理(在这种情况下，在孤立考虑的情况下，确认过程是有实质上的人为干预的，但是资源密集型处理不包括任何实质上的人为干预，尽管需要人进行简单的是/否型的确认)；以及(iii)使用机器逻辑，计算机已经做出了重要决定(例如，在预期恶劣天气时使所有飞机着陆的决定)，但是在实施该重要决策之前，计算机必须从人获得简单的是/否型的确认。
[0066]
自动地：没有任何人为干预。
[0067]
数据链接：识别在涉及相同实体的不同数据集内包含的数据的过程。例如，实体“汤姆约翰逊”可能在数据集a内存在，而数据集b可能包含实体“公司经理”。数据链接过程会将两个实体识别为属于同一真实世界实体，链接关于与同一真实世界实体有关的信息的数据集a和数据集b。
[0068]
数据增强：将与一个数据集中的实体相对应的属性添加到在另一个数据集内包含的实体的过程。例如，数据集b可能包括实体“汤姆约翰逊”的属性，例如姓名、出生日期和国籍，而数据集a可能包括实体“公司经理”的属性，例如姓名、政党和任职年限。通过将数据链接应用于针对在每个数据集内存在的相同共享实体的数据集b和数据集a，数据增强将与共享实体相对应的属性附加到一个或两个数据集，增强关于共享实体的数据集。
[0069]
语义表示：表示源自自然语言(诸如英语、日语、斯瓦希里语、法语、西班牙语、德语等)的单词或单词组合的含义的对自然语言的抽象。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种多信息融合的自动驾驶系统道路边界构建方法与流程

使用基于语义的数据链接增强隐私数据集的方法和系统与流程

相关文献

最热文献