一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于数据影响驱动存储管理的数据集签名的制作方法

2022-06-05 21:40:54 来源:中国专利 TAG:


1.本发明涉及信息处理系统领域。本发明尤其涉及描述信息处理系统中的数据集的业务相关元数据和操作元数据的集合。


背景技术:

2.业务实体或公司将大量数据存储在数据管理系统中,例如本地存储系统、基于云的存储系统、对象存储系统或任何其它数据存储库,使得业务应用能够访问这些数据以执行与业务相关的任务或服务。大量数据通常以优化数据管理系统中可用的存储设施和硬件的使用的方式存储在数据管理系统中。例如,数据管理系统用于以下列方式存储数据:有助于灵活且高效地利用所存储的数据,以支持处理要对数据执行的各种任务。或者,数据管理系统可以基于数据的属性存储数据,例如图像数据或传感器数据。


技术实现要素:

3.本发明的第一方面涉及一种由数据管理系统执行的方法。所述方法包括:数据管理系统的数据集签名映射程序存储描述数据集的操作元数据,所述操作元数据和所述数据集存储在所述数据管理系统的存储器中;所述数据管理系统的所述数据集签名映射程序从业务环境中接收描述所述数据集的业务相关元数据,所述业务环境在所述数据管理系统的外部;所述数据管理系统的所述数据集签名映射程序存储数据集签名,所述数据集签名包括所述操作元数据和所述业务相关元数据的组合;所述数据管理系统的策略管理器使用所述数据集签名中的所述操作元数据和所述业务相关元数据的所述组合对所述数据集执行数据操纵操作。
4.可选地,根据所述第一方面,在第一种实现方式中,所述操作元数据包括操作名称、操作类型、操作结构、操作大小、操作安全类或标记、操作时间戳、操作内容类型、操作内容类或标记、操作索引存在性、操作源、操作版本状态、操作加密类、操作编码类、操作移动状态、操作访问类、操作访问热度类、操作访问偏斜、操作访问块度、操作局部熵、操作全局熵或操作关系中的至少一个。
5.可选地,根据所述第一方面或所述第一方面的任何其它实现方式,在第二种实现方式中,所述操作元数据包括操作名称、操作类型、操作结构、操作大小、操作安全类或标记、操作时间戳、操作内容类型、操作内容类或标记、操作索引存在性、操作源、操作版本状态、操作加密类、操作编码类、操作移动状态、操作访问类、操作访问热度类、操作访问偏斜、操作访问块度、操作局部熵、操作全局熵或操作关系中的至少一个。
6.可选地,根据所述第一方面或所述第一方面的任何其它实现方式,在第三种实现方式中,所述方法还包括:所述数据管理系统的所述数据集签名映射程序基于与所述数据集相关联的感兴趣属性,从所述数据管理系统本地存储的多个数据集中确定所述数据集,其中,与所述数据集相关联的所述感兴趣属性包括操作名称、最后一次访问所述数据集的时间、与所述数据集相关联的事件、对所述数据集执行的先前操作、对所述数据集执行的当
前操作或对所述数据集执行的未来操作中的至少一个。
7.可选地,根据所述第一方面或所述第一方面的任何其它实现方式,在第四种实现方式中,所述方法还包括:所述数据管理系统的所述数据集签名映射程序确定业务环境,以基于所述业务环境的业务数据目录从所述业务环境接收所述业务相关元数据,其中,所述业务数据目录存储描述属于所述业务环境的数据的信息。
8.可选地,根据所述第一方面或所述第一方面的任何其它实现方式,在第五种实现方式中,所述方法还包括:所述数据管理系统的所述数据集签名映射程序向所述业务环境发送查询,请求描述所述业务环境存储的一个或多个数据集的所述业务相关元数据;所述数据管理系统的所述数据集签名映射程序将所述数据管理系统本地存储的所述数据集与所述业务环境存储的业务数据进行匹配;所述数据管理系统的所述数据集签名映射程序将描述所述业务环境存储的所述业务数据的所述业务相关元数据映射到所述数据管理系统本地存储的所述操作元数据;所述数据管理系统的所述数据集签名映射程序生成并维护描述所述数据集的所述数据集签名。
9.可选地,根据所述第一方面或所述第一方面的任何其它实现方式,在第六种实现方式中,所述业务相关元数据从单个业务数据目录或多个不同的业务数据目录中接收。
10.可选地,根据所述第一方面或所述第一方面的任何其它实现方式,在第七种实现方式中,来自两个或多个外部业务数据目录的所述业务相关元数据由所述两个或多个外部业务数据目录中的一个进行组合,然后再与所述操作元数据进行组合以生成所述数据集签名。
11.可选地,根据所述第一方面或所述第一方面的任何其它实现方式,在第八种实现方式中,所述数据集签名由所述数据管理系统、云管理软件、管理软件或使用者中的至少一个通过以下方式生成:从所述数据管理系统的存储管理器接收所述业务相关元数据或面向存储的操作元数据,并将所述操作元数据与所述业务相关元数据或面向存储的操作元数据进行组合。
12.可选地,根据所述第一方面或所述第一方面的任何其它实现方式,在第九种实现方式中,所述方法还包括:所述数据管理系统的存储管理器向另一存储管理器传输所述数据集签名。
13.可选地,根据所述第一方面或所述第一方面的任何其它实现方式,在第十种实现方式中,所述方法还包括:所述数据管理系统的存储管理器向所述业务环境传输所述数据集签名,以将所述数据集签名存储在与所述业务环境相关联的业务数据目录中。
14.可选地,根据所述第一方面或所述第一方面的任何其它实现方式,在第十一种实现方式中,所述业务相关元数据从与所述业务环境相关联的业务数据目录中接收,其中,所述业务数据目录描述存储在云计算环境或数据虚拟化环境中的数据。
15.可选地,根据所述第一方面或所述第一方面的任何其它实现方式,在第十二种实现方式中,所述方法还包括:所述数据管理系统的存储管理器向基于云的环境或数据虚拟化环境传输所述数据集签名。
16.可选地,根据所述第一方面或所述第一方面的任何其它实现方式,在第十三种实现方式中,所述方法还包括:所述数据管理系统的所述数据集签名映射程序使用机器学习和训练数据,基于所述业务相关元数据和所述操作元数据确定描述所述数据集的其它元数
据。
17.可选地,根据所述第一方面或所述第一方面的任何其它实现方式,在第十四种实现方式中,所述方法还包括:所述数据管理系统的所述数据集签名映射程序基于数据集配置文件确定工作负载配置文件的系统配置文件;其中,所述工作负载配置文件描述待由系统执行的业务环境所请求的时变工作负载;其中,所述系统配置文件描述硬件、软件、服务、配置、拓扑或资源空间中的至少一个,以支持和执行所述工作负载配置文件描述的工作负载;其中,所述数据集配置文件包括一个或多个数据集签名,所述一个或多个数据集签名基于所述工作负载配置文件中描述的所述工作负载预期将访问的所述数据集的假设数据集签名或历史数据集签名中的至少一个。
18.可选地,根据所述第一方面或所述第一方面的任何其它实现方式,在第十五种实现方式中,所述数据管理系统的所述策略管理器使用所述数据集签名中的所述操作元数据和所述业务相关元数据的所述组合对所述数据集执行数据操纵操作还包括:所述数据管理系统的所述策略管理器确定系统管理策略,所述系统管理策略指示基于包含在所述数据集签名中的元数据要对一个或多个系统或数据集执行的所述数据操纵操作。
19.可选地,根据所述第一方面或所述第一方面的任何其它实现方式,在第十六种实现方式中,所述数据管理系统的所述策略管理器使用所述数据集签名中的所述操作元数据和所述业务相关元数据的所述组合对所述数据集执行数据操纵操作还包括:所述数据管理系统的所述策略管理器确定系统管理策略,所述系统管理策略指示基于包含在所述数据集签名中的元数据和所述数据集的当前位置要对所述数据集执行的所述数据操纵操作。
20.可选地,根据所述第一方面或所述第一方面的任何其它实现方式,在第十七种实现方式中,所述数据管理系统的所述策略管理器使用所述数据集签名中的所述操作元数据和所述业务相关元数据的所述组合对所述数据集执行数据操纵操作还包括:所述数据管理系统的所述策略管理器确定系统管理策略,所述系统管理策略指示基于包含在所述数据集签名中的元数据以及包含在第二数据集签名中的元数据要对一个或多个数据集执行的所述数据操纵操作,其中,所述第二数据集签名描述与第一数据集相关的第二数据集。
21.可选地,根据所述第一方面或所述第一方面的任何其它实现方式,在第十八种实现方式中,所述数据管理系统的所述策略管理器使用所述数据集签名中的所述操作元数据和所述业务相关元数据的所述组合对所述数据集执行数据操纵操作还包括:所述数据管理系统的所述策略管理器确定系统管理策略,所述系统管理策略指示基于包含在所述数据集签名中的元数据以及对所述数据集执行的操作要对所述数据集执行的所述数据操纵操作。
22.可选地,根据所述第一方面或所述第一方面的任何其它实现方式,在第十九种实现方式中,所述数据管理系统的所述策略管理器使用所述数据集签名中的所述操作元数据和所述业务相关元数据的所述组合对所述数据集执行数据操纵操作还包括:所述数据管理系统的所述策略管理器确定系统管理策略,所述系统管理策略指示基于包含在所述数据集签名中的元数据和请求访问所述数据集的用户要对一个或多个系统或日志执行的所述数据操纵操作。
23.可选地,根据所述第一方面或所述第一方面的任何其它实现方式,在第二十种实现方式中,所述数据管理系统的所述策略管理器使用所述数据集签名中的所述操作元数据和所述业务相关元数据的所述组合对所述数据集执行数据操纵操作还包括:所述数据管理
系统的所述策略管理器确定系统管理策略和工作负载配置文件,所述系统管理策略指示基于包含在所述数据集签名中的元数据要对一个或多个系统和所述数据集执行的所述数据操纵操作,所述工作负载配置文件指示所述数据管理系统访问所述数据集要执行的工作负载。
24.可选地,根据所述第一方面或所述第一方面的任何其它实现方式,在第二十一种实现方式中,所述数据管理系统的所述策略管理器使用所述数据集签名中的所述操作元数据和所述业务相关元数据的所述组合对所述数据集执行数据操纵操作还包括:所述数据管理系统的所述策略管理器确定系统管理策略,所述系统管理策略指示基于包含在所述数据集签名中的元数据要对所述数据集执行的所述数据操纵操作,其中,所述数据操纵操作包括基于包含在所述数据集签名中的所述元数据将所述数据集存储在特定位置或特定类型的位置。
25.可选地,根据所述第一方面或所述第一方面的任何其它实现方式,在第二十二种实现方式中,所述数据管理系统的所述策略管理器使用所述数据集签名中的所述操作元数据和所述业务相关元数据的所述组合对所述数据集执行数据操纵操作还包括:所述数据管理系统的所述策略管理器确定系统管理策略,所述系统管理策略指示基于包含在所述数据集签名中的元数据和一个或多个相关数据集要对所述数据集执行的所述数据操纵操作,其中,所述数据操纵操作包括基于包含在所述数据集签名中的所述元数据和所述一个或多个相关数据集标记所述数据集。
26.可选地,根据所述第一方面或所述第一方面的任何其它实现方式,在第二十三种实现方式中,所述数据管理系统的所述策略管理器使用所述数据集签名中的所述操作元数据和所述业务相关元数据的所述组合对所述数据集执行数据操纵操作还包括:所述数据管理系统的所述策略管理器确定系统管理策略,所述系统管理策略指示基于包含在所述数据集签名中的元数据和包含在第二数据集签名中的元数据要对所述数据集执行的所述数据操纵操作,其中,所述第二数据集签名描述与第一数据集相关的第二数据集,所述数据操纵操作包括基于所述数据集的所述数据集签名和第二数据集的第二数据集签名断言所述数据集和所述第二数据集之间的关系。
27.可选地,根据所述第一方面或所述第一方面的任何其它实现方式,在第二十四种实现方式中,所述数据管理系统包含在包括多个上下文的信息处理系统中,其中,第一下级上下文包括存储数据集,第二上下文包括按需数据虚拟化,第三上下文包括数据操作(data operations,dataops)流程,第四上级上下文包括物联网(internet of things,iot)状态表征和事件识别;其中,所述数据集签名包括来自所述第一下级上下文、所述第二上下文、所述第三上下文或所述第四上下文中的至少一个的元数据。
28.可选地,根据所述第一方面或所述第一方面的任何其它实现方式,在第二十五种实现方式中,所述方法还包括:基于在另一个上下文中观察到的、推断的或抓取的对象的值表示中的至少一个,分拆所述对象的元数据扩充。
29.可选地,根据所述第一方面或所述第一方面的任何其它实现方式,在第二十六种实现方式中,所述方法还包括:分拆跨层和系统的数据目录映射和集成能力。
30.可选地,根据所述第一方面或所述第一方面的任何其它实现方式,在第二十七种实现方式中,所述方法还包括:将增强型数据配置文件的服务分拆到一套更广泛的管理系
统。
31.本发明的第二方面涉及一种数据管理系统。所述数据管理系统包括:存储器,用于存储指令;处理器,耦合至所述存储器并用于执行所述指令,使得所述处理器用于:存储描述数据集的操作元数据,所述操作元数据和所述数据集存储在所述数据管理系统的存储器中;从业务环境中接收描述所述数据集的业务相关元数据,所述业务环境在所述数据管理系统的外部;存储包括所述操作元数据和所述业务相关元数据的组合的数据集签名;使用所述数据集签名中的所述操作元数据和所述业务相关元数据的所述组合对所述数据集执行操作。
32.本发明的第三方面涉及一种装置。所述装置包括:用于存储描述数据集的操作元数据的工具,所述操作元数据和所述数据集存储在所述装置中;用于从业务环境中接收描述所述数据集的业务相关元数据的工具,所述业务环境在所述装置的外部;用于存储包括所述操作元数据和所述业务相关元数据的组合的数据集签名的工具;用于使用所述数据集签名中的所述操作元数据和所述业务相关元数据的所述组合对所述数据集执行操作的工具。
33.这些和其它特征将结合附图和权利要求书从以下详细描述中更清楚地理解。
附图说明
34.为了更透彻地理解本发明,现将参考以下结合附图和具体实施方式而描述的简要说明,其中的相同附图标记表示相同部件。
35.图1a为信息处理系统的图;
36.图1b为本发明各种实施例提供的用于实现数据影响驱动存储管理的数据集签名的信息处理系统的图;
37.图2为本发明各种实施例提供的适用于数据影响驱动存储管理的信息系统元件的示意图;
38.图3a和图3b为示出本发明各种实施例提供的与数据集相关联的数据集签名中包括的元数据的各示例的图;
39.图4a为示出本发明各种实施例提供的生成数据集签名的方法的流程图;
40.图4b为示出本发明各种实施例提供的用于生成数据集签名的另一种方法的流程图;
41.图5为本发明各种实施例提供的用于实现数据影响驱动存储管理的数据集签名的另一种信息处理系统的图;
42.图6为本发明各种实施例提供的用于实现数据影响驱动存储管理的数据集签名的另一种信息处理系统的图;
43.图7为本发明各种实施例提供的用于实现数据影响驱动存储管理的数据集签名的另一种信息处理系统的图;
44.图8为示出本发明各种实施例提供的在针对预计的未来工作负载设计和/或调整系统时使用历史或假设数据集签名的图;
45.图9为本发明各种实施例提供的用于基于一个或多个数据集签名确定工作负载的系统配置文件的方法的流程图;
46.图10为示出本发明各种实施例提供的基于数据集签名执行或编排的系统管理策略的各种示例的图;
47.图11为本发明各种实施例提供的用于实现数据影响驱动存储管理的数据集签名的方法的流程图;
48.图12为本发明各种实施例提供的用于实现数据影响驱动存储管理的数据集签名的装置的图。
具体实施方式
49.首先应理解,尽管下文提供了一个或多个实施例的说明性实现方式,但所公开的系统和/或方法可以使用任何数量的技术来实现,无论该技术是当前已知的技术还是现有的技术。本发明决不应限于下文所说明的说明性实现方式、附图和技术,包括本文所说明并描述的示例性设计和实现方式,而是可在所附权利要求书的范围以及其等效物的完整范围内修改。
50.图1a为信息处理系统100的图。图1a中的信息处理系统100包括业务环境103和数据管理系统106,业务环境103和数据管理系统106通过一条或多条链路109互连。链路109可以是一个或多个设备之间或者业务环境103中不同软件与数据管理系统106之间的有线连接、无线连接、接口或任何其它类型的连接。
51.业务环境103与业务实体、组织、企业或公司相关联,所述业务实体、组织、企业或公司使用一个或多个业务应用117等为用户或客户执行各种服务或任务。业务应用117可以单独或组合执行交易管理、销售、营销、会计、采购、企业资源规划(enterprise resource planning,erp)、客户关系管理(customer relationship management,crm)、人力资源管理、数据治理、商业智能、数据可视化、分析、数据挖掘、业务资产管理、数据库管理(使用dbms)等。业务环境103包括位于或靠近与业务实体相关联的办公室的硬件资源,例如服务器、处理器、存储器、路由器、交换机、虚拟专用网(virtual private network,vpn)、网关等。业务环境103内的硬件资源用于存储与一个或多个业务应用117相关联的业务数据目录115,以代表所述业务实体执行服务或流程。
52.所述业务实体可以存储由业务应用117相对于所述业务实体在内部或外部使用的数据集120。例如,数据集120可以存储在数据管理系统106中。数据集120包含一个或多个数据项,例如对象、表、表空间、文档、文件、目录、文件系统、块和/或其组合。在一个实施例中,数据集120在业务数据目录115中通过属性、业务影响属性以及与其它数据的关系来表征。
53.业务数据目录115包括描述与业务环境103相关联或属于业务环境103的数据(例如数据集120)的信息。业务数据目录115将描述数据集120的信息整合并组织成目录服务。业务数据目录115的一个示例是waterline数据目录,它对描述存储在数据库管理系统、大数据生态系统、云、文件系统等中的数据的信息进行编目。业务数据目录115允许业务环境103中的用户和/或业务应用执行基于元数据的操作,例如相对于数据集120的搜索。
54.在各种实施例中,业务数据目录115存储描述与业务环境103相关联的数据集120的元数据。在一些实施例中,业务数据目录115还存储描述业务环境103使用的业务应用117、流程或服务的元数据。例如,业务数据目录115存储关于关系数据库的结构和/或内容以及业务应用117访问所述内容的方式的元数据。在一些情况下,业务环境103内的用户可
以基于业务分析或交易向业务数据目录115添加元数据,例如关于数据集120的文本注释和/或标签。
55.描述与业务环境103相关联的数据集120的元数据可以包括用于描述属性、历史、业务影响属性以及与其它数据集120的关系的定义、表、同义词、视图、索引、标签和注释。如图1a所示,描述与业务环境103相关联的数据集120的元数据包括业务相关元数据123。业务相关元数据123描述可能被视为对对应于业务环境103的业务应用很重要的数据集120的各方面。例如,业务相关元数据123可以包括特定数据集120的来源和推导。又例如,业务相关元数据123可以是所述业务实体的员工输入的注释,其中,所述注释描述特定数据集120对所述业务实体具有的意义或业务影响。再例如,业务相关元数据123可以包括与所述业务实体拥有的数据集120相关联的估计货币价值。下面还将参考图3a和图3b提供业务相关元数据123的其它示例。
56.数据管理系统106是存储系统、数据存储区、云计算环境、数据湖、数据结构、数据虚拟化引擎等,或者用于代表一个或多个业务环境103存储和管理数据集120的任何其它数据存储库。在一种情况下,数据管理系统106可以位于业务环境103的附近或内部。或者,数据管理系统106可以位于在地理上远离业务环境103的远程存储系统中,例如云计算环境。
57.数据管理系统106包括数据存储区129,数据存储区129用于代表业务环境103和存储管理器126存储数据集120。存储管理器126是数据管理系统106内用于管理数据集120的设备或软件进程。数据存储区129可以是存储阵列,也可以是足够大可存储数据集120的任何类型的存储器。在一个实施例中,数据存储区129存储对每个数据集120的指针或引用。存储管理器126维护描述存储在数据管理系统106中的数据集120的操作元数据133。操作元数据133描述数据集120的基本特征,例如数据集120的格式、指示数据集120的创建日期或最后一次访问数据集120的时间的时间戳、数据集120的大小等。在一些情况下,操作元数据133包括数据集120的访问频率,指示数据集120在标准时间段内被访问的频率。
58.然而,数据管理系统106没有访问或存储业务相关元数据123的权限。在这种情况下,业务相关元数据123在更高级别的业务上下文中可用,使得可以执行业务应用117以使用业务相关元数据123执行、调度或编排业务相关任务或目录服务。此外,业务相关元数据123还在所述业务实体中涉及的个人当中使用,例如员工、分析师和数据科学家,使得这些个人能够使用业务相关元数据123做出明智的业务决策。然而,业务相关元数据123在更低级别的存储上下文中不可用,在存储上下文中实际存储业务环境103使用的数据集120。此处公开的实施例涉及增强型数据管理系统106,其不仅存储操作元数据133,而且存储业务相关元数据123。
59.图1b为本发明各种实施例提供的用于实现数据影响驱动存储管理的数据集签名的信息处理系统150的图。图1b所示的信息处理系统150类似于图1a所示的信息处理系统100,不同之处在于信息处理系统150的数据管理系统106还存储描述一个或多个数据集120的业务相关元数据123。在一个实施例中,存储管理器126用于执行数据集签名映射程序136,以从一个或多个业务环境103的一个或多个业务数据目录115接收业务相关元数据123。例如,数据集签名映射程序136可以通过链路109向业务环境103发送请求,以获取与一个或多个数据集120相关联或者描述一个或多个数据集120的业务相关元数据123。在一个实施例中,存储管理器126从业务环境103的业务数据目录115接收业务相关元数据123,然
后执行映射以确定对应于接收到的业务相关元数据123的数据集120。在另一个实施例中,数据集签名映射程序136可以通过链路109向业务环境103发送请求,以获取与一个或多个业务应用117相关联或与数据集120的指定类型或方面相关联的业务相关元数据123。
60.确定特定数据集120的业务相关元数据123之后,数据集签名映射程序136检索或以其它方式引用对应于数据集120的操作元数据133。数据集签名映射程序136将操作元数据133与业务相关元数据123相结合,以为数据集120生成数据集签名140。数据集120的数据集签名140包括描述数据集120的操作元数据133以及从业务环境103接收的业务相关元数据123的聚合或组合,其中,操作元数据133已本地存储在数据管理系统106中。在一个实施例中,在生成数据集签名140时,数据集签名映射程序136可以先减少或转换业务相关元数据123,以匹配存储管理器126的操作命名空间、标准化业务相关元数据或者便于之后对数据集120进行基于策略的管理。
61.在各种实施例中,数据集签名140可以传输回业务环境103、云管理环境、负责管理数据存储区129的不同部分或不同数据存储区的其它数据库管理系统。数据管理系统106还可以将数据集签名140传输到一个或多个业务信息流程,例如数据治理、信息生命周期管理、灾难恢复和/或数据代理。
62.本文公开的实施例是有利的,并且提供了出于各种原因在信息处理领域的实际应用。通过在数据管理系统106中存储和维护业务相关元数据123,可以更高效、更准确、更精细、更低延迟、更全面和/或更适时地对数据集120执行操作。此外,对应于业务环境103的业务实体可以从集成业务上下文中的业务相关元数据123与存储上下文中的操作元数据133中获益。例如,本文公开的实施例使数据管理系统106能够识别对对应于业务环境103的业务实体具有最大影响的数据集120。该信息可用于增强业务工具、流程和数据集120的存储。对对应于业务环境103的业务实体或对战略业务应用117具有高影响的数据集120可以存储在具有快速访问时间和低延迟的层或其它存储位置。此外,可以使用由数据管理系统106存储的数据集签名140,根据组合操作和业务知识来搜索、分类、选择、操纵和操作数据集120。在数据集签名140被传输回所述业务环境、另一管理环境或业务信息流程的实施例中,这些环境或业务信息流程可以通过了解数据集签名140的组合操作和业务方面,改进它们的操作决策、操作效率或对业务环境103的积极影响。
63.在一些实施例中,数据管理系统106基于数据集签名140以及与数据集签名140相关联的各种系统管理策略对数据集120执行数据操纵操作。在一个实施例中,系统管理策略指示基于描述数据集120的数据集签名140要对数据集执行的数据操纵操作。例如,系统管理策略可以指示:当数据集120由数据集签名140中标识的特定类型的元数据描述时,数据管理系统106用于基于在数据集签名140中标识的元数据对数据集120执行特定数据操纵操作。在该示例中,当数据集120被标记为具有高业务价值时,数据管理系统106可以对数据集120实现安全机制,强制提高访问数据集120的成本,或者执行与数据集120相关的任何其它操作。
64.又例如,系统管理策略可以指示:当两个数据集120的数据集签名140指示两个数据集120是彼此的副本时,应执行某些数据操纵操作。例如,所述系统管理策略可以指示:当对数据集120中的一个执行一个操作(例如,写操作)时,也应该对数据集120的另一个副本执行所述操作。或者,所述系统管理策略可以指示:当两个数据集120的数据集签名140指示
两个数据集120是彼此的副本时,应删除数据集120中的一个。
65.以这种方式,可以通过使用数据集签名140中的操作元数据133和业务相关元数据123的所述组合,更有效、更准确、更全面和/或更适时地对数据集120调用数据操纵操作。在一些情况下,业务实体可以通过允许在数据管理系统106中创建和存储数据集签名140来节省成本和资源。例如,当两个单独数据集120的数据集签名140指示两个数据集120是彼此的副本时,在数据管理系统106中预配置的系统管理策略可以指示对数据集120中的一个执行的操作也应该对数据集120的另一个副本执行。在数据管理系统106是云环境且在每次访问存储在所述云环境中的数据集120时向业务实体收费的情况下,所述业务实体可以通过仅对数据集120中的一个执行操作来节省成本,因为数据管理系统106用于自动对数据集120的另一个副本执行相同的操作。
66.又例如,特定数据集120被标记为对所述业务实体具有重要价值,这可以在数据集120的数据集签名140中指示。在这种情况下,在数据管理系统106中预先配置系统管理策略,以自动对被标记为对所述业务实体具有价值的数据集120执行数据操纵操作。所述数据操纵操作可以旨在进一步保护数据集120,例如,通过使用公钥或私钥对数据集120进行加密。在该示例中,数据管理系统106用于基于数据集签名140自动对数据集120执行数据操纵操作,所述数据操纵操作旨在保护对所述业务实体具有价值的数据集120。
67.此外,通过使用数据集签名140中的操作元数据133和业务相关元数据123的所述组合,极大地提高了数据管理系统106的性能和管理。由于存储在数据集签名140中的附加细节,可以更高效、更准确地对数据集120执行数据操纵操作。例如,如果要对所有具有某个特定特征的数据集120执行特定读操作,则数据管理系统106可以搜索数据集签名140以快速查找所有具有该特定特征的数据集120,而不必单独分析每个数据集120。以这种方式,数据集签名140极大地提高了数据管理系统106的价值,同时还从业务实体的角度降低了成本和开销。
68.图2为本发明各种实施例提供的适用于实现数据影响驱动存储管理的数据集签名的信息处理单元200的示意图。在一个实施例中,信息处理单元200可以实现为数据管理系统106、存储管理器126或业务环境103。
69.信息处理单元200包括端口220、收发器单元(tx/rx)210、处理器230和存储器233。处理器230包括数据集签名映射程序136和可选的策略管理器137。端口220耦合至tx/rx 210,tx/rx 210可以是发送器、接收器或其组合。tx/rx 210可以通过端口220发送和接收数据。处理器230用于处理数据。存储器233用于存储用于实现本文所描述的实施例的数据和指令。信息处理单元200还可以包括耦合至端口220和tx/rx 210的电光(electrical-to-optical,eo)组件和光电(optical-to-electrical,oe)组件,用于接收和发送电信号和光信号。
70.处理器230可以通过硬件和软件实现。处理器230可以实现为一个或多个中央处理器(central processing unit,cpu)和/或图形处理器(graphics processing unit,gpu)芯片、逻辑单元、核心(例如,多核心处理器)、现场可编程门阵列(field-programmable gate array,fpga)、专用集成电路(application specific integrated circuit,asic)和数字信号处理器(digital signal processor,dsp)。处理器230与端口220、tx/rx 210和存储器233通信。存储管理器126、数据集签名映射程序136和策略管理器137由处理器230实
现,以执行用于实现本文所论述的各种实施例的指令。例如,存储管理器126用于管理数据集120和存储数据目录240。数据集签名映射程序136用于:确定从其中接收业务相关元数据123的业务环境103;确定要从业务环境103接收的业务相关元数据123的类型;将从业务环境103接收的业务相关元数据123映射到存储在数据管理系统106中的数据集120。策略管理器137用于应用到基于数据集签名140的系统管理策略243。包括存储管理器126、数据集签名映射程序136和策略管理器137改进了信息处理单元200的功能。存储管理器126、数据集签名映射程序136和策略管理器137还实现信息处理单元200到不同状态的转换。或者,存储管理器126、数据集签名映射程序136和策略管理器137实现为存储在存储器233中的指令。在一个实施例中,策略管理器137的功能可以不是信息处理单元200内的不同组件。相反,策略管理器137的功能可以在信息处理系统200甚至数据管理系统106的外部。
71.存储器233包括一个或多个磁盘、磁带驱动器或固态驱动器,并且可用作溢出数据存储设备,以在选择执行程序时存储这些程序以及存储程序执行期间读取的指令和数据。存储器233可以是易失性和/或非易失性的,并且可以是只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、三态内容寻址存储器(ternary content-addressable memory,tcam)和/或静态随机存取存储器(static random-access memory,sram)。
72.在一个实施例中,存储器233用于存储数据集120和存储数据目录240。存储数据目录240包括对应于多个不同数据集120的多个数据集签名140。每个数据集签名140包括描述数据集120的操作元数据133和业务相关元数据123。存储器233还存储系统管理策略243,指示对与特定数据集签名140相关联的数据集120进行管理和执行操作的方式。系统管理策略243还可以指示对具有特定类型的操作元数据133和/或特定类型的业务相关元数据123的数据集120进行管理和执行操作的方式。系统管理策略243至少部分地基于数据集签名140应用于数据集120或被管理的各种系统,如下面将参考图10进一步描述的。
73.应理解,通过对可执行指令进行编程和/或将其加载到信息处理单元200上,处理器230和/或存储器233中的至少一个会发生改变,从而将信息处理单元200部分转换成具有本发明所述新颖功能的特定机器或装置,例如多核转发架构。加载可执行软件至计算机所实现的功能可以通过公认的设计规则转换成硬件实施,这在电力工程和软件工程领域是很基础的。决定使用软件还是硬件来实施一个概念通常取决于对设计稳定性及待生产的单元数量的考虑,而不是对软件领域转换至硬件领域中所涉及的任何问题。一般来说,经常变动的设计更适于在软件中实施,因为重新编写硬件实施比重新编写软件设计更为昂贵。通常,稳定及大规模生产的设计更适于在如asic这样的硬件中实施,因为大规模生产硬件实施比软件实施更为便宜。设计通常可以以软件形式进行开发和测试,之后通过公认的设计规则转变成asic中等同的硬件实现方式,所述硬件实现方式硬连线至软件指令。由新asic控制的机器是一特定的机器或装置,同样地,编程和/或加载有可执行指令的电脑可视为特定的机器或装置。
74.图3a和图3b为示出本发明各种实施例提供的与数据集120相关联的数据集签名140中包括的元数据的各示例的图。数据集签名140包括操作元数据133和业务相关元数据123。操作元数据133的示例如图3a所示,业务相关元数据123的示例如图3b所示。
75.操作元数据133包括描述数据集120的基本特征的基本元数据。如图3a所示,例如,
操作元数据133可以包括操作名称307、操作类型308、操作结构309、操作大小310、操作安全类或标记311、操作时间戳312、操作内容类型313、操作内容类或标记314、操作索引存在性315、操作源316、操作版本状态317、操作加密类318、操作编码类319、操作移动状态320、操作访问类321、操作访问热度类322、操作访问偏斜323、操作访问块度324、操作局部增长率325、操作全局熵326和/或操作关系327中的至少一个。应理解,操作元数据133可以包括图3a中未示出的其它元数据或描述。操作元数据133的示例可以以字段、键值对、rdf三元组或图形或者任何其它类型的数据结构的形式存储在数据管理系统106中。例如,操作元数据133由存储管理器126维护。
76.操作名称307指的是数据集120的名称。例如,操作名称307可以是sensor1354_09032019_readings,也可以是系统生成的对象标识符。操作类型309指示数据集120的类型,例如,数据集120是文件、对象、存储卷还是存储逻辑单元号(logical unit number,lun)。操作结构309指的是数据集120的结构,例如,数据集120是非结构化的、半结构化的、关系性的、键值对还是存储对象。操作大小310指的是数据集120的大小,例如,以物理大小(例如,兆字节(mb)、千兆字节(gb)、太字节(tb)等)为单位。操作安全类或标记311指的是与数据集120相关联的安全标记或类,其可由数据放置策略使用。操作时间戳312指示在数据集120处发生的事件的时间戳,例如,指示创建、最后一次访问或最后一次修改数据集120的时间的时间戳。
77.操作内容类型313指示数据集120的内容类型,例如,多用途互联网邮件扩展(multipurpose internet mail extensions,mime),或者数据集120是图像或音频文件还是与图像或音频文件相关。操作内容类或标记314指的是与数据集120相关联的内容类或标记。操作内容类或标记314可以是自定义标记,例如指示数据集120为“传感器数据”或“x射线图像”的标记。操作索引存在性315包括指示数据集120是否已编索引的二进制值。操作源316指示数据集120的源,例如公共云的标识。
78.操作版本状态317指示数据集120的版本状态,例如,关于数据集120是否是活动版本、删除版本、备份副本、存档版本等的指示。操作加密类318指示数据集120是已加密还是待加密。操作编码类319指示数据集120的编码方式。例如,当数据集120编码为文本压缩gzip文件时,操作编码类319指示数据集120编码为文本压缩gzip文件。操作移动状态320指示数据集120的移动状态。例如,数据集120的操作移动状态320可以指示数据集120是正在流式传输还是处于静止状态。
79.操作访问类321可以指示数据集120的访问类,例如,数据集120是只读/不可变文件、读写文件、只追加文件还是一次写入文件。操作访问热度类322指示数据集120的访问频率,例如,数据集120是冷的(很少访问)、暖的(不经常访问)、热的(频繁访问)还是非常热的(非常频繁访问)。在替代实施例中,操作访问热度类322可以使用访问频率范围来定义。操作访问偏斜323指示数据集120落在某个范围内的数据的总体访问偏斜中的位置。操作访问偏斜的一个典型示例是“90%的读都是在读取数据集中的10%的数据”。操作访问块度324指示随着时间的推移对数据集120的访问的均匀性或不均匀性。例如,某些数据可能只在整点访问,并且从不在夜间或周末访问。操作局部增长率325指的是孤立考虑的数据集120的变化率(例如,增长或缩减)。
80.操作全局增长率326指的是数据集120相对于某个范围内其它数据的变化率。操作
关系327指的是数据集120与其它数据的操作关系。例如,操作关系327指示数据集120是否是另一数据集的副本、版本、索引或子集。又例如,操作关系327指示数据集120和另一数据集是否应一起存储或一起删除。
81.图3b示出了业务相关元数据123,业务相关元数据123包括描述与关于一个或多个业务实体的数据集120的业务方面或效用相关的信息的元数据。如图3b所示,例如,业务相关元数据123可以包括业务名称330、业务类型331、业务自然语言描述332、业务所有者333、业务管理人334、业务内容类/标记335、业务权限工作流336、业务组织级别337、业务数据地理338、业务结构类型339、业务结构340、业务语言341、业务大小342、业务安全类343、业务时间戳344、业务来源或源头345、业务清理或管护346、业务数据集配置文件347、业务数据集虚拟化状态348、业务排序顺序349、业务保留日期350、业务合规义务351、业务关系352、业务使用计数353、业务效用评级354、业务用户真实性评级355、业务数据科学家效用评级356、业务数据科学家评论357、业务决策影响358、业务货币影响359、业务聚合数据集影响360和/或业务数据集友元的平均影响361中的至少一个。应理解,业务相关元数据123可以包括图3b中未示出的其它元数据或描述。业务相关元数据123的示例可以以字段、rdf三元组或图形、键值对或者任何其它类型的数据结构的形式存储在业务环境103和/或数据管理系统106中。在一些情况下,业务相关元数据123存储在业务数据目录115、一个或多个业务应用117或业务信息流程中。业务相关元数据123可以存储在任何位置并且可以通过api或作为服务来访问。
82.业务名称330指的是数据集120的名称,可以与数据集120的操作名称307相同,也可以与数据集120的操作名称307不同。业务类型331指的是数据集120的类型,例如,数据集120是文件、逻辑对象还是表。业务自然语言描述332指的是数据集120的自然语言描述。例如,业务自然语言描述332可以指示数据集120包括来自特定传感器的标准化温度读数。业务所有者333指示数据集的所有者,例如,纽约州地区某个业务实体的销售部门。业务管理人334指的是业务托管人或代表业务所有者的人员。业务内容类或标记335指示数据集120的内容类或标记。例如,数据集120的业务内容类或标记335可以指示数据集120指的是客户购买历史、自动驾驶车辆传感器读数、个人识别信息(personally identifying information,pii)等。业务权限工作流336指示允许用户或应用许可访问数据集120的流程,作为通过用户角色、访问控制列表和/或其它机制允许访问数据集120的替代方案。业务组织级别337指示数据集120的业务所有者333的组织级别。例如,业务组织级别337可以指示数据集120由部门、分部、业务线、总部等所有。业务数据地理338指示与数据集120相关联的地理区域。
83.业务结构类型339指示数据集120的类型,例如,架构、编码、标记语言或资源描述框架(resource description framework,rdf)三元组。业务结构340指示数据集120的结构,例如,键值对的实际模式或键空间。业务语言341指示访问数据集120的业务实体或用户使用的书面语言,例如,“英语”或“法语”。业务大小342指示以逻辑单元表示的数据集120的大小,例如,关系行数或记录计数。业务安全类343指示数据集120对业务实体而言的安全类,安全类对于数据治理和访问控制可能有意义。业务时间戳344指示在数据集120处发生的事件的时间戳。
84.业务来源或源头345指示数据集120的来源或源头。例如,业务来源或源头345指示
数据集120是来自数据仓库,还是来自操作数据库管理系统。业务来源或源头345还可以指示已记录在数据集120中的动作,例如,数据集合并、拆分或转换。业务清理或管护346指示数据集120是否已被清理或修复,例如,通过数据标准化,以添加缺失字段的默认值等。业务数据集配置文件347可以包括与数据集120的一个或多个字段相关联的详细信息,例如,值范围或最小值或最大值。业务数据集虚拟化状态348指示数据集120是否是从现有数据集按需汇编的虚拟数据集。业务排序顺序349包括排序键以及相对于所述排序键对存储数据集120进行排序的方向(升序或降序)。
85.业务保留日期350指示在删除或安排删除数据集120之前保留数据集120的时长。业务合规义务351指示和/或引用与对数据集120执行操作和/或动作相关的企业政策、专业数据处理标准或法律要求。业务关系352包括与数据集120相关的其它数据集,例如,作为数据集120的一部分、子集、缩减版本、友元或派生自数据集120的数据集。业务关系352很有用,因为对数据集120的动作,例如移动、删除和标记为,可能需要传播到相关数据集120。业务关系352可以指示:结构组成,例如object1是object2的一部分;关联,例如属副本、属版本、属索引、属子集、派生自、属缩减版本;分组,例如一起存储、一起删除、朋友;和/或类型级别的关系,例如hdfs是file_system的子类型、文件标记为“包含个人识别信息”。
86.业务使用计数353指示在给定时间段(例如年初至今)内使用数据集120为业务环境103提供流程或服务的次数(总次数或按用户类型的次数)。业务效用评级354指的是业务环境103中的一个或多个用户提供的指示数据集120的业务效用的评级。例如,业务效用评级354为0表示数据集120对业务环境103最没有用,业务效用评级354为10表示数据集120对业务环境103最有用。业务用户真实性评级355指的是业务环境103中的一个或多个用户提供的指示数据集120的真实性、准确性和/或完整性的评级,例如,相对于数据集120描述的数据类别或类型。例如,业务用户真实性评级355为0表示数据集120对用户来说最不准确或最不可信,业务用户真实性评级355为10表示数据集120对用户来说最准确或最可信。业务数据科学家效用评级356指的是一个或多个数据科学家提供的评级,其指示数据集120对代表业务环境103执行数据分析而言的价值。业务数据科学家评论357包括数据科学家提供的关于例如在特定类型的分析模型开发中使用数据集120的亲和性的一条或多条评论。
87.业务决策影响358表示使用数据集120做出业务决策。例如,业务决策影响358低表示数据集120对业务决策的历史影响较小,业务决策影响358高表示数据集120对业务决策的历史影响较大。业务货币影响359表示对通过使用数据集120做出的决策的聚合或周期性货币结果的估计。当附加数据集120也会对聚合或周期性货币结果做出贡献时,可以减少与数据集120相关联的业务货币影响359。业务货币影响359还可以表示与数据集120相关联的货币价值,所述货币价值可能已由估值专业人员确定。业务聚合数据集影响360表示数据集120对业务环境103或业务实体的价值或聚合价值。例如,业务聚合数据集影响360可以是基于业务货币影响359、业务决策影响358和/或参照图3a和图3b示出和描述的任何其它元数据对数据集120的重要性的聚合反映。业务数据集友元的平均影响361指的是数据集120的友元的业务影响或价值。数据集120的友元指的是数据管理系统106中存储的与主数据集120类似或具有对应关系的其它数据集。例如,对于主数据集120,数据集120的友元可以包括:具有与主数据集120类似的内容的其它数据集;描述与主数据集120类似类别或类型内容的其它数据集;由相同用户访问、更新或编辑的其它数据集;具有类似访问频率的其它数
据集;具有相当评级的其它数据集;具有类似货币影响的其它数据集;或与主数据集120具有相似性的任何其它数据集。数据集120的友元可以手动标记、由策略推断或通过机器学习分类来识别。
88.图3a和图3b中所示的数据集签名140包括图3a和图3b中所示和上面描述的所有元数据。然而,数据集120的数据集签名140不需要包括图3a和图3b中所示和上面描述的所有元数据。在一些情况下,数据集签名140只需要包括图3a和图3b中所示和上面描述的元数据中的一个或多个,或者数据集签名140包括图3a和图3b中所示和上面描述的元数据的子集。可以存在一个或多个不同类型的业务相关元数据123的多个实例。例如,可以存在业务合规义务351的多个实例。
89.在一个实施例中,业务相关元数据123最初存储在业务环境103处的业务数据目录115中。例如,业务相关元数据123可以存储在业务数据目录115中。例如,业务相关元数据123的一部分可以作为业务环境103的用户提供的注释或输入,存储在业务数据目录115中。在一个实施例中,数据管理系统106从业务数据目录115检索业务相关元数据123,并将数据集120的业务相关元数据123与数据集120的操作元数据133存储在数据集签名140中。
90.作为说明性示例,数据集120可以包括按需虚拟化对象、数据操作(data operations,dataops)流程流、状态和/或结果、物联网(internet of things,iot)状态表征或iot事件识别。在这种情况下,业务相关元数据123可以是描述所述dataops对象、iot状态表征或iot事件识别的元数据。
91.图4a为示出本发明各种实施例提供的生成数据集签名140的方法400的流程图。方法400可以由数据管理系统106中的信息处理单元200或存储管理器126实现。在存储管理器126内,方法400的全部或部分可以由数据集签名映射程序136实现。在一个实施例中,方法400可以在将数据集120存储在数据管理系统106的数据存储区129中之后实现。
92.在一个实施例中,确定应为其创建数据集签名140的数据集120。在一个实施例中,数据集签名映射程序136基于与所述数据集120相关联的感兴趣属性,从数据管理系统106本地存储的多个数据集120中确定所述数据集120。与所述数据集120相关联的所述感兴趣属性可以是操作名称307、最后一次访问所述数据集120的时间、与所述数据集120相关联的事件、对所述数据集120执行的先前操作、当前操作或未来操作和/或与所述数据集120相关联的任何其它操作元数据中的至少一个。
93.选择数据集120之后,在步骤403中,将描述数据集120的操作元数据133本地存储在数据管理系统106中。在一个实施例中,数据集签名映射程序136从外部实体检索操作元数据133,然后将所述元数据本地存储在存储数据目录240中,存储数据目录240可以存储在数据库管理系统106中。在另一个实施例中,在选择数据集120之前,操作元数据133已存储在存储数据目录240中。在一个实施例中,操作元数据133由存储管理器126在其它位置管理。操作元数据133可以包括上面结合图3a描述的元数据中的一个或多个。
94.在步骤406中,确定存储可能与数据集120类似、相关或有相互关系的业务相关元数据123的业务环境103。例如,数据集签名映射程序136可以访问多个业务环境103,每个业务环境103存储不同的业务数据目录115。数据集签名映射程序136选择数据管理系统106可以访问的多个业务环境103中的一个或多个,以从其中接收业务相关元数据123。
95.在步骤409中,使用相应的元数据,将存储在业务环境103中的业务数据与存储在
数据管理系统106中的一个或多个数据集120进行匹配。在一个实施例中,基于显式匹配或推断匹配对业务数据和数据集120进行匹配。当业务数据中的对象与数据集120或数据集120中的对象具有相同的命名空间时,可以执行显式匹配。在这种情况下,业务数据中的所述对象可以通过名称与数据集120中的所述对象显式匹配。当描述业务数据的一些元数据和描述数据集120的一些元数据指示业务数据和数据集120可能彼此相同或几乎相同时,可以执行推断匹配。
96.在步骤410中,将存储在业务环境103中的与所述匹配业务数据相关联的所选业务相关元数据123映射到在步骤409中确定的存储在数据管理系统106中的一个或多个匹配数据集120的操作元数据133。在一些情况下,从业务环境103接收业务相关元数据123,而没有关于业务相关元数据123如何与特定数据集120相关的上下文。在一个实施例中,数据集签名映射程序136用于基于业务相关元数据123与一个或多个数据集120之间的关系或相关性,确定业务相关元数据123与一个或多个数据集120之间的映射。例如,业务相关元数据123可以包括数据集120的业务货币影响359和数据集120的标识信息。数据集签名映射程序136用于将数据集120的所述标识信息映射到本地存储的数据集120的标识信息,以将业务货币影响359映射到数据集120。在一些实施例中,基于明确标识元数据、内在标识元数据或推断元数据之间的关系,将业务相关元数据123映射到数据集120。
97.在一个实施例中,接收业务相关元数据123之后,数据集签名映射程序136还过滤所接收的业务相关元数据123,基于为数据集120设置的参数来确定与数据集120相关的业务相关元数据123。在一个实施例中,业务环境103设置应该存储在数据集120的数据集签名140中定义元数据类型的参数。数据集签名映射程序136基于业务环境103设置的所述参数过滤所接收的业务相关元数据123。在另一个实施例中,数据集签名映射程序136可以设置参数,或者可以通过接口引导其设置参数,从而定义应该存储在数据集120的数据集签名140中的元数据类型。
98.例如,业务环境103设置指示数据集120的业务货币影响359应从业务数据目录115接收并存储在数据集120的数据集签名140中的参数。在该示例中,数据集签名映射程序136过滤从业务环境103中接收的业务相关元数据123,以检索数据集120的业务货币影响359。存储管理器126创建包括数据集120的业务货币影响359的数据集签名140。在另一个实施例中,过滤业务相关元数据123由所述业务环境在数据集签名映射程序136接收业务相关元数据123之前执行。
99.在步骤412中,从在步骤406中确定的业务环境103接收所选业务相关元数据123。例如,数据集签名映射程序136的tx/rx 210从业务环境103接收业务相关元数据123。
100.在步骤415中,包括描述一个或多个数据集120的操作元数据133和所选业务相关元数据123的一个或多个数据集签名140本地存储在存储目录240中。在一个实施例中,数据集签名140包括在对业务相关元数据123执行映射、匹配和过滤之后的业务相关元数据123。
101.在步骤418中,通过从业务环境103检索附加或更新的业务相关元数据123,在存储目录240中定期更新和维护数据集签名140。在一个实施例中,数据集签名映射程序136定期从业务环境103的业务数据目录115中请求并检索对本地存储的业务相关元数据123的任何更新或更改。在另一个实施例中,业务环境103自动并定期向数据管理系统106的数据集签名映射程序136发送对业务相关元数据123的更新或更改。数据集签名映射程序136基于从
业务环境103接收的所述更新来更新数据集120的数据集签名140。在另一个实施例中,业务级别或存储级别的事件可以触发对数据集签名140的更新和维护。例如,此类事件可以是由业务应用117发起的业务相关元数据123的刷新,或者完成基于对数据集内容进行分类来标记操作元数据133的安全操作。
102.图4b为示出本发明各种实施例提供的生成数据集签名140的方法450的流程图。包括显式映射范围的方法450可以由信息处理单元200、存储管理器126或数据集签名映射程序136实现。方法450可以在将数据集120存储在数据管理系统106的数据存储区129中之后实现。
103.在步骤453中,确定存储数据目录240(称为存储侧映射范围)的过滤器,以识别和选择感兴趣的存储数据集120。存储侧映射范围是指操作元数据133的一个或多个条件以及条件组合。所述存储侧映射范围应用于存储数据集120的操作元数据133,并且可以用于选择一个或多个数据集120(也称为“目标”)。例如,数据集签名映射程序136确定存储数据目录240的所述过滤器或存储侧映射范围。
104.在步骤456中,通过api或其它机制查询业务数据目录115,以确定业务侧映射范围内对应或可能对应于所述存储侧映射范围的业务数据集。在一个实施例中,给定在步骤453中确定的存储侧映射范围,推导出对应的业务侧映射,以识别业务数据目录115内可能对应于所述存储侧映射范围中的存储数据集120的业务数据集。在一个实施例中,所述业务侧映射范围的业务数据目录115内可以存在与所述存储侧映射范围中的存储数据集120不对应的业务数据集。
105.所述业务侧映射范围表示用于将业务相关元数据123映射、匹配和组合到数据集签名140的源。在一个实施例中,请求业务侧映射范围中有关数据集的元数据不一定与请求与一个或多个特定数据集120相关联或描述一个或多个特定数据集120的元数据相同。在业务相关元数据123和操作元数据133中,数据集的名称和粒度可以有所不同。从某种意义上说,数据集在业务级别和操作级别可能有所不同。
106.业务数据集在某种意义上是虚拟的,因为业务数据集由业务数据目录115、业务应用117或业务环境103中的业务相关元数据123表示。在一些情况下,业务数据集实际上存储在由一个或多个数据管理器管理的操作数据集中。例如,实际访问业务数据集的一部分可能涉及直接或通过副本(例如中间缓存)访问一个或多个底层存储的数据集。在本实施例中,存储管理器126或数据集签名映射程序136通过api或其它接口查询业务数据目录115,以确定所述业务侧映射范围内的业务数据集。
107.在步骤459中,通过数据集名称和其它元数据的组合,可选地利用来自存储数据目录240的先前发现的对应关系,将在步骤456中确定的业务数据集映射到对应的存储数据集120。在一个实施例中,步骤459与上面结合图4a的步骤410描述的一些步骤类似,其中,数据集签名映射程序136用于将业务数据集映射到对应的存储数据集120。
108.在步骤462中,将所述业务侧映射范围内有关业务数据集的所选元数据从业务数据目录115匹配并传播到存储数据目录240。将所选元数据与对应的存储数据集120关联,以创建或修改存储数据目录240中的数据集签名140。在一个实施例中,步骤462与上面结合图4a的步骤410描述的一些步骤类似,其中,数据集签名映射程序136用于将所述业务侧映射范围内有关业务数据集的业务相关元数据123从业务数据目录115匹配到存储数据目录
240,然后将业务相关元数据123与对应的存储数据集120关联,以创建或修改数据集签名140。
109.在一个实施例中,可以转换或修改所选元数据,然后将其传播到所述存储数据目录。从业务数据目录115中选择业务相关元数据123以传播到存储数据目录240时,数据集签名映射程序136可以以特定方式对业务相关元数据123进行编码,以向存储管理器126传送更多信息。例如,从业务数据目录115中选择业务名称时,数据集签名映射程序136可以对所述业务名称进行编码,以另外指示对应的业务是国内实体还是国际实体。传播到存储数据目录240之前对元数据进行转换或修改可以对元数据进行标准化,或者可以促进和/或提高策略管理的速度。
110.在步骤465中,在存储数据目录240中插入、更新、修改、删除或协调对应的存储数据集120的数据集签名140,以反映自上次更新数据集签名140以来的业务级元数据更改。在一个实施例中,步骤465与图4a的步骤418类似,其中,数据集签名映射程序136用于为对应的数据集120定期更新存储数据目录240中的数据集签名140。
111.图5为本发明各种实施例提供的用于实现数据影响驱动存储管理的数据集签名140的另一种信息处理系统500的图。信息处理系统500类似于信息处理系统150,不同之处在于信息处理系统500包括不只一个业务数据目录,主业务数据目录515和辅助业务数据目录516。
112.在一个实施例中,信息处理系统500的操作类似于信息处理系统150,不同之处在于存储管理器126从主业务数据目录515接收业务相关元数据123,主业务数据目录515包括从辅助业务数据目录516接收的元数据。主业务数据目录515与业务环境103相关联或属于业务环境103,并且包括描述存储在业务环境103中并由对应于业务环境103的业务实体使用的数据对象、业务应用117、流程和其它数据的元数据。在一个实施例中,辅助业务数据目录516与业务环境103相关联,但包括描述数据对象、业务应用117、流程和主业务数据目录515中未描述的其它数据的元数据。在另一个实施例中,辅助业务数据目录516与另一个业务环境103相关联,并且包括描述存储在另一个业务环境103中并由对应于另一个业务环境103的另一个业务实体使用的数据对象、业务应用、流程和其它数据的元数据。
113.在一个实施例中,主业务数据目录515从辅助业务数据目录516接收业务相关元数据123,并编排该业务相关元数据123与主业务数据目录515内的业务相关元数据的集成。在一个实施例中,存储管理器126从主业务数据目录515请求业务相关元数据123,并从业务环境103接收集成的业务相关元数据123。以这种方式,存储管理器126不必从两个不同的业务数据目录515和516分别请求、检索和协调业务相关元数据123。相反,存储管理器126在与主业务数据目录515的一次交互中从主业务数据目录515和辅助业务数据目录516两者接收业务相关元数据123。图5所示的实施例的优点在于,存储管理器126不必执行附加元数据集成,因为业务相关元数据123的集成是在业务上下文中完成的。
114.图6为本发明各种实施例提供的用于实现数据影响驱动存储管理的数据集签名140的另一种信息处理系统600的图。信息处理系统600类似于信息处理系统150,不同之处在于信息处理系统600包括不只一个存储管理器126,主存储管理器626和辅助存储管理器627。
115.在一个实施例中,信息处理系统600的操作类似于信息处理系统150,不同之处在
于主存储管理器626可以将数据集签名140传输到另一个辅助存储管理器627。主存储管理器626与数据管理系统106相关联或属于数据管理系统106,并且用于管理本地存储在数据管理系统106的数据存储区129中的数据集120。在一个实施例中,辅助存储管理器627与数据管理系统106相关联,但用于管理并非由主存储管理器626管理的数据集120的另一个子集。例如,当数据集120在存储层之间迁移时,如果数据集120附带其数据集签名140,则可以更高效、更有效地管理数据集120。在另一个实施例中,辅助存储管理器627与另一个数据管理系统106相关联,并且用于管理未存储在数据管理系统106中的其它数据集120。在一个实施例中,辅助存储管理器627与云管理器环境或数据虚拟化环境相关联。在一个实施例中,所述云管理器环境可以处理相同底层数据集120的不同视图或级别。在一个实施例中,数据虚拟化环境可以管理实际映射到由主存储管理器626管理的一些存储数据集120的虚拟数据集。
116.在一个实施例中,主存储管理器626将一个或多个数据集签名140传输到辅助存储管理器627。辅助存储管理器627可以存储数据集签名140,并使用数据集签名140代表一个或多个业务环境103执行操作。
117.图7为本发明各种实施例提供的用于实现数据影响驱动存储管理的数据集签名140的另一种信息处理系统700的图。信息处理系统700类似于信息处理系统150,不同之处在于信息处理系统700中的存储管理器126通过链路109将数据集签名140传输回业务环境103。
118.在一个实施例中,业务环境103中的业务数据目录115可以将接收的数据集签名140集成到其业务相关元数据123中,从而向业务环境103的用户提供关于数据集120的操作洞察。在另一个实施例中,业务环境103可以向存储管理器126发送对一个或多个数据集签名140的请求。存储管理器126将请求的数据集签名140传输回业务环境103。
119.图8为示出本发明各种实施例提供的在针对工作负载设计和/或调整系统时使用历史或假设数据集签名140的图800。所述系统使用系统配置文件或者系统资源、配置和拓扑的配置文件进行设计和/或调整,以提供足够的容量、响应时间、吞吐量和管理服务来满足预期工作负载的需求。在一些情况下,所述系统可以是数据管理系统、存储系统、云系统、超融合基础设施、具有独立可扩展块的复合基础设施等中的一个或多个。工作负载指的是在给定时间段内或在特定时间实例中使用所述系统的内存和/或处理能力的一系列进程。工作负载配置文件803描述业务环境103希望或期望由新的或修改后的系统执行的时变工作负载。在一个实施例中,工作负载配置文件803包括期望吞吐量、响应时间和与工作负载执行相关的其它关键性能指标的指定。系统配置文件806描述可以潜在地支持和执行工作负载配置文件803描述的工作负载的硬件(例如,存储器、处理器等)、软件、服务、配置、拓扑或资源空间等。例如,要为工作负载执行的进程由工作负载配置文件803描述,所述进程需要系统能力,系统能力由系统配置文件806描述。
120.执行工作负载的所述进程时,一个或多个数据集120可以被创建、访问、删除、修改等。数据集配置文件840指的是描述在所述工作负载的假设、模拟或历史执行期间创建和/或访问的一个或多个数据集120的数据集签名140。
121.工作负载配置文件803包括对所述工作负载的所述进程使用的数据集120的引用。在一个实施例中,基于工作负载配置文件803和数据集配置文件840,或者基于描述由对应
于工作负载配置文件803的工作负载假设使用的数据集120的数据集签名140的集合,创建系统配置文件806,而不是仅仅基于工作负载配置文件803创建系统配置文件806。使用数据集签名140确定系统配置文件806,使得所述系统的设计者或所述系统的调整者能够针对对应于工作负载配置文件803的工作负载更准确、更具体地调整和配置所述系统。这是因为数据集签名140提供了所述工作负载的所述进程使用的数据集120的更详细、更精细描述,可用于更精确地配置必要的系统硬件、软件和其它资源以满足所述工作负载的需求。以这种方式,在为工作负载创建系统配置文件806时,除了工作负载配置文件803之外,使用数据集配置文件840内的数据集签名140作为中间表示可以产生更准确设计和/或调整的系统。在一个实施例中,可以优化所述被设计和调整的系统,以最大限度地降低购置成本和运作成本,同时仍然提供期望的工作负载吞吐量和响应时间。在一个实施例中,可以考虑将多个工作负载配置文件803和/或数据集配置文件840和/或系统配置文件806用于调整和优化目的。
122.图9为本发明各种实施例提供的用于基于一个或多个数据集签名140确定工作负载的系统配置文件806的方法900的流程图。方法900可以使用一个或多个数据集120的历史捕获、假设或模拟数据集签名140来实现。
123.在步骤903中,确定待调整、指定、配置或调配的系统的工作负载配置文件803。如上所述,工作负载配置文件803描述为对应的工作负载执行的一系列进程以及所述工作负载在执行期间使用的一个或多个数据集120。在另一个实施例中,如上所述,工作负载配置文件803包括期望吞吐量、响应时间以及与未来工作负载执行相关的其它关键性能指标的指定。
124.在步骤906中,确定支持工作负载配置文件803的一个或多个系统配置文件806。如上所述,系统配置文件806描述所述系统内可用于支持和执行工作负载配置文件803中描述的工作负载进程的硬件、软件、服务、配置、拓扑、资源空间和其它能力。
125.在步骤909中,基于在工作负载配置文件803中标识为在工作负载配置文件803的假设、模拟或历史执行期间访问或使用的数据集120,为工作负载配置文件803确定包括一个或多个数据集签名140的数据集配置文件840。在一个实施例中,基于对先前工作负载或具有类似进程的工作负载配置文件803的先前经验,确定包含在数据集配置文件840中的数据集签名140。
126.在步骤912中,针对为工作负载配置文件803确定的数据集配置文件840评估一个或多个系统配置文件806,以基于业务属性消除、修改或改进一个或多个系统配置文件806。所述业务属性指的是由业务环境103定义的性能、成本、灵活性或任何其它目标,应根据这些属性优化所述工作负载。数据集配置文件840的数据集签名140中包含的详细信息可以指示使用数据集120执行特定进程可能不需要系统配置文件806的某些方面。在这种情况下,可以修改或减少系统配置文件806,以消耗比先前指示的更少的资源。
127.在一个实施例中,基于业务需求、业务属性和权衡分析,选择一个或多个系统配置文件806中的一个系统配置文件806。未来可以对数据管理系统106进行调整、配置和调配,以执行对应于工作负载配置文件803的工作负载。在另一个实施例中,可以省略步骤906,并且可以在步骤912开始时基于数据集配置文件840和工作负载配置文件803确定一个或多个系统配置文件。
128.图10为示出本发明各种实施例提供的基于数据集签名140调用、执行或编排的系统管理策略243的各种示例的图。在一个实施例中,系统管理策略243可以由策略管理器137调用、执行或编排。虽然一些系统管理策略243调用并执行对数据集120的操作,但其它策略适用于存储管理、云管理和系统管理。如上所述,数据集签名140包括关于存储在数据管理系统106中的数据集120的详细元数据,操作元数据133和业务相关元数据123。由于存储在数据集签名140中的附加详细信息,策略管理器137可以利用系统管理策略243更高效、更准确、更低延迟、更精细、更全面和/或更适时地调用对数据集120的细粒度操作。在其它实施例中,系统管理策略243可以改进为存储在数据管理系统106中的数据集120创建数据集签名140中的匹配和/或映射步骤,和/或数据集120之间的关系的识别。在其它实施例中,系统管理策略243使管理软件能够提高系统管理、工作负载管理和/或事件管理流程的效率、性能、自动化、正确性和/或结果。
129.在各种实施例中,基于与数据集120相关联的某些参数实现系统管理策略243。在一个实施例中,系统管理策略243基于包含在描述数据集120的数据集签名140内的元数据应用于数据集120。系统管理策略243可以基于包含在描述数据集120的数据集签名140内的元数据和数据集120的当前位置应用于数据集120。系统管理策略243可以基于包含在描述数据集120的数据集签名140内的元数据以及包含在描述第二数据集120的第二数据集签名140中的元数据应用于数据集120,其中第二数据集120与数据集120相关。系统管理策略243可以基于包含在描述数据集120的数据集签名140内的元数据以及对数据集120执行的操作应用于数据集120。系统管理策略243可以基于包含在描述数据集120的数据集签名140内的元数据以及请求访问数据集120的用户应用于数据集120。系统管理策略243可以基于包含在描述数据集120的数据集签名140内的元数据以及指示所述数据管理系统访问数据集120要执行的工作负载的工作负载配置文件应用于数据集120。在其它实施例中,可以调度系统管理策略243以进行应用,或者向策略管理器137提出以进行应用,而不是如上所述立即应用。如上所述,在其它实施例中,系统管理策略243可以应用于数据管理、存储管理、系统管理、云管理、工作负载管理和/或事件管理。
130.图10列出了系统管理策略243的各示例,这些策略指示可以由策略管理器137使用数据集签名140更高效、更准确、更低延迟、更全面和/或更适时地实施、执行或编排的操作。此处描述的系统管理策略243指示的各种操作在本文中可以统称为数据操纵操作。在一个实施例中,优选位置策略1001指示特定类型的元数据(如数据集签名140所指示)描述的数据集120应存储在数据管理系统106内部或数据管理系统106外部的特定类型的位置或特定位置。优选位置策略1001可以指示数据操纵操作,或包括存储在数据管理系统106中的一组指令,所述指令指示策略管理器137基于数据集120的数据集签名140,将数据集120存储在数据管理系统106内部或数据管理系统106外部的某种类型的位置或特定位置。可以确定为数据集120指定的位置,以提高访问重要数据集120的性能和重要数据集120的安全性,并平衡存储在数据管理系统106中的数据集120的负载。
131.在一个实施例中,数据移动性策略1002指示特定类型的元数据(如在数据集签名140中所标识)描述并且存储在特定位置的数据集120应迁移到数据管理系统106内部或数据管理系统106外部的另一种类型的位置或特定位置。数据移动性策略1002可以指示数据操纵操作,或包括存储在数据管理系统106中的一组指令,所述指令指示策略管理器137基
于数据集120的数据集签名140和数据集120的当前位置,将数据集120的位置更改为另一个位置。所述指令可以指示策略管理器137定期或基于触发事件改变数据集120的位置,以响应数据集120与数据集签名140相关联。数据移动性策略1002可以用于定期或基于触发事件将数据集120移动或将数据集120复制到另一个位置。
132.在一个实施例中,重复数据删除策略1003指示由特定类型的元数据(如在数据集签名140中所标识)描述的数据集120应删除重复数据,使得从存储中删除数据集120的任何重复数据以节省空间。重复数据删除策略1003可以指示数据操纵操作,或包括存储在数据管理系统106中的一组指令,所述指令指示策略管理器137删除数据集120的重复数据,以响应数据集120与数据集签名140相关联。在其它实施例中,重复数据删除策略1003指示何时应执行重复数据删除,和/或发现的重复数据中的哪些重复数据应保留(例如,保留最新的副本)。
133.在一个实施例中,数据压缩策略1004指示特定类型的元数据(如在数据集签名140中所标识)描述的数据集120应压缩,以减小数据集120的大小。数据压缩策略1004可以指示数据操纵操作,或包括存储在数据管理系统106中的一组指令,所述指令指示策略管理器137压缩数据集120,以响应数据集120与数据集签名140相关联。在一个实施例中,当数据集120第一次存储在数据管理系统106中时,触发数据压缩策略1004。
134.在一个实施例中,命名空间映射策略1005指示业务相关元数据123描述的数据集120与操作元数据133描述的一个或多个其它数据集120之间存在命名空间映射。或者,操作元数据133描述的一个数据集120可以具有到业务相关元数据描述的一个或多个数据集120的命名空间映射。此类映射,可以是1:1、1:n、m:1或很少是m:n,先于元数据的组合以创建或更新数据集签名140,如图4a中所描述。命名空间映射策略1005可以指示数据操纵操作,或包括存储在数据管理系统106中的一组指令,所述指令指示数据集签名映射程序136断言两个或多个数据集120之间的命名空间映射。此类策略将数据集120的存储视图连接到数据集120的业务视图,以识别高业务影响数据集120和/或将其货币化。
135.在一个实施例中,标记策略1006指示特定类型的元数据(如在数据集签名140中所标识)描述的数据集120应标记或标识为特定类型的数据集120。标记策略1006可以指示数据操纵操作,或包括存储在数据管理系统106中的一组指令,所述指令指示策略管理器137标记数据集120,以响应数据集签名140与数据集120相关联。一旦数据集120标记或标识为特定类型的数据集120,数据管理系统106和业务环境103便可以区别对待数据集120与其它数据集120,例如,在其访问、位置、副本和/或更新方面。基于数据集签名中标识或反映的业务重要性标记数据集120的标记策略1006允许针对业务优化高影响数据。
136.在一个实施例中,关系标识策略1007指示特定类型的元数据(如在数据集签名140中所标识)描述的数据集120与数据集签名140中标识的特定类型的元数据同样描述的一个或多个其它数据集之间存在关系。关系标识策略1007可以指示数据操纵操作,或包括存储在数据管理系统106中的一组指令,所述指令指示策略管理器137基于与每个数据集120相关联的数据集签名140,断言一个或多个数据集120之间的关系。所述指令可以指示策略管理器137基于第一数据集120的数据集签名140和第二数据集120的数据集签名140,先确定第一数据集120和第二数据集120之间是否存在关系。然后,所述指令可以指示策略管理器137更新第一数据集120的数据集签名140和/或第二数据集120的数据集签名140内的操作
元数据133和/或业务元数据123,以响应于第一数据集120和第二数据集120之间存在的关系。例如,数据集120之间存在的关系可以是两个数据集120互为副本、一个数据集120是另一数据集120的不同版本,一个数据集120是另一数据集120的子集,一个数据集120是另一数据集120的转换等。然后,在元数据中检测和维护数据集120之间关系的记录可以有利地触发对一个或多个数据集120的附加策略调用或操作。
137.在一个实施例中,触发操作策略1008指示:当对特定类型的元数据(如在数据集签名140中所标识)描述的数据集120执行操作时,可能还需要对数据集120执行其它操作。例如,当访问具有数据集签名140的数据集120(第一操作)时,还可以将数据集120复制到缓存(第二操作)。以这种方式,触发操作策略1008可以指示数据操纵操作,或包括存储在数据管理系统106中的一组指令,所述指令指示策略管理器137对数据集120执行一个或多个附加操作,以响应数据集120与数据集签名140相关联以及对数据集120执行的第一操作。
138.在一个实施例中,传播操作策略1009指示:当对特定类型的元数据(如在数据集签名140中所标识)描述的第一数据集120执行操作时,可能还需要对与第一数据集120相关的其它数据集120执行其它操作。例如,当删除第一数据集120时,可能还需要删除第一数据集120的其它相关数据集120(如副本、子集、转换等)。传播操作策略1009可以指示数据操纵操作,或包括存储在数据管理系统106中的一组指令,所述指令指示策略管理器137对其它相关数据集120执行一个或多个附加操作,以响应第一数据集120与数据集签名140相关联以及对第一数据集120执行的第一操作。
139.在一个实施例中,访问管理策略1010指示基于请求的操作和提出请求的用户(无论是否为人),是允许还是拒绝访问存储在特定位置的具有特定元数据(如数据集签名140所标识)的数据集120。访问管理策略1010可以指示数据操纵操作,或包括存储在数据管理系统106中的一组指令,所述指令指示策略管理器137基于数据集签名140、数据集120的位置、请求对数据集120执行的操作和/或请求对数据集120执行所述操作的用户,确定是允许还是拒绝访问数据集120。访问管理策略1010可以帮助基于数据集签名140中的元数据更有选择地实施访问策略,还可以帮助跨异构数据存储一致地实施访问策略。
140.在一个实施例中,访问启用策略1011指示如何基于请求的操作和提出请求的用户,允许访问存储在特定位置的具有特定元数据(如数据集签名140所标识)的数据集120。访问启用策略1011可以指示数据操纵操作,或包括存储在数据管理系统106中的一组指令,所述指令指示策略管理器137基于数据集签名140、数据集120的位置、对数据集120的请求操作和/或请求对数据集120执行访问操作的用户,允许受限访问数据集120或者确定是否转换、掩蔽或允许访问数据集120。访问启用策略1011可以帮助净化或匿名化请求的数据集120,尤其是请求的数据集120中包含敏感个人识别信息、医疗详细信息、财务详细信息、历史详细信息或类似信息的情况下。
141.在一个实施例中,配置策略1012部分地基于存储在特定位置的具有特定元数据(如数据集签名140所标识)且可选地与特定工作负载配置文件803相关联的一个或多个数据集120,指示现有或未来系统或其工作负载参数的配置。对于现有系统,配置策略1012可以指示数据操纵操作,或包括存储在数据库管理系统106中或数据库管理系统106外部的一组指令,所述指令指示管理工具修改所述现有系统的配置或工作负载参数。在一个实施例中,配置策略1012针对预期的未来工作负载优化存储和云配置。未来系统或其工作负载参
数的配置可以描述数据集120的预期放置或处理,或修改系统配置文件806的配置,和/或描述应放置工作负载的位置和方式。
142.在一个实施例中,调配策略1013指示如何针对数据管理系统106内的工作负载调配各种类型和容量的存储层,以存储具有特定元数据(如数据集签名140所标识)的一个或多个数据集120。调配策略1013可以指示数据操纵操作,或包括存储在数据管理系统106中的一组指令,所述指令指示策略管理器137按照调配策略1013中的描述调配存储层。调配策略1013基于用户配置文件、预期的数据量和类型以及预测的工作负载调配存储,以将各种类型的数据集120存储在可能不止一个位置。在一个实施例中,调配策略1013基于特定元数据(如数据集签名140所标识)编排计算和/或网络等系统资源的调配。
143.在一个实施例中,工作负载迁移策略1014指示,根据特定类型的元数据(如在数据集签名140中所标识)描述的并且与特定工作负载相关联的一个或多个数据集120,应将所述工作负载的全部或部分迁移到另一个位置,例如云服务器。这不同于迁移由所述特定工作负载访问的任何或所有数据集120。工作负载迁移策略1014可以指示数据操纵操作,或包括存储在数据管理系统106中或数据管理系统106外部的一组指令,所述指令指示系统管理和/或工作负载管理工具迁移所述工作负载。在一个实施例中,工作负载迁移策略可以一次、多次、定期或在特定情况下编排工作负载迁移。工作负载迁移策略1014向管理工具提供决策和指令以在被视为合适之时迁移工作负载,以更好地访问数据、提高性能和平衡数据管理系统106或其它系统的负载。
144.在一个实施例中,事件响应策略1015指示:当特定类型的元数据(如在数据集签名140中所标识)描述的数据集120处发生事件时,可以为数据集120和/或其它系统或对象执行或编排适用的策略。事件响应策略1015可以指示数据操纵操作,或包括存储在数据管理系统106中的一组指令,所述指令指示策略管理器137在数据集120处发生事件时,基于数据集签名140、访问数据集120的工作负载、数据集120的位置和/或访问数据集120的用户,为数据集120执行策略。事件响应策略1015提供指令以自动响应策略适用的数据集120处的事件。在一个实施例中,当数据集120处发生事件或数据集120受事件影响时,可以为数据集120和/或其它系统或对象执行或编排适用的策略。例如,在恢复数据管理系统的先前状态期间(事件),可能不允许访问与特定业务组织相关联的数据集120。
145.在一个实施例中,事件识别策略1016指示:当特定类型的元数据(如在数据集签名140中所标识)描述的数据集120处发生一个或多个事件时,可以检测另一个事件并将其识别为所述一个或多个事件的根本原因。事件识别策略1016可以指示数据操纵操作,或包括存储在数据管理系统106中的一组指令,所述指令指示策略管理器137将在数据集120处发生的事件识别为导致在数据管理系统106处发生的其它事件或故障的根本原因或故障。可以基于数据集签名140和/或访问数据集120的工作负载识别所述事件。事件识别策略1016用于调试或确定数据管理系统106处可能发生的系统瓶颈的指纹。复杂事件可能难以识别和追踪根本原因,并且考虑一个或多个数据集签名140可以提供对此类识别和追踪的有价值洞察。例如,通过考虑业务环境103内特定组织拥有的一个或多个数据集120的数据集签名140,可以更快速地识别访问这些数据集120的未经授权尝试。
146.在一个实施例中,情境策略1017指示可以为特定类型的元数据(如在数据集签名140中所标识)描述的数据集120执行或编排特定策略或操作,以基于机器学习或训练数据
相对于最佳性能和操作控制数据管理系统106的性能和操作。情境策略1017可以指示数据操纵操作,或包括存储在数据管理系统106中的一组指令,所述指令指示策略管理器137基于数据集签名140、要使用数据集120执行的工作负载、要对数据集120执行的操作或已对数据集120执行的操作、数据集120的位置和/或请求访问数据集120的用户,编排或执行一个或多个策略。在一个实施例中,系统管理策略243可以组织在涵盖所有或大多数情况的多维表中。在一个实施例中,可以为数据集120和/或其它系统或对象执行或编排适用于当前情况的情景策略1017。
147.在一个实施例中,权衡策略1018至少部分地基于特定类型的元数据(如在数据集签名140中所标识)描述、存储在特定位置并由工作负载访问的数据集120,指示某些业务属性的偏好和/或权重。权衡策略1018允许数据管理系统106和/或其它管理系统在设置用于优化影响、性能、成本或其它业务属性的偏好等级时考虑数据集签名140。设置偏好等级后,即可激活访问和考虑这些偏好等级的管理策略,从而可以编排对所述数据管理系统或其它系统执行的操作。简言之,可以利用在数据集签名140中捕获的关于数据集120的改进知识来确定优化偏好中的权衡。
148.在一个实施例中,策略创建策略1019使得能够为特定类型的元数据(如在数据集签名140中所标识)描述的数据集120创建附加系统管理策略243。策略创建策略1019可以指示数据操纵操作,或包括存储在数据管理系统106中的一组指令,所述指令指示策略管理器137基于数据集签名140、已对或要对数据集120执行的操作、数据集120的位置和/或访问数据集120的工作负载,断言和激活用于数据集120的新系统管理策略243。在一个实施例中,策略创建策略1019可以通过机器学习识别要求系统管理工具执行的通用动作或编排,这些通用动作或编排在数据管理系统106内执行并且与数据集120管理直接或间接相关,然后可以创建自动化系统管理策略,以在类似情况下发起这些动作或编排。在一个实施例中,可以对其它系统采取这些动作或编排,和/或可以涉及云管理、工作负载管理和/或系统配置。
149.图11为本发明各种实施例提供的用于实现数据影响驱动存储管理的数据集签名140的方法1100的流程图。方法1100可以由数据管理系统106中的信息处理单元200或存储管理器126实现。方法1100可以在将数据集120存储在数据管理系统106的数据存储区129中之后实现。
150.在步骤1103中,将描述数据集120的操作元数据133存储在数据管理系统106的存储器233中,例如,存储在数据目录240中。数据目录240可以存储在信息处理单元200的存储器233中,信息处理单元200可以实现为存储管理器126。例如,数据集签名映射程序136将描述数据集120的操作元数据133存储在信息处理单元200或数据管理系统106的存储器233中。
151.在步骤1104中,从一个或多个业务环境103接收描述数据集120的业务影响特征的业务相关元数据123。业务环境103在数据管理系统106的外部。例如,实现为存储管理器126的信息处理单元200的tx/rx 210从与一个或多个业务环境103相关联的一个或多个业务数据目录115接收业务相关元数据123。在一个实施例中,数据集签名映射程序136从业务环境103接收业务相关元数据123。
152.在步骤1106中,生成包括描述数据集120的操作元数据133和业务相关元数据123的组合的数据集签名140,并将其存储在数据管理系统106中。例如,数据集签名映射程序
136在由实现为存储管理器126的信息处理单元200的处理器230执行时,生成包括操作元数据133和业务相关元数据123的数据集签名140。数据集签名140也可以存储在实现为存储管理器126的信息处理单元200的存储器233中。
153.在步骤1108中,使用数据集签名140中的操作元数据133和业务相关元数据123的组合对数据集120执行数据操纵操作。上面结合图10进一步描述了被增强以更高效、更准确、更低延迟、更全面和/或更适时地执行的各种类型的操作的示例。例如,策略管理器137在由信息处理单元200的处理器230执行时,基于数据集签名140对数据集执行或请求操作。对数据集120执行的所述操作可以是数据管理系统106对数据集120执行的读取、写入、复制、移动、转换或任何其它类型的操作。
154.本文描述的实施例描述了一种关于以下内容的技术方案:通过使用与上级上下文相关的信息扩展下级上下文中被管理对象的配置文件(例如,创建包括描述数据集120的操作元数据133和业务相关元数据123的组合的数据签名配置文件140),将语义上有意义的信息上下文(即,层)与其下的操作上下文连接起来。这可以应用于存在此类上下文的其它对象和系统管理情况。下级上下文可以指存储数据集120。存储数据集120之上的第二上下文可以包括按需数据虚拟化。存储数据集120之上的第三上下文,转换能力和数据复制或移动操作,可以包括dataops流程和流程流的层。存储数据集120之上的上级上下文,流处理能力和即时分析模型评估,可以包括高级物联网(internet of things,iot)状态表征和事件识别。
155.本文描述的实施例还将流程中的能力组合在一起。然而,所述流程中的单独步骤可以分拆,以应用于并非需要所有步骤的不同环境中。例如,使用本文公开的实施例,可以基于在上述各种上下文中观察到的、推断的或抓取的对象的值表示分拆这些对象的元数据扩充。本文公开的实施例还可应用于分拆跨上述上下文和系统的数据目录映射和集成能力。此外,本文公开的实施例还可用于将增强型数据配置文件的服务分拆到一套更广泛的管理系统中。
156.图12为本发明各种实施例提供的用于实现数据影响驱动存储管理的数据集签名140的装置1200的图。装置1200包括用于存储的工具1203、用于接收的工具1206和用于执行的工具1209。用于存储的工具1203包括用于将描述数据集120的操作元数据133存储在装置1200的存储器233中的工具。用于接收的工具1206包括用于从一个或多个业务环境103接收描述数据集120的业务影响特征的业务相关元数据123的工具,业务环境103在装置1200的外部。用于存储的工具1203还包括用于存储包括描述数据集120的操作元数据133和业务相关元数据123的组合的数据集签名140的工具。用于执行的工具1209包括用于使用数据集签名140中的操作元数据133和业务相关元数据123的所述组合对数据集120执行数据操纵操作的工具。
157.虽然本发明中已提供若干实施例,但应理解,在不脱离本发明的精神或范围的情况下,本发明所公开的系统和方法可以以许多其它特定形式来体现。本发明的示例应被视为说明性而非限制性的,且本发明并不限于本文所给出的细节。例如,各种元件或组件可以在另一系统中组合或合并,或者某些特征可以省略或不实现。
158.此外,在不脱离本发明的范围的情况下,各种实施例中描述和说明为离散或单独的技术、系统、子系统和方法可以与其它系统、模块、技术或方法进行组合或合并。展示或论
述为耦合的其它项目可以直接耦合,也可以通过用电的方式、机械方式或其它方式经由某一接口、设备或中间组件间接地耦合或通信。其它示例的变化、替代和更改可以由本领域的技术人员在不脱离本发明的精神和所公开的范围的情况下确定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献