一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据分级处理方法及装置、电子设备及计算机可读介质与流程

2022-10-13 03:15:40 来源:中国专利 TAG:


1.本技术涉及计算机信息处理领域,具体而言,涉及一种数据分级处理方法及装置、电子设备及计算机可读介质。


背景技术:

2.互联网和其他网络(包括电信网、移动网、物联网等)的交汇融合,进一步推动了人类社会、信息空间、物理世界的融合,形成新的人机物融合计算环境,催生了智慧家居、智慧城市、智能制造等人机物融合应用。人机物融合标志着正从终端互联、用户互联、应用互联走向万物互联,信息技术及其应用更加无处不在,“大数据”随之产生,信息化的第三波浪潮(信息化3.0),即以数据的深度挖掘与融合应用为主要特征的智能化阶段正在开启。数据成为了“万物数字化”新世界图景中的基础性战略资源和关键性生产要素。
3.人机物融合的一个共性需求是数据互联互通与智能应用。例如,智慧城市需要汇聚政务数据、社会数据,甚至个人数据,以掌握和预测城市运行状态,实现智能决策和高效治理;智能制造需要打通产业链上下游、企业各部门、工厂各生产设备之间的数据,以实现生产制造全流程的精准监测和控制。
4.互联网解决了机器之间的数据传输问题,为数据互联互通提供了基本的技术手段。但是,互联网无法避免和解决信息技术及其应用的不断发展带来的信息孤岛、数据失控、数据确权等诸多难题,其根本原因在于,互联网的核心——tcp/ip协议仅关注数据在“二进制位”层面的编解码和传输控制,保障以“包”为单位的数据在不同计算设备之间高效交换,在网络的任何设备上都得到一致的二进制包,而数据的标识、编码和解析均依赖于上层应用处理。因此,为了在互联网数据传输的基础上实现数据的互联互通,应用系统之间需自行协调,在数据语法、语义、语用等层面达成一致,并面临着协调成本高、责权效难保障,以及低效、易错、难复盘等挑战。
5.为了在不可信不可控的互联网之上实现可信可管可控的数据互联互通和智能应用,学术界和产业界提出了多种解决方案。例如,数据中台汇聚数据,并以标准api为上层应用提供统一的数据访问服务,降低数据应用开发的复杂度,从而解决数据互联互通中的信息孤岛问题;联邦学习平台在数据产生源头训练模型,采用加密机制交换和汇聚中间计算结果,数据无须离开本地仍可实现共同训练模型,从而解决数据互联互通中的数据失控问题。
6.考察现有解决方案,不难发现,它们均通过在互联网之上搭建软件平台实现可信可管可控的数据互联互通。虽然平台内部各方的数据能够可信流通,但平台之间的数据流通却仍然存在着难理解、难访问、难管控等问题。这一状况与互联网发展早期非常类似,各个组织采用私有化协议构建其内部网络,网络内的计算机之间可以实现可靠连通,但网络之间却难以互通。图灵奖得主温顿
·
瑟夫(vinton cerf)和罗伯特
·
卡恩(robert kahn) 于1973年合作开发出tcp/ip协议这一互联网的核心技术,其核心思想是通过开放式体系结构和标准化协议解决上述异构网络互联的难题。
7.因此,针对现有平台化数据互联互通的问题,一种可行的思路是借鉴互联网的设计理念,采用软件定义的思路,通过以数据为中心的开放式软件体系结构和标准化互操作协议,将各种异构数据平台和系统连接起来,从而在“物理/机器”互联网之上形成一个“虚拟/数据”网络,可称之为“数据互联网”(internet of data),简称“数联网”,进而实现全网一体化的数据互联互通和智能应用。
8.实际上,国内外均已针对数联网这一理念开展了早期探索。其中,最具代表性的当属罗伯特
·
卡恩提出的数字对象架构(digital objectarchitecture,doa)。卡恩继20世纪70年代发明机器互联互通的tcp/ip 协议之后,为了在互联网之上建立一套世界各国共建共用共治的数字对象架构,于21世纪初正式提出数据互联互通的数字对象接口协议(digitalobject interface protocol,doip)和数字对象标识解析协议(digital objectidentifier resolution protocol,do-irp),并在2014年成立技术标准开放基金会dona以推广doa。目前doa已在国际电信联盟电信标准分局 (itu-t)发表了两个标准建议稿,建立了全球化的数字对象标识解析系统及多个应用系统,使得doa成为数联网这一新兴领域最具影响力的技术和标准体系。
9.doa已在数字图书馆领域取得了全球性的规模化应用,即doi系统。通过将书籍、论文、报告、视频等数字资源构建为数字对象,并分配唯一且持久的doi标识,可以在任意一个支持doi的应用系统中解析到该标识对应的文献实体,避免了在统一资源定位器(url)中常见的因资源位置变化而导致的资源不可访问的问题。截至2021年5月,doi系统在全球已注册了约2.57亿数字对象,覆盖了ieee、acm、springer、万方、知网等众多国内外学术数据库。
10.通过在doi系统进行检索,可实现根据元数据检索到具体数据的技术效果,然而,目前的检索方式比较单一,无法实现灵活查找。


技术实现要素:

11.有鉴于此,本技术提供一种数据分级处理方法及装置、电子设备及计算机可读介质,避免了在统一资源定位器(url)中常见的因资源位置变化而导致的资源不可访问的问题,达到了可以在任意一个支持doi的应用系统中解析到该标识对应的文献实体的技术效果,并且,本技术通过将数据进行分级,并对分级后的数据分级存储,能够通过任意一级数据的内容查找到全文的内容,实现了灵活的查找方式。
12.根据本技术的一方面,提出一种数据分级处理方法,所述方法包括:获取待处理数据;对所述待处理数据进行分级获得分级的数据;根据所述分级的数据确定各个层级的数字对象,所述数字对象包括元数据和具体数据;对于每个层级的数字对象,执行以下步骤:将数字对象的元数据存入注册表;将数字对象的唯一标识注册到注册系统中并分配一个数据仓库;将数字对象的具体数据存入所述数据仓库,所述具体数据为反映所述待处理数据本身内容的信息,所述元数据用于描述数字对象,所述元数据包括数字对象的唯一标识、数字对象的标签,所述数字对象的标签用于用户对数字对象进行搜索时与搜索关键词匹配;确定搜索关键词;将搜索关键词与所述元数据中的标签相匹配,筛选出匹配成功的标签所对应的数字对象并获取其唯一标识;根据所述唯一标识从所述注册系统中查询存储数字对象的具体数据的数据仓库;从查询到的数据仓库中获取数字对象的具体数据。
13.进一步地,所述元数据还包括层级数据,所述层级数据包括上一层级和/或下一层
级数字对象的唯一标识,不同层级的数据对象的唯一标识使用预设方式进行区分。
14.进一步地,所述方法还包括:确定出匹配成功的标签所对应的数字对象的元数据中的层级数据;根据所述层级数据逐级确定上一层级的数字对象,直至确定最高层级的数字对象;根据最高层级的数字对象逐级确定下一层级的所有数字对象,直至确定出最低层级的所有数字对象;从注册系统中查询所有存储最低层级的数字对象的数据仓库;从数据仓库中查询所有最低层级的数字对象的具体数据。
15.进一步地,所述数据搜索步骤还包括:确定出匹配成功的标签所对应的数字对象的元数据中的层级数据;根据所述层级数据确定最高层级的数字对象;从注册系统中查询存储最高层级的数字对象的数据仓库;从数据仓库中查询最高层级的数字对象的具体数据。
16.进一步地,所述方法还包括:根据元数据中的层级数据逐级确定上一层级的数字对象,直至确定最高层级的数字对象;将新增层级数据添加到最高层级的数字对象的元数据中。
17.根据本技术的另一方面,提出一种数据分级处理装置,所述装置包括:数据获取单元、数据分级单元、基于数字对象体系的分级注册和存储单元、搜索单元,所述数据获取单元用于:获取待处理数据;所述数据分级单元用于:对所述待处理数据进行分级获得分级的数据;所述基于数字对象体系的分级注册和存储单元用于:根据所述分级的数据确定各个层级的数字对象,所述数字对象包括元数据和具体数据;对于每个层级的数字对象,执行以下步骤:将数字对象的元数据存入注册表;将数字对象的唯一标识注册到所述注册系统中并分配一个数据仓库;将数字对象的具体数据存入所述数据仓库,所述具体数据为反映所述待处理数据本身内容的信息,所述元数据用于描述数字对象,所述元数据包括数字对象的唯一标识、数字对象的标签,所述数字对象的标签用于用户对数字对象进行搜索时与搜索关键词匹配,所述搜索单元用于:确定搜索关键词;将搜索关键词与所述元数据中的标签相匹配,筛选出匹配成功的标签所对应的数字对象并获取其唯一标识;根据所述唯一标识从所述注册系统中查询存储数字对象的具体数据的数据仓库;从查询到的数据仓库中获取数字对象的具体数据。
18.进一步地,所述元数据还包括层级数据,所述层级数据包括上一层级和/或下一层级数字对象的唯一标识,不同层级的数据对象的唯一标识使用预设方式进行区分。
19.进一步地,所述装置还包括添加单元,所述添加单元用于:根据元数据中的层级数据逐级确定上一层级的数字对象,直至确定最高层级的数字对象;将新增层级数据添加到最高层级的数字对象的元数据中。
20.根据本技术的又一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
21.根据本技术的又一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。
22.本技术提供的数据分级处理方法,包括:获取待处理数据;对所述待处理数据进行分级获得分级的数据;根据所述分级的数据确定各个层级的数字对象,所述数字对象包括元数据和具体数据;对于每个层级的数字对象,执行以下步骤:将数字对象的元数据存入注
册表;将数字对象的唯一标识注册到注册系统中并分配一个数据仓库;将数字对象的具体数据存入所述数据仓库,所述具体数据为反映所述待处理数据本身内容的信息,所述元数据用于描述数字对象,所述元数据包括数字对象的唯一标识、数字对象的标签,所述数字对象的标签用于用户对数字对象进行搜索时与搜索关键词匹配;确定搜索关键词;将搜索关键词与所述元数据中的标签相匹配,筛选出匹配成功的标签所对应的数字对象并获取其唯一标识;根据所述唯一标识从所述注册系统中查询存储数字对象的具体数据的数据仓库;从查询到的数据仓库中获取数字对象的具体数据。通过采用doa系统/架构,每个数字对象都被分配一个全局唯一的标识。标识作为数字对象的核心属性,不以数字对象的所有者、存储位置、访问方式的改变而改变。可以在任意一个支持doi的应用系统中解析到该标识对应的文献实体,避免了在统一资源定位器(url)中常见的因资源位置变化而导致的资源不可访问的问题,并且,本技术通过将数据进行分级,并对分级后的数据分级存储,能够通过任意一级数据的内容查找到全文的内容,实现了灵活的查找方式。
附图说明
23.通过参照附图详细描述其示例实施例,本技术的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
24.图1是根据一示例性实施例示出的一种数据分级处理方法的流程图。
25.图2是根据一示例性实施例示出的一种关联分析结果的示意图。
26.图3是根据另一示例性实施例示出的一种数据分级处理装置的框图。
27.图4是根据一示例性实施例示出的一种电子设备的框图。
28.图5是根据一示例性实施例示出的一种计算机可读介质的框图。
具体实施方式
29.现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本技术将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
30.此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本技术的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本技术的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本技术的各方面。
31.附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
32.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
33.应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本技术概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
34.本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本技术所必须的,因此不能用于限制本技术的保护范围。
35.本技术中,“元数据”、“元信息”代表相同的含义;“待处理数据”、“待处理信息”代表相同的含义;“层级数据”、“层级信息”代表相同的含义。“关键字”、“关键词”代表相同的含义。
36.图1是根据本技术提供的一种数据分级处理方法的流程图。该方法基于数字对象体系。
37.所述数字对象体系(doa,digital object architecture)包括:注册表(reistry)、注册系统(handle system)、数据仓库(repository)。
38.registry用于存储do(digital object,数字对象)的元数据,handlesystem用于do的注册,并记录该do存储于哪个repository中,repository 用于存储do。
39.如图1所示,所述方法包括以下步骤:数据获取步骤、数据分级步骤、基于数字对象体系的分级注册和存储步骤、搜索步骤。
40.步骤s101:获取待处理数据。
41.待处理数据可以是已经搜集并归类完毕的数据,也可以是搜集得到的。搜集的方式包括自动化搜集和人工参与的搜集,如分布式的网络爬虫或者对此领域非常熟悉的相关专家。搜集时需要标注其所属机构或作者、生成时间及标题,如有可能还需要搜集信息关联的目标位置。
42.作为一种可选的实施方式,使用自动化爬虫的方式,首先确定重点关注的信息源,比如各大新闻媒体的网站等。当确定信息源后,需要确定爬取范围,比如是否跟踪目标网站内的外部链接,爬取的层数是多少,是否爬取文件或者图片等。
43.步骤s102:对待处理数据进行分级获得分级的数据。
44.对所述待处理数据进行分级的步骤也可以称为结构化解析步骤。根据待处理数据的类型,对待处理数据进行分级,分级完成之后,待处理数据被解析为多个最小信息单元(本技术中也简称为最小单元)。
45.信息(待处理数据)的组成可以是以文件的形式,比如一个报告包含多个文件,在这种情况下就可以将报告作为上级信息,每一个文件是其包含的子信息。除文件之外,一个网页可能包含多个链接,那么每一个链接也可看作是一个子信息单元。
46.对于网站的文字类信息,可以自顶向下进行树型结构的编排(分级)。最上级为网站信息,其次为网页信息,网页中又包含了不同文章,文章中的句子则作为数字对象的最小单元。
47.作为一种可选的实施方式,按段、按句来进行结构分析(分级)。段落解析比较简单,只需要按照回车符对文章的文档进行分割。但是句子并不能像段落一样以句号来分割,因为有些缩写如u.s.a当中也包含句号,因此还需要利用缩写语料库辅助进行句子分割。
48.分级的步骤除了包括对文章的段落和句子进行分割,还包括提取文章中的属性。
比如文章的作者、文章的机构等。借助于专业领域的知识库,还可以对句中的实体进行标注,比如标注地点、标注单位等。
49.步骤s103:基于数字对象体系分级注册和存储。
50.步骤s103具体包括:根据分级的数据确定各个层级的数字对象,数字对象包括元数据和具体数据,元数据包括了数字对象的分级信息,方便日后检索;对于每个层级的数字对象,执行以下步骤:将数字对象的元数据存入注册表;将数字对象的唯一标识注册到注册系统中并分配一个数据仓库;将数字对象的具体数据存入数据仓库,具体数据为反映待处理数据本身内容的信息,元数据用于描述数字对象,元数据包括数字对象的唯一标识、数字对象的标签,数字对象的标签用于用户对数字对象进行搜索时与搜索关键词匹配。
51.步骤s103是将步骤s102得到的分级的数据按照数字对象体系进行重新组织和存储的过程。
52.具体数据为反映待处理数据本身内容的信息。
53.数据的分级信息主要通过数字对象中的元信息体现。
54.元信息/元数据主要用来描述数字对象,便于使用者的搜索。元数据的构成比较灵活,但通常来说,会包含以下信息:数字对象的id号(在本技术中也可以称为doid或者数字对象的唯一标识)、数字对象的类型、数字对象的长度、数字对象的格式、数字对象的若干关键词(keyword,在本技术中也可以称为标签)。
55.广义来讲,任何数字对象内容本身的辅助信息都可以称为元数据,比如文章的记录时间、记录人员、记录人员对于文章可信度的确认、该信息的有效期等等。
56.步骤s104:根据搜索关键词获取数字对象的具体数据。
57.步骤s104具体包括:确定搜索关键词;将搜索关键词与元数据中的标签相匹配,筛选出匹配成功的标签所对应的数字对象并获取其唯一标识;根据唯一标识从注册系统中查询存储数字对象的具体数据的数据仓库;从查询到的数据仓库中获取数字对象的具体数据。
58.本技术提供的数据分级处理方法,包括:获取待处理数据;对待处理数据进行分级获得分级的数据;根据分级的数据确定各个层级的数字对象,数字对象包括元数据和具体数据;对于每个层级的数字对象,执行以下步骤:将数字对象的元数据存入注册表;将数字对象的唯一标识注册到注册系统中并分配一个数据仓库;将数字对象的具体数据存入数据仓库,具体数据为反映待处理数据本身内容的信息,元数据用于描述数字对象,元数据包括数字对象的唯一标识、数字对象的标签,数字对象的标签用于用户对数字对象进行搜索时与搜索关键词匹配,确定搜索关键词;将搜索关键词与元数据中的标签相匹配,筛选出匹配成功的标签所对应的数字对象并获取其唯一标识;根据唯一标识从注册系统中查询存储数字对象的具体数据的数据仓库;从查询到的数据仓库中获取数字对象的具体数据。通过采用doa系统/架构,每个数字对象都被分配一个全局唯一的标识。标识作为数字对象的核心属性,不以数字对象的所有者、存储位置、访问方式的改变而改变。可以在任意一个支持doi的应用系统中解析到该标识对应的文献实体,避免了在统一资源定位器(url)中常见的因资源位置变化而导致的资源不可访问的问题,并且,本技术通过将数据进行分级,并对分级后的数据分级存储,能够通过任意一级数据的内容查找到全文的内容,实现了灵活的查找方式。
59.接下来,详细说明本技术的方法。
60.例如,一篇文章的正文一共包括6个自然段,这6个自然段分别包括的句子数量为:1个、2个、3个、4个、2个、3个。这篇文章为待处理数据(也可以称为待处理信息)。作为一种可选的实施方式,将句子作为最小信息单元。
61.一个句子是一个信息单元(句子是最小的信息单元),一个自然段也是一个信息单元,一篇文章也是一个信息单元。这些信息单元之间存在着层级的关系。句子位于最低层级,段落位于中间层级,文章位于最高层级。句子是其所属段落的子信息单元,段落是其所属文章的子信息单元。
62.本技术通过对不同层级的信息单元的id的嵌套,来实现对信息的嵌套存储。
63.【自然段1】包括1个句子,该句为全文的第1个句子。
64.【自然段2】包括2个句子。
65.【自然段2】的第一个句子为全文的第2个句子,下文简称为句子2。
66.【自然段2】的第二个句子为全文的第3个句子,下文简称为句子3。
67.【自然段3】包括3个句子。
68.【自然段3】的第一个句子为全文的第4个句子,下文简称为句子4。
69.【自然段3】的第二个句子为全文的第5个句子,下文简称为句子5。
70.【自然段3】的第三个句子为全文的第6个句子,下文简称为句子6。
71.【自然段4】包括4个句子。
72.【自然段4】的第一个句子为全文的第7个句子,下文简称为句子7。
73.【自然段4】的第二个句子为全文的第8个句子,下文简称为句子8。
74.【自然段4】的第三个句子为全文的第9个句子,下文简称为句子9。
75.【自然段4】的第四个句子为全文的第10个句子,下文简称为句子 10。
76.【自然段5】包括2个句子。
77.【自然段5】的第一个句子为全文的第11个句子,下文简称为句子 11。
78.【自然段5】的第二个句子为全文的第12个句子,下文简称为句子 12。
79.【自然段6】包括3个句子。
80.【自然段6】的第一个句子为全文的第13个句子,下文简称为句子 13。
81.【自然段6】的第二个句子为全文的第14个句子,下文简称为句子 14。
82.【自然段6】的第三个句子为全文的第15个句子,下文简称为句子 15。
83.不同层级的数据的元数据包括的方面不同,例如,文章这个层级,可以将发表文章的机构、文章发表时间、发布文章的媒体、文章作者、文章的关键词、文章的id等作为元数据;而在段落这个层级,可以将段落的关键词、段落的id等作为元数据;在句子这个层级,可以将句子的关键词、句子的id等作为元数据。
84.本技术的发明人发现,如果将句子作为最小信息单元存入数据仓库,则可检索到的信息就是句子这个级别的。例如,上述文章一共包括15个句子,分别将这15个句子的元数据存入注册表(如表1所示),元数据中的id与数据仓库的映射关系存储于注册系统(如表2所示),将这15 个句子的具体数据存入数据仓库(如表3所示)。那么,根据搜索关键词进行检索时,只要采用合适的搜索关键词,即可检索到这些句子。
85.表1
86.元数据
[0087][0088]
表2
[0089]
[0090][0091]
表3
[0092][0093]
搜索关键词为“关键词二”,将关键词“关键词二”与表1中的标签进行匹配,匹配成功的id为100001、100015。
[0094]
在表2中,可查询到id100001对应的数据仓库编号为c0000051; id100015对应的数据仓库编号为c0000065。
[0095]
在表3中查询编号为c0000051的数据仓库存储的具体数据,就得到了句子1的内容。在表3中查询编号为c0000065的数据仓库存储的具体数据,就得到了句子15的内容。
[0096]
这样,就搜索出了该文章中标签包含“关键词二”的两句话。
[0097]
但是,发明人发现,想要基于搜索结果进行数据分析,仅仅知道两个单独的句子是不够的,还需要知道这两个句子所在的文章的内容,以及该文章的作者、机构、来源、发表时间等信息。
[0098]
发明人想到有一个方法可以对此进行改进,那就是将句子所在的文章的作者、机构、来源、发表时间等信息均作为该句子的元数据存储于注册表,这样,当根据搜索关键词检索到句子之后,能够根据元数据的内容知道这个句子所在的文章的作者、机构、来源、发表时间等信息。但是这样仍然存在两个问题:一、仍然无法知道这个句子所在的文章的具体内容。二、句子的元信息过于庞杂,冗余信息过多,占据大量存储空间。例如,上述15个句子的元信息均包含该文章的作者、机构、来源、发表时间等信息。而这些信息是完全相同的,这会造成大量的冗余信息占据存储资源。这还仅仅是文章较短的情况。如果一个文章比较长,例如有100个句子,那么每个句子的元信息都包含该文章的作者、机构、来源、发表时间等信息,这样就会导致该文章的作者、机构、来源、发表时间等信息在注册表中存储了100遍,造成冗余。
[0099]
发明人于是进一步想到,如果将句子所在的段落也赋予一个id,将该段落id作为句子的元信息进行存储,然后将段落所在的文章也赋予一个id,将该文章id作为段落的元信息进行存储。这样,当通过搜索关键词搜索出某个句子后,就能根据该句子的元信息得知该句子所在段落的 id,这样就能通过段落的id定位到段落。然后,根据该段落的元信息得到段落所在的文章的id,这样就能通过文章的id定位到句子所在的文章。而文章的元数据中包含文章的作者、机构、来源、发表时间等信息。这样,只需要将文章的作者、机构、来源、发表时间等信息作为文章的元信息,而无需将文章的作者、机构、来源、发表时间等信息作为每个句子的元信息,这就大大减小了存储的数据数量。
[0100]
发明人进一步想到,如果文章的元信息中包含该文章所包含的每个段落的id,段落的元信息中包含该段落所包含的每个句子的id,那么,就可以由文章的元信息得知每个段落的id,从而定位到每个段落,再由每个段落的元信息得知每个段落所包含的句子的id,从而定位到每个段落包含的每个句子。这样检索到某一篇文章中的任何一个句子,都可以得知该文章的全部内容。
[0101]
即,文章、段落、句子这是三个不同的层级,每个层级的元数据的选取方式不同,句子这个层级的元数据包括句子的id、该句子所属段落的 id,段落这个层级的元数据包括段落的id、该段落所属文章的id、该段落所包含的所有句子的id。
[0102]
不同层级的数据的id可以使用前缀、后缀等进行区分。例如,表4 中,第一位为1的是句子的id,第一位为2的是段落的id,第一位为3 的是文章的id。例如,“100001”、“100002”、
……
、“100015”这 15个id的第一位为1,是句子的id。例如,“200001”、“200002”、
……
、“200006”这6个id的第一位为2,是段落的id。例如,“300001”第一位为3,是文章的id。
[0103]
表4
[0104]
元数据
[0105]
[0106]
[0107][0108]
搜索关键词为“关键词二”,将关键词“关键词二”与表4中的标签进行匹配,匹配成功的id为100001、100015、200001、200006、300001。
[0109]
如前文所述,表4中,第一位为1的是句子的id,第一位为2的是段落的id,第一位为3的是文章的id。因此可以知道,id100001、id100015 为句子的id,id200001、id200006为段落的id,id300001为文章的id。
[0110]
根据这5个id中的任意一个,能够得知文章的全部内容。
[0111]
根据id100001查询文章全部内容的方法如下:
[0112]
在表4中,可查询到id100001上一级数据的id为200001,在表4 中查询id200001上一级数据的id,查到的id为300001,id300001的元数据中不包含上一级数据的id,因此,id300001为最高层级的数据。在表4中查询id300001的下一级数据的id,查到的id为200001、200002、 200003、200004、200005、200006。在表4中查询id200001的下一级数据的id,查到的id为100001。在表4中查询id200002的下一级数据的 id,查到的id为100002、100003。在表4中查询id200003的下一级数据的id,查到的id为100004、100005、100006。在表4中查询id200004 的下一级数据的id,查到的id为100007、100008、100009、100010。在表4中查询id200005的下一级数据的id,查到的id为100011、100012。在表4中查询id200006的下一级数据的id,查到的id为100013、100014、 100015。由于id100001、id100002、id100003、id100004、id100005、 id100006、id100007、id100008、id100009、id100010、id100011、id100012、 id100013、id100014、id100015的元数据中均不包含下一级数据的id,因此,说明这些数据为最低层级的数据。这样就知道了文章的全部句子的 id(最低层级的所有数据的id),根据这15个句子中每个句子的id在表2中查询相应的数据仓库的编号,再根据数据仓库的编号在表3中查询数据仓库中存储的具体数据。这样就能够根据一个句子还原其所在的文章。并且,文章作者等信息也可以由id300001的元数据得知。
[0113]
根据id100015查询文章全部内容的方法与根据id100001查询文章全部内容的方法类似,不再赘述。
[0114]
根据id200001查询文章全部内容的方法如下:
[0115]
在表4中,查询id200001上一级数据的id,查到的id为300001, id300001的元数据中不包含上一级数据的id,因此,id300001为最高层级的数据。在表4中查询id300001的下一级数据的id,查到的id为 200001、200002、200003、200004、200005、200006。在表4中查询id200001 的下一级数据的id,查到的id为100001。在表4中查询id200002的下一级数据的id,查到的id为100002、100003。在表4中查询id200003 的下一级数据的id,查到的id为100004、100005、100006。在表4中查询id200004的下一级数据的id,查到的id为100007、100008、100009、 100010。在表4中查询id200005的下一级数据的id,查到的id为100011、 100012。在表4中查询id200006的下一级数据的id,查到的id为100013、 100014、100015。由于id100001、id100002、id100003、id100004、id100005、 id100006、id100007、id100008、id100009、id100010、id100011、id100012、 id100013、id100014、id100015的元数据中均不包含下一级数据的id,因此,说明这些数据为最低层级的数据。这样就知道了文章的全部句子的 id(最低层级的所有数据的id),根据这15个句子中每个句子的id在表2中查询相应的
数据仓库的编号,再根据数据仓库的编号在表3中查询数据仓库中存储的具体数据。这样就能够还原文章。并且,文章作者等信息也可以由id300001的元数据得知。
[0116]
根据id200006查询文章全部内容的方法与根据id200001查询文章全部内容的方法类似,不再赘述。
[0117]
根据id300001查询文章全部内容的方法如下:
[0118]
在表4中,查询id300001上一级数据的id,发现id300001的元数据中不包含上一级数据的id,因此,id300001为最高层级的数据。在表 4中查询id300001的下一级数据的id,查到的id为200001、200002、200003、200004、200005、200006。在表4中查询id200001的下一级数据的id,查到的id为100001。在表4中查询id200002的下一级数据的 id,查到的id为100002、100003。在表4中查询id200003的下一级数据的id,查到的id为100004、100005、100006。在表4中查询id200004 的下一级数据的id,查到的id为100007、100008、100009、100010。在表4中查询id200005的下一级数据的id,查到的id为100011、100012。在表4中查询id200006的下一级数据的id,查到的id为100013、100014、 100015。由于id100001、id100002、id100003、id100004、id100005、 id100006、id100007、id100008、id100009、id100010、id100011、id100012、 id100013、id100014、id100015的元数据中均不包含下一级数据的id,因此,说明这些数据为最低层级的数据。这样就知道了文章的全部句子的 id(最低层级的所有数据的id),根据这15个句子中每个句子的id在表2中查询相应的数据仓库的编号,再根据数据仓库的编号在表3中查询数据仓库中存储的具体数据。这样就能够还原文章。并且,文章作者等信息也可以由id300001的元数据得知。
[0119]
如果元数据包含上一级数据的id而不包含下一级数据的id,则说明这个数字对象是最低层级的数据,该数字对象对应的是最小信息单元。如果元数据包含下一级数据的id,而不包含上一级数据的id,说明这个数字对象是最高层级的数据。如果元数据既包含下一级数据的id,也包含上一级数据的id,说明这个数字对象是中间层级的数据。
[0120]
对于根据搜索关键词检索到的任意一个id,在注册表中查找该id对应的数字对象的元数据。会出现三种可能的情况。
[0121]
第一种情况:如果该id的元数据包含上一级数据的id而不包含下一级数据的id,则说明这个数字对象是最低层级的数据,此时,逐个级别查找上一层级数据的id,直到找到最高层级数据的id。然后根据最高层级数据的元数据包含的下一级数据的id,确定出下一层级数据,逐个级别查找下一级数据的id,直至找到所有的最低层级的数据。根据最低层级的数据的id在注册系统中查询数据仓库编号,根据数据仓库编号在数据仓库中查询具体数据,即可还原全部内容。
[0122]
第二种情况:如果该id的元数据包含上一级数据的id也包含下一级数据的id,则说明这个数字对象是中间层级的数据,此时,逐个级别查找上一层级数据的id,直到找到最高层级数据的id。然后根据最高层级数据的元数据包含的下一级数据的id,确定出下一层级数据,逐个级别查找下一级数据的id,直至找到所有的最低层级的数据。根据最低层级的数据的id在注册系统中查询数据仓库编号,根据数据仓库编号在数据仓库中查询具体数据,即可还原全部内容。
[0123]
第三种情况:如果该id的元数据包含下一级数据的id,而不包含上一级数据的id,说明这个数字对象是最高层级的数据,此时,根据元数据包含的下一级数据的id,确定出下
一层级数据,逐个级别查找下一级数据的id,直至找到所有的最低层级的数据。根据最低层级的数据的id 在注册系统中查询数据仓库编号,根据数据仓库编号在数据仓库中查询具体数据,即可还原全部内容。
[0124]
这样,就实现了根据任意一个层级的任意一个id查询文章全文的技术效果。
[0125]
可以很容易发现,这个方法具有相当多的优点。一、文章作者等信息只需要作为文章的元信息存储一次,而无需作为段落或者句子的元信息进行存储,这就大大减小了注册表中存储的数据量。二、只要根据搜索关键词搜索到文章中的任何一个句子,就能够得知该文章的全部信息,包括文章正文以及文章作者等信息。三、在数据仓库中存储的是最小信息单元(句子),而并不存储段落或者文章全文。通过对句子的组合得到段落或文章全文。即,既可以定位搜索关键词所在的句子,又可以定位搜索关键词所在的段落和文章。并不需要在数据仓库中同时以句子、段落、文章三种形式进行重复的存储,从而最大程度地减少了数据仓库中需要存储的具体数据的量。
[0126]
发明人发现,作为一种可选的实施方式,元数据也可以包含上一级数据的id而不包含下一级数据的id,将最高层级的do的具体数据存入数据仓库中。例如,如表5所示,句子的元数据包含段落的id。段落的元数据包含文章的id,但是不包含句子的id。文章的元数据不包含段落的 id。数据仓库中存储id300001的do的具体数据。
[0127]
表5
[0128]
元数据
[0129][0130][0131]
搜索关键词为“关键词二”,将关键词“关键词二”与表5中的标签进行匹配,匹配成功的id为100001、100015、200001、200006、300001。
[0132]
如前文所述,表5中,第一位为1的是句子的id,第一位为2的是段落的id,第一位为3的是文章的id。因此可以知道,id100001、id100015 为句子的id,id200001、id200006为段落的id,id300001为文章的id。
[0133]
根据这5个id中的任意一个,能够得知文章的全部内容。
[0134]
根据id100001查询文章全部内容的方法如下:
[0135]
在表5中,可查询到id100001上一级数据的id为200001,在表5 中查询id200001上一级数据的id,查到的id为300001,id300001的元数据中不包含上一级数据的id,因此,id300001为最高层级的数据。在数据仓库中查询id300001的具体数据。这样就能够还原文章内容。并且,文章作者等信息也可以由id300001的元数据得知。
[0136]
根据id100015查询文章全部内容的方法与根据id100001查询文章全部内容的方法类似,不再赘述。
[0137]
根据id200001查询文章全部内容的方法如下:
[0138]
在表5中,查询id200001上一级数据的id,查到的id为300001, id300001的元数据中不包含上一级数据的id,因此,id300001为最高层级的数据。在数据仓库中查询id300001的具体数据。这样就能够还原文章内容。并且,文章作者等信息也可以由id300001的元数据得知。
[0139]
根据id200006查询文章全部内容的方法与根据id200001查询文章全部内容的方法类似,不再赘述。
[0140]
根据id300001查询文章全部内容的方法如下:
[0141]
在表5中,查询id300001上一级数据的id,发现id300001的元数据中不包含上一级数据的id,因此,id300001为最高层级的数据。在数据仓库中查询id300001的具体数据。这样就能够还原文章内容。并且,文章作者等信息也可以由id300001的元数据得知。
[0142]
元数据中包含上一级数据的id,这样,当通过搜索关键词定位到任意一个do之后,通过查询该do的元数据中包含的上一级do的id,逐级查询,直至查询到最高层级的do的id。然后在handle system中查询最高层级的do的id所对应的数据仓库,然后,查询该数据仓库中存储的具体数据,即可得到最高层级的do的具体数据。
[0143]
发明人发现,元数据也可以包含目标层级数据的id,例如,表6所示出的,目标层级为文章这个层级。将目标层级的do的具体数据存入数据仓库中(数据仓库中存储id300001的do的具体数据)。这样,能够通过任意一个id定位到目标层级的do,再从数据仓库中检索目标层级的do的具体数据。
[0144]
表6
[0145]
元数据
[0146][0147][0148]
搜索关键词为“关键词二”,将关键词“关键词二”与表6中的标签进行匹配,匹配成功的id为100001、100015、200001、200006、300001。
[0149]
如前文所述,表6中,第一位为1的是句子的id,第一位为2的是段落的id,第一位为3的是文章的id。因此可以知道,id100001、id100015 为句子的id,id200001、id200006为段落的id,id300001为文章的id。
[0150]
根据这5个id中的任意一个,能够得知文章的全部内容。
[0151]
根据id100001查询文章全部内容的方法如下:
[0152]
在表6中,可查询到id100001的元数据包含的目标层级数据的id为 300001。在数据仓库中查询id300001的具体数据。这样就能够还原文章内容。并且,文章作者等信息也可以由id300001的元数据得知。
[0153]
根据id100015查询文章全部内容的方法如下:
[0154]
在表6中,可查询到id100015的元数据包含的目标层级数据的id为 300001。在数据仓库中查询id300001的具体数据。这样就能够还原文章内容。并且,文章作者等信息也可以由id300001的元数据得知。
[0155]
根据id200001查询文章全部内容的方法如下:
[0156]
在表6中,可查询到id200001的元数据包含的目标层级数据的id为 300001。在数据仓库中查询id300001的具体数据。这样就能够还原文章内容。并且,文章作者等信息也可以由id300001的元数据得知。
[0157]
根据id200006查询文章全部内容的方法如下:
[0158]
在表6中,可查询到id200006的元数据包含的目标层级数据的id为 300001。在数据仓库中查询id300001的具体数据。这样就能够还原文章内容。并且,文章作者等信息也可以由id300001的元数据得知。
[0159]
根据id300001查询文章全部内容的方法如下:
[0160]
在表6中,可查询到id300001的元数据包含的目标层级数据的id为300001。在数据仓库中查询id300001的具体数据。这样就能够还原文章内容。并且,文章作者等信息也可以由id300001的元数据得知。
[0161]
在本技术中,能够非常容易地添加层级信息。例如,表4所示,最高层级的数据是文章这个级别,id300001对应的是文章1。该文章所在的网页还有其他文章,例如,还有文章2。假设先爬取到文章1,根据文章1 的内容进行分级并分级存储。后爬取到文章2,也根据文章2的内容进行分级并分级存储。文章1和文章2来源于同一个网页(为方便叙述,假设为网页1)。现在,要在文章1的信息中添加网页1的信息,仅仅需要将网页1的id添加到id300001的上一级数据的id这一栏中,然后添加该网页的信息。举例来说,网页1的id为400001。将“400001”添加到表 4的最后一行的空白一栏,然后再添加一行id400001的相关信息(假设网页1包括文章1和文章2,文章2的id为300002)。可见,本技术能够灵活应对添加信息级别,修改的工作量非常小,修改起来非常方便。根本原因是,每一级别的数据的元数据包括该数据id、上一级数据的id和 /或下一级数据的id。添加级别仅仅影响到目前的最高一级数据,而不影响其他级别的数据,因此,其他级别的数据的元数据均无需更改。文章1 在注册系统、数据仓库中的信息均不会因为添加了网页信息而受到影响。
[0162]
传统互联网中,信息以数据的方式组织,并通过地址(如url等)进行查找。区别于传统互联网,do系统中的信息以do的方式存储,每个 do包含元数据和具体数据,可以通过内容而非地址查找到相应的do,并且,通过上文内容,可以很容易看出,本技术通过将数据进行分级,并对分级后的数据分级存储,能够通过任意一级数据的内容查找到全文的内容,实现了灵活的查找方式。
[0163]
本技术中,对数据进行分级,搜索时能够做到更细颗粒度的搜索。
[0164]
例如,假设某一篇文章有5个自然段,共18个句子,其中,这5个自然段分别包括的句子数量为:1、3、4、6、4。每个句子具有一个关键词,每个段落具有一个关键词,整篇文章具有一个关键词。
[0165]
aaa
[0166]
bbb hhh hhh
[0167]
ccc ddd ffff ddd
[0168]
bbb ddd aaa eee bbb bbb
[0169]
aaa bbb ggg bbb
[0170]
第1句的关键词是aaa。第2句的关键词是bbb。第3句的关键词是hhh。第4句的关键词是hhh。第5句的关键词是ccc。第6句的关键词是ddd。第7句的关键词是fff。第8句的关键词是ddd。第9句的关键词是bbb。第10句的关键词是ddd。第11句的关键词是aaa。第12句的关键词是eee。第13句的关键词是bbb。第14句的关键词是 bbb。第15句的关键词是aaa。第16句的关键词是bbb。第17句的关键词是ggg。第18句的关键词是bbb。
[0171]
第1段的关键词是aaa。第2段的关键词是hhh。第3段的关键词是ddd。第4段的关键词是bbb。第5段的关键词是bbb。
[0172]
全文关键词是bbb。
[0173]
如果不对文章进行分级,那么文章仅仅具有一个关键词:bbb。当搜索关键词为“bbb”时,能够检索到该文章;当搜索关键词为其他任何关键词时,都无法检索到该文章,例如,当搜索关键词为“aaa”时,无法检索到该文章。
[0174]
将文章按照段落进行分级,文章具有一个全文级别的关键词:bbb,还具有段落级别的关键词:aaa、hhh、ddd、bbb。其中,“bbb”既是全文级别的关键词,又是第4段和第5段的关键词。当搜索关键词“aaa”时,能检索到第1段;当搜索关键词“hhh”时,能检索到第2 段;当搜索关键词“ddd”时,能检索到第3段;当搜索关键词“bbb”时,能检索到第4段、第5段和该文章。而根据本技术上文的方法,当检索出段落之后,可利用段落这个层级的do的元数据中的上一层级数据的 id定位到该段落所在的文章,从而检索到该文章。
[0175]
可见,将文章按照段落进行分级,在检索时采用段落级别的关键词检索,能够有效增加文章被检索到的概率。
[0176]
将文章按照段落进行分级,将段落按照句子进行分级,文章具有一个全文级别的关键词:bbb,还具有段落级别的关键词:aaa、hhh、ddd、 bbb,还具有句子级别的关键词:aaa、bbb、hhh、ccc、ddd、ffff、 eee、ggg。
[0177]
其中,“bbb”既是全文级别的关键词,又是第4段和第5段的关键词,同时还是第2句、第9句、第13句、第14句、第16句、第18句的关键词。
[0178]
当搜索关键词“aaa”时,能检索到第1句、第11句、第15句。当搜索关键词“hhh”时,能检索到第3句、第4句。当搜索关键词“ccc”时,能检索到第5句。当搜索关键词“ddd”时,能检索到第6句、第8 句、第10句。当搜索关键词“fff”时,能检索到第7句。当搜索关键词“ggg”时,能检索到第17句。
[0179]
可见,将每个级别的数据都提取关键词的好处是:搜索时能够大大提高文章被检索到的概率。
[0180]
作为一种可选的实施方式,在数据搜索步骤之后,还可以根据搜索结果进行关联
分析,即,按照使用者的需求对do进行关联。
[0181]
每个使用者看待信息的角度都是不一样的,为了抽取侧重点不同的信息,使用者针对自己关心的问题提出一个主题,并根据主题列出一组定制化的关键词(即搜索关键词),系统会根据关键词在数字对象体系结构中进行检索,将和关键词相关的数字对象和关键词do进行连接,最后将所有关键词do连接,形成为该主题构建的信息网络。
[0182]
本技术中,可以根据使用者实际需求定制搜索关键词。
[0183]
可以将机构名称作为搜索关键词,搜索不同机构的文章,并对不同机构的文章进行对比分析,判断其在某些主题上的主观立场。
[0184]
可以将作者名字作为搜索关键词,搜索作者所发表的文章,观察其关注领域随着时间的变化。
[0185]
最后还可以建立领域内的知识图谱,对实体的相关性进行挖掘。
[0186]
实施例1
[0187]
随着互联网信息的指数级增长,数据愈来愈呈现碎片化、分散化的特征,有价值的信息往往淹没在众多杂乱的信息当中,且信息的价值往往在有效的关联之后才能得以体现。所以,本技术希望利用新型互联网架构,提出一种有效的信息组织方式将潜在有价值信息进行识别和连接。
[0188]
现在对信息的组织主要靠搜索引擎或爬虫 人工研判的方式,但是这种方式是建立在传统互联网架构而不是建立在以doa为基础的信息管理方法之上。doa的提出是图灵奖得主robert khan和vincent cerf提出的,这两位同时也是tcp/ip技术的发明人。tcp/ip是以端到端传输为核心的互联网架构,而doa是以数据为核心的互联网架构,更注重对数据的组织和处理。更适合对海量碎片化数据进行组织、连接和分析。
[0189]
本技术对信息的组织分为四个步骤。
[0190]
第一步需要对网络中的数据进行搜集。主要针对多元、多模、异构的数据,如网络文章、视频及其字幕、图片图表、社交网络中的言论、包含图片或文字的文件及上述信息内部所包含的外部链接。搜集时需要标注其所属机构或作者、生成时间及标题,如有可能还需要搜集信息关联的目标位置。搜集的方式包括自动化搜集和人工参与的搜集,如分布式的网络爬虫或者对此领域非常熟悉的相关专家。
[0191]
第二步需要对搜集的数据进行结构化整理和分析,萃取碎片化的信息。不同的信息类型有不同的编排方式。编排的方式可以借助自然语言处理技术(nlp),也可以手工精确标注,或者是人工、自动化相结合的处理手段。
[0192]
最简单的方式是按照信息的颗粒度进行组织,对于网站的文字类信息,可以自顶向下进行树型结构的编排。最上级为网站信息,其次为网页信息,网页中又包含了不同文章,文章中的句子则作为数字对象的最小单元。
[0193]
此外,还可以根据新闻的论点进行编排,对于一条新闻先标注其总论点,然后根据分论点的论述,每一个分论点归结为一个信息单元。按照新闻的要素进行组织也是一种可行的方式,其中包括新闻的时间、地点、人物和议程。值得一提的是如果新闻对某些要素有特别的侧重,也可以分为不同的信息单元,比如在出现多个重要人物的情况下就可以将每一个认为作为一个信息单元。
[0194]
除了新闻之外,信息的组成还可以是以文件的形式,比如一个报告包含多个文件,
system中,最后将数据存储到repository中。
[0211]
步骤四、关联分析
[0212]
最后利用生成的do进行关联分析,这一步将从不同源采集的信息进行融合、分析和挖掘。比如对不同机构的文章进行对比分析,判断其在某些主题上的主观立场,另外可以对不同作者进行跟踪,观察其关注领域的变化,最后还可以建立领域内的知识图谱,对实体的相关性进行挖掘,并进行关联分析。比如发现肺部感染和电子烟共同出现的次数较多而肺炎和新冠也经常同时出现,于是可以在知识图谱中将电子烟和新冠进行连接,供专家进行进一步分析。图2是根据一示例性实施例示出的一种关联分析结果的示意图。
[0213]
本技术实施例还提供了一种数据分级处理装置,该装置能够执行上述数据分级处理方法。
[0214]
该装置基于数字对象体系。数字对象体系包括:注册表、注册系统、数据仓库。
[0215]
如图3所示,该装置包括:数据获取单元10、数据分级单元20、基于数字对象体系的分级注册和存储单元30、数据搜索单元40。
[0216]
数据获取单元10用于:获取待处理数据。
[0217]
数据分级单元20用于:对待处理数据进行分级获得分级的数据。
[0218]
基于数字对象体系的分级注册和存储单元30用于:根据分级的数据确定各个层级的数字对象,数字对象包括元数据和具体数据,元数据包括了数字对象的分级信息,方便日后检索;对于每个层级的数字对象,执行以下步骤:将数字对象的元数据存入注册表;将数字对象的唯一标识注册到注册系统中并分配一个数据仓库;将数字对象的具体数据存入数据仓库,具体数据为反映待处理数据本身内容的信息,元数据用于描述数字对象,元数据包括数字对象的唯一标识、数字对象的标签,数字对象的标签用于用户对数字对象进行搜索时与搜索关键词匹配。
[0219]
数据搜索单元40用于:确定搜索关键词;将搜索关键词与元数据中的标签相匹配,筛选出匹配成功的标签所对应的数字对象并获取其唯一标识;根据唯一标识从注册系统中查询存储数字对象的具体数据的数据仓库;从查询到的数据仓库中获取数字对象的具体数据。
[0220]
可选地,元数据还包括层级数据,层级数据包括上一层级和/或下一层级数字对象的唯一标识。
[0221]
可选地,装置还包括数据搜索单元,数据搜索单元用于:确定出匹配成功的标签所对应的数字对象的元数据中的层级数据;根据层级数据逐级确定上一层级的数字对象,直至确定最高层级的数字对象;根据最高层级的数字对象逐级确定下一层级的所有数字对象,直至确定出最低层级的所有数字对象;从注册系统中查询所有存储最低层级的数字对象的数据仓库;从数据仓库中查询所有最低层级的数字对象的具体数据。可选地,数据搜索单元用于:确定出匹配成功的标签所对应的数字对象的元数据中的层级数据;根据层级数据确定最高层级的数字对象;从注册系统中查询存储最高层级的数字对象的数据仓库;从数据仓库中查询最高层级的数字对象的具体数据。
[0222]
可选地,不同层级的数据对象的唯一标识使用预设方式进行区分。
[0223]
可选地,装置还包括:查询单元,查询单元用于:根据查询到的多个层级的数字对象的具体数据和元数据中的层级数据,还原待处理数据的内容。
[0224]
可选地,装置还包括添加单元,添加单元用于:根据元数据中的层级数据逐级确定上一层级的数字对象,直至确定最高层级的数字对象;将新增层级数据添加到最高层级的数字对象的元数据中。
[0225]
图4是根据一示例性实施例示出的一种电子设备的框图。
[0226]
下面参照图4来描述根据本技术的这种实施方式的电子设备400。图 4显示的电子设备400仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
[0227]
如图4所示,电子设备400以通用计算设备的形式表现。电子设备 400的组件可以包括但不限于:至少一个处理单元410、至少一个存储单元420、连接不同系统组件(包括存储单元420和处理单元410)的总线 430、显示单元440等。
[0228]
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元410执行,使得所述处理单元410执行本说明书中描述的根据本技术各种示例性实施方式的步骤。例如,所述处理单元410可以执行如图1中所示的步骤。
[0229]
所述存储单元420可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)4201和/或高速缓存存储单元4202,还可以进一步包括只读存储单元(rom)4203。
[0230]
所述存储单元420还可以包括具有一组(至少一个)程序模块4205 的程序/实用工具4204,这样的程序模块4205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0231]
总线430可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
[0232]
电子设备400也可以与一个或多个外部设备400’(例如键盘、指向设备、蓝牙设备等)通信,使得用户能与该电子设备400交互的设备通信,和/或该电子设备400能与一个或多个其它计算设备进行通信的任何设备 (例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o) 接口450进行。并且,电子设备400还可以通过网络适配器460与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。网络适配器460可以通过总线430与电子设备400的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备400使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0233]
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,如图5所示,根据本技术实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质 (可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本技术实施方式的上述方法。
[0234]
所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器
(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0235]
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
[0236]
可以以一种或多种程序设计语言的任意组合来编写用于执行本技术操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如 java、c 等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0237]
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现如下功能:获取待处理数据;对所述待处理数据进行分级获得分级的数据;根据所述分级的数据确定各个层级的数字对象,所述数字对象包括元数据和具体数据;对于每个层级的数字对象,执行以下步骤:将数字对象的元数据存入注册表;将数字对象的唯一标识注册到所述注册系统中并分配一个数据仓库;将数字对象的具体数据存入所述数据仓库,所述具体数据为反映所述待处理数据本身内容的信息,所述元数据用于描述数字对象,所述元数据包括数字对象的唯一标识、所述数字对象的标签,所述数字对象的标签用于用户对数字对象进行搜索时与搜索关键词匹配。
[0238]
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
[0239]
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本技术实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u 盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本技术实施例的方法。
[0240]
以上具体地示出和描述了本技术的示例性实施例。应可理解的是,本技术不限于这里描述的详细结构、设置方式或实现方法;相反,本技术意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献