一种识别结构化数据实体类型的方法及装置与流程

2022-07-23 09:47:11 来源：中国专利 TAG：

1.本技术涉及信息抽取技术领域，尤其涉及一种识别结构化数据实体类型的方法及装置。

背景技术：

2.随着人工智能技术的快速发展，在数字化转型过程中，知识图谱已被广泛应用于各个行业。知识图谱利用可视化的图谱形象地展示了学科的核心结构、发展历史、前沿领域以及整体知识架构。实体类型的识别与抽取作为知识图谱构建的前置阶段，是实现知识图谱自动化构建过程中的重要环节。如何在海量、庞杂的结构化数据中，对实体类型进行识别与提取，并与行业需求深度融合，是目前信息抽取技术的主要任务之一。
3.目前针对数据库表处理到进一步建立知识图谱，通常是基于模板或规则的方式，利用手工编织规则的方法挖掘数据中现存的关系模式。但此种方式一方面，由于语言规则的复杂多样性，需要消耗大量的人力来编写规则；另一方面，同一实体类型存在多种表达方式，使用模板或规则的方式对实体类型进行识别可能存在准确率较低的情况。
4.因此，目前亟需一种方案，用以解决现有技术中存在的识别结构化数据实体类型准确率不高的问题。

技术实现要素：

5.本技术提供一种识别结构化数据实体类型的方法及装置，用以解决现有技术中存在的识别结构化数据实体类型准确率不高的问题。
6.第一方面，本技术实施例提供一种识别结构化数据实体类型的方法，该方法包括：获取数据库的多张数据表；针对每张数据表内的结构化数据，通过计算各字段信息之间的相似度或通过已训练的分类器模型将相似的字段映射到一个节点编号；所述字段信息包括字段名称和字段描述；将所述多张数据表中映射到相同节点编号的字段进行聚合，得到所述多张数据表的各字段对应的节点编号；将所述多张数据表的各字段信息和所述各字段对应的节点编号输入到已训练的表示学习模型中，预测所述节点编号对应的实体类型，得到所述多张数据表各字段对应的实体类型。
7.上述技术方案中，先对每张数据表内的相似的字段进行聚合，再将所有数据表中映射到相同节点编号的字段进行聚合后，对各节点编号的实体类型进行预测，两次聚合的方式并结合字段名称和字段描述多种信息对字段的实体类型进行识别，可以提高识别实体类型的准确率。
8.在一种可能的设计中，所述方法还包括：对于所述字段描述长的字段，将所述字段描述进行分词处理，得到多个词段。
9.上述技术方案中，较长的描述字段可能包含丰富的信息，将其进行分词处理后，在对该字段的实体类型进行预测，可以提高识别实体类型的准确性。
10.在一种可能的设计中，所述方法还包括：根据所述各字段的字段描述、分词处理后
的多个词段以及所述各字段对应的实体类型建立词库模型。
11.上述技术方案中，随着实际业务场景的增加以及更多数据表的接入，词库模型数据量也更丰富，待积累一定量的数据后，词库模型可独立于分类器模型进行使用。
12.在一种可能的设计中，所述分类器模型通过如下方式训练：将所述各字段的字段描述和字段名称进行特征工程处理后，输入到分类器模型中对所述分类器模型进行训练。
13.在一种可能的设计中，所述表示学习模型通过如下方式训练：选取训练集和测试集；对所述训练集和所述测试集中每张数据表各字段的实体类型进行标注，将所述训练集中多张数据表的各字段信息、所述各字段对应的节点编号以及标注好的各字段的实体类型，输入到表示学习模型中进行训练；使用所述测试集对训练后的表示学习模型进行评估。
14.上述技术方案中，最终训练好的表示学习模型用于实体类型的识别，对后续接入的业务数据具备一定的泛化能力。
15.在一种可能的设计中，所述针对每张数据表内的结构化数据，通过计算各字段信息之间的相似度或通过已训练的分类器将相似的字段映射到一个节点编号之前，还包括针对每张数据表内的结构化数据进行预处理；所述预处理包括：数据的选择、异常数据处理。
16.上述技术方案中，通过预处理过滤掉输入不规范、明显无效的字段信息，可以将杂乱无章的输入数据转换为相对干净的数据。
17.在一种可能的设计中，所述使用所述测试集对所述表示学习模型进行评估，包括：采用mean_rank和hit@10作为评价指标对所述表示学习模型进行评估。
18.上述技术方案中，采用mean_rank和hit@10作为评价指标对表示学习模型进行评估，以便根据得到的评估结果及时对表示学习模型进行修正。
19.第二方面，本技术实施例提供一种识别结构化数据实体类型的装置，包括：
20.获取模块，用于获取数据库的多张数据表；
21.处理模块，用于针对每张数据表内的结构化数据，通过计算各字段信息之间的相似度或通过已训练的分类器模型将相似的字段映射到一个节点编号；所述字段信息包括字段名称和字段描述；
22.所述处理模块，还用于将所述多张数据表中映射到相同节点编号的字段进行聚合，得到所述多张数据表的各字段对应的节点编号；
23.所述处理模块，还用于将所述多张数据表的各字段信息和所述各字段对应的节点编号输入到已训练的表示学习模型中，预测所述节点编号对应的实体类型，得到所述多张数据表各字段对应的实体类型。
24.在一种可能的设计中，所述处理模块，还用于对于所述字段描述长的字段，将所述字段描述进行分词处理，得到多个词段。
25.在一种可能的设计中，所述处理模块，还用于根据所述各字段的字段描述、分词处理后的多个词段以及所述各字段对应的实体类型建立词库模型。
26.在一种可能的设计中，所述处理模块，还用于对分类器模型进行训练，训练方式如下：将所述各字段的字段描述和字段名称进行特征工程处理后，输入到分类器模型中对所述分类器模型进行训练。
27.在一种可能的设计中，所述处理模块，还用于对表示学习模型进行训练，训练方式如下：选取训练集和测试集；对所述训练集和所述测试集中每张数据表各字段的实体类型
进行标注，将所述训练集中多张数据表的各字段信息、所述各字段对应的节点编号以及标注好的各字段的实体类型，输入到表示学习模型中进行训练；使用所述测试集对训练后的表示学习模型进行评估。
28.在一种可能的设计中，所述处理模块，还用于针对每张数据表内的结构化数据进行预处理；所述预处理包括：数据的选择、异常数据处理。
29.在一种可能的设计中，所述处理模块，还用于采用mean_rank和hit@10作为评价指标对所述表示学习模型进行评估。
30.第三方面，本技术实施例还提供一种计算设备，包括：
31.存储器，用于存储程序指令；
32.处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行如第一方面的各种可能的设计中所述的方法。
33.第四方面，本技术实施例还提供一种计算机可读存储介质，其中存储有计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得上述第一方面或第一方面的任一种可能的设计中所述的方法实现。
附图说明
34.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
35.图1为本技术实施例提供的一种结构化数据实体类型识别系统的示意图；
36.图2为本技术实施例提供的一种识别结构化数据实体类型的方法的流程示意图；
37.图3为本技术实施例提供的对数据表内字段进行处理的示意图；
38.图4为本技术实施例提供的将多张数据表字段进行聚合的示意图；
39.图5为本技术实施例提供的一种识别结构化数据实体类型的装置的示意图；
40.图6为本技术实施例提供的一种计算设备的示意图。
具体实施方式
41.为了使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术作进一步地详细描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本技术保护的范围。
42.在本技术的实施例中，多个是指两个或两个以上。“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。
43.图1示例性地示出了本技术实施例所适用的一种结构化数据实体类型识别系统的示意图，如图1所示，该系统包括业务数据模块、行业信息模块、信息抽取模块、质量指标模块以及实体集合。
44.业务数据模块：该模块包括指定行业的结构化数据来源，或其他任何合适的数据来源，具体地，可指企业数据库以及数据表等。该模块为模型训练提供训练数据和测试数
据。
45.信息抽取模块：该模块用于实现输入业务数据实体种类的识别和提取，可集成多种算法模型或实现方式，对模块中使用的算法模型以及实现方式进行调整或组合。涉及自然语言处理、机器学习以及表示学习等领域的具体方法。
46.行业知识：该模块主要用于支撑信息抽取环节，为其提供先验知识与经验。
47.质量指标模块：用于评估和控制信息抽取过程中数据的质量以满足应用需求。
48.实体集合：实体集合为构建知识图谱所需的多种实体类型的集合，是信息抽取模块输出的结果。
49.图2示例性地示出了本技术实施例提供的一种识别结构化数据实体类型的方法，如图2所示，该方法包括以下步骤：
50.步骤201、获取数据库的多张数据表。
51.本技术实施例中，获取指定行业的数据库中的多张数据表，其中，指定行业可以但不限于公安行业。示例性地，表1为本技术实施例提供的一张数据表，表内的数据为结构化数据，其中，每一行为一条记录，每一列为一个字段，标题中的字符串为该字段的字段名称，字段名称可以是字段中文名称和/或字段英文名称，字段名称之间互不相同，可以唯一地标识某一列，例如表1中有8个字段，字段名称分别为id、姓名、年龄、身份证号、手机号码、地址、车牌号和车辆颜色。需要说明的是，本技术实施例的目的是识别每个字段所属的实体类型，不需要知道每个记录中存储的具体内容，例如，我们知道表1中第二个字段存储的是姓名这个属性，而不需要知道每个记录存储的姓名具体是张三还是李四。
52.表1
53.id姓名年龄身份证号手机号码地址车牌号车辆颜色
ꢀꢀꢀꢀꢀꢀꢀꢀ
54.在获取指定行业的数据库中的多张数据表后，先对每张数据表中的数据进行预处理。预处理可分为数据选择以及异常数据处理，其中，数据选择为先根据实际需求定义需要进行实体类型识别的字段，再基于定义好的规则提取数据表中的各字段。具体的，可以根据数据表中存储的字段信息，提取包含字段描述内容丰富的字段作为主要字段。
55.异常数据处理为对输入的原始数据进行清洗、异常值滤除等操作，过滤掉输入的原始数据中不规范、明显无效的字段信息以及删除掉字段信息中的异常字符，例如，删除掉字段信息中的数学符号，表情符号、将字段信息的格式调整为统一的标准等。将杂乱无章的输入数据转换为相对干净的数据，以便在后续步骤中进一步对数据进行处理。
56.步骤202、针对每张数据表内的结构化数据，通过计算各字段信息之间的相似度或通过已训练的分类器模型将相似的字段映射到一个节点编号。
57.本技术实施例中，字段信息包括字段名称和字段描述。其中，字段描述可以包括以下一种或多种信息：字段含义说明、数据类型、长度和取值范围等。本技术主要提取字段描述中的字段含义说明，字段含义说明可以理解为对该字段存储的信息的解释说明，对于描述模糊的字段名称，可以通过字段含义进一步确认该字段所属的实体类型。举例说明，某张数据表中一个字段的字段名称为“颜色”，字段描述为“车辆的颜色”，那么，只根据字段名称无法获知该字段存储的信息是什么的颜色，进而无法确定该字段所属的实体类型。在结合字段描述后，我们得知该字段存储的信息是车辆的颜色，进而可以确定该字段所属的实体
类型为车。需要说明的是，字段名称和字段描述也可以称作数据项名称和数据项描述。
58.在对数据表中的数据进行预处理之后，步骤202先针对每张数据表中的字段单独进行处理，将每张数据表中相似的字段映射到同一节点上，对每个节点从0进行编号，具体的实现方式可以通过计算各字段信息之间的相似度或通过已训练的分类器模型将相似的字段映射到一个节点编号。可以理解为，映射到相同节点上的字段间相似度较高，同属一个实体类型。需要说明的是，在计算各字段信息之间的相似度前，需要将各字段信息输入到已有的模型中将字段的文本信息转换为向量表示，如此，计算各字段信息之间的相似度就可以转换为计算各字段向量内积的数字型运算。同样的，在将各字段信息输入到分类器模型之前，也需要将各字段信息输入到已有的模型中将字段的文本信息转换为向量表示。
59.为了更好地理解步骤202，图3示例性地示出了将每张数据表中相似的字段映射到同一节点编号的过程，如图3所示，以两张数据表为例，在分别计算2张数据表中各字段的相似度或将各字段输入到已训练的分类器模型之后，数据表1中的3个字段，字段101、字段102和字段103映射到相同节点上，该节点编号为0；数据表2中的3个字段，字段201、字段202和字段203也映射到节点编号0上，字段204和字段205映射到相同节点上，该节点编号为1。
60.在一种可能的实施方式中，对于字段描述长或包含信息丰富的字段，将该字段描述进行分词处理，得到多个词段。例如，“寄件人姓名”可以拆解成“寄件人”和“姓名”。较长的描述字段可能包含丰富的信息，将其进行分词处理后，在对该字段的实体类型进行预测，可以提高识别实体类型的准确性。
61.进一步地，根据各字段的字段描述、分词处理后的多个词段以及各字段对应的实体类型建立词库模型。举例说明，不同数据表对同一属性可能存在多种表述，例如“身份证号”、“身份证号码”、“居民身份证号”和“居民身份证号码”等字段信息都是“身份证号”这一属性的多种表述，该属性的实体类型为人。将上述关于“身份证号码”的多种表述都收集到词库模型中，当后续再接入一张数据表中某一字段信息为“居民身份证号码”，那么通过查阅词库模型便可得知该字段为“身份证号”这一属性，对应的实体类型为人。当后续又接入一张数据表中某一字段信息为“大陆居民身份证号”，再将“大陆居民身份证号”添加到词库模型中，随着实际业务场景的增加以及更多数据表的接入，词库模型数据量也更丰富，待积累一定量的数据后，词库模型可独立于分类器模型进行使用，词库模型与分类器模型可分别作为独立模型参与实际任务处理。
62.步骤202中使用的分类器模型可以通过如下方式训练：
63.(1)选取训练集和测试集。
64.其中，训练集和测试集的比例可以为7:3。
65.(2)将训练集中各字段的字段描述和字段名称进行特征工程处理后，输入到分类器模型中对分类器模型进行训练。
66.(3)使用测试集对分类器模型进行评估。
67.其中，建立特征工程为对字段描述和字段名称进行编码操作，将文本信息转化为数值信息。例如，将字段描述和字段名称转换为7为2进制的码字。
68.步骤203、将多张数据表中映射到相同节点编号的字段进行聚合，得到所述多张数据表的各字段对应的节点编号。
69.基于步骤202中获得的每张数据表内各字段对应的节点编号，将数据库中多张数
据表映射到相同节点编号的字段进行聚合。该步骤可以理解为，将多张数据表中相似的字段聚合到一起，这些字段同属一个实体类型。图4示例性地示出了将多张数据表相同节点编号的字段进行聚合的过程，如图4所示，以4张数据表为例，在分别对数据表1、数据表2、数据表3和数据表4中的字段单独进行处理后，得到每张数据表中相似字段的节点编号，数据表1中字段101对应节点编号0、字段102对应节点编号1；数据表2中字段201和字段202对应节点编号0、字段203对应节点编号1；数据表3中字段301对应节点编号1、字段302对应节点编号2；数据表4中字段401和字段403对应节点编号2、字段402对应节点编号1。将4张数据表中相同节点编号的字段聚合后，节点编号0对应数据表1的字段101、数据表2的字段201和202；节点编号1对应数据表1的字段102、数据表2的字段203、数据表3的字段301和数据表4的字段402；节点编号2对应数据表3的字段302、数据表4的字段401和403。
70.步骤204、将多张数据表的各字段信息和各字段对应的节点编号输入到已训练的表示学习模型中，预测节点编号对应的实体类型，得到多张数据表各字段对应的实体类型。
71.本技术实施例中，实体类型是根据实际业务需求预先确定的，例如人、物、车、地点、虚拟账号等。
72.在一种可能的实施方式中，步骤204中的表示学习模型可以通过如下方式训练：
73.(1)选取训练集和测试集。
74.其中，训练集和测试集的比例可以为7:3。
75.(2)对所述训练集和所述测试集中每张数据表各字段的实体类型进行标注，将所述训练集中多张数据表的各字段信息、各字段对应的节点编号以及预先标注好的各字段的实体类型，输入到表示学习模型中进行学习。
76.(3)使用测试集对表示学习模型进行评估。
77.同样的，需要对训练集和测试集中的每张数据表中的数据进行预处理。预处理包括对数据进行选择以及异常数据处理，其中，数据选择为先根据实际需求定义需要进行实体类型识别的字段，再基于定义好的规则提取数据表中的各字段。异常数据处理为对输入的原始数据进行清洗、异常值滤除等操作，过滤掉输入的原始数据中不规范、明显无效的字段信息以及删除掉字段信息中的异常字符。
78.此外，预处理还需要利用数据元内部标识符对测试集中各字段进行标记，为评价表示学习模型提供参考。其中，数据元内部标识符是根据国家标准机构或者根据相关行业标准确定的，字段与数据元内部标识符是唯一对应的关系，相同字段的数据元标识符相同。
79.对每张数据表各字段的实体类型进行标注可以理解为将字段的属性和实体类型联系在一起，以上述表1中的字段为例，将姓名、年龄、身份证号、手机号码和地址这些字段的实体类型标记为人，将车牌号和车辆颜色两个字段的实体类型标记为车。即，人拥有姓名、年龄、身份证号、手机号码和地址这些属性，车拥有车牌号和车辆颜色这两个属性。也可以理解为，姓名、年龄、身份证号、手机号码和地址这些属性属于人这个实体类型，车牌号和车辆颜色这两个属性属于车这个实体类型。
80.在具体实施过程中，可以将训练集数据输入到transe模型中进行学习，transe模型的目标函数表达式如下：
81.fr(h，t)＝|lh l
r-l
t
|
l1
/
l2
82.其中，lh、l
t
、lr分别为每个三元组实例(head，relation，tail)中头结点head、尾节
点tail与关系relation的向量化表示。
83.transe为基于实体和关系的分布式向量表示，在构建数据过程中将字段信息、字段的实体类型以及指定的关系类型构建为三元组实例，比如，(姓名，属于，人)姓名是头结点，编号为m，人是尾节点，编号是n，关系类型为姓名属于人。transe模型将每个三元组实例(head，relation，tail)中的关系relation看做从实体head到实体tail的翻译(向量相加)，通过不断调整lh、lr和l，使(lh lr)尽可能与l
t
相等，即lh lr＝l
t
。
84.对于训练好的表示学习模型可以采用mean_rank和hit@10作为评价指标对其进行评估，以便根据得到的评估结果及时对表示学习模型进行修正。其中，mean_rank表示得到正确结果需要进行匹配的平均次数，mean_rank的值越低，表示学习模型的效果越好。hit@10表示正确结果出现在前10的概率，hit@10的值越高，表示学习模型的效果越好。
85.将多张数据表的各字段信息和各字段对应的节点编号输入到上述训练好的表示学习模型中，预测节点编号对应的实体类型，得到多张数据表各字段对应的实体类型。以图4为例，将多张数据表相同节点编号的字段进行聚合后，输入到训练好的表示学习模型中，预测得到映射到节点0的字段101、字段201和字段202属于实体类型a，映射到节点1的字段102、字段203、字段301、和字段402属于实体类型b，映射到节点2的字段302、字段401、和字段403属于实体类型c。如此，得到了数据库多张数据表中各字段属于的实体类型，可用于后续行业知识图谱或通用知识图谱的构建。
86.本技术提供一种识别结构化数据实体类型的方法，先对每张数据表内的相似的字段进行聚合，再将所有数据表中映射到相同节点编号的字段进行聚合后，对各节点编号的实体类型进行预测，两次聚合的方式并结合字段名称和字段描述多种信息对字段的实体类型进行识别，可以提高识别实体类型的准确率。
87.基于相同的技术构思，图5示例性地示出了本技术实施例提供的一种识别结构化数据实体类型的装置，该装置用于实现上述识别结构化数据实体类型的方法。如图5所示，该装置500包括：
88.获取模块501，用于获取数据库的多张数据表；
89.处理模块502，用于针对每张数据表内的结构化数据，通过计算各字段信息之间的相似度或通过已训练的分类器模型将相似的字段映射到一个节点编号；所述字段信息包括字段名称和字段描述；
90.所述处理模块502，还用于将所述多张数据表中映射到相同节点编号的字段进行聚合，得到所述多张数据表的各字段对应的节点编号；
91.所述处理模块502，还用于将所述多张数据表的各字段信息和所述各字段对应的节点编号输入到已训练的表示学习模型中，预测所述节点编号对应的实体类型，得到所述多张数据表各字段对应的实体类型。
92.在一种可能的设计中，所述处理模块502，还用于对于所述字段描述长的字段，将所述字段描述进行分词处理，得到多个词段。
93.在一种可能的设计中，所述处理模块502，还用于根据所述各字段的字段描述、分词处理后的多个词段以及所述各字段对应的实体类型建立词库模型。
94.在一种可能的设计中，所述处理模块502，还用于对分类器模型进行训练，训练方式如下：将所述各字段的字段描述和字段名称进行特征工程处理后，输入到分类器模型中
对所述分类器模型进行训练。
95.在一种可能的设计中，所述处理模块502，还用于对表示学习模型进行训练，训练方式如下：选取训练集和测试集；对所述训练集和所述测试集中每张数据表各字段的实体类型进行标注，将所述训练集中多张数据表的各字段信息、所述各字段对应的节点编号以及标注好的各字段的实体类型，输入到表示学习模型中进行训练；使用所述测试集对训练后的表示学习模型进行评估。
96.在一种可能的设计中，所述处理模块502，还用于针对每张数据表内的结构化数据进行预处理；所述预处理包括：数据的选择、异常数据处理。
97.在一种可能的设计中，所述处理模块502，还用于采用mean_rank和hit@10作为评价指标对所述表示学习模型进行评估。
98.基于相同的技术构思，本技术实施例提供了一种计算设备，如图6所示，包括至少一个处理器601，以及与至少一个处理器连接的存储器602，本技术实施例中不限定处理器601与存储器602之间的具体连接介质，图6中处理器601和存储器602之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
99.在本技术实施例中，存储器602存储有可被至少一个处理器601执行的指令，至少一个处理器601通过执行存储器602存储的指令，可以执行上述识别结构化数据实体类型的方法的步骤。
100.其中，处理器601是计算机设备的控制中心，可以利用各种接口和线路连接计算机设备的各个部分，通过运行或执行存储在存储器602内的指令以及调用存储在存储器602内的数据，从而进行资源设置。可选地，处理器601可包括一个或多个处理单元，处理器601可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器601中。在一些实施例中，处理器601和存储器602可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。
101.处理器601可以是通用处理器，例如中央处理器(cpu)、数字信号处理器、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本技术实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。
102.存储器602作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器602可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(random access memory，ram)、静态随机访问存储器(static random access memory，sram)、可编程只读存储器(programmable read only memory，prom)、只读存储器(read only memory，rom)、带电可擦除可编程只读存储器(electrically erasable programmable read-only memory，eeprom)、磁性存储器、磁盘、光盘等等。存储器602是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本技术实施例中的存储器602还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序
指令和/或数据。
103.基于相同的技术构思，本技术实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行程序，计算机可执行程序用于使计算机执行上述任一方式所列的识别结构化数据实体类型的方法。
104.本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
105.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
106.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
107.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
108.尽管已描述了本技术的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
109.显然，本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样，倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内，则本技术也意图包含这些改动和变型在内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于改进的V-Net网络的肺结节CT图像分割、训练方法及装置

一种识别结构化数据实体类型的方法及装置与流程

相关文献

最热文献