一种文本处理方法、系统和存储介质与流程

2022-05-26 14:47:34 来源：中国专利 TAG：

1.本说明书涉及自然语言处理技术领域，特别涉及一种文本处理方法、系统和存储介质。

背景技术：

2.文本是人类获取知识和信息的重要途径，随着互联网技术的快速发展，文本数量呈爆炸式增长。为了使计算机可以更好地理解文本，从而帮助人类处理海量的文本信息，可以使用由两个实体以及两个实体之间的关系组成的实体三元组来表示文本中的信息，以便基于海量的文本信息构建知识图谱和建立知识库等。然而，基于文本信息获取实体三元组的抽取模型受限于预定义的实体之间的关系和/或训练语料，导致适用性较低，同时需要大量的人力资源来预定义实体之间不断新增的关系类型和/或标注训练语料。
3.因此，希望提供一种文本处理方法、系统和存储介质，可以同时提高文本处理的效率和准确性。

技术实现要素：

4.本说明书一个方面提供一种文本处理方法，所述方法包括：获取待处理文本；利用第一抽取模型，从待处理文本中抽取第一实体，并基于第一实体从待处理文本中抽取满足预定义关系的第二实体，以获取至少一个a类实体三元组；其中，每个a类实体三元组包括第一实体、第二实体以及第一实体和第二实体之间的预定义关系；利用第二抽取模型，从待处理文本中抽取多个第三实体，并确定任意两个第三实体之间的开放关系，以获取多个b类实体三元组；其中，每个b类实体三元组包括两个第三实体以及两个第三实体之间的开放关系；基于筛选规则，从a类实体三元组和b类实体三元组中获取目标实体三元组。
5.本说明书另一个方面提供一种文本处理系统，所述系统包括：文本获取模块，用于获取待处理文本；a类抽取模块，用于利用第一抽取模型，从待处理文本中抽取第一实体，并基于第一实体从待处理文本中抽取满足预定义关系的第二实体，以获取a类实体三元组；其中，每个a类实体三元组包括第一实体、第二实体以及第一实体和第二实体之间的预定义关系；b类抽取模块，用于利用第二抽取模型，从待处理文本中抽取多个第三实体，并确定任意两个第三实体之间的开放关系，以获取多个b类实体三元组；其中，每个b类实体三元组包括两个第三实体以及两个第三实体之间的开放关系；筛选模块，用于基于筛选规则，从a类实体三元组和b类实体三元组中获取目标实体三元组。
6.本说明书另一个方面提供一种计算机可读存储介质，其特征在于，所述存储介质存储计算机指令，当所述计算机指令被处理器执行时实现文本处理方法。
附图说明
7.本说明书将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其
中：图1是根据本说明书一些实施例所示的文本处理系统的应用场景图；图2是根据本说明书一些实施例所示的文本处理系统的示例性模块图；图3是根据本说明书一些实施例所示的文本处理方法的示例性流程图；图4是根据本说明书一些实施例所示的利用第一抽取模型，获取至少一个a类实体三元组的方法的示例性流程图；图5是根据本说明书一些实施例所示的第一抽取模型的示意图；图6是根据本说明书一些实施例所示的利用第二抽取模型，获取多个b类实体三元组的示例性流程图；图7是根据本说明书一些实施例所示的第二抽取模型的示意图；图8是根据本说明书一些实施例所示的实体抽取层的结构示意图；图9是根据本说明书一些实施例所示的文本处理方法的示意图。
具体实施方式
8.为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。
9.应当理解，本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。
10.如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。
11.本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。
12.在信息迸发的时代，每天都会有大量信息出现，加之信息的表达形式灵活多变，因此，如何使计算机可以更好地理解文本，从而帮助人类处理海量的文本信息是一个值得研究的问题。在一些实施例中，可以使用由两个实体以及两个实体之间的关系组成的实体三元组来表示文本信息，以便计算机可以基于海量的文本信息构建知识图谱和建立知识库等。
13.在一些实施例中，抽取模型可以在抽取出实体三元组中第一个实体后，基于预定义的关系抽取第二个实体，从而组成实体三元组。然而，基于预定义关系的抽取模型受限于预定义关系的数量和类型。当出现新的实体三元组时，抽取模型可能因为未曾“见过”实体之间新的关系，进而难以从新闻报道等文本中抽取新的实体三元组。例如，抽取模型基于预
定义关系“竞争”的语料训练后，可以从文本中抽取出关系为“竞争”的两个实体组成实体三元组，但是无法抽取出关系为“合作”的两个实体组成新的实体三元组。在一些实施例中，抽取模型也可以在抽取出实体三元组中的两个实体后，判断两个实体之间的开放关系，从而组成实体三元组。然而，基于开放关系的抽取模型如果要提高抽取的准确性，则需要大量的语料进行训练，会耗费较多的人力和时间成本。
14.本说明书的一些实施例提出了一种文本处理方案，采用基于预定义关系的抽取模型（即第一抽取模型）和基于开放关系的抽取模型（即第二抽取模型）联合抽取实体三元组，同时将抽取结果用于训练抽取模型，可以在提高抽取准确率的同时，减少训练抽取的模型的人力资源和时间成本。
15.图1是根据本说明书一些实施例所示的文本处理系统的应用场景图。如图1所示，应用场景100可以包括：处理器110可以处理从其他设备或系统组成部分中获得的数据和/或信息。处理器可以基于这些数据、信息和/或处理结果执行程序指令，以执行一个或多个本说明书中描述的功能。例如，处理器110可以从用户终端130获取a类实体三元组和/或b类实体三元组。又例如，处理器110可以利用第一抽取模型，从待处理文本中抽取a类实体三元组；利用第二抽取模型，从待处理文本中抽取b类实体三元组。再例如，处理器110还可以基于目标实体三元组，训练第一抽取模型和/或第二抽取模型。在一些实施例中，处理器110可以包含一个或多个子处理设备（例如，单核处理设备或多核多芯处理设备）。
16.存储设备120可以用于存储数据和/或指令。例如，存储设备120可以存储待处理文本、a类实体三元组和/或b类实体三元组等。又例如，存储设备120可以存储第一抽取模型、第二抽取模型和打分模型的参数。存储设备120可以包括一个或多个存储组件，每个存储组件可以是一个独立的设备，也可以是其他设备的一部分。在一些实施例中，存储设备120可包括随机存取存储器（ram）、只读存储器（rom）、大容量存储器、可移动存储器、易失性读写存储器等或其任意组合。在一些实施例中，所述存储设备120可在云平台上实现。
17.用户终端130指用户所使用的一个或多个终端设备或软件。在一些实施例中，用户终端130可以用于与用户进行交互和显示。例如，用户终端130可以向用户显示a类实体三元组和/或b类实体三元组。又例如，用户终端130可以从用户获取用户选择的目标实体三元组。在一些实施例中，使用用户终端130的可以是一个或多个用户，可以包括直接使用服务的用户，也可以包括其他相关用户。在一些实施例中，用户终端130可以是移动设备130-1、平板计算机130-2、膝上型计算机130-3、台式计算机130-4等其他具有输入和/或输出功能的设备中的一种或其任意组合。
18.网络140可以连接系统的各组成部分和/或连接系统与外部资源部分。网络140使得各组成部分之间，以及与系统之外其他部分之间可以进行通讯，促进数据和/或信息的交换。在一些实施例中，网络140可以是有线网络或无线网络中的任意一种或多种。各部分之间的网络连接可以是采用上述一种方式，也可以是采取多种方式。在一些实施例中，网络可以是点对点的、共享的、中心式的等各种拓扑结构或者多种拓扑结构的组合。在一些实施例中，网络140可以包括一个或以上网络接入点。例如，网络140可以包括有线或无线网络接入点，例如基站和/或网络交换点140-1、140-2、
…
，通过这些进出点系统的一个或多个组件可连接到网络140上以交换数据和/或信息。
19.在一些实施例中，处理器110、用户终端130以及其他可能的系统组成部分中可以包括存储设备120。在一些实施例中，用户终端130以及其他可能的系统组成部分中可以包括处理器110。
20.图2是根据本说明书一些实施例所示的文本处理系统的模块图。
21.在一些实施例中，文本处理系统200中可以包括文本获取模块210、a类抽取模块220、b类抽取模块230、筛选模块240和训练模块250。
22.文本获取模块210可以用于获取待处理文本。
23.a类抽取模块220可以用于利用第一抽取模型，从待处理文本中抽取第一实体，并基于第一实体从待处理文本中抽取满足预定义关系的第二实体，以获取至少一个a类实体三元组。在一些实施例中，每个a类实体三元组可以包括第一实体、第二实体以及第一实体和第二实体之间的预定义关系。在一些实施例中，a类抽取模块220可以用于执行以下操作中的一个或多个：获取第一实体和待处理文本的第一联合编码；基于第一联合编码，获取每种预定义关系对应的待处理文本的实体标注序列；根据每种预定义关系对应的待处理文本的实体标注序列，抽取每种预定义关系对应的第二实体。在一些实施例中，实体标注可以用于指示待处理文本中与预定义关系对应的字和/或词。在一些实施例中，第一实体和/或第二实体可以为金融实体。在一些实施例中，金融实体的类型可以包括公司、人物、行业、指标、数值和地址。在一些实施例中，第一抽取模型可以包括以下模型中的一种或多种：bert、transformer、stanford nlp或ltp。
24.b类抽取模块230可以用于利用第二抽取模型，从待处理文本中抽取多个第三实体，并确定任意两个第三实体之间的开放关系，以获取多个b类实体三元组。在一些实施例中，每个b类实体三元组可以包括两个第三实体以及两个第三实体之间的开放关系。在一些实施例中，b类抽取模块230可以用于执行以下操作中的一个或多个：在待处理文本中，为每个第三实体添加第一标签和第二标签，获取标签文本，并基于标签文本获取对应的标签文本表示向量；基于标签文本表示向量，获取对应的标签编码向量；根据标签编码向量，获取任意两个第三实体对应的第二联合编码；基于第二联合编码，获取任意两个第三实体之间的开放关系。在一些实施例中，第一标签和第二标签分别用于指示第三实体的第一个字和最后一个字。在一些实施例中，b类抽取模块230可以用于执行以下操作中的一个或多个：获取标签编码向量中至少一个第一标签对应的至少一个第一标签向量；基于任意两个第三实体对应的任意两个第一标签向量，获取第一标签融合向量；基于第一标签融合向量和标签编码向量，获取任意两个第三实体对应的第二联合编码。在一些实施例中，第三实体可以为金融实体。在一些实施例中，金融实体的类型可以包括公司、人物、行业、指标、数值和地址。
25.在一些实施例中，第二抽取模型可以包括以下模型中的一种或多种：bert、transformer、stanford nlp或ltp。
26.筛选模块240可以用于基于筛选规则，从a类实体三元组和b类实体三元组中获取目标实体三元组。在一些实施例中，筛选规则可以包括以下的一个或多个的组合：基于a类实体三元组和/或b类实体三元组对应的待处理文本的时效性，获取目标实体三元组；基于a类实体三元组和/或b类实体三元组在待处理文本中的出现次数，获取目标实体三元组；和/或根据打分模型对a类实体三元组和/或b类实体三元组的打分结果，获取目标实体三元组。
27.训练模块250可以用于将待处理文本作为训练样本，将目标实体三元组作为训练
标签，训练第一抽取模型和/或第二抽取模型。
28.图3是根据本说明书一些实施例所示的文本处理方法的示例性流程图。
29.在一些实施例中，文本处理方法300可以由处理设备执行，或者由设置于处理设备上的文本处理系统实现。
30.如图3所示，文本处理方法300可以包括：步骤310，获取待处理文本。具体地，该步骤310可以由文本获取模块210执行。
31.待处理文本可以是需要抽取实体三元组的文本。例如，待处理文本可以是金融场景中的文本信息。又例如，待处理文本可以是机器人客户服务场景中的文本信息。为了便于说明，本说明书结合金融场景对文本处理方法进行描述。
32.在一些实施例中，待处理文本可以包括篇章级文本。示例性地，待处理文本可以包括证券研究报告、相关行业研究报告、审计报告、征信报告、公告、新闻和时事评论等。在一些实施例中，待处理文本可以包括句子级文本。示例性地，待处理文本可以包括前述任意篇章级文本中包括的语句。
33.在一些实施例中，文本获取模块210可以直接从文字形式的信息中获取待处理文本。例如，文本获取模块210可以从文本数据库中获取待处理文本。又例如，文本获取模块210还可以从网页文本中爬取待处理文本。
34.在一些实施例中，文本获取模块210还可以基于文字识别技术从图片消息获取的待处理文本。在一些实施例中，待处理文本还可以基于自动语音识别（automatic speech recognition，asr）技术从语音信息中获取。
35.在一些实施例中，文本获取模块210可以对待处理文本进行预处理。在一些实施例中，预处理可以包括但不限于分割、去重和过滤等中一种或多种的组合。
36.分割可以是将长文本形式的待处理文本划分为多个短文本形式的待处理文本。例如，分割可以将前述篇章级的证券研究报告划分为多个句子级的文本“甲司位于d省e市f区”、“甲司主要竞争对手是乙和丙，乙同时是丙的代加工工厂
”…
。
37.在一些实施例中，文本获取模块210可以根据第一抽取模型和/或第二抽取模型对不同长度文本的处理效率，确定分割后的短文本长度，从而提高文本处理的效率。关于第一抽取模型和第二抽取模型的相关描述可以参见图4、图5及其相关描述，在此不再赘述。
38.本说明书的一些实施例基于分割后的短文本进行去重，可以提高去重率，减少待处理文本中的相同文本。
39.去重可以是去除待处理文本中重复文本的过程。
40.重复文本可以是内容相同和/或相似的文本。在一些实施例中，文本获取模块210可以利用词嵌入模型获取待处理文本中每个文本对应的文本向量，然后计算不同文本向量之间的相似度，最后将相似度大于阈值的文本向量对应的文本作为重复文本。其中，关于词嵌入模型的相关描述可以参见图4及其相关描述，在此不再赘述。在一些实施例中，文本向量之间的相似度可以用文本向量之间的距离表征。在一些实施例中，距离可以包括但不限于：欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、马氏距离、夹角余弦距离等。
41.例如，文本获取模块210基于前述证券研究报告可以获取短文本1“甲司位于d省e市f区”，基于某新闻获取短文本2“甲司位于d省的e市f区”，文本获取模块210可以判断短文本1和短文本2是重复文本，则可以去除待处理文本中至少一个该短文本。
42.本说明书的一些实施例对待处理文本进行去重，可以避免基于相同文本抽取出相同的实体三元组，即避免对后续基于实体三元组出现次数筛选目标实体三元组产生干扰，从而提高文本处理的准确性。关于筛选目标实体三元组的详细描述可以参见步骤340的相关描述，在此不再赘述。
43.过滤可以去除待处理文本中的无效文本。无效文本可以是不符合目标场景的文本。
44.目标场景可以是用户期望的待处理文本的应用场景。示例性地，用户期望获取金融场景下的实体三元组，以构建金融关系知识图谱，则目标场景可以是金融场景。例如，无效文本可以是前述证券研究报告中的研究员免责声明。又例如，无效文本可以是网页中的网址链接和广告。再例如，无效文本可以是待处理文本中的空格、乱码和错误字符等。
45.在一些实施例中，文本获取模块210可以识别并去除待处理文本中的无效文本，从而获取过滤后的待处理文本。在一些实施例中，文本获取模块210可以利用分类模型获取过滤后的待处理文本。具体地，分类模型可以将输入的文本映射成数值或概率，再基于数值或概率得到分类结果。进一步地，文本获取模块210可以将分类结果为“金融场景”的文本作为过滤后的待处理文本，将分类结果为其他的文本作为无效文本，从待处理文本中去除。
46.本说明书的一些实施例对待处理文本进行过滤，从而减少无效文本对抽取结果的干扰，从而提高抽取准确性和抽取效率。
47.步骤320，利用第一抽取模型，从待处理文本中抽取第一实体，并基于第一实体从待处理文本中抽取满足预定义关系的第二实体，以获取至少一个a类实体三元组。具体地，该步骤320可以由a类抽取模块220执行。
48.实体可以是现实世界中具体的个体。在一些实施例中，实体可以是金融实体。金融实体可以是金融应用场景中的实体。例如，实体可以是甲（公司）、乙（公司）、丙（公司）等。又例如，实体可以是张三（股东）、李四（董事）、王二（法人代表）等。又例如，实体可以是生猪养殖行业、医美行业、房地产行业等。
49.实体类型可以是对客观个体的广泛抽象。在一些实施例中，金融实体的类型可以包括公司、人物、行业、指标、数值和地址。
50.在一些实施例中，实体可以是实体类型的抽象概念下实际存在的例子。例如，实体类型“公司”可以具体是实体“甲（公司）”、“乙（公司）”、“丙（公司）”等，实体类型“人物”可以具体是实体“张三（股东）”、“李四（董事）”、“王二（法人代表）”等，实体类型“行业”可以具体是实体“生猪养殖行业”、“医美行业”、“房地产行业”等，实体类型“指标”可以具体是实体“当月成本总额”、“年销售总额”、“年利润总额”等，实体类型“数值”可以具体是实体“100万”、“一亿”等，实体类型“地址”可以具体是实体“d省e市f区”、“g区h街道i号”等。
51.示例性地，待处理文本“甲司位于d省e市f区”的实体包括：甲司和d省e市f区，对应的实体类型包括：公司和地址。又一示例性地，待处理文本“甲司主要竞争对手是乙和丙，乙同时是丙的代加工工厂”的实体包括：甲司、乙、丙，对应的实体类型包括：公司、公司和公司。
52.实体之间可以具有关系，实体之间的关系可以由其对应的实体类型之间的关系来描述。例如，实体类型“公司”和实体类型“地址”之间的关系可以是“位于”，则对应的实体“甲司”和实体“d省e市f区”之间的关系可以是“位于”。
53.实体三元组可以由待处理文本中的两个实体以及两个实体之间的关系构成。示例性地，实体三元组可以用【实体，关系，实体】的结构表示。又一示例性地，实体三元组也可以用【实体，实体，关系】的结构表示。
54.在一些实施例中，待处理文本中可以对应一组或多组实体三元组。
55.例如，待处理文本“甲司位于d省e市f区”对应的实体三元组可以包括：第1组实体三元组【甲司，d省e市f区，位于】等。又例如，待处理文本“甲司主要竞争对手是乙和丙，乙同时是丙的代加工工厂”对应的实体三元组可以包括：第2组实体三元组【甲司，乙，竞争】，第3组实体三元组【甲司，丙，竞争】，第4组实体三元组【丙，乙，雇佣】等。
56.在一些实施例中，多组实体三元组中的实体和关系可以部分相同。继续上述示例，第1组实体三元组和第2组实体三元组中的实体“甲司”相同，第2组实体三元组和第3组实体三元组中的关系“竞争”相同。
57.a类实体三元组可以是包含预定义关系的实体三元组。
58.预定义关系可以是基于实体类型预先定义的关系。在一些实施例中，预定义关系可以由人工基于实体类型之间的关系确定。示例性地，在金融应用场景中，实体类型“公司”和实体类型“公司”之间的关系可以包括竞争、合作、被雇佣、雇佣等，和实体类型“人物”之间的关系可以包括：雇佣、被控制等，
…
和实体类型“地址”之间的关系可以包括：位于、注册地等，则实体类型“公司”对应的预定义关系可以包括竞争、合作、雇佣、被控制、位于、注册地等。
59.在一些实施例中，每个a类实体三元组可以包括第一实体、第二实体以及第一实体和第二实体之间的预定义关系。
60.第一实体可以是从待处理文本中抽取的实体。
61.在一些实施例中，a类抽取模块220可以利用第一抽取模型，从待处理文本中抽取第一实体。具体地，a类抽取模块220可以利用第一抽取模型处理待处理文本，得到待处理文本的文本标注序列。待处理文本的文本标注序列可以用于标记待处理文本中属于实体的字或词，以及所述字或词所属的实体类型。在一些实施中，第一抽取模型包括以下模型中的一种或多：bert、transformer、stanford nlp或ltp。
62.关于第一抽取模型的详细描述可以参见图8及其相关描述，在此不再赘述。
63.如图5所示，第一抽取模型处理“甲司主要竞争对手是乙
…”
，获得文本标注序列：“o”、“b-co”、“i-co”、“o”、“o
”…“
b-co
”ꢀ…
a类抽取模块220可以基于其中的实体标注“b-co”、“i-co”和“b-co”获取对应的第一实体：甲司、乙
…
，及其对应的实体类型公司、公司
…
。
64.第二实体可以是基于第一实体对应的预定义关系，从待处理文本中抽取的实体。
65.在一些实施例中，a类抽取模块220可以利用第一抽取模型，基于第一实体对应的预定义关系，从待处理文本中抽取。关于第一抽取模型抽取第二实体的详细描述参见图4及其相关描述，在此不再赘述。
66.如图5所示，第一抽取模型基于第一实体“甲司”对应的预定义关系“合作”，从待处理文本“甲司的主要竞争对手是乙
…”
中抽取第二实体的结果为空；基于第一实体“甲司”对应的预定义关系“竞争”，可以从待处理文本“甲司的主要竞争对手是乙”中抽取第二实体“乙”，
…
。进一步地，a类抽取模块220可以从待处理文本“甲司的主要竞争对手是乙”获取第1组a类实体三元组【甲司，乙，竞争】。
67.可以理解，第一实体和第二实体之间的关系是相对的。
68.在一些实施例中，第一实体和第二实体可以交换，作为新的一组a类实体三元组。例如，第一抽取模型基于第一实体“乙”对应的预定义系“合作”，从待处理文本“甲司主要竞争对手是乙
…”
中抽取第二实体的结果为空；基于第一实体“乙”对应的预定义关系“竞争”，可以从待处理文本“甲司的主要竞争对手是乙”中抽取第二实体“甲司”，
…
。进一步地，a类抽取模块220可以从待处理文本“甲司的主要竞争对手是乙
…”
获取第2组a类实体三元组【乙，甲司，竞争】。
69.在一些实施例中，交换后的第一实体和第二实体之间的关系可能发生改变。
70.例如，第一抽取模型从待处理文本“甲司主要竞争对手是乙和丙，乙同时是丙的代加工工厂”中可以抽取出第一实体“甲司”、“乙”和“丙”，然后基于第一实体“丙”对应的预定义关系“雇佣”，从该待处理文本中抽取出第二实体“乙”，从而获取第3组a类实体三元组【丙，乙，雇佣】；基于第一实体“乙”对应的预定义关系“雇佣”从该待处理文本中取第二实体的结果为空，基于第一实体“乙”对应的预定义关系“被雇佣”从该待处理文本中取第二实体“丙”，从而获取第4组a类实体三元组【乙，丙，被雇佣】。
71.又例如，第一抽取模型从待处理文本“甲司位于d省e市f区”中可以抽取出第一实体“甲司”、和“d省e市f区”，然后基于第一实体“甲司”对应的预定义关系“位于”，从该待处理文本中抽取出第二实体“d省e市f区”，从而获取第5组a类实体三元组【甲司，d省e市f区，位于】；第一实体“d省e市f区”可能没有对应的预定义关系，或者基于第一实体“d省e市f区”对应的所有预定义关系从该待处理文本中取第二实体的结果为空，即“d省e市f区”和“甲司”不能分别作为第一实体和第二实体组成a类实体三元组。
72.步骤330，利用第二抽取模型，从待处理文本中抽取多个第三实体，并确定任意两个第三实体之间的开放关系，以获取多个b类实体三元组。具体地，该步骤330可以由b类抽取模块230执行。
73.b类实体三元组可以是包含开放关系的实体三元组。
74.开放关系可以是没有预先定义的关系。在一些实施例中，开放关系可以基于任意两个第三实体获取。
75.第三实体可以是从待处理文本中抽取的实体。在一些实施例中，b类抽取模块230可以利用第二抽取模型，从待处理文本中抽取第三实体。关于抽取第三实体的详细描述可以参见步骤320抽取第一实体的相关描述，在此不再赘述。
76.如图7所示，第二抽取模型处理“甲司主要竞争对手是乙
…”
，获得文本标注序列：“o”、“b-co”、“i-co”、“o”、“o
”…“
b-co”、“o
”…
，b类抽取模块230可以基于其中的实体标注“b-co”、“i-co”和“b-co”获取对应的第三实体：甲司、乙
…
。
77.进一步地，在一些实施例中，第二抽取模型可以基于任意两个第三实体和待处理文本，确定所述任意两个第三实体之间的开放关系。
78.具体地，b类抽取模块230可以利用第二抽取模型处理待处理文本，得到任意两个第三实体对应的待处理文本的关系标注序列。关系标注序列可以用于标记待处理文本中和开放关系对应的字和/或词。进一步地，第二抽取模型可以基于关系标注序列，确定待处理文本中任意两个第三实体之间的开放关系。关于第二抽取模型的详细描述可以参见图6及其相关描述，在此不再赘述。
79.在一些实施例中，每个b类实体三元组可以包括两个第三实体以及两个第三实体之间的开放关系。例如，b类抽取模块230可以基于第三实体“甲司”和“乙”，及其之间的开放关系“竞争”，获取第1组b类实体三元组【甲司，乙，竞争】。
80.可以理解，两个第三实体之间的关系是相对的。
81.在一些实施例中，两个第三实体的位置可以交换，作为新的一组b类实体三元组。例如，第2组b类实体三元组中两个第三实体的位置可以交换，表示为【乙，甲司，竞争】。
82.在一些实施例中，两个第三实体的位置交换后，两个第三实体之间的开放关系可以相应发生改变。例如，第二抽取模型从待处理文本“甲司主要竞争对手是乙和丙，乙同时是丙的代加工工厂”中可以抽取出第三实体“甲司”、“乙”和“丙”，然后基于第三实体“乙”和“丙”，可以获取“乙”和“丙”的开放关系“代加工”，从而获取第3组b类实体三元组【乙，丙，代加工】；基于第三实体“丙”和“乙”，可以获取“丙”和“乙”的开放关系“加工”，从而获取第4组b类实体三元组【丙，乙，加工】。
83.步骤340，基于筛选规则，从a类实体三元组和b类实体三元组中获取目标实体三元组。具体地，该步骤340可以由筛选模块240执行。
84.目标实体三元组可以是满足抽取要求的实体三元组。
85.筛选规则可以是用于确定目标实体三元组的规则。
86.在一些实施例中，筛选规则可以包括基于a类实体三元组和/或b类实体三元组对应的待处理文本的时效性，获取目标实体三元组。
87.时效性可以反映待处理文本的新旧程度对筛选结果的影响。在一些实施例中，可以用时效性指标评估待处理文本的时效性。在一些实施例中，时效性指标可以基于时间指标和效果指标确定。
88.时间指标可以反映待处理文本的新旧程度。在一些实施例中，时间指标可以包括但不限于发布时间指标、发生时间指标和获取时间指标等中的一种或多种。
89.发布时间指标可以是待处理文本的发布时间与当前时间的间隔。其中，待处理文本的发布时间可以是新闻的发布时间、证券研究报告上传网站的时间和审计报告的公告时间等。在一些实施例中，筛选模块240可以通过访问数据库时间信息和/或爬取网站信息获取待处理文本的发布时间。
90.发生时间指标可以是待处理文本描述的事件的发生时间和当前时间的间隔。其中，待处理文本描述的事件的发生时间可以是新闻报道的事件的发生时间。在一些实施例中，筛选模块240可以从待处理文本中识别时间格式的文本，从而获取待处理文本描述的事件的发生时间。
91.获取时间指标可以是文本处理系统获取待处理文本的时间和当前时间的间隔。例如，获取待处理文本的时间可以是文本处理系统200从网站上爬取待处理文本的时间。在一些实施例中，筛选模块240可以直接在获取待处理文本时，记录获取待处理文本的时间。
92.示例性地，当前时间是2022年1月20日，待处理文本可以是某新闻，该新闻于2022年1月2日发布，具体包括“2022年1月1日，甲司完成对丁的收购”，文本处理系统200在2022年1月10日从新闻网站上爬取了该新闻作为待处理文本，则该待处理文本的发布时间、描述的事件的发生时间和获取时间可以分别为2022年1月2日、2022年1月1日和2022年1月10日，对应的发布时间指标、发生时间指标和获取时间指标可以分别为18d、17d和10d。
93.可以理解，时间指标的值越大，表示待处理文本越旧。
94.在一些实施例中，不同的待处理文本可以获取的时间指标不同，例如，上述新闻可以获取对应的3个时间指标，前述证券研究报告中没有描述事件的发生时间，则只能获取对应的发布时间指标（如20d）和获取时间指标(如9d)。
95.在一些实施例中，筛选模块240可以为不同的时间指标设置权重，并基于权重对多个时间指标加权求平均值，从而获取最终的时间指标。例如，筛选模块240可以分别为发布时间指标、发生时间指标和获取时间指标设置权重为0.4、0.5和0.1，继续上述示例，则上述新闻对应的时间指标为（18
×
0.4 17
×
0.5 10
×
0.1）/3=5.6d，上述证券研究报告对应的时间指标为(20
×
0.4 9
×
0.1)/2=4.5d。
96.效果指标可以反映待处理文本对筛选结果产生影响的持续时间。可以理解，效果指标越大，表示待处理文本对筛选结果产生影响的持续时间越长。
97.在一些实施例中，持续性指标可以基于不同的待处理文本类型确定。示例性地，研究报告、月度审计报告、和新闻对应的效果指标可以分别为60d、30d和30d。
98.在一些实施例中，时效性指标可以是效果指标和时间指标的比值。例如，上述新闻的时效性指标可以是30/5.6=5.4，上述证券研究报告的时效性指标可以是60/4.5=13。
99.在一些实施例中，筛选模块240可以基于时效性指标对a类实体三元组和/或b类实体三元组对应的待处理文本的时效性按照从大到小进行排序，将排序顺序小于第一排序阈值的a类实体三元组和/或b类实体三元组作为目标实体三元组。例如，第1组a类实体三元组【甲司，乙，竞争】、第2组a类实体三元组【乙，甲司，竞争】、第3组a类实体三元组【丙，乙，雇佣】、第4组a类实体三元组【乙，丙，被雇佣】、第5组a类实体三元组【甲司，d省e市f区，位于】
…
第1组b类实体三元组【甲司，乙，竞争】、第2组b类实体三元组
…
第4组b类实体三元组【丙，乙，加工】对应的待处理文本的时效性排序为第1组a类实体三元组【甲司，乙，竞争】=第2组a类实体三元组【乙，甲司，竞争】=第3组a类实体三元组【丙，乙，雇佣】=第4组a类实体三元组【乙，丙，被雇佣】=第1组b类实体三元组【甲司，乙，竞争】=第2组b类实体三元组
…
=第4组b类实体三元组【丙，乙，加工】＞第5组a类实体三元组【甲司，d省e市f区，位于】，筛选模块240可以将排序顺序小于第一排序阈值2的并列排序为1的第1~4组a类实体三元组和第1~4组b类实体三元组作为目标实体三元组。
100.在一些实施例中，筛选模块240可以将时效性指标大于时效性阈值的待处理文本对应的a类实体三元组和/或b类实体三元组作为目标实体三元组。例如，前述第1~4组a类实体三元组和第1~4组b类实体三元组对应的待处理文本的时效性指标均为4.5d，第5组a类实体三元组【甲司，d省e市f区，位于】对应的待处理文本的时效性指标为3d，筛选模块240可以将时效性指标大于时效性阈值4的第1~4组a类实体三元组和第1~4组b类实体三元组作为目标实体三元组。
101.在一些实施例中，第一排序阈值和时效性阈值可以基于待处理文本的数量和抽取模型（第一抽取模型和/或第二抽取模型）的训练次数确定。可以理解，待处理文本的数量越多，抽取模型的训练次数越多，第一排序阈值越小，时效性阈值越大。
102.本说明书的一些实施例基于实体三元组（即a类实体三元组和/或b类实体三元组）对应的待处理文本的时效性确定目标实体三元组，可以使目标实体三元组具有实时性。
103.在一些实施例中，基于a类实体三元组和/或b类实体三元组在待处理文本中的出
现次数，获取目标实体三元组。
104.在一些实施例中，筛选模块240可以将待处理文本中相同的a类实体三元组和/或b类实体三元组的出现次数大于次数阈值的a类实体三元组和/或b类实体三元组作为目标实体三元组。
105.例如，待处理文本“甲司位于d省e市f区”和“甲司主要竞争对手是乙和丙，乙同时是丙的代加工工厂”中的a类实体三元组和/或b类实体三元组包括：第1组a类实体三元组【甲司，乙，竞争】、第2组a类实体三元组【乙，甲司，竞争】、第3组a类实体三元组【丙，乙，雇佣】、第4组a类实体三元组【乙，丙，被雇佣】、第5组a类实体三元组【甲司，d省e市f区，位于】、第1组b类实体三元组【甲司，乙，竞争】、第2组b类实体三元组【乙，甲司，竞争】、第3组b类实体三元组【乙，丙，代加工】和第4组b类实体三元组【丙，乙，加工】，其中，【甲司，乙，竞争】的出现次数为2（分别是第1组a类实体三元组和第1组b类实体三元组）、【乙，甲司，竞争】出现次数为2（分别是第2组a类实体三元组和第2组b类实体三元组）、【丙，乙，雇佣】的出现次数为1（第3组a类实体三元组）、【乙，丙，被雇佣】的出现次数为1（第4组a类实体三元组）、【甲司，d省e市f区，位于】的出现次数为1（第5组a类实体三元组）、【乙，丙，代加工】的出现次数为1（第3组b类实体三元组）以及【丙，乙，加工】的出现次数为1（第4组b类实体三元组），则筛选模块240可以将出现次数大于次数阈值1的【甲司，乙，竞争】和【乙，甲司，竞争】作为目标实体三元组。
106.在一些实施例中，次数阈值可以基于待处理文本的数量和抽取模型（第一抽取模型和/或第二抽取模型）的训练次数确定。可以理解，待处理文本的数量越多，抽取模型的训练次数越多，次数阈值越大。
107.本说明书的一些实施例基于实体三元组（即a类实体三元组和/或b类实体三元组）在待处理文本中的出现次数确定目标实体三元组，可以使目标实体三元组具有实用性。
108.在一些实施例中，根据打分模型对a类实体三元组和/或b类实体三元组的打分结果，获取目标实体三元组。
109.在一些实施例中，打分模型的输入可以包括a类实体三元组和/或b类实体三元组，输出可以是a类实体三元组和/或b类实体三元组对应的打分结果。
110.在一些实施例中，打分模型可以包括但不限于text rank模型、logistic回归模型、朴素贝叶斯分类模型、高斯分布贝叶斯分类模型、决策树模型、随机森林模型、knn分类模型、神经网络模型等。
111.例如，打分模型可以分别处理前述第1~5组a类实体三元组和第1~4组b类实体三元组，分别获取组对应的打分结果为：0.8、0.8、0.4、0.3、0.7，和0.8、0.8、0.6和0.2。
112.在一些实施例中，打分模型的输入还可以包括时效性指标和a类实体三元组和/或b类实体三元组在待处理文本中的出现次数。
113.进一步地，打分模型可以将打分结果超过分数阈值和/或打分结果排序小于第二排序阈值的a类实体三元组和/或b类实体三元组作为目标实体三元组。
114.例如，打分模型可以将打分结果超过分数阈值0.5的a类实体三元组和/或b类实体三元组：第1组a类实体三元组【甲司，乙，竞争】、第2组a类实体三元组【乙，甲司，竞争】、第3组a类实体三元组【丙，乙，雇佣】、第5组a类实体三元组【甲司，d省e市f区，位于】、第1组b类实体三元组【甲司，乙，竞争】、第2组b类实体三元组【乙，甲司，竞争】和第3组b类实体三元组
【乙，丙，代加工】作为目标实体三元组。
115.又例如，打分模型可以将打分结果排序小于第二排序阈值4的实体a类实体三元组和/或b类实体三元组：排序并列第1的第1组a类实体三元组【甲司，乙，竞争】、第2组a类实体三元组【乙，甲司，竞争】、第1组b类实体三元组【甲司，乙，竞争】、第2组b类实体三元组【乙，甲司，竞争】，排序第2的第5组a类实体三元组【甲司，d省e市f区，位于】和排序第3的第3组b类实体三元组【乙，丙，代加工】作为目标实体三元组。
116.在一些实施例中，第二排序阈值和分数阈值可以基于待处理文本的数量和抽取模型（第一抽取模型和/或第二抽取模型）的训练次数确定。可以理解，待处理文本的数量越多，抽取模型的训练次数越多，第二排序阈值越小，分数阈值越大。
117.本说明书的一些实施例基于打分模型获取目标实体三元组，可以使获取的目标实体三元组从多个维度进行评估，提高了抽取结果的准确性。
118.在一些实施例中，训练模块250可以基于大量带有第一训练标签的第一训练样本单独训练打分模型。具体的，将带有第一训练标签的第一训练样本输入打分模型，通过训练更新打分模型的参数。在一些实施例中，第一训练样本可以是样本实体三元组。在一些实施例中，第一训练标签可以是人工标注的真（1）或假（0）。示例性的，当第一训练样本中样本实体三元组确实为目标实体三元组，则第一训练标签可以是真或1，当第一训练样本中样本实体三元组不是目标实体三元组，则第一训练标签可以是假或0。
119.在一些实施例中，筛选模块240还可以将a类实体三元组和/或b类实体三元组通过网络140发送到用户终端130，进一步地，筛选模块240可以通过网络140从用户终端130接收用户选择的a类实体三元组和/或b类实体三元组作为目标实体三元组。在一些实施例中，筛选模块240结合用户互动确定目标实体三元组的次数可以基于待处理文本的数量和抽取模型的训练次数确定。可以理解，当待处理文本数量较少和/或抽取模型的训练次数较少时，筛选模块240可以增加将a类实体三元组和/或b类实体三元组发送到用户终端130的次数。在一些实施例中，筛选模块240还可以基于用户的选择确定将a类实体三元组和/或b类实体三元组发送到用户终端130的时机。
120.可以理解，与从大量样本文本中人工抽取样本实体三元组作为训练标签相比，本实施例的人工标注只需要判断已经抽取出的a类实体三元组和/或b类实体三元组是否为目标实体三元组，节约了人力资源和时间成本。本说明书的一些实施例结合用户互动来筛选目标实体三元组，还可以基于用户设置适当引导筛选结果，从而在节约人力资源的同时提高抽取结果的准确性。
121.图9是根据本说明书一些实施例所示的文本处理方法的示意图。如图9所示，文本处理系统100利用第一抽取模型和第二抽取模型从待处理文本中分别获取a类实体三元组和b类实体三元组后，基于筛选规则从a类实体三元组和b类实体三元组中筛选出目标实体三元组，并可以基于目标实体三元组训练第一抽取模型和/或第二抽取模型。
122.在一些实施例中，训练模块250可以将待处理文本作为训练样本，将目标实体三元组作为训练标签，训练第一抽取模型和/或第二抽取模型。
123.例如，训练模块250可以将待处理文本“甲司位于d省e市f区”作为第二训练样本1，将对应的目标实体三元组【甲司，d省e市f区，位于】作为第二训练样本1的第二训练标签；将待处理文本“甲司主要竞争对手是乙和丙，乙同时是丙的代加工工厂”作为第二训练样本2，
将对应的目标实体三元组【甲司，乙，竞争】、【甲司，丙，竞争】、【乙，甲司，竞争】、【丙，甲司，竞争】和【乙，丙，代加工】作为第二训练样本2的第二训练标签
…
。
124.在一些实施例中，训练模块250可以单独训练第一抽取模型。
125.具体的，将带有第二训练标签的第二训练样本输入初始第一抽取模型，利用初始第一抽取模型处理所述第二训练样本，得到初始第一抽取模型输出的a类实体三元组，并参照第二训练标签和a类实体三元组之间的差异调整初始第一抽取模型的参数，直到训练的中间第一抽取模型满足预设条件，得到训练后的第一抽取模型，其中，预设条件可以是损失函数小于阈值、收敛，或训练周期达到阈值。
126.在一些实施例中，训练模块250可以单独训练第二抽取模型。
127.具体的，将带有第二训练标签的第二训练样本输入初始第二抽取模型，利用初始第二抽取模型处理所述第二训练样本，得到初始第二抽取模型输出的b类实体三元组，并参照第二训练标签和b类实体三元组之间的差异调整初始第二抽取模型的参数，直到训练的中间第二抽取模型满足预设条件，得到训练后的第二抽取模型，其中，预设条件可以是损失函数小于阈值、收敛，或训练周期达到阈值。
128.在一些实施例中，训练模块250可以联合训练第一抽取模型、第二抽取模型和打分模型。
129.具体的，将带有第二训练标签的第二训练样本分别输入初始第一抽取模型和初始第二抽取模型，利用初始第一抽取模型、初始第二抽取模型和初始打分模型处理第二训练样本，得到初始打分模型输出的目标实体三元组，并参照第二训练标签和目标实体三元组之间的差异调整初始第一抽取模型、初始第二抽取模型和初始打分模型的参数，直到训练的中间第一抽取模型、中间第二抽取模型和中间打分模型满足预设条件，获取训练好的第一抽取模型、训练好的第二抽取模型和训练好的打分模型，其中，预设条件可以是损失函数小于阈值、收敛，或训练周期达到阈值。
130.在一些实施例中，初始第一抽取模型和初始第二抽取模型可以是基于少量人工标注的样本实体三元组训练的模型。
131.本说明书的一些实施例结合了预定义关系的第一抽取模型和开放关系的第二抽取模型从待处理文本中抽取目标实体三元组，同时将目标实体三元组作为训练数据训练第一抽取模型和第二抽取模型，一方面使得第一抽取模型和第二抽取模型可以相互学习，从而使得训练后的模型输出的抽取结果可以同时兼顾较高的准确性和较高的适用范围，另一方面可以使得基于少量人工标注的样本实体三元组训练的第一初始抽取模型和第二初始抽取模型可以进行无监督学习，节约了人力资源和标注的时间成本。
132.图4是根据本说明书一些实施例所示的利用第一抽取模型，获取至少一个a类实体三元组的方法的示例性流程图。具体地，图4可以由a类抽取模块220执行。
133.如图5所示，第一抽取模型可以包括：第一实体抽取层510、第一联合编码层520、第一标注序列层530和实体识别层540。
134.如图4所示，利用第一抽取模型，获取至少一个a类实体三元组的方法400可以包括：步骤410，获取第一实体和待处理文本的第一联合编码。
135.在一些实施例中，第一联合编码层520可以基于待处理文本的特征向量和第一实
体向量，获取第一联合编码。
136.待处理文本的特征向量可以是表征待处理文本的特征的向量。在一些实施例中，第一实体抽取层510可以基于待处理文本，获取待处理文本的特征向量。关于待处理文本的特征向量的详细描述可以参见图8及其相关描述，在此不再赘述。
137.如前所述，第一实体可以是从待处理文本中抽取的实体。在一些实施例中，第一实体抽取层510可以抽取待处理文本中的第一实体。具体地，第一实体抽取层510可以获取待处理文本对应的文本标注序列，再基于文本标注序列抽取第一实体。如图5所示，第一实体抽取层510可以基于文本标注序列“o”、“b-co”、“i-co”、“o”、“o
”…“
b-co
”…
获取对应的第一实体：甲司、乙
…
。关于抽取第一实体的详细描述可以参见步骤320的相关描述，在此不再赘述。
138.第一实体向量可以是表征第一实体的特征的向量。在一些实施例中，第一抽取模型可以基于待处理文本的特征向量中第一实体对应的字和/或词特征向量，获取第一实体对应的第一实体向量。
139.在一些实施例中，第一抽取模型可以对待处理文本的特征向量中第一实体对应的字和/或词特征向量进行池化，从而获取第一实体向量。池化可以通过用数据中特定区域的多个数据的平均值、最小值和/或最大值等来表示该特定区域的方式，实现降低数据大小。相应地，在一些实施例中，池化可以包括但不限于平均值池化、最小值池化和最大值池化等。
140.示例性地，第一抽取模型可以将第一实体对应的多个字和/或词特征向量中相同位置的元素进行平均值池化，从而获取和每个字和/或词特征向量维度相同的第一实体向量。如图5所示，第一抽取模型可以获取待处理文本对应的特征向量【t
a1
】【t
a2
】【t
b1
】【t
b2
】
…
中第一实体“甲司”对应的字特征向量【t
a1
】和【t
a2
】，然后对第一实体“甲司”对应的字特征向量【t
a1
】和【t
a2
】中相同位置的元素求平均值，获取“甲司”的第一实体向量【ta】。例如，【t
a1
】=【2,4,6】，【t
a2
】=【4,6,8】，则【ta】=【3,5,7】。关于字和/或词特征向量的详细描述可以参见图8及其相关描述，在此不再赘述。
141.第一联合编码可以是融合了任意一个第一实体的特征和待处理文本的特征的向量。在一些实施例中，第一联合编码层520可以对任意一个第一实体向量和待处理文本的特征向量进行编码，得到第一联合编码。
142.在一些实施例中，第一联合编码层520可以将任意一个第一实体向量分别和待处理文本的特征向量中每个字和/或词特征向量进行融合，得到第一联合编码。
143.在一些实施例中，融合的方式可以包括但不限于相加、求平均值、加权求和等中的一种或多种的组合。示例性地，如图5所示，第一联合编码层520可以将第一实体“甲司”对应的第一实体向量【ta】分别和待处理文本的特征向量中的【t
a1
】【t
a2
】【t
b1
】【t
b2
】
…
相加，获取第一联合编码【u
a1
】【u
a2
】【u
b1
】【u
b2
】
…
，其中，【u
a1
】=【t
a1
】【ta】、【u
a2
】=【t
a2
】【ta】、【u
b1
】=【t
b1
】【ta】、【u
b2
】=【t
b2
】【ta】
…
。
144.本说明书的一些实施例对第一实体向量和待处理文本的特征向量进行编码，获取第一联合编码，可以使得第一联合编码中同时包含了第一实体的信息、待处理文本的信息，以及第一实体与待处理文本之间的关系信息，可以提高后续第一抽取模型的抽取每种预定义关系对应的第二实体的准确性。
145.在一些实施例中，第一联合编码层520可以是前馈神经网络。前馈神经网络可以通过激活函数对第一实体向量和待处理文本的特征向量进行融合，得到第一联合编码。
146.可以理解，从待处理抽取文本中抽取的第一实体可以是某预定义关系对应的其他第一实体的第二实体，因此，在一些实施例中，第一实体抽取层510从待处理文本中抽取多个第一实体后，可以基于每个第一实体和其他第一实体的前后顺序、字符距离，判断当前第一实体是否可以将其他第一实体作为第二实体，组成b类实体三元组。例如，当第一实体的顺序位于最后，且与其他第一实体的字符距离均超过了预设距离（如10个字符），则可以判断该第一实体在待处理文本中没有对应的第二实体。
147.进一步的，当所述判断结果为否，则放弃基于该第一实体抽取预定义关系对应的第二实体，当所述判断结果为是，则基于该第一实体抽取预定义关系对应的第二实体，继续后续步骤。
148.本说明的一些实施例预先判断每个第一实体是否存在预定义关系对应的第二实体，可以提高抽取效率。
149.步骤420，基于第一联合编码，获取每种预定义关系对应的待处理文本的实体标注序列。
150.如前所述，预定义关系可以是基于实体类型预先定义的关系。
151.在一些实施例中，每个第一实体可以对应至少一个预定义关系。例如，继续前述示例，第一实体“甲司”的实体类型“公司”对应的预定义关系可以包括竞争、合作、雇佣、被控制、位于、注册地等，则第一实体“甲司”对应的预定义关系也可以包括竞争、合作、雇佣、被控制、位于、注册地等。
152.实体标注序列可以是与待处理文本中多个字或多个词分别对应的多个实体标注按照顺序排列的结果。在一些实施例中，实体标注可以用于指示待处理文本中对应的字或词是否属于第二实体。进一步地，在一些实施例中，实体标注可以用于指示与预定义关系对应的字和/或词。示例性地，实体标注可以进一步基于第一实体对应的预定义关系的类型分为“竞争”关系实体标注、“合作”关系实体标注等，以便进一步指示对应的字或词对应的预定义关系。由此，实体标注序列可以用于标记待处理文本中属于第二实体的字或词，以及所述字或词对应的预定义关系。
153.在一些实施例中，所述实体标注可以是汉字、数字、字母和符号等中的至少一种。例如，可以用b表示第二实体的首字或首词，i表示第二实体的非首字或非首词。又例如，可以用r1和r2分别表示预定义关系为“合作”和“竞争”。
154.在一些实施例中，每种预定义关系可以对应一组实体标注序列。例如，实体标注b-r1或i-r1可以标记待处理文本中预定义关系为“合作”的、属于第二实体的字或词。又例如，实体标注b-r1或i-r2可以标记待处理文本中预定义关系为“竞争”的、属于第二实体的字或词。
155.在一些实施例中，第一标注序列层530可以标注第一联合编码，获取每种预定义关系对应的待处理文本的实体标注序列。如图5所示，第一标注序列层530可以基于第一联合编码【u
a1
】【u
a2
】【u
b1
】【u
b2
】
…
，将待处理文本“甲司主要竞争对手是乙和丙，乙同时是丙的代加工工厂”中的“乙”标记为实体标注序列2中“b-r2”，表示“与预定义关系
‘
竞争’对应的第二实体的第一个字”。
156.在一些实施例中，实体标注还可以包括非预定义关系标注。非预定义关系标注也可以是汉字、数字、字母和符号等中的至少一种。待处理文本中不属于与预定义关系对应的第二实体的字或词可以用相同的非预定义关系标注进行标记。如图5所示，第一标注序列层530用“o”在实体标注序列1中标记待处理文本中不属于与预定义关系“合作”对应的第二实体的词“甲司主要竞争对手是乙
…”
。在一些实施例中，待处理文本中不属于与预定义关系对应的第二实体的字或词也可以不进行任何标记。
157.具体地，第一标注序列层530可以基于第一联合编码，获取待处理文本中每个字或词分别属于每种预定义关系对应的第二实体的概率和不属于任何预定义关系对应的第二实体的概率，然后将概率最大值对应的标记作为所述字或词的实体标注。
158.以图5为例，第一标注序列层530可以基于第一联合编码中的【u
a1
】，获取“甲”属于预定义关系“合作”对应的第二实体的第一个字的概率为0.2、属于预定义关系“合作”对应的第二实体的非第一个字的概率为0.2、不属于预定义关系“合作”对应的第二实体的概率为0.6，然后将概率最大值0.6对应的非预定义关系标注的标记“o”作为“甲”字的实体标注。
159.与此类似地，如图5所示，第一标注序列层530可以获取待处理文本“甲司主要竞争对手是乙和丙，乙同时是丙的代加工工厂”中每个字或词的在实体标注序列1中的实体标注，并按照所述字或词在待处理文本中的顺序排列，从而获取实体标注序列1：“o”、“o”、“o”、“o
”…“
o”、“o”、“o”；以及在实体标注序列2中的实体标注，并按照所述字或词在待处理文本中的顺序排列，从而获取实体标注序列2：“o”、“o”、“o”、“o
”…“
o”、“o”、“b-r2”。
160.在一些实施例中，第一标注序列层530可以包括但不限于n元（n-gram）模型、条件随机场（conditional random fields，crf）模型和隐马尔可夫模型（hidden markov model，hmm）中的一种。
161.步骤430，根据每种预定义关系对应的待处理文本的实体标注序列，抽取每种预定义关系对应的第二实体。
162.在一些实施例中，实体识别层540可以抽取每种预定义关系对应的第二实体。
163.具体地，实体识别层540可以将实体标注序列中每种预定义关系对应的实体标注对应的字和/或词作为该预定义关系对应的第二实体的字和/或词。例如，如图5所示，实体识别层540可以基于实体标注序列2中的实体标注“b-r2”，确定预定义关系“竞争”在待处理文本中对应的第二实体为乙，即在待处理文本中与第一实体“甲”形成“竞争”关系的第二实体可以是“乙”。
164.可以理解，在一些实施例中，预定关系可能不存在对应的第二实体。例如，如图5所示，实体识别层540可以基于实体标注序列1中的非预定义关系标注“o”、“o”、“o”、“o
”…“
o”、“o”、“o”，确定预定义关系“合作”在待处理文本中没有对应的第二实体，即在待处理文本中不存在与第一实体“甲”形成“合作”关系的第二实体。
165.进一步地，a类抽取模块220可以将待处理文本中的第一实体、第一实体对应的预定义关系，以及每种预定义关系对应的第二实体，组成a类实体三元组。例如，a类抽取模块220可以将第一实体“甲司”，第一实体“甲司”对应的预定义关系“竞争”，以及预定义关系“竞争”对应的第二实体“乙”，组成第1组a类实体三元组【甲司，乙，竞争】。
166.上述实施例给出了第一抽取模型的一种实现结构，在一些实施例中，第一抽取模型可以基于端到端的模型实现，如基于bert的多头选择模型、斯坦福中文语法分析工具
stanford nlp或者哈工大中文语言分析工具ltp实现。
167.本说明书的一些实施例利用第一抽取模型，基于预定义关系获取a类实体三元组，使得a类实体三元组中的第一实体和第二实体必然接近或满足于预定义关系，可以提高a类实体三元组的准确性。
168.图6是根据本说明书一些实施例所示的利用第二抽取模型，获取多个b类实体三元组的示例性流程图。具体地，图6可以由b类抽取模块230执行。
169.如图7所示，第二抽取模型可以包括：第二实体抽取层710、标签编码层720、第二联合编码层730、第二标注序列层740。
170.如图6所示，获取至少一个b类实体三元组的方法600可以包括：步骤610，在待处理文本中，为每个第三实体添加第一标签和第二标签，获取标签文本，并基于标签文本获取对应的标签文本表示向量。
171.如前所述，第三实体可以是从待处理文本中抽取的实体。
172.在一些实施例中，第二实体抽取层710可以抽取待处理文本中的第三实体。具体地，第二实体抽取层710可以获取待处理文本对应的文本标注序列，再基于文本标注序列抽取第三实体。
173.如图7所示，第二实体抽取层710可以基于文本标注序列“o”、“b-co”、“i-co”、“o”、“o
”…“
b-co
”…
获取对应的第三实体：甲司、乙
…
。关于抽取第三实体的详细描述可以参见步骤330的相关描述，在此不再赘述。
174.第一标签和第二标签可以分别用于指示第三实体的第一个字和最后一个字。在一些实施例中，第一标签和/或第二标签可以是数字（如1、2）、汉字、字母（如a、b）或其他符号及其组合。例如，待处理文本中第一个第三实体的第一标签和第二标签可以分别是“label1”和“label2”，第二个第三实体的第一标签和第二标签可以分别是“label3”和“label4”。
175.标签文本可以是包含标签的待处理文本。
176.在一些实施例中，第二抽取模型可以将第一标签和第二便签分别添加到待处理文本中第三实体的前面和后面，获取标签文本。例如，如图7所示，第二抽取模型可以将第一标签“label1”和第二便签“label2”分别添加到待处理文本“甲司主要竞争对手是乙
…”
中第一个第三实体“甲司”的前面和后面，将第一标签“label3”和第二便签“label4”分别添加到前述待处理文本中第一个第三实体“乙”的前面和后面
…
，从而获取标签文本：label1甲司label2主要竞争对手是label3乙label4
…
。
177.标签文本表示向量可以是表征标签文本信息的向量。
178.在一些实施例中，第二抽取模型可以利用词嵌入模型，基于标签文本获取标签文本表示向量。关于词嵌入模型的详细描述可以参见图8及其相关描述，在此不再赘述。如图7所示，第二抽取模型基于标签文本可以获取标签文本表示向量：【l1】【t
a1
】【t
a2
】【l2】【t
b1
】
…
【l3】【t
b2
】【l4】
…
。
179.步骤620，基于标签文本表示向量，获取对应的标签编码向量。
180.标签编码向量可以是融合了第三实体信息与待处理文本信息的向量。可以理解，标签编码向量可以包含待处理文本和标签对应的编码向量，标签编码向量中标签和待处理文本对应的编码向量包含了其他编码向量的特征。
181.在一些实施例中，标签编码层720可以对标签文本表示向量进行编码，得到对应的标签编码向量。如图7所示，标签编码层720可以对标签文本表示向量【l1】【t
a1
】【t
a2
】【l2】【t
b1
】
…
【l3】【t
b2
】【l4】进行编码，获取对应的标签编码向量【l1】【l
a1
】【l
a2
】【l2】【l
b1
】
…
【l3】【l
b2
】【l4】
…
。
182.示例性的标签编码层720可以由bert模型或transformer实现。
183.步骤630，根据标签编码向量，获取任意两个第三实体对应的第二联合编码。
184.第一标签向量可以是第一标签在标签编码向量中对应的向量元素。如图7所示，第三实体“甲司”的第一标签向量可以是第一标签“label1”在标签编码向量中对应的向量元素【l1】，第三实体“乙”的第一标签向量可以是第一标签“label3”在标签编码向量中对应的向量元素【l3】。
185.在一些实施例中，第二抽取模型可以获取标签编码向量中至少一个第一标签对应的至少一个第一标签向量。具体地，第二抽取模型可以基于第一标签在标签文本中的位置顺序，从标签编码向量中的位置顺序获取第一标签向量。如图7所示，第一标签“label1”位于标签文本中第1位置顺序，则对应的第一标签向量是标签编码向量中第1位置属性的向量元素【l1】。
186.第一标签融合向量可以是融合了任意两个第三实体信息和待处理文本信息的向量。
187.在一些实施例中，第二抽取模型可以基于任意两个第三实体对应的任意两个第一标签向量，获取第一标签融合向量。示例性地，第二抽取模型可以先拼接任意两个第一标签向量，然后利用全连接层将拼接后的任意两个第一标签向量映射为第一标签融合向量，其中，第一标签融合向量的维度与任意一个第一标签向量的维度相同。
188.如图7所示，第二抽取模型可以将第三实体“甲司”对应的第一标签向量【l1】和第三实体“乙”对应的第一标签向量【l2】进行拼接，然后利用全连接层将拼接后的【l1】和【l2】映射为第一标签融合向量【l】。
189.第二联合编码可以是融合了任意两个第三实体的特征和待处理文本的特征的向量。
190.在一些实施例中，第二联合编码层730可以将第一标签融合向量分别和标签文本表示向量中的每个向量元素进行融合，得到第二联合编码。在一些实施例中，融合的方式可以包括但不限于相加、求平均值、加权求和等中的一种或多种的组合。
191.示例性地，如图7所示，第二联合编码层730可以将第一标签融合向量【l】分别和标签文本表示向量中的【l1】【t
a1
】【t
a2
】【l2】【t
b1
】
…
【l3】【t
b2
】【l4】
…
相加，获取第二联合编码【v1】【v
a1
】【u
a2
】【u
b1
】【u
b2
】
…
【v3】【v
b2
】【v4】
…
，其中，【v1】=【l1】【l】【v
a1
】=【t
a1
】【l】、【v
a2
】=【t
a2
】【l】、【v
b1
】=【t
b1
】【l】、
…
。
192.在一些实施例中，第二联合编码层730可以是前馈神经网络。关于前馈神经网络的详细描述可以参见步骤410，在此不再赘述。
193.本说明的一些实施例基于对第一标签融合向量和标签文本表示向量进行编码，获取第二联合编码，可以使得第二联合编码中同时包含了两个第三实体的信息、待处理文本的信息、两个第三实体之间的关系信息以及两个第三实体与待处理文本之间的关系信息，可以提高后续第二抽取模型的抽取两个第三实体之间开放关系的准确性。
194.步骤640，基于第二联合编码，获取任意两个第三实体之间的开放关系。
195.在一些实施例中，第二标注序列层740可以基于第二联合编码，获取与标签文本对应的关系标注序列。
196.关系标注序列可以是与标签文本中多个字或多个词分别对应的多个关系标注按照顺序排列的结果。在一些实施例中，每个关系标注可以反映其对应的标签文本中字和/或词是否为开放关系对应的字和/或词。
197.如图7所示，标签文本中不属于开放关系对应的字和/或词，在关系标注序列中对应的关系标注可以为“o”，其中“o”表示无效或空，标签文本中属于开放关系对应的字和/或词，在关系标注序列中对应的关系标注可以为“b-r”和/或“i-r”，其中“b-r”和“i-r”分别标注开放关系的首字和开放关系的非首字。
198.具体地，第二标注序列层740可以基于第二联合编码，获取标签文本中每个字或词属于开放式关系的概率和不属于开放式关系的概率，然后将概率最大值对应的标记作为所述字或词的实体标注。
199.以图5为例，例如，第二标注序列层740可以基于第二联合编码中的【v
a1
】，获取“甲”属于开放关系第一个字的概率为0.2、属于开放关系的非第一个字的概率为0.2、不属于开放关系的概率为0.6，然后将概率最大值0.6对应的非开放关系的标记“o”作为“甲”字的关系标注。又例如，第二标注序列层740可以基于第二联合编码中的【v
c1
】，获取“竞”属于开放关系第一个字的概率为0.7、属于开放关系的非第一个字的概率为0.2、不属于开放关系的概率为0.1，然后将概率最大值0.7对应的开放关系的第一个字的标记“b-r”作为“竞”字的关系标注。
200.与此类似地，第二标注序列层740可以获取标签文本“label1甲司label2主要竞争对手是label3乙label4
…”
中每个字或词的关系标注，并按照所述字或词在标签文本中的顺序排列，从而获取关系标注序列：“o”、“o”、“o”、“o
”…“
b-r”、“i-r”、“o”、“o
”…
。
201.在一些实施例中，第二标注序列层740可以包括但不限于n元（n-gram）模型、条件随机场（conditional random fields，crf）模型和隐马尔可夫模型（hidden markov model，hmm）中的一种。
202.在一些实施例中，第二抽取模型可以基于关系标注序列，确定待处理文本中任意两个第三实体之间的开放关系。例如，继续如图7所示，第二抽取模型可以基于前述关系标注序列中的关系标注“b-r”和“i-r”在待处理文本中对应的字“竞”和“争”，获取第三实体“甲司”和“乙”之间的开放关系“竞争”。
203.进一步地，b类抽取模块230可以将任意两个第三实体及其之间的开放关系组成b类实体三元组。例如b类抽取模块230可以将第三实体“甲司”和“乙”，以及“甲司”和“乙”之间的开放关系“竞争”，组成第1组b类实体三元组【甲司，乙，竞争】。
204.上述实施例给出了第二抽取模型的一种实现结构，在一些实施例中，第二抽取模型可以基于端到端的模型实现，如基于bert的多头选择模型、斯坦福中文语法分析工具stanfordnlp或者哈工大中文语言分析工具ltp实现。
205.本说明的一些实施例利用第二抽取模型，抽取任意两个第三实体，并基于两个第三实体获取其之间的开发关系，从而获取b类实体三元组，由于开放关系不局限于预先定义，使得基于待处理文本必然可以获取两个第三实体之间的开放关系，从而提高第二抽取
模型的适用范围。
206.图8是根据本说明书一些实施例所示的实体抽取层的结构示意图。在一些实施例中，实体抽取层可以是第一实体抽取层和/或第二实体抽取层。
207.如图8所示，实体抽取层（第一实体抽取层和/或第二实体抽取层）可以包括词嵌入层810、特征提取层820和文本标注层830。
208.具体地，词嵌入层810可以获取待处理文本的文本向量。
209.待处理文本的文本向量可以是表征待处理文本信息的向量。
210.在一些实施例中，在词嵌入层810对获取待处理文本的文本向量之前，可以对待处理文本做如下处理：在待处理文本之前添加[cls]；在待处理文本中每句话之间通过分隔符[sep]分割，以进行区分。例如，待处理文本“甲司主要竞争对手是乙和丙，乙同时是丙的代加工工厂”处理后为“[cls]甲司主要竞争对手是乙和丙[sep]乙同时是丙的代加工工厂”。
[0211]
在一些实施例中，词嵌入层810可以基于待处理文本分别得到对应的字符向量和位置向量。
[0212]
字符向量（token embedding）是表征待处理文本的字符信息的向量。如图8所示，待处理文本“甲司主要竞争对手是乙和丙，乙同时是丙的代加工工厂”包括的23个字符信息可以分别用23个字符向量【w
a1
】【w
a2
】【w
b1
】【w
b2
】
…
表征。示例性地，字符【甲】的字符信息可以用字符向量[2,3,3]表征。在实际应用场景中，向量表示的维度可以更高。在一些实施例中，字符向量可以通过查询词向量表或词嵌入模型获取。在一些实施例中，词嵌入模型可以包括但不限于：word2vec模型、词频-逆向文件频率模型（term frequency
–
inverse document frequency，tf-idf)或sswe-c（skip-gram based combined-sentiment word embedding）模型等。
[0213]
位置向量（position embedding）是反映该字符在待处理文本中位置的向量，如指示该字符是待处理文本中的第1个字符，或第2个字符等。在一些实施例中，待处理文本的位置向量可以通过余弦正弦编码获取。在一些实施例中，还可以包括分段向量（segment embedding），反映字符所在的分段。如字符【甲】位于待处理文本的第1句（分段）中。
[0214]
在一些实施例中，词嵌入层810可以将待处理文本的各类向量进行融合，如拼接或叠加，得到待处理文本信息的文本向量。如图8所示，词嵌入层810可以基于字符向量【w
a1
】【w
a2
】【w
b1
】【w
b2
】
…
和位置向量（未示出），获取待处理文本的文本向量【t
a1
】【t
a2
】【t
b1
】【t
b2
】
…
。
[0215]
进一步地，特征提取层820可以取待处理文本的特征向量。
[0216]
待处理文本的特征向量可以是表征待处理文本的特征的向量。
[0217]
在一些实施例中，待处理文本的特征向量可以包含待处理文本中每个字和/或词对应的字特征向量和/或词特征向量。可以理解，待处理文本的特征向量的维度可以和待处理文本中的字和/或词的个数相同。
[0218]
在一些实施例中，特征提取层820可以对待文本向量进行编码，得到待处理文本的特征向量。如图8所示，特征提取层820可以对文本向量【t
a1
】【t
a2
】【t
b1
】【t
b2
】
…
进行编码，获取待处理文本的特征向量【t
a1
】【t
a2
】【t
b1
】【t
b2
】
…
，其中，【t
a1
】【t
a2
】【t
b1
】【t
b2
】
…
分别是“甲”“司”“主”“要
”…
对应的字特征向量。
[0219]
示例性的特征提取层可以由bert模型或transformer实现。
[0220]
更进一步地，文本标注层830可以基于特征向量获取标注序列。
[0221]
文本标注序列是与待处理文本中多个字或多个词分别对应的多个文本标注按照顺序排列的结果。在一些实施例中，文本标注可以用于指示待处理文本中对应的字或词是否属于实体，进一步的，文本标注可以进一步分为公司实体标注、行业实体标注等，以便进一步指示对应的字或词所属的实体类型。由此，文本标注序列可以用于标记待处理文本中属于实体的字或词，以及所述字或词所属的实体类型。
[0222]
在一些实施例中，所述文本标注可以是汉字、数字、字母和符号等中的至少一种。例如，可以用b表示实体的首字或首词，i表示实体的非首字或非首词。又例如，文本标注b-co或i-co可以标记待处理文本中实体类型为“公司主体”的字或词。又例如，文本标注b-ind或i-ind可以标记待处理文本中实体类型为“行业”的字或词。
[0223]
如图8所示，文本标注层830可以基于特征向量【t
a1
】【t
a2
】【t
b1
】【t
b2
】
…
，分别将待处理文本“甲司主要竞争对手是乙和丙，乙同时是丙的代加工工厂”中的实体“甲司，乙
…”
标记为“b-co、i-co，b-pro
…”
，分别表示“公司的第一个字、公司主体的非第一个字，公司的第一个字”。
[0224]
在一些实施例中，文本标注还可以包括非实体标注。非实体标注也可以是汉字、数字、字母和符号等中的至少一种。待处理文本中不属于实体的字或词可以用相同的非实体标注进行标记。如图8所示，文本标注层830用7个“o”标记待处理文本中不属于实体的词“主要竞争对手是”。在一些实施例中，待处理文本中不属于实体的字或词也可以不进行任何标记。
[0225]
具体地，文本标注层830可以基于特征向量，获取待处理文本中每个字或词分别属于不同实体类型的概率和不属于任何实体的概率，然后将概率最大值对应的实体类型的实体标记或者不属于实体的非实体标记作为所述字或词的文本标注。
[0226]
以图8为例，文本标注层830可以基于特征向量【t
a1
】，获取“甲”属于公司主体第一个字的概率为0.8、属于公司主体非第一个字的概率为0.5、属于人物的第一个字的概率为0.3、属于人物的非第一个字的概率为0.3、属于行业的第一个字的概率为
…
，不属于实体的概率为0.2，然后将概率最大值0.8对应的实体类型“公司”第一个字的实体标记“b-co”作为“甲”字的实体标注。
[0227]
与此类似地，文本标注层830可以获取待处理文本“甲司主要竞争对手是乙和丙，乙同时是丙的代加工工厂”中每个字或词的文本标注，并按照所述字或词在待处理文本中的顺序排列，从而获取文本标注序列：“b-co”、“i-co”、“o”、“o
”…“
o”、“o”、“b-co”。
[0228]
在一些实施例中，文本标注层830可以包括但不限于n元（n-gram）模型、条件随机场（conditional random fields，crf）模型和隐马尔可夫模型（hidden markov model，hmm）中的一种。
[0229]
本说明书实施例还提供一种计算机可读存储介质。所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机实现前述的文本处理方法。
[0230]
本说明书实施例可能带来的有益效果包括但不限于：（1）结合了预定义关系的第一抽取模型和开放关系的第二抽取模型从待处理文本中抽取目标实体三元组，同时将目标实体三元组作为训练数据训练第一抽取模型和第二抽取模型，一方面使得第一抽取模型和第二抽取模型可以相互学习，从而使得训练后的模型输出的抽取结果可以同时兼顾较高的
准确性和较高的适用范围，另一方面可以使得基于少量人工标注的样本实体三元组训练的第一初始抽取模型和第二初始抽取模型可以进行无监督学习，节约了人力资源和标注的时间成本；（2）对第一实体向量和待处理文本的特征向量进行编码，获取第一联合编码，可以使得第一联合编码中同时包含了第一实体的信息、待处理文本的信息，以及第一实体与待处理文本之间的关系信息，可以提高后续第一抽取模型的抽取每种预定义关系对应的第二实体的准确性；（3）对第一标签融合向量和标签文本表示向量进行编码，获取第二联合编码，可以使得第二联合编码中同时包含了两个第三实体的信息、待处理文本的信息、两个第三实体之间的关系信息以及两个第三实体与待处理文本之间的关系信息，可以提高后续第二抽取模型的抽取两个第三实体之间开放关系的准确性；（4）基于待处理文本的时效性、a类实体三元组和/或所述b类实体三元组在待处理文本中的出现次数和打分模型的打分结果，从多个维度筛选目标实体三元组，可以提高目标实体三元组的实时性、实用性和丰富性。
[0231]
需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。
[0232]
上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
[0233]
同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
[0234]
此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件（包括固件、常驻软件、微码等）执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。
[0235]
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件（当前或之后附加于本说明书中的）也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。
[0236]
最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代
配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种文本处理方法、系统和存储介质与流程

相关文献

最热文献