文本处理装置、方法、设备和计算机可读存储介质与流程

2023-04-11 02:58:18 来源：中国专利 TAG：

1.本公开涉及文本处理领域，并且具体涉及一种文本处理装置、方法、设备和计算机可读存储介质。

背景技术：

2.文本摘要提取指的是将一段有明确含义的文本内容进行高度的概括和抽象，生成文本的摘要。对于摘要，每个用户关注的重点不同且期望的语言风格(例如，用词、语序等)可能不同，因此，期望能够通过方便的用户交互或者用户设定，获得或者修改原始系统生成的摘要以获得用户期望的摘要。

技术实现要素：

3.鉴于以上问题，本公开提供了一种文本处理装置、方法、设备和计算机可读存储介质。
4.根据本公开的一个方面，提供了一种文本处理装置，用于通过文本处理来提取摘要，所述装置包括：用户数据获取模块，用于获取多个用户的用户数据；以及训练模块，用于利用所述多个用户的用户数据对第一模型进行训练以获得针对不同类别的目标模型，其中，所述第一模型用于基于第一待提取摘要文本和用户行为信息，生成目标摘要文本。
5.根据本公开的一个示例，所述用户数据获取模块根据第一预定规则将所述多个用户的用户数据分类为多个数据类别，所述训练模块利用所述多个用户的用户数据对所述第一模型进行训练以获得针对所述多个数据类别的目标模型，其中，所述第一预定规则与用户行为有关。
6.根据本公开的一个示例，所述第一预定规则是聚类规则或回归规则。
7.根据本公开的一个示例，所述训练模块利用所述多个用户的用户数据对所述第一模型进行训练以获得针对所述多个用户中的每一个用户的目标模型。
8.根据本公开的一个示例，所述多个用户的用户数据表示预定时段的用户数据。
9.根据本公开的一个示例，所述装置还包括筛选模块，用于根据用户反馈对获取的所述多个用户的用户数据进行筛选，以使得所述训练模块利用筛选后的多个用户的用户数据对所述第一模型进行训练来获得针对不同类别的目标模型，其中所述用户反馈包括直接反馈和间接反馈。
10.根据本公开的一个示例，所述筛选模块将与所述用户反馈有关的特征和所述多个用户的用户数据的特征进行加权打分，以获得具有不同得分的、筛选后的多个用户的用户数据。
11.根据本公开的一个示例，所述筛选模块对所有用户使用相同的权重，以将与所述用户反馈有关的特征和所述多个用户的用户数据的特征进行加权打分，来获得筛选后的多个用户的用户数据。
12.根据本公开的一个示例，所述筛选模块对不同用户使用不同的权重，以将与所述
用户反馈有关的特征和所述多个用户的用户数据的特征进行加权打分，来获得筛选后的多个用户的用户数据。
13.根据本公开的一个示例，所述文本处理装置还包括：第一待提取摘要文本获取模块，用于获取所述第一待提取摘要文本；用户行为信息获取模块，用于获取用户行为信息；以及处理模块，用于利用第一模型处理所述第一待提取摘要文本，以得到中间文本，并基于获取的用户行为信息处理所述中间文本以生成目标摘要文本。
14.根据本公开的一个示例，在所述用户行为信息获取模块获取的用户行为信息为删除所述中间文本中的第一特定内容的情况下，所述处理模块直接删除所述中间文本中的第一特定内容以生成目标摘要文本；以及在所述用户行为信息获取模块获取的用户行为信息为修改所述中间文本中的第一特定内容的情况下，所述处理模块向所述用户提供替换所述第一特定内容的候选推荐内容以供用户选择，并使用所述用户选择的候选推荐内容替换所述第一特定内容以生成目标摘要文本。
15.根据本公开的一个示例，在所述用户行为信息获取模块获取的用户行为信息为将所述第一待提取摘要文本中的第二特定内容添加到所述中间文本中的情况下，所述处理模块直接将所述第一待提取摘要文本中的第二特定内容添加到所述中间文本中以生成目标摘要文本；或所述处理模块将所述第二特定内容作为关键内容，以使所述处理模块利用所述第一模型处理所述第一待提取摘要文本和所述关键内容两者，以生成目标摘要文本；或所述处理模块根据所述第二特定内容与所述中间文本的相似度或信息量、以及所述中间文本的长度中的一个或两个，自适应地将所述第一待提取摘要文本中的第二特定内容添加到所述中间文本中以生成目标摘要文本。
16.根据本公开的一个示例，在所述用户行为信息获取模块获取的用户行为信息为获得与所述中间文本相关联但不同的第一附加信息以添加到所述中间文本中来生成目标摘要文本的情况下，所述处理模块基于所述第一待提取摘要文本向用户提供一个第二待提取摘要文本，在所述用户选择了期望的第二待提取摘要文本的情况下，所述处理模块根据第三预定规则，利用第一模型处理所述第一待提取摘要文本和所述第二待提取摘要文本，以生成中间文本和所述第一附加信息作为所述目标摘要文本。
17.根据本公开的一个示例，在所述用户行为信息获取模块获取的用户行为信息为获取与所述中间文本中的第三特定内容相关的信息的情况下，所述处理模块向所述用户提供与所述第三特定内容相关的信息，以供用户选择与所述第三特定内容相关的信息或补全所述第三特定内容以生成目标摘要文本。
18.根据本公开的一个示例，在所述用户行为信息获取模块获取的用户行为信息为修改所述中间文本中包含的第一特定语句顺序的情况下，所述处理模块根据所述用户行为信息调整所述第一特定语句以及与所述第一特定语句相关的语句的顺序以生成目标摘要文本。
19.根据本公开的一个示例，所述文本处理装置还包括用户历史信息获取模块，用于获取用户的历史信息，其中，所述处理模块还基于所述用户的历史信息，利用第一模型处理所述第一待提取摘要文本，以生成所述目标摘要文本。
20.根据本公开的一个示例，所述文本处理装置还包括用户偏好设置模块，用于在用户使用该文本处理装置时勾选偏好数值、在用户使用该文本处理装置时勾选偏好模板、或
者在用户注册该文本处理装置时勾选偏好数值或模板，形成用户专属信息表格，其中，所述处理模块还基于所述用户专属信息表格，利用第一模型处理所述第一待提取摘要文本，以生成目标摘要文本。
21.根据本公开的一个方面，提供了一种文本处理方法，包括：获取多个用户的用户数据；以及利用所述多个用户的用户数据对第一模型进行训练以获得不同类别的目标模型，其中，所述第一模型用于基于第一待提取摘要文本和用户行为信息，生成目标摘要文本。
22.根据本公开的一个方面，提供了一种文本处理设备，所述设备包括：处理器；以及存储器，其中存储计算机可读程序指令，其中，在所述计算机可读程序指令被所述处理器运行时执行文本处理方法，所述方法包括：获取多个用户的用户数据；以及利用所述多个用户的用户数据对第一模型进行训练以获得不同类别的目标模型，其中，所述第一模型用于基于第一待提取摘要文本和用户行为信息，生成目标摘要文本。
23.根据本公开的一个方面，提供了一种用于存储计算机可读指令的计算机可读存储介质，所述程序使得计算机执行文本处理方法，所述方法包括：获取多个用户的用户数据；以及利用所述多个用户的用户数据对第一模型进行训练以获得不同类别的目标模型，其中，所述第一模型用于基于第一待提取摘要文本和用户行为信息，生成目标摘要文本。
24.通过本公开实施例的文本处理装置和文本处理方法，可以通过不同的模型来模拟用户关注来获得更符合用户需求的结果。
附图说明
25.通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。
26.图1示出了根据本公开实施例的文本处理装置的示意图；
27.图2示出了根据本公开实施例的由处理模块向用户提供替换第一特定内容的候选推荐内容以供用户选择的方法流程图；
28.图3示出了根据本公开实施例的由处理模块向用户提供替换第一特定内容的候选推荐内容以供用户选择的示意图；
29.图4示出了根据本公开实施例的由处理模块获得各项特征的基础得分的示意图；
30.图5示出了根据本公开实施例的由处理模块直接将所述第一待提取摘要文本中的第二特定内容添加到所述中间文本中以生成目标摘要文本的示意图；
31.图6示出了根据本公开实施例的由处理模块将所述第二特定内容作为关键内容来获得所述目标摘要文本的示意图；
32.图7示出了根据本公开实施例的由处理模块将与所述中间文本相关联但不同的第一附加信息添加到所述中间文本中来生成目标摘要文本的示意图；
33.图8示出了根据本公开另一实施例的由处理模块将与所述中间文本相关联但不同的第一附加信息添加到所述中间文本中来生成目标摘要文本的示意图；
34.图9a-9b示出了根据本公开实施例的由用户选择相关信息或补全特定内容的示意图；
35.图10示出了根据本公开实施例的调整语句的顺序以生成目标摘要文本的示意图；
36.图11示出了示出了根据本公开实施例的调整语句的顺序以生成目标摘要文本的另一示意图；
37.图12示出了根据本公开实施例的基于用户的历史信息生成目标摘要文本的示意图；
38.图13示出了根据本公开实施例的在用户使用该文本处理装置时选择偏好数值的示意图；
39.图14示出了根据本公开实施例的在用户使用该文本处理装置时选择偏好模板的示意图；
40.图15示出了根据本公开实施例的在用户注册该文本处理装置时选择偏好数值或模板的示意图；
41.图16示出了示出了根据本公开实施例的创建用户专属信息表格的示意图；
42.图17示出了根据本公开实施例的向用户显示多个摘要输出的示意图；
43.图18示出了根据本公开实施例的获得针对多个数据类别的目标模型的示意图；
44.图19示出了根据本公开实施例的获得多个用户中的每一个用户的目标模型的示意图；
45.图20示出了根据本公开实施例的文本处理方法的流程图；
46.图21示出了根据本公开实施例的文本处理设备的示意图；
47.图22示出了根据本公开实施例的计算机可读存储介质的示意图；
48.图23示出本公开的一实施方式所涉及的电子设备的硬件结构的一例的图。
具体实施方式
49.下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在无需创造性劳动的前提下所获取的所有其他实施例，都属于本公开保护的范围。
50.本技术中使用了流程图用来说明根据本技术的实施例的方法的步骤。应当理解的是，前面或后面的步骤不一定按照顺序来精确的进行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步。
51.本公开提供了一种文本处理装置，其通过与用户的交互，可以获得用户期望的摘要文本，从而为不同用户定制特定的摘要文本。本公开以摘要提取为例进行说明。
52.首先，参照图1来描述用于实现本公开实施例的文本处理装置1000。
53.如图1所示，根据本公开实施例的文本处理装置1000包括第一待提取摘要文本获取模块1001、用户行为信息获取模块1002和处理模块1003。本领域的技术人员理解：这些单元模块可以单独由硬件、单独由软件或者由其组合以各种方式实现，并且本公开不限于它们的任何一个。例如，可以通过中央处理单元(cpu)、文本处理器(gpu)、张量处理器(tpu)、现场可编程逻辑门阵列(fpga)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元以及相应计算机指令来实现这些单元。
54.例如，第一待提取摘要文本获取模块1001可以用于获取第一待提取摘要文本。
55.例如，用户行为信息获取模块1002可以用于获取用户行为信息。
56.例如，处理模块1003可以用于利用第一模型处理所述第一待提取摘要文本，以得到中间文本，并基于获取的用户行为信息处理所述中间文本以生成目标摘要文本。
57.例如，该第一待提取摘要文本可以是用于提取摘要的原文信息，中间文本可以是中间摘要，用户行为信息可以是删除、修改、增加摘要中的句子、词汇或者调整顺序等以生成用户期望的摘要，这里不做限制。例如，该第一模型可以是现有的摘要提取模型，其可以包括各种神经网络模型，例如但不限于：卷积神经网络(cnn)(包括googlenet、alexnet、vgg网络等)、具有卷积神经网络的区域(r-cnn)、区域提议网络(rpn)、循环神经网络(recurrent neural network，rnn)、基于堆栈的深度神经网络(s-dnn)、深度信念网络(dbn)、受限玻尔兹曼机(rbm)、完全卷积网络、长短期记忆(lstm)网络和分类网络。另外，执行一项任务的神经网络模型可以包括子神经网络，并且该子神经网络可以包括异构神经网络，并且可以用异构神经网络模型来实现。
58.下面将参照附图2-19详细描述根据本公开实施例的文本处理装置的各个实施例。
59.第一实施例
60.例如，在所述用户行为信息获取模块获取的用户行为信息为删除所述中间文本中的第一特定内容的情况下，所述处理模块1003可以直接删除所述中间文本中的第一特定内容以生成目标摘要文本。
61.例如，在所述用户行为信息获取模块获取的用户行为信息为修改所述中间文本中的第一特定内容的情况下，所述处理模块1003可以向所述用户提供替换所述第一特定内容的候选推荐内容以供用户选择，并使用所述用户选择的候选推荐内容替换所述第一特定内容以生成目标摘要文本。
62.图2示出了根据本公开实施例的由处理模块1003向用户提供替换第一特定内容的候选推荐内容以供用户选择的方法200流程图。如图2所示，所述处理模块1003可以根据以下步骤向所述用户提供替换所述第一特定内容的候选推荐内容以供用户选择：识别所述第一特定内容的类型(s201)；根据所述类型从替换推荐内容来源中生成多个候选推荐内容(s202)；以及对所述多个候选推荐内容按照第一预定规则进行排序，以选取前n个候选推荐内容以供用户选择，其中，n为正整数(s203)。
63.例如，对于步骤s201，第一特定内容的类型包括词性、是否是实体、是否是语句中的一个或多个。例如，对于步骤s202，所述替换推荐内容来源可以包括近义词词典、语言模型、知识库、指代消解、路径搜索其他候选、语句排序中的一个或多个。
64.表1示出了根据第一特定内容的类型从替换推荐内容来源中生成多个候选推荐内容。
65.表1
[0066][0067]
如表1所示，例如，近义词词典可以用于为属于“实体”、“非实体名词/代词”、“动词/形容词/副词”、“不是语句”的第一特定内容提供多个候选推荐内容；语言模型也可以用于为属于“实体”、“非实体名词/代词”、“动词/形容词/副词”、“不是语句”的第一特定内容提供多个候选推荐内容；知识库可以用于为属于“实体”，而不属于“非实体名词/代词”、“动词/形容词/副词”、“语句”的第一特定内容提供多个候选推荐内容；指代消解可以用于为属于“实体”、“非实体名词/代词”，而不属于“动词/形容词/副词”、“语句”的第一特定内容提供多个候选推荐内容；路径搜索(beam search)其他候选可以用于为属于“实体”、“非实体名词/代词”、“动词/形容词/副词”、“语句”的第一特定内容提供多个候选推荐内容，等等。
[0068]
应当认识到，表1仅仅是一个示例，还可以利用其它分类方式将第一特定内容分类为多个类型，然后根据多个类型从其他合适的来源中生成多个候选推荐内容，这里不做限制。
[0069]
应当认识到，本公开的指代消解是指当前自然语言处理领域中任何常规或改进的方法，路径搜索其他候选可以指现有的最短路径搜索算法，包括但不限于dijkstra算法、a*算法、spfa算法、bellman-ford算法、floyd-warshall算法、johnson算法，这里不做限制。
[0070]
图3示出了根据本公开实施例的由处理模块1003向用户提供替换第一特定内容的候选推荐内容以供用户选择的示意图。
[0071]
如图3所示，在用户选定的第一特定内容为“扎克伯格”的情况下，处理模块1003首先识别“扎克伯格”的类型(例如，其类型为“实体”、“名词”、“不是语句”)，然后根据其类型从近义词词典、知识库、指代消解等中生成多个候选推荐内容(即候选推荐内容列表)，接下来，处理模块1003对多个候选推荐内容按照第一预定规则进行排序，以选取前n个(例如，n＝3)候选推荐内容以供用户选择。
[0072]
接下来，对于步骤s203，例如，处理模块1003可以根据多个候选推荐内容的词性、多个候选推荐内容的原词信息覆盖度、多个候选推荐内容的额外信息包含度、上下文流畅度、用户画像偏好、用户行为、多个候选推荐内容的领域类型中的一个或多个的特征对所述多个候选推荐内容进行打分，以得到各项特征得分的加权和，并根据所述加权和对所述多个候选推荐内容进行排序。
[0073]
例如，处理模块1003可以通过第二预定规则或者第一神经网络获得所述各项特征得分的加权和，这里，第二预定规则可以是人为设定的适当规则，例如第二预定规则可以是公式、统计模型等非神经网络规则，这里不做限制。第一神经网络可以是上述神经网络中的任何一种，这里不做限制。
[0074]
例如，各项特征得分的加权和包括各项特征的基础得分和基于所述用户行为信息与第一待提取摘要文本的附加得分中的一个或两者的加权和。
[0075]
图4示出了根据本公开实施例的由处理模块1003获得所述各项特征的基础得分的示意图。
[0076]
如图4所示，对候选推荐内容列表中的多个候选推荐内容分别进行特征提取，以获取如词性、多个候选推荐内容的原词信息覆盖度(即，候选推荐内容覆盖原词/第一特定内容的百分比)、多个候选推荐内容的额外信息包含度(即，候选推荐内容包含除原词/第一特定内容外的内容的百分比)、上下文流畅度等的特征百分比，然后通过特征处理后将特征百分比转换为向量特征。例如，候选推荐内容“马克
·
扎克伯格”的向量特征为[0.92,1.00,0.10,0.93]，候选推荐内容“他”的向量特征为[0.26,0.00,0.10,0.32]。接下里，处理模块1003可以根据该向量特征获得每个候选推荐内容的各项特征的基础得分的加权和。例如，候选推荐内容“马克
·
扎克伯格”的基础得分的加权和为0.68，候选推荐内容“他”的基础得分的加权和为0.13。接下来，处理模块1003可以根据基础得分的加权和根据例如从大到小的顺序对多个候选推荐内容进行排序，以根据需要选择前n个候选推荐内容以供用户选择。
[0077]
各项特征的基础得分对所有的用户可以使用统一权重。例如，可以对所有用户使用同一神经网络或同一预定规则获得各项特征的基础得分。
[0078]
可替代地，所述各项特征的基础得分对所有的用户也可以使用不同权重。例如，先根据用户偏好等对用户进行分类，然后对每一类用户训练不同的神经网络来获得各项特征的基础得分。
[0079]
例如，附加得分可以是通过基于所述用户行为信息直接修改所述基础得分获得的，或者通过将基于第一待提取摘要文本获得的附加特征加入所述基础得分中获得的。
[0080]
例如，当基础得分＝a*w1 b*w2时，可以基于所述用户行为信息直接修改基础得分得到：附加得分＝a*(a*w1 b*w2)。可替代地，当基础得分＝a*w1 b*w2时，可以通过将基于第一待提取摘要文本获得的附加特征(c*w3)加入所述基础得分中获得：附加得分＝a*w1 b*w2 c*w3。
[0081]
作为一个示例，可以基于用户历史选择来获得附加得分。例如，如果用户前后或者连续5次选择来自知识库的候选推荐内容，那么在利用第一模型生成摘要的过程中，可以将知识库的权重乘以5。
[0082]
作为一个示例，在新闻摘要提取领域，可以基于当前新闻的情况来获得附加得分。
[0083]
例如，可以基于新闻类型，对在风格和内容等方面符合类型需求的词提高权重来获得附加得分。作为一个示例，在新闻类型为政治时，可以提高“美国前总统特朗普”的权重，而降低“企业家特朗普”的权重。
[0084]
作为一个示例，可以基于上下文冗余信息来获得附加得分。例如，对于第一待提取摘要文本中包含的“腾讯控股创始人马化腾本月会见了中国反垄断监管机构的官员”，由于在摘要提取过程中，前面已经出现过“腾讯总裁”，因此，对于“马化腾”的候选推荐内容，“qq
之父”的权重可以被设置为大于“腾讯总裁”的权重。
[0085]
第二实施例
[0086]
例如，在所述用户行为信息获取模块获取的用户行为信息为将所述第一待提取摘要文本中的第二特定内容添加到所述中间文本中以生成目标摘要文本的情况下，所述处理模块1003可以直接将所述第一待提取摘要文本中的第二特定内容添加到所述中间文本中以生成目标摘要文本。例如，可以将第二特定内容直接添加到中间文本的最后位置以生成目标摘要文本，或者可以根据第二特定内容在第一待提取摘要文本中的位置，将第二特定内容添加到中间文本的相应位置，以使得生成的目标摘要文本的逻辑关系与第一待提取摘要文本保持一致。
[0087]
图5示出了根据本公开实施例的由处理模块1003直接将所述第一待提取摘要文本中的第二特定内容添加到所述中间文本中以生成目标摘要文本的示意图。
[0088]
如图5所示，当用户期望将原文中的“据澳媒此前报道，脸书18日开始禁止澳大利亚用户在其平台上分享、浏览新闻”添加到输出的摘要中的情况下，处理模块1003可以直接将“据澳媒此前报道，脸书18日开始禁止澳大利亚用户在其平台上分享、浏览新闻”添加到输出的摘要中(如摘要输出(重新生成后)所示)。
[0089]
可替代地，例如，在所述用户行为信息获取模块获取的用户行为信息为将所述第一待提取摘要文本中的第二特定内容添加到所述中间文本中以生成目标摘要文本的情况下，所述处理模块1003可以将所述第二特定内容作为关键内容，以使所述处理模块利用所述第一模型处理所述第一待提取摘要文本和所述关键内容两者，以生成目标摘要文本。
[0090]
图6示出了根据本公开实施例的由处理模块1003将所述第二特定内容作为关键内容来获得所述目标摘要文本的示意图。
[0091]
如图6所示，当用户期望将原文中的“据澳媒此前报道，脸书18日开始禁止澳大利亚用户在其平台上分享、浏览新闻”添加到输出的摘要中的情况下，处理模块1003可以将“据澳媒此前报道，脸书18日开始禁止澳大利亚用户在其平台上分享、浏览新闻”作为关键内容，以使处理模块1003利用所述第一模型处理所述第一待提取摘要文本和该关键内容，以生成目标摘要文本。
[0092]
由于当用户选择直接添加或者作为关键内容添加时，容易出现信息冗余，且可能无法满足摘要长度要求，因此，可以由处理模块1003自适应的添加第二特定内容。
[0093]
可替代地，例如，在所述用户行为信息获取模块获取的用户行为信息为将所述第一待提取摘要文本中的第二特定内容添加到所述中间文本中以生成目标摘要文本的情况下，所述处理模块1003可以根据所述第二特定内容与所述中间文本的相似度或信息量、以及所述中间文本的长度中的一个或两个，自适应地将所述第一待提取摘要文本中的第二特定内容添加到所述中间文本中以生成目标摘要文本。
[0094]
例如，处理模块可以根据以下步骤自适应且动态地将所述第一待提取摘要文本中的第二特定内容添加到所述中间文本中以生成目标摘要文本：
[0095]
①
对比中间文本中的句子和当前需添加句子(第二特定内容)的相似度/信息量：
[0096]
·
中间文本中所有句子都与当前句子无/极少重合信息
→
直接添加
[0097]
·
中间文本中有句子与当前句子重合(部分或基本一样)，可有以下选择：
[0098]
a.作为关键内容直接生成
[0099]
b.将当前句子放入原文中，并高亮冗余的句子/句子部分，询问用户是否删除
[0100]
c.对于部分重合，将当前句子和重合句子进行去重拼接
[0101]
②
检查
①
处理的摘要长度，若经过句子压缩仍然无法满足长度要求，有以下选择：
[0102]
·
改为作为关键内容直接生成
[0103]
·
根据句子重要程度排序(规则或神经网络模型获得)，将排在末位的若干句子标出(使剩下句子符合要求)，询问用户是否删除
[0104]
应当认识到，上述由处理模块1003自适应且动态地将所述第一待提取摘要文本中的第二特定内容添加到所述中间文本中以生成目标摘要文本的方法步骤不限于此，还可以采用其他合适的方法来添加第二特定内容，这里不做限制。
[0105]
第三实施例
[0106]
例如，在所述用户行为信息获取模块获取的用户行为信息为获得与所述中间文本相关联但不同的第一附加信息以添加到所述中间文本中来生成目标摘要文本的情况下，所述处理模块1003可以基于所述第一待提取摘要文本向用户提供一个或多个第二待提取摘要文本，在所述用户选择了期望的第二待提取摘要文本的情况下，所述处理模块1003可以根据第三预定规则，利用第一模型处理所述第一待提取摘要文本和所述期望的第二待提取摘要文本，以生成所述目标摘要文本。
[0107]
例如，处理模块1003可以基于所述第一待提取摘要文本中包含的关键信息以及类型，搜索与所述第一待提取摘要文本相关联但不同的一个或多个第二待提取摘要文本，并去重和排序所述一个多个第二待提取摘要文本，以向用户提供前m个第二待提取摘要文本，其中m为正整数。
[0108]
例如，第二待提取摘要文本是与第一待提取摘要文本相关联但是不同的文本，否则会造成待提取摘要文本的冗余，一般可以选择相似度在中间区间的相关联的文本作为第二待提取摘要文本。
[0109]
例如，所述处理模块1003可以根据以下第四预定规则中的一个或多个利用一个或多个维度对与所述第一待提取摘要文本相关联但不同的一个或多个第二待提取摘要文本进行排序：与所述第一待提取摘要文本的相似度、与所述第一待提取摘要文本的覆盖领域的差别、与所述第一待提取摘要文本的时间差、用户画像偏好。
[0110]
以下详细列出根据一个或多个利用一个或多个维度对与所述第一待提取摘要文本相关联但不同的一个或多个第二待提取摘要文本进行排序：
[0111]
①
对于一个或多个第二待提取摘要文本的所有搜索结果，将其与第一待提取摘要文本进行相似度匹配，相似度在中间区间(如趋近50％)的一个或多个第二待提取摘要文本排序高
[0112]
②
将一个或多个第二待提取摘要文本和第一待提取摘要文本同时进行实体抽取、事件抽取：与第一待提取摘要文本相比，实体覆盖度高、新实体出现多、且事件差异大的一个或多个第二待提取摘要文本排序高
[0113]
③
根据时间：对第一待提取摘要文本和一个或多个第二待提取摘要文本抽取时间，时间越相近的排序越高
[0114]
④
根据用户画像：如用户曾设定过/历史信息中挖掘的偏好，根据偏好调整一个或多个第二待提取摘要文本的排序。如：
[0115]
√用户经常选择来自新华网的新闻
→
提高新华网的新闻排序
[0116]
√用户设定过关注科技类新闻
→
提高分类为科技类或含有科技类实体的新闻的排序
[0117]
接下来，处理模块1003可以根据所述第一待提取摘要文本与所述第二待提取摘要文本的长度、相似度、相关比例中的一个或多个，将利用第一模型处理所述期望的第二待提取摘要文本获得的所述第一附加信息放到所述中间文本的特定位置以生成目标摘要文本。
[0118]
可以按照如下示例中的一个或多个将第一附加信息放到所述中间文本的特定位置以生成目标摘要文本：
[0119]
①
确认第一待提取摘要文本(例如，原新闻)和第二待提取摘要文本(例如，相关新闻)的比例：
[0120]
√规则设定，如：优先第一待提取摘要文本(保留第一待提取摘要文本的所有信息，再按剩余长度空间添加第二待提取摘要文本)
[0121]
√用户设定，如：用户可通过滑杆来控制第二待提取摘要文本和第一待提取摘要文本的长度比例
[0122]
√系统自主判断(此步可与2同时进行)，如：先利用第一模型处理各第二待提取摘要文本以获取具有同第一待提取摘要文本同样长度设定的摘要，对从第一待提取摘要文本和第二待提取摘要文本获取的多个摘要一起进行句子重要度排序，筛选符合最终长度要求的p个句子作为目标摘要文本，p为正整数。
[0123]
②
对各第二待提取摘要文本和第一待提取摘要文本进行比较，去除和第一待提取摘要文本重合或极度相似的句子。
[0124]
③
按照相关比例(如长度)，对各第二待提取摘要文本进行摘要提取以获得第一附加信息。
[0125]
④
根据相关比例将第二待提取摘要文本补充到第一待提取摘要文本的特定位置。关于确认位置：
[0126]
√简单规则，如：统一加在第一待提取摘要文本之后，按显示顺序逐个添加
[0127]
√按时间排序，如：抽取各第二待提取摘要文本中的时间，按照由旧到新的顺序罗列各第二待提取摘要文本
[0128]
√和第一待提取摘要文本进行位置比较，如：找到第一待提取摘要文本和当前第二待提取摘要文本重合的部分
→
观察重合部分和摘要抽取语句的位置关系
→
根据该关系确认最终位置。
[0129]
√构建语义关系树，如：针对所有经过摘要提取获得的摘要语句，构建出基于语义逻辑的关系树(如使用rst方法)，从根节点进行排序。
[0130]
√根据用户行为或偏好，如：用户先选择的第二待提取摘要文本排到最前。
[0131]
图7示出了根据本公开实施例的由处理模块1003将与所述中间文本相关联但不同的第一附加信息添加到所述中间文本中来生成目标摘要文本的示意图。
[0132]
如图7所示，处理模块1003可以基于原新闻中包含的关键词搜索与原新闻相关联但不同的一个或多个相关新闻，并利用排序模型对一个多个相关新闻进行排序，以向用户提供前m(例如，m＝3)个相关新闻供用户选择。接下来，针对用户选择的相关新闻，处理模块1003可以将其与原新闻进行比较，去除和原新闻重合或极度相似的句子，并将去除冗余后
的相关新闻经过摘要提取后生成的相关新闻摘要补充到原新闻经过摘要提取后输出的原新闻摘要的特定位置，以生成目标摘要。
[0133]
图8示出了根据本公开另一实施例的由处理模块1003将与所述中间文本相关联但不同的第一附加信息添加到所述中间文本中来生成目标摘要文本的示意图。
[0134]
如图8所示，由用户选择提供的相关新闻后(如鼠标箭头所示)，处理模块1003可以将利用摘要提取模型处理相关新闻获得的第一附加信息放到所述中间文本的特定位置(如图8所示，目标摘要文本中的下划线部分为由相关新闻生成的摘要内容)以生成目标摘要文本。
[0135]
第四实施例
[0136]
例如，在所述用户行为信息获取模块获取的用户行为信息为获取所述中间文本中的第三特定内容的相关信息的情况下，处理模块1003可以向所述用户提供与所述第三特定内容相关的信息，以供用户选择与所述第三特定内容相关的信息或补全所述第三特定内容以生成目标摘要文本。
[0137]
如图9a-9b示出了根据本公开实施例的由用户选择相关信息或补全特定内容的示意图。
[0138]
如图9a所示，在用户的输入光标停留在某个位置超过一定时间的情况下，处理模块1003可以获取该位置前/后的关键词(即第三特定内容，如图9a中的“特朗普”)，然后从例如知识库/网络搜索该关键词对应的实体的相关信息(如图9a中的“美国前总统”、“第45任美国总统”、“著名企业家”、“共和党候选人”)，以供用户学习或者选择用该相关信息替换该关键词。
[0139]
如图9b所示，在用户进行输入(如图9b中输入的“美国”)的情况下，处理模块1003可以获取该位置前/后的关键词(即第三特定内容，如图9b中的“特朗普”)以及用户的输入(如图9b中输入的“美国”)，从例如知识库/网络搜索该关键词对应的实体的相关信息(如图9b中的“美国前总统”、“第45任美国总统”)，以供用户学习或者补全该关键词。
[0140]
例如，所述处理模块1003可以利用第五预定规则处理所述第三特定内容以得到所述第三特定内容的一个或多个候选内容，并利用所述第三特定内容的一个或多个候选内容补全所述第三特定内容。例如，第五预定规则可以是指代消解等技术，这里不做限制。
[0141]
例如，所述处理模块1003可以根据与所述第三特定内容相关的信息的内容、与所述第三特定内容相关的信息的类型、所述第一待提取摘要文本的领域及其加权和中的一个多个对从知识库中搜索的一个或多个与所述第三特定内容相关的信息进行排序，并向所述用户显示与所述第三特定内容相关的信息。
[0142]
例如，可以通过以下规则向用户显示与所述第三特定内容(以下称为关键词)相关的信息：
[0143]
1.关键词识别：光标前后通过就近原则识别出(一个或多个)实体或名词
[0144]
2.关键词选择和补全：
[0145]
·
补全：
①
将选出的实体或名词在第一待提取摘要文本(原新闻)内进行指代消解，以选出候选词来进行信息补全。
②
添加新闻领域类型。
[0146]
·
选择：实体类优先，信息量不充足的优先
[0147]
3.在知识库、近义词词典、语言模型等中进行搜索
[0148]
4.搜索结果排序并展示：
[0149]
·
原则：带有用户输入词汇的条目优先，不含该实体前后包含的信息的优先，符合该新闻类型的优先(如政治类新闻对应政治身份)
[0150]
·
输入：候选词、关键词、用户输入(可能动态变化)、新闻领域类型、候选词领域类型
[0151]
·
方法：各项特征得分的加权和(可通过人为设定或神经网络获得)
[0152]
a)基础得分(对所有用户不变/对不同用户不同权重)，参考图4所示
[0153]
b)根据用户和当前新闻的附加得分，例如
[0154]
√根据用户历史选择，如：提高用户近期多次的选择的词权重
[0155]
√根据用户动作或输入变化，如：降低用户删去的词权重
[0156]
√根据当前新闻情况
[0157]
①
当前新闻类型(与当前新闻同类的候选词权重提高)
[0158]
例：1.新闻类型为政治，“美国总统”》“企业家”[0159]
②
上下文提及(删除冗余信息)
[0160]
例：“腾讯控股创始人马化腾本月会见了中国反垄断监管机构的官员”，“马化腾”推荐词中“qq之父”》“腾讯总裁”(因为前面有近义词)
[0161]
第五实施例
[0162]
例如，在所述用户行为信息获取模块获取的用户行为信息为修改所述中间文本中包含的第一特定语句顺序的情况下，所述处理模块1003可以直接根据所述用户行为信息调整所述第一特定语句的顺序。
[0163]
由于仅调整单个语句容易造成语句逻辑关系紊乱，因此，可替代地，例如，在所述用户行为信息获取模块获取的用户行为信息为修改所述中间文本中包含的第一特定语句顺序的情况下，所述处理模块1003可以根据所述用户行为信息调整所述第一特定语句以及与所述第一特定语句相关的语句的顺序。
[0164]
例如，所述处理模块1003可以构建所述第一特定语句与所述第一特定语句相关联的语句的结构图，并根据所述结构图调整所述第一特定语句以及与所述第一特定语句相关的语句的顺序。
[0165]
图10示出了根据本公开实施例的调整语句的顺序以生成目标摘要文本的示意图。如图10所示，例如，在用户选择了原文中第
④
句的情况下，可以先抽出与原文中第
④
句关系较为紧密(紧密度较高)的相关句子来构建相关句子图(如图10中的
③→④→⑤
)，然后根据用户想要将原文中第
④
句移动到的位置，判断移动到的位置的前后句是否在构建的相关句子图中。作为一个示例，在用户想要将第
④
句移动到
①②
之间的情况下，由于
①②
不在构建的相关句子图中，为了保证句子的逻辑关系以及流畅度，可以将句子图中的所有句子
③④⑤
都移动到
①②
之间(可在此之前询问用户是否同意)。作为另一个示例，在在用户想要将第
④
句移动到
⑤⑥
之间的情况下，由于
⑤
在构建的相关句子图中，因此可以直接将第
④
句移动到
⑤⑥
之间。
[0166]
应当认识到，可以通过神经网络或现有规则(如具有相同实体、位置接近、连词关系等)来判断相关句子的紧密度，然后通过例如计算句子间的关联关系类型、位置关系等来用相关句子来构建相关句子图。
[0167]
图11示出了根据本公开实施例的调整语句的顺序以生成目标摘要文本的另一示意图。如图11所示，虽然用户未选择下划线部分，但因为和粗体部分(用户选择的部分)相关，因此一起调整。
[0168]
第六实施例
[0169]
例如，所述文本处理装置还可以包括用户历史信息获取模块，用于获取用户的历史信息。例如，用户历史信息获取模块可以对获取的用户历史信息进行整理和挖掘，总结出关于该特定用户的信息规律。接下来，处理模块1003还可以基于所述用户的历史信息/信息规律，利用第一模型处理所述第一待提取摘要文本，以生成所述目标摘要文本。
[0170]
通过基于用户的历史信息调整输出的目标摘要文本，可以使得输出的目标摘要更符合用户的需求。
[0171]
例如，用户历史信息获取模块可以记录并提炼用户的历史输入和信息，形成用户历史表格，如：
[0172]
·
在用户输入中各实体出现的频次(当某一实体频繁出现在用户输入中，则说明用户关注度高)
[0173]
·
用户特定行为出现的频次，如“频繁删去带有具体数值的句子”，“频繁添加原文中的最后一句”等。
[0174]
接下来，处理模块1003可以根据预定周期实时更新用户历史表格，例如，在用户特定行为出现的频次超过预定阈值或者或实体出现的频次超过预定阈值，则可以将该用户特定行为或实体更新到用户历史表格中。
[0175]
然后，对于用户的新输入，处理模块1003可以其对应的用户历史表格、利用第一模型处理所述第一待提取摘要文本，以生成符合用户的历史信息所述目标摘要文本。
[0176]
在一个示例中，可以在通过路径搜索输出目标摘要文本期间，在路径搜索中赋予用户历史信息权重，以使得处理模块在处理第一待提取摘要文本时可以考虑用户历史信息。
[0177]
图12示出了根据本公开实施例的基于用户的历史信息生成目标摘要文本的示意图。如图12所示，在获取的用户的历史信息中，实体“华为”出现的频次较高，因此处理模块1003可以在进行摘要提取时提高“华为”的出现频次，以使得输出的目标摘要更加符合用户的期望。
[0178]
第七实施例
[0179]
在一个示例中，所述文本处理装置还可以包括用户偏好设置模块，用于在用户使用该文本处理装置时选择的偏好选项、或者在用户注册该文本处理装置时选择的偏好选项，形成用户专属信息表格，其中，所述处理模块还基于所述用户专属信息表格，利用第一模型处理所述第一待提取摘要文本，以生成目标摘要文本。
[0180]
例如，用户可以在使用或者注册文本处理装置时以勾选或者回答问题等方式选择偏好选项。图13-15示出了根据本公开实施例的在用户选择偏好选项的示意图。
[0181]
图13示出了根据本公开实施例的在用户使用该文本处理装置时选择偏好数值的示意图。如图13所示，在用户选择了“偏好具体数值”的情况下，可以提高带数值的相关句子的权重，以在摘要输出中输出相对多的带数值的相关句子。
[0182]
图14示出了根据本公开实施例的在用户使用该文本处理装置时选择偏好模板的
示意图。如图14所示，偏好模板(如图14中所示的数据型、儿童阅读型)可以包含多个方面的改变。例如，在用户选择了“数据型”的情况下，可以提高带数值的相关句子的权重；在用户选择了“儿童阅读型”的情况下，可以不关注具体数据、科技细节，忽略长句或将长句拆成短句，去除不再小学水平词库中的词汇，或者将阅读风格从正式难懂更改为通俗易懂等。
[0183]
图15示出了根据本公开实施例的在用户注册该文本处理装置时选择偏好数值或模板的示意图。如图15所示，在注册阶段可以向用户呈现偏好设置表格，该表格中包含一个或多个用户偏好信息。在用户填写完该表格后，处理模块可以生成用户专属信息表格以供在进行摘要提取时参考。
[0184]
第八实施例
[0185]
例如，处理模块1003还可以根据上述方式创建用户专属信息表格。图16示出了根据本公开实施例的创建用户专属信息表格的示意图。
[0186]
接下来，所述文本处理装置还可以包括显示模块，以向用户显示基于用户行为信息获取的目标摘要文本、基于所述用户的历史信息获取的目标摘要文本以及基于用户偏好获取的目标摘要文本的一个或多个供用户选择，以使得用户能更灵活直观地看到基于历史信息、偏好设置输出的目标摘要文本。
[0187]
图17示出了根据本公开实施例的向用户显示多个摘要输出的示意图。
[0188]
进一步地，对于向用户显示的多个目标摘要文本，还可以对其进行去重。例如，对于生成的多个目标摘要文本的每一个，将其分别与其他目标摘要文本进行重合度比较，并将重合度比较高(例如，90％以上)的两个目标摘要文本中的一个目标摘要文本删除。例如，可以利用现有模型计算不同目标只要文本的重合度/相似度，这里不做限制。
[0189]
此外，还可以在对用户显示的多个目标摘要文本进行排序后再向用户显示。作为一个示例，可以根据生成的目标摘要文本的语句流畅度、用户历史选择(例如，选择各个来源的摘要的频次)对目标摘要文本进行排序。作为另一个示例，可以通过对多个目标摘要文本进行打分来对目标摘要文本进行排序。该打分方法可以类似与以上参考图4描述的打分方法，这里不做限制。
[0190]
例如，针对多个目标摘要文本的打分，可以对所有的用户可以使用统一权重。例如，对所有用户使用同一神经网络或同一预定规则(如设定基于用户历史信息的特征和摘要自身特征的权重为1：1)获得各项特征的得分。
[0191]
可替代地，针对多个目标摘要文本的打分，也可以对所有的用户使用不同权重。例如，先根据用户偏好等对用户进行分类，然后对每一类用户训练不同的神经网络或用用不同的规则来获得各项特征的得分。
[0192]
第九实施例
[0193]
例如，该文本处理装置还可以包括用户数据获取模块，用于获取多个用户的用户数据，以及训练模块，用于利用所述多个用户的用户数据对第一模型进行训练以获得针对不同类别的目标模型。
[0194]
由于不同类别的用户的关注点可能不同，因此通过不同的模型来模拟用户关注可以获得更符合用户需求的结果。本公开利用多个用户的用户数据对第一模型进行训练，即可获得针对不同行为的、或者针对多个用户中的每一个用户的目标模型。
[0195]
作为一个示例，用户数据获取模块可以根据第一预定规则或神经网络分类器等将
所述多个用户的用户数据分类为多个数据类别，所述训练模块利用所述多个用户的用户数据对所述第一模型进行训练以获得针对所述多个数据类别的目标模型，其中，所述第一预定规则与用户行为有关。例如，用户行为可以表示偏好的语言类型、偏好的长短句类型、偏好的摘要长度等。
[0196]
例如，可以在模型训练阶段收集各个用户的行为、输入特点等，然后根据与用户行为有关的第一预定规则或神经网络分类器等将多个用户的用户数据分类为多个数据类别。例如第一预定规则可以是聚类规则或回归规则，也可以是其他合适的方法，这里不做限制。
[0197]
接下来，可以根据不同的数据类别，在第一模型(也可以称为公共模型)的基础上在线学习小模型(如在第一模型上再加一层，此层对于各数据类别的参数不同)，以生成针对多个数据类别的目标模型。
[0198]
图18示出了根据本公开实施例的获得针对多个数据类别的目标模型的示意图。
[0199]
如图18所示，可以在模型训练阶段收集各个用户的行为、输入特点、选择的结果、用户的反馈等，然后根据例如聚类规则、回归规则、样例筛选器等将多个用户的用户数据分类为多个数据类别。接下来，可以根据不同的数据类别，在公共模型的基础上在线学习小模型(如在公共模型上再加一层，此层对于各数据类别的参数不同)，以生成针对多个数据类别的专用模型(如图18所示的类别1专用模型、类别2专用模型、类别3专用模型)，从而使得训练后的公用模型可以作为针对多个数据类别的目标模型。
[0200]
接下来，在用户再次使用该共用模型时，可以根据用户的行为、输入特点、选择的结果、用户的反馈/设置等使用目标模型中包含的不同的专用模型来获得用户期望的摘要。
[0201]
作为另一个示例，训练模块还可以利用所述多个用户的用户数据对所述第一模型进行训练以获得针对所述多个用户中的每一个用户的目标模型。例如，多个用户的用户数据可以表示预定时段的用户数据。
[0202]
图19示出了根据本公开实施例的获得多个用户中的每一个用户的目标模型的示意图。
[0203]
如图19所示，可以在预定时段收集各个用户的用户数据，然后根据例如用户识别模块等将多个用户的用户数据根据用户的不同分类为多个数据类别。接下来，可以根据不同的数据类别，在公共模型的基础上在线学习小模型(如在公共模型上再加一层，此层对于各数据类别的参数不同)，以生成针对不同用户的专用模型(如图19所示的用户1专用模型、用户2专用模型、用户3专用模型)，从而使得训练后的公用模型可以作为针对多个不同用户的目标模型。
[0204]
此外，一般仅基于用户数据和用户输出本身、利用语言模型等来筛选用户数据，利用如此获得的用户数据来训练第一模型获得的目标模型可能不理想。本公开提出基于用户对输出的目标摘要文本的反馈来对用户数据进行筛选，以获得符合用户期望的用户数据。
[0205]
例如，如图19所示，该文本处理装置还可以包括筛选模块，用于根据用户反馈对获取的所述多个用户的用户数据进行筛选，以使得所述训练模块利用筛选后的多个用户的用户数据对所述第一模型进行训练来获得针对不同类别的目标模型。例如，用户反馈可以包括用户对生成的目标摘要文本的直接反馈和间接反馈。
[0206]
例如，筛选模块可以将与所述用户反馈有关的特征和所述多个用户的用户数据的特征进行加权打分，以获得具有不同得分的、筛选后的多个用户的用户数据。接下来，训练
模块可以选取得分较高的多个用户数据来对第一模型进行训练。
[0207]
例如，筛选模块可以对所有用户使用相同的权重，以将与所述用户反馈有关的特征和所述多个用户的用户数据的特征进行加权打分，来获得筛选后的多个用户的用户数据。
[0208]
例如，筛选模块可以对不同用户使用不同的权重，以将与所述用户反馈有关的特征和所述多个用户的用户数据的特征进行加权打分，来获得筛选后的多个用户的用户数据。
[0209]
例如，筛选模块可以通过以下方式来根据用户反馈对获取的多个用户的用户数据进行筛选：
[0210]
·
用户反馈的特征类型：
[0211]
①
行为/间接反馈(隐性)：停留时间/是否复制/是否多次修改
[0212]
②
直接反馈：如用户直接给出满意度(不满意、尚可、非常满意)等
[0213]
·
筛选方法：
[0214]
①
收集用户直接/间接反馈，根据相关的规则或模型等将其转化为相关特征，并利用该相关特征对用户数据进行排序筛选。如：
[0215]
√用户的直接反馈，转化为相关分数，如满意：1，较满意：0.8等
[0216]
√用户复制摘要的速度，转化为相关速度，如：速度为x秒，则分数为1/x
[0217]
②
将与用户反馈有关的特征和用户数据中包含的摘要的特征进行加权打分(例如，用图4所述的打分方法)，以获得具有不同得分的、筛选后的多个的用户数据。如：
[0218]
√对所有用户使用相同的权重，如训练神经网络，或人为规则(如设定直接反馈的权重为1，其他权重为0；若无直接反馈，再使用特定权重，如隐性反馈和摘要自身特征1：1)
[0219]
√对不同用户使用不同权重，如将用户分类，对每一类用户训练不同的神经网络或应用不同的规则。
[0220]
以上通过图2-19描述了根据本公开实施例的文本处理装置的各个实施例。以下参照表2描述简述了文本处理装置的各个实施例的功能。
[0221]
表2
[0222][0223][0224]
通过本公开实施例的文本处理装置，可以通过与用户的交互或者通过用户设定，获得用户期望的目标摘要。
[0225]
以下，将参照图20描述根据本公开实施例的文本处理方法100。
[0226]
图20示出了根据本公开实施例的文本处理方法100的流程图。该方法可以由计算机等自动完成。例如，该方法可以用于获取摘要文本。例如，该方法可以以软件、硬件、固件或其任意组合的方式实现，由例如手机、平板电脑、笔记本电脑、桌面电脑、网络服务器等设
备中的处理器加载并执行。
[0227]
如图20所示，该文本处理方法100包括以下步骤s101-s102。
[0228]
在步骤s101，获取第一待提取摘要文本。
[0229]
在步骤s102，获取用户行为信息。
[0230]
在步骤s103，利用第一模型处理所述第一待提取摘要文本，以得到中间文本，并基于获取的用户行为信息处理所述中间文本以生成目标摘要文本。
[0231]
例如，在步骤s102中，在用户行为信息为删除所述中间文本中的第一特定内容的情况下，步骤s103可以删除所述中间文本中的第一特定内容以生成目标摘要文本。应当认识到，步骤s101和s102可以并行处理(例如同时处理s101和s102)，也可以串行处理(例如可以先处理s101再处理s102，或者先处理s102再处理s101)，这里不做限制。
[0232]
例如，在步骤s102中，在用户行为信息为修改所述中间文本中的第一特定内容的情况下，步骤s103可以向所述用户提供替换所述第一特定内容的候选推荐内容以供用户选择，并使用所述用户选择的候选推荐内容替换所述第一特定内容以生成目标摘要文本。
[0233]
例如，步骤s103可以根据以下步骤向所述用户提供替换所述第一特定内容的候选推荐内容以供用户选择：识别所述第一特定内容的类型；根据所述第一特定内容的类型从替换推荐内容来源中生成多个候选推荐内容；以及对所述多个候选推荐内容按照第一预定规则进行排序，以选取前n个候选推荐内容以供用户选择，其中，n为正整数。
[0234]
例如，步骤s103可以根据多个候选推荐内容的词性、多个候选推荐内容的原词信息覆盖度、多个候选推荐内容的额外信息包含度、上下文流畅度、用户画像偏好、用户行为、多个候选推荐内容的领域类型中的一个或多个的特征对所述多个候选推荐内容进行打分，以得到各项特征得分的加权和，并根据所述加权和对所述多个候选推荐内容进行排序。
[0235]
例如，步骤s103可以通过第二预定规则或者第一神经网络获得所述各项特征得分的加权和。
[0236]
例如，各项特征得分的加权和可以包括所述各项特征的基础得分、和基于所述用户行为信息与第一待提取摘要文本的附加得分的一个或两者的加权和。
[0237]
例如，所述各项特征的基础得分对所有的用户可以使用统一权重。
[0238]
例如，所述各项特征的基础得分对所有的用户可以使用不同权重。
[0239]
例如，所述附加得分可以是通过基于所述用户行为信息直接修改所述基础得分获得的，或者通过将基于第一待提取摘要文本获得的附加特征加入所述基础得分中获得的。
[0240]
例如，所述替换推荐内容来源可以包括近义词词典、语言模型、知识库、指代消解、路径搜索其他候选、语句排序中的一个或多个。
[0241]
例如，所述第一特定内容的类型可以包括词性、是否是实体、是否是语句中的一个或多个。
[0242]
例如，在用户行为信息为将所述第一待提取摘要文本中的第二特定内容添加到所述中间文本中的情况下，步骤s103可以直接将所述第一待提取摘要文本中的第二特定内容添加到所述中间文本中以生成目标摘要文本；或步骤s103可以将所述第二特定内容作为关键内容，以使步骤s103可以利用所述第一模型处理所述第一待提取摘要文本和所述关键内容两者，以生成目标摘要文本；或步骤s103可以根据所述第二特定内容与所述中间文本的相似度或信息量、以及所述中间文本的长度中的一个或两个，自适应地将所述第一待提取
摘要文本中的第二特定内容添加到所述中间文本中以生成目标摘要文本。
[0243]
例如，在用户行为信息为获得与所述中间文本相关联但不同的第一附加信息以添加到所述中间文本中来生成目标摘要文本的情况下，步骤s103可以基于所述第一待提取摘要文本向用户提供一个或多个第二待提取摘要文本，在所述用户选择了期望的第二待提取摘要文本的情况下，步骤s103可以根据第三预定规则，利用第一模型处理所述第一待提取摘要文本和所述期望的第二待提取摘要文本，以生成所述目标摘要文本。
[0244]
例如，步骤s103可以基于所述第一待提取摘要文本中包含的关键信息以及类型，搜索与所述第一待提取摘要文本相关联但不同的一个或多个第二待提取摘要文本，并去重和排序所述一个多个第二待提取摘要文本，以向用户提供前m个第二待提取摘要文本，其中m为正整数。
[0245]
例如，步骤s103可以根据以下第四预定规则中的一个或多个利用一个或多个维度对与所述第一待提取摘要文本相关联但不同的一个或多个第二待提取摘要文本进行排序：与所述第一待提取摘要文本的相似度、与所述第一待提取摘要文本的覆盖领域的差别、与所述第一待提取摘要文本的时间差、用户画像偏好。
[0246]
例如，步骤s103可以根据所述第一待提取摘要文本与所述期望的第二待提取摘要文本的长度、相似度、相关比例中的一个或多个，将利用第一模型处理所述期望的第二待提取摘要文本获得的所述第一附加信息放到所述中间文本的特定位置以生成目标摘要文本。
[0247]
例如，在用户行为信息为获取与所述中间文本中的第三特定内容相关的信息的情况下，步骤s103可以向所述用户提供与所述第三特定内容相关的信息，以供用户选择与所述第三特定内容相关的信息或补全所述第三特定内容以生成目标摘要文本。
[0248]
例如，步骤s103可以利用指代消解处理所述第三特定内容以得到所述第三特定内容的一个或多个候选内容，并利用所述第三特定内容的一个或多个候选内容补全所述第三特定内容。
[0249]
例如，步骤s103可以根据与所述第三特定内容相关的信息的内容、与所述第三特定内容相关的信息的类型、所述第一待提取摘要文本的领域及其加权和中的一个多个对从知识库中搜索的一个或多个与所述第三特定内容相关的信息进行排序，并向所述用户显示与所述第三特定内容相关的信息。
[0250]
例如，在用户行为信息为修改所述中间文本中包含的第一特定语句顺序的情况下，步骤s103可以根据所述用户行为信息调整所述第一特定语句以及与所述第一特定语句相关的语句的顺序以生成目标摘要文本。
[0251]
例如，步骤s103可以构建所述第一特定语句与所述第一特定语句相关联的语句的结构图，并根据所述结构图调整所述第一特定语句以及与所述第一特定语句相关的语句的顺序以生成目标摘要文本。
[0252]
例如，该文本处理方法还可以包括：获取用户的历史信息，并基于所述用户的历史信息，利用第一模型处理所述第一待提取摘要文本，以生成所述目标摘要文本。
[0253]
例如，该文本处理方法还可以包括：在用户使用该文本处理方法时勾选偏好数值、在用户使用该文本处理方法时勾选偏好模板、或者在用户注册该文本处理方法时勾选偏好数值或模板，形成用户专属信息表格，所述处理方法还基于所述用户专属信息表格，利用第一模型处理所述第一待提取摘要文本，以生成目标摘要文本。
[0254]
例如，文本处理方法还可以向用户显示基于用户行为信息获取的目标摘要文本、基于所述用户的历史信息获取的目标摘要文本以及基于用户偏好获取的目标摘要文本的一个或多个供用户选择。
[0255]
通过本公开实施例的文本处理方法，可以通过与用户的交互或者通过用户设定，获得用户期望的目标摘要。
[0256]
下面，参照图21描述根据本公开实施例的文本处理设备1100。图21示出了根据本公开实施例的文本处理设备的示意图。由于本实施例的文本处理设备的功能与在上文中参照图20描述的方法的细节相同，因此在这里为了简单起见，省略对相同内容的详细描述。
[0257]
本公开的文本处理设备包括处理器1102；以及存储器1101，其中存储计算机可读指令，在所述计算机可读程序指令被所述处理器运行时执行文本处理方法，所述方法包括：获取第一待提取摘要文本；获取用户行为信息；以及利用第一模型处理所述第一待提取摘要文本，以得到中间文本，并基于获取的用户行为信息处理所述中间文本以生成目标摘要文本。
[0258]
关于不同实施例中的文本处理装置1000和文本处理设备1100的技术效果可以参考本公开的实施例中提供的文本处理方法的技术效果，这里不再赘述。
[0259]
文本处理装置1000和文本处理设备1100可以用于各种适当的电子设备。
[0260]
图22是根据本公开实施例的计算机可读存储介质1200的示意图。
[0261]
如图22所示，本公开还包括一种用于存储计算机可读指令1201的计算机可读存储介质1200，所述指令使得计算机执行文本处理方法，所述方法包括：获取第一待提取摘要文本；获取用户行为信息；以及利用第一模型处理所述第一待提取摘要文本，以得到中间文本，并基于获取的用户行为信息处理所述中间文本以生成目标摘要文本。
[0262]
《硬件结构》
[0263]
另外，上述实施方式的说明中使用的框图示出了以功能为单位的块。这些功能块(结构单元)通过硬件和/或软件的任意组合来实现。此外，各功能块的实现手段并不特别限定。即，各功能块可以通过在物理上和/或逻辑上相结合的一个装置来实现，也可以将在物理上和/或逻辑上相分离的两个以上装置直接地和/或间接地(例如通过有线和/或无线)连接从而通过上述多个装置来实现。
[0264]
例如，本公开的一实施方式中的电子设备可以作为执行本公开的训练方法的处理的计算机来发挥功能。图23是示出本公开的一实施方式所涉及的电子设备60的硬件结构的一例的图。上述的电子设备60可以作为在物理上包括处理器1010、内存1020、存储器1030、通信装置1040、输入装置1050、输出装置1060、总线1070等的计算机装置来构成。
[0265]
另外，在以下的说明中，“装置”这样的文字也可替换为电路、设备、单元等。电子设备60的硬件结构可以包括一个或多个图中所示的各装置，也可以不包括部分装置。
[0266]
例如，处理器1010仅图示出一个，但也可以为多个处理器。此外，可以通过一个处理器来执行处理，也可以通过一个以上的处理器同时、依次、或采用其它方法来执行处理。另外，处理器1010可以通过一个以上的芯片来安装。
[0267]
电子设备60中的各功能例如通过如下方式实现：通过将规定的软件(程序)读入到处理器1010、内存1020等硬件上，从而使处理器1010进行运算，对由通信装置1040进行的通信进行控制，并对内存1020和存储器1030中的数据的读出和/或写入进行控制。
[0268]
处理器1010例如使操作系统进行工作从而对计算机整体进行控制。处理器1010可以由包括与周边装置的接口、控制装置、运算装置、寄存器等的中央处理器(cpu，central processing unit)构成。
[0269]
此外，处理器1010将程序(程序代码)、软件模块、数据等从存储器1030和/或通信装置1040读出到内存1020，并根据它们执行各种处理。作为程序，可以采用使计算机执行在上述实施方式中说明的动作中的至少一部分的程序。例如，电子设备60的控制单元401可以通过保存在内存1020中并通过处理器1010来工作的控制程序来实现，对于其它功能块，也可以同样地来实现。
[0270]
内存1020是计算机可读取记录介质，例如可以由只读存储器(rom，read only memory)、可编程只读存储器(eprom，erasable programmable rom)、电可编程只读存储器(eeprom，electrically eprom)、随机存取存储器(ram，random access memory)、其它适当的存储介质中的至少一个来构成。内存1020也可以称为寄存器、高速缓存、主存储器(主存储装置)等。内存1020可以保存用于实施本公开的一实施方式所涉及的无线通信方法的可执行程序(程序代码)、软件模块等。
[0271]
存储器1030是计算机可读取记录介质，例如可以由软磁盘(flexible disk)、软(注册商标)盘(floppy disk)、磁光盘(例如，只读光盘(cd-rom(compact disc rom)等)、数字通用光盘、蓝光(blu-ray，注册商标)光盘)、可移动磁盘、硬盘驱动器、智能卡、闪存设备(例如，卡、棒(stick)、密钥驱动器(key driver))、磁条、数据库、服务器、其它适当的存储介质中的至少一个来构成。存储器1030也可以称为辅助存储装置。
[0272]
通信装置1040是用于通过有线和/或无线网络进行计算机间的通信的硬件(发送接收设备)，例如也称为网络设备、网络控制器、网卡、通信模块等。
[0273]
输入装置1050是接受来自外部的输入的输入设备(例如，键盘、鼠标、麦克风、开关、按钮、传感器等)。输出装置1060是实施向外部的输出的输出设备(例如，显示器、扬声器、发光二极管(led，light emitting diode)灯等)。另外，输入装置1050和输出装置1060也可以为一体的结构(例如触控面板)。
[0274]
此外，处理器1010、内存1020等各装置通过用于对信息进行通信的总线1070连接。总线1070可以由单一的总线构成，也可以由装置间不同的总线构成。
[0275]
此外，电子设备60可以包括微处理器、数字信号处理器(dsp，digital signal processor)、专用集成电路(asic，application specific integrated circuit)、可编程逻辑器件(pld，programmable logic device)、现场可编程门阵列(fpga，field programmable gate array)等硬件，可以通过该硬件来实现各功能块的部分或全部。例如，处理器1010可以通过这些硬件中的至少一个来安装。
[0276]
软件无论被称为软件、固件、中间件、微代码、硬件描述语言，还是以其它名称来称呼，都应宽泛地解释为是指命令、命令集、代码、代码段、程序代码、程序、子程序、软件模块、应用程序、软件应用程序、软件包、例程、子例程、对象、可执行文件、执行线程、步骤、功能等。
[0277]
此外，软件、命令、信息等可以经由传输介质被发送或接收。例如，当使用有线技术(同轴电缆、光缆、双绞线、数字用户线路(dsl，digital subscriber line)等)和/或无线技术(红外线、微波等)从网站、服务器、或其它远程资源发送软件时，这些有线技术和/或无线
技术包括在传输介质的定义内。
[0278]
本说明书中说明的各方式/实施方式可以单独使用，也可以组合使用，还可以在执行过程中进行切换来使用。此外，本说明书中说明的各方式/实施方式的处理步骤、序列、流程图等只要没有矛盾，就可以更换顺序。例如，关于本说明书中说明的方法，以示例性的顺序给出了各种各样的步骤单元，而并不限定于给出的特定顺序。
[0279]
本说明书中使用的“根据”这样的记载，只要未在其它段落中明确记载，则并不意味着“仅根据”。换言之，“根据”这样的记载是指“仅根据”和“至少根据”这两者。
[0280]
本说明书中使用的对使用“第一”、“第二”等名称的单元的任何参照，均非全面限定这些单元的数量或顺序。这些名称可以作为区别两个以上单元的便利方法而在本说明书中使用。因此，第一单元和第二单元的参照并不意味着仅可采用两个单元或者第一单元必须以若干形式占先于第二单元。
[0281]
在本说明书或权利要求书中使用“包括(including)”、“包含(comprising)”、以及它们的变形时，这些用语与用语“具备”同样是开放式的。进一步地，在本说明书或权利要求书中使用的用语“或(or)”并非是异或。
[0282]
本领域技术人员可以理解，本公开的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本公开的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本公开的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。
[0283]
本公开使用了特定词语来描述本公开的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本公开至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本公开的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
[0284]
除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。
[0285]
以上对本公开进行了详细说明，但对于本领域技术人员而言，显然，本公开并非限定于本说明书中说明的实施方式。本公开在不脱离由权利要求书的记载所确定的本公开的宗旨和范围的前提下，可以作为修改和变更方式来实施。因此，本说明书的记载是以示例说明为目的，对本公开而言并非具有任何限制性的意义。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：跨操作系统的调用方法、装置及电子设备与流程

文本处理装置、方法、设备和计算机可读存储介质与流程

最热文献