文档管理方法、装置、设备及介质与流程

2022-07-30 10:39:29 来源：中国专利 TAG：

1.本公开涉及人工智能领域，更具体地涉及一种文档管理方法、装置、设备、介质和程序产品。

背景技术：

2.当前，人们已经逐步意识到，数据资产对于科技发展、产品研发、生产决策等越来越重要。其中，在一些分析和研究工作中，通常会以文档为载体进行数据资产的存储和传递，例如，各种研究报告、学术文章、资讯信息等。
3.在实现本公开构思的过程中，发明人发现：在形成文档资料的时候，针对所分析的主题或领域中的问题，通常会用到一些分析指标来进行定性或定量的分析。借助于这些分析指标可以判断该主题或领域中所关心的问题的当前状态、变化趋势或演进方向。可见，这些分析指标对于决策具有非常重要的价值。然而，以往在进行形成文档类数据资产时，往往仅存储文档本身，在有些平台中也会存储摘要或关键字等内容，但是并没有将分析指标作为文档的重要部分加以提炼和利用，这导致文档资料中的分析指标的价值难以被挖掘和利用。

技术实现要素：

4.鉴于上述问题，本公开提供了一种可以从分析指标的角度进行文档类数据资产的管理的文档管理方法、装置、设备、介质和程序产品。
5.本公开实施例的第一个方面，提供了一种文档管理方法。所述方法包括：获取第一文档；识别第一文档的语句中出现的第一分析指标；以及基于所述第一分析指标，建立所述第一文档的指标标签。
6.根据本公开的实施例，所述识别第一文档的语句中出现的第一分析指标包括：利用第一人工智能模型识别所述第一文档中的所述第一分析指标，其中，所述第一人工智能模型是基于自然语言处理和机器学习技术得到的。
7.根据本公开的实施例，所述利用第一人工智能模型识别所述第一文档中的所述第一分析指标包括：对所述第一文档中的语句进行分词处理；利用所述第一人工智能模型识别分词后的所述第一文档中的每个词与所述第一分析指标的关系；以及基于所述第一人工智能模型识别出的所述每个词与所述第一分析指标的关系，将与所述第一分析指标相关的一个词或连续的多个词组合输出，以得到所述第一分析指标。
8.根据本公开的实施例，所述第一人工智能模型识别出的每个词与所述第一分析指标的关系包括：与所述第一分析指标相关、或与所述第一分析指标无关。其中，与所述第一分析指标相关包括以下至少之一：位于所述第一分析指标的开头、位于所述第一分析指标的中间、或位于所述第一分析指标的结尾。
9.根据本公开的实施例，所述第一人工智能模型是通过如下方式训练得到的：获取至少一个第二文档；以所述第二文档中的语句作为训练数据，对所述训练数据进行分词；基
于分词后的所述训练数据中每个词与所述第一分析指标的关系，对所述训练数据中每个词进行标注；以及利用标注后的所述训练数据训练所述第一人工智能模型。
10.根据本公开的实施例，所述第一人工智能模型采用条件随机场模型。
11.根据本公开的实施例，在所述建立所述第一文档的指标标签之前，所述方法还包括：在识别得到多个所述第一分析指标时，基于对所述第一分析指标的语义分析，计算每两个所述第一分析指标的相似度；并将相似度大于相似阈值的每两个所述第一分析指标进行合并；和/或统计识别出的每个所述第一分析指标在所述第一文档中的出现次数，并将所述出现次数满足剔除条件的所述第一分析指标剔除。
12.根据本公开的实施例，所述方法还包括：识别所述第一分析指标的属性信息，其中，所述属性信息包括以下至少之一：在所述第一文档中的关键性或指标类型；其中，所述关键性用于指示所述第一分析指标是否为所述第一文档中的关键指标。则所述基于所述第一分析指标，建立所述第一文档的指标标签还包括：基于所述第一分析指标和所述第一分析指标的所述属性信息，构建所述指标标签的内容。
13.根据本公开的实施例，所述识别所述第一分析指标的属性信息包括：获取用于评估所述第一分析指标在所述第一文档中的所述关键性的m个评估因素的数值，m为大于或等于2的整数；基于所述m个评估因素的数值，得到所述第一分析指标的第一特征向量；以及以所述第一特征向量作为指标评价回归模型的输入，并基于所述指标评价回归模型的输出确定所述第一分析指标在所述第一文档中的所述关键性。
14.根据本公开的实施例，所述m个评估因素包括以下至少之一：所述第一分析指标在所述第一文档中的出现位置；所述第一分析指标在所述第一文档中的分析篇幅；或所述第一分析指标在所述第一文档中的出现次数。
15.根据本公开的实施例，所述获取用于评估所述第一分析指标在所述第一文档中的所述关键性的m个评估因素的数值包括，获取用于表征所述第一分析指标在所述第一文档中的出现位置的数值。具体包括：检索从所述第一文档中识别出的n个所述第一分析指标在所述第一文档中的首次出现位置，其中，n为大于或等于2的整数；基于所述首次出现位置的先后顺序，对n个所述第一分析指标进行编号；以及基于每个所述第一分析指标的编号，确定表征每个所述第一分析指标在所述第一文档中的出现位置的数值。
16.根据本公开的实施例，所述获取用于评估所述第一分析指标在所述第一文档中的所述关键性的m个评估因素的数值包括：获取用于表征所述第一分析指标在所述第一文档中的分析篇幅的数值。具体包括：获取所述第一分析指标在所述第一文档中所属的标题的标题级别，得到目标标题级别；其中，所述标题级别依据标题层级结构而确定；以及基于所述目标标题级别，得到用于表征所述第一分析指标在所述第一文档中的所述分析篇幅的数值。
17.根据本公开的实施例，所述获取所述第一分析指标在所述第一文档中所属的标题的标题级别包括：当所述第一分析指标出现在所述第一文档的标题中时，获取所述第一分析指标所在的标题的所述标题级别；或者当所述第一分析指标没有出现在所述第一文档的标题中时，确定所述第一分析指标所在的段落所属的标题，并获取该标题的标题级别。
18.根据本公开的实施例，所述基于所述目标标题级别，得到用于表征所述第一分析指标在所述第一文档中的所述分析篇幅的数值包括：基于预设的所述标题级别与数值的转
换关系，将所述第一文档中的最高的标题级别转换得到第一数值；所述最高的标题级别为所述标题层级结构中位于最上层的标题的级别；基于所述标题级别与数值的转换对应关系，将所述目标标题级别转换得到第二数值；以及以所述第一数值作为预设的归一化模型的参数，以所述第二数值作为所述归一化模型的变量，计算得到用于表征所述第一分析指标在所述第一文档中的所述分析篇幅的数值。
19.根据本公开的实施例，所述方法还包括：设置所述标题级别与数值的转换关系，其中，所述标题级别在所述标题层级结构中的位置越高，转换得到的数值越大。
20.根据本公开的实施例，所述识别所述第一分析指标的属性信息包括：利用第二人工智能模型识别所述第一分析指标的所述指标类型，其中，所述第二人工智能模型是基于机器学习技术得到的多分类模型。
21.根据本公开的实施例，所述第二人工智能模型是通过如下方式训练得到的：获取至少一个第二分析指标；将所述第二分析指标进行分词并转换为词向量，得到所述第二分析指标的第二特征向量；标注所述第二分析指标的所述指标类型；以及以所述第二特征向量作为所述第二人工智能模型的输入，以对所述第二分析指标标注的所述指标类型作为所述第二人工智能模型的输出参考，训练所述第二人工智能模型。
22.根据本公开的实施例，所述以所述第二特征向量作为所述第二人工智能模型的输入，以对所述第二分析指标标注的所述指标类型作为所述第二人工智能模型的输出参考，训练所述第二人工智能模型还包括：对所述第二人工智能模型的输出进行人工审核；以及基于人工审核后的输出结果与对所述第二分析指标标注的所述指标类型的差异，训练所述第二人工智能模型。
23.根据本公开的实施例，所述第二人工智能模型采用bert模型。
24.根据本公开的实施例，所述指标类型包括基于指标的分析对象对所述第一分析指标进行划分得到的类型。
25.根据本公开的实施例，所述指标类型包括以下至少之一：针对产品本身的指标、针对客户的指标、或针对合作方的指标。
26.本公开实施例的第二方面，提供了一种文档管理装置。所述装置包括第一获取模块、第一识别模块以及指标标签建立模块。第一获取模块用于获取第一文档。第一识别模块用于识别第一文档的语句中出现的第一分析指标。指标标签建立模块用于基于所述第一分析指标，建立所述第一文档的指标标签。
27.根据本公开的实施例，所述第一识别模块用于：利用第一人工智能模型识别所述第一文档中的所述第一分析指标，其中，所述第一人工智能模型是基于自然语言处理和机器学习技术得到的。
28.根据本公开的实施例，所述装置还包括第二识别模块。所述第二识别模块用于识别所述第一分析指标的属性信息，其中，所述属性信息包括以下至少之一：在所述第一文档中的关键性或指标类型；其中，所述关键性用于指示所述第一分析指标是否为所述第一文档中的关键指标。所述指标标签建立模块还用于基于所述第一分析指标和所述第一分析指标的所述属性信息，构建所述指标标签的内容。
29.根据本公开的实施例，所述第二识别模块包括关键指标识别模块。所述关键指标识别模块包括评估因素获取子模块、特征向量组合子模块及指标评价回归模型。评估因素
获取子模块用于获取用于评估所述第一分析指标在所述第一文档中的所述关键性的m个评估因素的数值，m为大于或等于2的整数。特征向量组合子模块用于基于所述m个评估因素的数值，得到所述第一分析指标的第一特征向量。指标评价回归模型用于以所述第一特征向量作为输入，并基于所述预测所述第一分析指标在所述第一文档中的所述关键性。
30.根据本公开的实施例，所述第二识别模块包括指标类型识别模块。所述指标类型识别模块包括第二人工智能模型。所述第二人工智能模型用于识别所述第一分析指标的所述指标类型，其中，所述第二人工智能模型是基于机器学习技术得到的多分类模型。
31.本公开实施例的第三方面，提供了一种电子设备。所述电子设备包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行上述文档管理方法。
32.本公开实施例的第四方面，还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述文档管理方法。
33.本公开实施例的第五方面，还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述文档管理方法。
附图说明
34.通过以下参照附图对本公开实施例的描述，本公开的上述内容以及其他目的、特征和优点将更为清楚，在附图中：
35.图1示意性示出了根据本公开实施例的文档管理方法、装置、设备、介质和程序产品的应用系统架构图；
36.图2示意性示出了根据本公开实施例的文档管理方法中建立指标标签的示意图；
37.图3示意性示出了根据本公开一实施例的文档管理方法的流程图；
38.图4示意性示出了根据本公开另一实施例的文档管理方法的流程图；
39.图5示意性示出了根据本公开一实施例采用第一人工智能模型识别文档中的分析指标的流程图；
40.图6示意性示出了根据本公开一实施例的训练第一人工智能模型的方法流程图；
41.图7示意性示出了根据本公开另一实施例的文档管理方法的流程图；
42.图8示意性示出了根据本公开再一实施例的文档管理方法的流程图；
43.图9示意性示出了根据本公开一实施例的文档管理方法中识别分析指标中的关键指标的流程图；
44.图10示意性示出了根据本公开一实施例的利用指标评价回归模型识别是否为关键指标的流程图；
45.图11示意性示出了根据本公开一实施例的识别分析指标中的关键指标过程中获取表征分析指标的出现位置的数值的流程图；
46.图12示意性示出了根据本公开一实施例的识别分析指标中的关键指标过程中获取表征分析指标的分析篇幅的数值的流程图；
47.图13示意性示出了根据本公开另一实施例的获取表征分析指标的分析篇幅的数值的流程图；
48.图14示意性示出了根据本公开另一实施例的文档管理方法中利用第二人工智能
模型识别分析指标的指标类型的方法流程图；
49.图15示意性示出了根据本公开一实施例的训练第二人工智能模型的方法流程图；
50.图16示意性示出了根据本公开另一实施例的训练第二人工智能模型的方法流程图；
51.图17示意性示出了根据公开再一实施例的文档管理方法的流程图；
52.图18示意性示出了根据本公开一实施例的文档管理装置的结构框图；
53.图19示意性示出了根据本公开一实施例的文档管理装置中第一识别模块的结构框图；
54.图20示意性示出了根据本公开一实施例的文档管理装置中关键指标识别模块的结构框图；
55.图21示意性示出了根据本公开一实施例的文档管理装置中指标类型识别模块的结构框图；以及
56.图22示意性示出了适于实现根据本公开实施例的文档管理方法的电子设备的方框图。
具体实施方式
57.以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。
58.在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
59.在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。
60.在使用类似于“a、b和c等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有a、b和c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。
61.在本文中，需要理解的是，说明书及附图中的任何元素数量均用于示例而非限制，以及任何命名(例如，第一、第二)都仅用于区分，而不具有任何限制含义。
62.本公开实施例提供了一种文档管理方法、装置、设备、介质和程序产品。该方法包括首先获取第一文档，然后识别第一文档的语句中出现的第一分析指标，接着基于第一分析指标，建立第一文档的指标标签。
63.该第一文档可以是任意领域、任意主题的文档资料。在本文中使用“第一文档”来指示要分析的文档。其中，文档是主要以自然语言编写的文本资料，其中也可以包含有图、表等数据信息。例如，产品运营分析报告、产品研发报告、科学研究报告、学术论文、新闻报
道、资讯等。
64.第一分析指标是第一文档所描述的主题或所属领域中用于定量或定性地分析问题的分析指标，为该主题或领域中用于分析问题的工具性术语。本文使用“第一分析指标”来指示要分析的文档中出现的分析指标。一个文档中可以有一个分析指标，也可以有多个分析指标，对此本公开并不限定。
65.以产品运营分析报告为例简要说明分析指标的重要价值。产品运营分析报告是企业为分析产品在市场表现、同业产品竞争态势、客户使用效果等运营情况所编写的报告，在针对产品运营分析过程中，必不可少的会预先定义各种产品运营指标(即，上述的“第一分析指标”)。产品运营指标是用于评估产品运营情况的分析指标。以互联网产品为例，常见的产品运营指标包括注册用户数、日活人数、月活人数、或渠道转化率等。通过分析产品运营指标的大小、变化趋势、影响因素等内容可以全面了解产品的运营情况。不同的产品运营指标往往蕴含着不同维度的产品特性。此外，产品运营指标往往体现了产品的运营分析思路和框架，以及企业未来的产品经营策略，由此可以看出，对于企业的产品运营而言，产品运营指标是一种非常重要的数据资产。
66.本公开实施例可以从产品运营分析报告中自动识别产品运营指标，并基于此对产品运营分析报告建立指标标签。以此方式，将产品运营指标作为产品运营分析报告的一部分，可以将产品运营指标作为企业的数据资产。这样，企业可以基于产品运营指标维度进行产品运营分析报告的检索、统计和分析，提升了企业数据分析资产的可用性，并优化了产品运营分析的效率。
67.可以理解，以上所举例的产品运营分析报告及其中的产品运营指标仅是示例性的。当管理不同主题或领域的文档时，根据该文档所描述的主题或所属领域有对应的分析指标，本公开实施例可以建立起与所管理的文档相适应的指标标签。从而，提供了从分析指标维度对文档进行归集、比较、分析的途径，提升了文档的分析和使用效率。
68.需要说明的是，本公开实施例确定的文档管理方法、装置、设备、介质和程序产品可用于金融领域(诸如，互联网产品分析、内部文档管理、产品开发管理等方面)，也可用于除金融领域之外的任意领域(例如，科技、教育、医药、军工、物流等)，本公开对应用领域不做限定。
69.图1示意性示出了根据本公开实施例的文档管理方法、装置、设备、介质和程序产品的应用系统架构图。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
70.如图1所示，根据该实施例的系统架构100可以包括至少一个终端设备(图中示出了三个，终端设备101、102、103)、服务器104以及至少一个数据库系统(图中示出了三个，数据库系统105、106、107)。
71.终端设备101、102、103可以与服务器104通过网络连接。用户可以使用终端设备101、102、103通过网络与服务器104交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
72.服务器104可以与数据库系统105、106、107通过网络通信连接。其中，数据库系统
105、106、107中可以存储有大量的文档资料。
73.本公开实施例的文档管理方法一般可以由服务器104执行。其中，服务器104可以通过与终端设备101、102、103的交互，确定要分析的第一文档，并从数据库系统105、106、107获取到该第一文档，然后对该第一文档按照本公开各个实施例提供的方法进行处理，建立起该第一文档的指标标签。相应地，本公开实施例所提供的文档管理装置、设备、介质和程序产品一般可以设置于服务器104中。
74.当然，本公开实施例所提供的文档管理方法也可以由不同于服务器104且能够与终端设备101、102、103、数据库系统105、106、107、和/或服务器104通信的服务器或服务器集群执行。相应地，本公开实施例所提供的文档管理装置、设备、介质和程序产品也可以设置于不同于服务器104且能够与终端设备101、102、103、数据库系统105、106、107、和/或服务器104通信的服务器或服务器集群中。
75.应该理解，图1中的终端设备、网络、服务器和数据库系统的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络、服务器和数据库系统。
76.图2示意性示出了根据本公开实施例的文档管理方法中建立指标标签的示意图。
77.如图2所示，根据本公开的实施例可以通过对第一文档201中的分析指标的识别处理，建立指标标签202。
78.该指标标签202中可以包括该第一文档201中所出现的分析指标的名称(诸如，第一分析指标1、第一分析指标2、第一分析指标3等)。
79.根据本公开的另一些实施例，该指标标签202中还可以包括第一文档201中所出现的各个分析指标的属性信息(诸如，指标类型、和/或是关键指标还是非关键指标)。
80.指标类型可以是按照任意一种或多种维度划分的类型；例如，可以是基于指标的分析对象(例如，产品、客户或合作方)对第一分析指标进行划分得到的类型；或者可以是基于指标的用途(用于分析投入、产出、效率或质量)对第一分析指标进行划分得到的类型；或者可以是基于指标的定性或定量特征划分的类型例如，用于定性分析的指标或用于定量分析的指标。可以理解，对于指标类型的划分，按照不同领域或主题中的研究问题的侧重点，可以有多种划分方式，此处不再一一举例。
81.关键指标是第一文档201所描述的内容中的分析的核心，往往第一文档201的内容可以是以关键指标展开的。
82.以第一文档201为产品运营分析报告为例说明关键指标的价值。在生产实践中，在分析某个产品的运营分析情况时，通常先确定该产品的关键指标，再通过分析关键指标的好坏来判断产品的运营情况好坏。因此，可以理解，在每一篇产品运营分析报告中，往往会围绕某一个或多个关键指标来展开分析。
83.产品运营分析报告中的关键指标是产品在运营过程中最关键的一个或多个指标，用于引领产品的发展方向。举例而言，电子银行业务的关键指标例如是有效账户数，通过有效账户数可以评价电子银行业务吸引客户的能力，也可以据此提供电子银行业务的改进方向。再例如，线上收单产品的关键指标可以包括收单商户数量，据此可以线上收单产品在商户中的被接纳程度。
84.可见，根据本公开的实施例，当指标标签202中还包含有指标类型、和/或关键指标/非关键指标之类的信息时，可以帮助用户更有效地利用指标的价值，并且可以基于文档
中的指标类型和/或关键指标来初步确定一篇文档的研究重点，提高用户调研分析工作的效率。
85.根据本公开的再一些实施例，该指标标签202中还可以包括与第一分析指标1、第一分析指标2、第一分析指标3等相关的其他信息，例如每个分析指标的出现次数、这些指标的首次出现的先后顺序等。
86.根据本公开的实施例，当将大量文档中的每个文档均按照第一文档201所示的方式，建立指标标签202后，就可以支持对这些文档的多维度的检索。例如，可以检索具有相同指标的所有文档，或者检索具有相同关键指标的所有文档，或者获取相同指标类型且作为关键指标进行分析的文档等，便于对文档资料从分析指标层面的纵横比较，可以便捷地挖掘出分析指标的价值并加以利用，减少了分析的调研时间，提升了分析的效率。
87.以下将基于图1描述的系统架构，结合图2的指标标签示意，通过图3～图17对本公开实施例的文档管理方法进行详细描述。
88.图3示意性示出了根据本公开一实施例的文档管理方法的流程图。
89.如图3所示，根据该实施例的文档管理方法300可以包括操作s310～操作s330。
90.在操作s310，获取第一文档201。用户可以通过终端设备101、102或103指定要分析的一个或多个文档，或者也可以通过对服务器104的程序设置，定时批量地获取要分析的文档。
91.在操作s320，识别第一文档201的语句中出现的第一分析指标。其中，操作s320中所识别出的第一分析指标可以是一个，也可以是多个。
92.在一个实施例中，可以通过对第一文档201所描述的主题或所属领域中的大量文档的搜集整理，从中提取出该主题或领域中所使用的分析指标，然后在操作s320中利用这些指标对第一文档201进行智能匹配。
93.在另一个实施例中，可以通过自然语言处理和机器学习技术来识别第一文档201中的分析指标。例如，可以对基于自然语言处理构建的第一人工智能模型进行机器学习训练，并在训练好后利用第一人工智能模型识别第一文档201中的第一分析指标。其中，训练该第一人工智能模型时所使用的训练数据可以来自于与第一文档201相同的主题或领域。例如，可以针对不同的主题或领域，训练对应的第一人工智能模型。然后在操作s320中根据第一文档201所描述的主题或所属的领域，选择对应的第一人工智能模型进行第一分析指标的识别。
94.在操作s330，基于第一分析指标，建立第一文档201的指标标签202。例如，可以以识别出的第一分析指标作为第一文档201的指标标签202的内容。在一些实施例中，指标标签202的内容除了识别出的第一分析指标外，还可以包括每个第一分析指标的出现次数、出现频率、出现顺序、出现位置等统计信息。在另一些实施例中，指标标签202的内容还可以包括对所识别到的分析指标进一步分析处理所得得到的信息(诸如，指标类型、是否为关键指标等属性信息，如图2所示)。
95.可见，根据本公开的实施例，基于第一分析指标建立第一文档201的指标标签，可以方便从分析指标的维度进行文档的检索、统计和比较分析等，提升了文档的可用性，优化了对文档进行分析的效率。例如，当用户想要参考已有文档时，可以通过对分析指标的检索和分析，了解所研究的主题或领域中已有的研究成果和进展，有效地提升了文档的使用效
率，提升利用数据资产的效率。
96.图4示意性示出了根据本公开另一实施例的文档管理方法的流程图。
97.如图4所示，根据该实施例的文档管理方法400可以包括操作s310、操作s421～操作s423、以及操作s330。其中，操作s310和操作s330与方法300中的一致，操作s421～操作s423为方法300中的操作s320的一种具体实施例。
98.首先在操作s310，获取第一文档201。
99.然后在操作s421，对第一文档201中的语句进行分词处理。例如，当第一文档201是英文文档时，可以大致通过根据空格拆分单词、排除停止词和提取词干等步骤进行分词。又例如，当第一文档201是中文文档时，可以通过任意一种或多种中文分词工具进行分词，分词算法大致可以包括基于字符串匹配的分词方法、基于理解的分词方法或基于统计的分词方法等。相应地，对于其他语言撰写的文档，使用与该语言相对应的分词工具或算法进行分词处理。
100.接下来在操作s422，利用第一人工智能模型识别分词后的第一文档201中的每个词与第一分析指标的关系。
101.每个词与第一分析指标的关系具体可以是与第一分析指标相关或与第一分析指标无关。
102.根据本公开的一个实施例，一个词与第一分析指标相关还可以进一步区分为以下至少之一：位于第一分析指标的开头、位于第一分析指标的中间或位于第一分析指标的结尾。
103.在对第一人工智能模型进行训练时，可以标注训练数据(例如，第二文档)中的词语第一分析指标的关系，从而让第一人工智能模型根据第二文档的上下文和语言环境，学习每个词出现在语句中时与第一分析指标存在的关系。
104.再接下来在操作s423，基于第一人工智能模型识别出的每个词与第一分析指标的关系，将与第一分析指标相关的一个词或连续的多个词组合输出，以得到第一分析指标。
105.此后在操作s330，基于第一分析指标，建立第一文档201的指标标签202。
106.图5示意性示出了根据本公开一实施例采用第一人工智能模型识别文档中的分析指标的流程图。
107.如图5所示，结合图4，在流程500中，可以在对第一文档201进行分词，并保留分词的顺序，然后输入到第一人工智能模型501。在一个实施例中，该第一人工智能模型501可以采用条件随机场模型(conditional random field，crf)。
108.第一人工智能模型501可以以词性标记502的方式输出第一文档201中的词与第一分析指标的关系，其中，在词性标记502中可以以标签的方式标记每个词与第一分析指标的关系。
109.例如，在一个实施例中，可以以如下标签(b、m、e和a)的方式标记识别出的每个词与第一分析指标的关系；其中，b表示位于第一分析指标的开头的词；m表示位于第一分析指标的中间的词；e表示位于第一分析指标的结尾的词；a表示与第一分析指标无关的词。
110.接下来可以基于词性标记502，按照操作s423中的方式输出第一分析指标。例如，对于标注为b的词，寻找其后方最近的e，找到以后将b-e的所有词输出为第一分析指标；如果标注为b的词后方没有找到e，则视为标注为b的词单独构成一个分析指标，从而直接将b
输出为第一分析指标。从而可以得到第一分析指标的集合503。
111.在此举一个电子银行业务的具体例子来说明。例如，文档内容为：“新增合作方上线数xx家，已完成全年指标的xx.x％；受互联网存款新规影响，新增电子账户开户数和新增资金沉淀金额均未完成序时进度”。
112.在对上述文档分词后输入第一人工智能模型501后，第一人工智能模型501可以输出如下内容：
113.新增(a)合作方上线数xx(a)家(a)，已(a)完成(a)全年(a)指标(a)的(a)xx.x％(a)；受(a)互联网(a)存款(a)新规(a)影响(a)，新增(a)电子(b)账户(m)开户(m)数(e)和(a)新增(a)资金(b)沉淀(m)金额(e)均(a)未(a)完成(a)序时(a)进度(a)。
114.基于上述识别结果，可以到的分析指标为：电子账户开户数、资金沉淀金额。
115.图6示意性示出了根据本公开一实施例的训练第一人工智能模型的方法流程图。
116.如图6所示，结合图5，根据本公开的实施例，训练第一人工智能模型501的方法600可以包括操作s610～操作s640。
117.首先在操作s610，获取至少一个第二文档。该第二文档可以是与第一文档201所描述的主题或所属领域一致的文档。本文中使用“第二文档”来指示训练第一人工智能模型时所使用的文档。
118.然后在操作s620，以第二文档中的语句作为训练数据，对训练数据进行分词。
119.接下来在操作s630，基于分词后的训练数据中每个词与第一分析指标的关系，对训练数据中每个词进行标注。
120.以对产品运营分析报告为例来描述标注过程。例如，可以进行选取大量的历史产品运营报告作为基础数据集，将基础数据集中的报告中的每一句话作为一个训练数据。然后可以利用已有的产品运营指标词库，并通过分词工具(例如jieba分词)对每个训练数据进行分词。接下来对分词后的语料进行标注。例如，按照上述的标签b、m、e和a对每个词进行标注。如果某个词与产品运营指标相关，则对该词标注相应的标签(b、m或e其中之一)；如果某个词与产品运营指标不相关，则对该词标注a。
121.之后在操作s640，利用标注后的训练数据训练第一人工智能模型501。
122.在训练过程中，将第一人工智能模型501每一轮的输出结果与对训练数据的标注进行对比，根据对比的差异反向优化第一人工智能模型501的参数。反复训练，直到第一人工智能模型501的输出结果收敛且准确性满足要求。此后，就可以利用训好后的第一人工智能模型501自动提取文档中的分析指标。
123.根据本公开的一个实施例，在操作s640中对第一人工智能模型501的训练过程中，可以添加人工审核的步骤，即，通过人工审核对第一人工智能模型训练过程的输出进行审核和调整，然后以审核调整后的结果与对训练数据的标注进行对比来反向优化模型，以此可以提升第一人工智能模型501的训练准确率，尤其是在难以保证训练数据量足够多或者样本分布足够多样化的情况下。
124.图7示意性示出了根据本公开另一实施例的文档管理方法的流程图。
125.如图7所示，根据该实施例的文档管理方法700除了操作s310、操作s320和操作s330以外，还可以进一步包括操作s721～操作s722，其中，操作s721～操作s722可以在操作s330之前执行。
126.首先在操作s310，获取第一文档201。
127.然后在操作s320，识别第一文档201的语句中出现的第一分析指标。
128.其中，操作s310和操作s320可以参考方法300或400中的相关描述，此处不再赘述。
129.接下来在操作s721，统计识别出的每个第一分析指标在第一文档201中的出现次数，并将出现次数满足剔除条件的第一分析指标剔除。
130.剔除条件例如可以是，出现次数低于阈值，或者按照出现次数排序，排在末尾；或者出现次数与排在其前面的分析指标相比，次数下降幅度大于预定值等。以此方式，可以降低识别结果中可能存在的错误。
131.然后在操作s722，在识别得到多个第一分析指标时，基于对第一分析指标的语义分析，计算每两个第一分析指标的相似度。例如，将第一分析指标进行分词并转换为词向量，并计算每两个第一分析指标对应的词向量之间的相似度(例如，夹角、余弦相似度等)。然后将相似度大于相似阈值的每两个第一分析指标进行合并，即将相似度大于相似阈值的两个第一分析指标视为同一分析指标。
132.在第一文档201的撰写过程中，编纂人员可能会根据自身经验或模糊记忆定义一些分析指标，这样可能会导致一些分析指标的不规范、重复或不统一等问题。根据本公开的实施例，将相似的分析指标进行合并，从而可以减少由于编纂人员在编写文档时对分析指标的不规范使用所带来的混乱，提高分析指标的规范化和统一性。而且，也有助于进行分析指标维度的检索和利用时的简洁、统一和规范化。
133.需要说明的是，图7中操作s721和操作s722的顺序仅是示例性的，本公开并不限定二者的顺序。另外，在一些实施例中，方法700也可以仅包括操作s721和操作s722其中之一。
134.此后在操作s330，基于第一分析指标，建立第一文档201的指标标签202。其中，操作s330可以参考方法300中的相关描述，此处不再赘述。
135.图8示意性示出了根据本公开再一实施例的文档管理方法的流程图。
136.如图8所示，根据该实施例的文档管理方法800除了操作s310和操作s320以外，还可以包括操作s820和操作s830。其中，操作s820和操作s830在操作s320之后执行。
137.首先在操作s310，获取第一文档201。
138.然后在操作s320，识别第一文档201的语句中出现的第一分析指标。
139.其中，操作s310和操作s320可以参考方法300或400中的相关描述，此处不再赘述。
140.接下来在操作s820，识别第一分析指标的属性信息。属性信息可以包括以下至少之一：在第一文档201中的关键性或指标类型。其中，关键性用于指示第一分析指标是否为第一文档201中的关键指标。
141.在然后在操作s830，基于第一分析指标和第一分析指标的属性信息，构建指标标签202的内容。例如，可以将第一分析指标和第一分析指标的属性信息作为指标标签202的内容，例如参考图2的示意。当然，在第一分析指标和第一分析指标的属性信息之外，指标标签202的内容还可以包括其他信息，对此本公开不予限定。
142.图9示意性示出了根据本公开一实施例的文档管理方法中识别分析指标中的关键指标的流程图。
143.如图9所示，操作s820可以包括操作s901～操作s903，其中，通过操作s901～操作s903可以识别出第一分析指标是否为第一文档201的关键指标。
144.具体地，在操作s901，获于评估第一分析指标在第一文档201中的关键性的m个评估因素的数值，m为大于或等于2的整数。
145.每个领域、或每个主题或每个平台的文档撰写要求或撰写方式或格式，会导致关键指标和非关键指标在文档中的出现会存在一些区别。例如，在产品运营分析报告中，关键指标和非关键指标的区别例如可以有以下任意一项或多项：1)针对关键指标的分析出现在报告中的位置往往会更加靠前，或出现在标题等更醒目的位置，以使得阅读者能够快速了解最核心的运营分析结论；2)关键指标往往会有更加的详细的分析，因此在分析篇幅上比非关键指标更长；3)关键指标在报告中出现的次数或频率往往比非关键指标更多。当然此处仅是示例性列举若干区别，对于不同主题、不同领域或不同平台的文档，其关键指标与非关键指标的区别点可以不同。
146.根据本公开实施例，可以基于关键指标与非关键指标在文档中出现的特点上的区别，提炼出相应的参数作为评估因素，即上述的m个评估因素。
147.然后在操作s902，基于m个评估因素的数值，得到第一分析指标的第一特征向量。
148.接下来在操作s903，以第一特征向量作为指标评价回归模型的输入，并基于指标评价回归模型的输出确定第一分析指标在第一文档201中的关键性，即确定第一分析指标是否为关键指标。
149.如前文所述，关键指标是第一文档201所描述的内容中的分析的核心，往往第一文档201的内容可以是以关键指标展开的。本公开实施例中，自动提取第一文档201的关键指标，能够在较大程度上提高第一文档的使用效率。例如，当第一文档201为产品运营研发报告时，区分出关键指标后，可以对产品的研发改进提供有价值的信息。相应地，当第一文档201为其他主题或领域的文档时，自动区分出其中的关键指标，对于掌握该主题或领域中的研究脉络、发展方向有极大的帮助。
150.图10示意性示出了根据本公开一实施例的利用指标评价回归模型识别是否为关键指标的流程图。
151.如图10所示，结合图9，该流程1000中，基于对诸如产品分析报告等文档中关键指标和非关键指标的区别分析，确定出的m个评估因素可以包括：第一分析指标在第一文档201中的出现位置4；第一分析指标在第一文档201中的分析篇幅a2，和/或第一分析指标在第一文档201中的出现次数a3。
152.第一分析指标在第一文档201中的出现次数a3可以通过统计对应的分析指标在整篇分析报告中的出现次数来得到。
153.关于第一分析指标在第一文档201中的出现位置a1的数值，根据本公开一个实施例，可以参考下文图11所示的方法1100来获取。
154.第一分析指标在第一文档201中的分析篇幅a2的数值，根据本公开一个实施例，可以参考下文图12所示的方法1200来获取。
155.在流程1000中，对于一个第一分析指标，可以将对应的a1、a2、a3组合，形成该第一分析指标的特征向量。然后将该特征向量输入到指标评价回归模型1001中，根据指标评价回归模型1001输出的值(例如，0或1)来确定该第一分析指标是关键指标还是非关键指标。其中，指标评价回归模型1001可以是svm算法模型、逻辑回归模型或gbdt模型等。
156.以指标评价回归模型1001采用逻辑回归算法为例对流程1000说明如下。在一个实
施例中，指标评价回归模型1001所采用的逻辑回归算法的公式可以罗列如下
157.z＝α0 α1a1 α2a2 α3a3ꢀꢀ
(1)
[0158][0159][0160]
其中，式(1)中a1、a2、a3分别表示分析指标的出现位置、分析篇幅和出现次数的值。α0、α1、α2、α3分别表示模型的权重参数，是需要通过模型训练计算获得的。式(2)为指标评价回归模型1001，通过对该模型的训练使得最终得到的模型的输出结果如式(3)所示。其中，y表示是否为关键指标。其中，y＝1表示是关键指标、y＝0表示不是关键性运营指标。当完成模型训练后，对于要进行预测分析的文档和其中的分析指标，可以代入以上y的计算公式中，并通过获得的y值，判断某个分析指标是否为关键指标。
[0161]
图11示意性示出了根据本公开一实施例的识别分析指标中的关键指标过程中获取表征分析指标的出现位置的数值的流程图。
[0162]
如图11所示，结合图10，根据该实施例获取表征第一分析指标在第一文档201中的出现位置的数值的方法1100可以包括操作s1101～操作s1103。
[0163]
首先在操作s1101，检索从第一文档201中识别出的n个第一分析指标在第一文档201中的首次出现位置，其中，n为大于或等于2的整数。
[0164]
接下来在操作s1102，基于首次出现位置的先后顺序，对n个第一分析指标进行编号。
[0165]
然后在操作s1103，基于每个第一分析指标的编号，确定表征每个第一分析指标在第一文档201中的出现位置的数值。
[0166]
例如，图2中第一文档201中识别出的三个指标：第一分析指标1、第一分析指标2、第一分析指标3中，假设首次出现的先后顺序为第一分析指标2、第一分析指标3和第一分析指标1。从而，对第一分析指标1、第一分析指标2、第一分析指标3按照首次出现位置可以分别编号3、1、2，据此可以对第一分析指标1、第一分析指标2、第一分析指标3各自对应的的a1赋值3、1、2。
[0167]
图12示意性示出了根据本公开一实施例的识别分析指标中的关键指标过程中获取表征分析指标的分析篇幅的数值的流程图。
[0168]
如图12所示，结合图10，根据该实施例获取表征第一分析指标在第一文档201中的分析篇幅的数值的方法1200可以包括操作s1201～操作s1202。
[0169]
首先在操作s1201，获取第一分析指标在第一文档201中所属的标题的标题级别，得到目标标题级别。在该实施例中，“目标标题级别”仅是为了后续描述便于区分，并无限定意义。
[0170]
根据本公开的实施例，标题级别依据标题层级结构而确定。例如，word文档中通常分一级标题、二级标题、三级标题等，其中，在word文档中标题级别数越大，该标题的层级越低。可以理解，不同文档编辑器中的标题级别的级别数的赋值方式可能不同。但是，反映在以文档名称为根节点的标题层级结构中，均可以统一为标题层级越低(即距离跟节点越
远)，所覆盖的篇幅越小。
[0171]
在本公开的一个实施例中，当获取word文档的标题级别时，可以使用python-docx库，或者通过poi接口(point of interface，点的接口)来获取。其中，poi接口是java编写的开源api(application programming interface，应用程序接口)，用于支持java程序对word文档的读取和编写。
[0172]
在一些实施例中，操作s1201中可以根据第一分析指标是否出现在第一文档201的标题中，分为两种情形来获取第一分析指标在第一文档201中所属的标题的标题级别。
[0173]
当第一分析指标出现在第一文档201的标题中时，获取第一分析指标所在的标题的标题级别，以此作为目标标题级别。
[0174]
当第一分析指标没有出现在第一文档201的标题中时，确定第一分析指标所在的段落所属的标题，并获取该标题的标题级别。一般标题会在段落前，可以找第一分析指标所在的段落前最近的标题，然后获取该标题的标题级别，作为目标标题级别。
[0175]
当第一分析指标出现在多个标题中、或者在多个标题下的段落中时，可以将多个标题中在标题层级结构中所处位置最高的标题级别作为目标标题级别，或者也可以将第一分析指标出现次数最多的段落所属的标题的标题级别作为目标标题级别。
[0176]
然后在操作s1202，基于目标标题级别，得到用于表征第一分析指标在第一文档201中的分析篇幅的数值。
[0177]
例如，可以预先设置标题级别与数值的转换关系，然后按照该转换关系将目标标题级别转换为对应的数值。其中，在标题级别与数值的转换关系中，可以设置标题级别在标题层级结构中的位置越高，转换得到的数值越大，意味着对应的分析篇幅越大。
[0178]
根据本公开的另一些实施例，考虑到不同文档的标题级别数量存在差异，例如有的文档只有2级标题，有的文档有5级标题，为了统一分析，可以在操作s1202中对目标标题级别进行归一化处理。具体可以参考图13的介绍。
[0179]
图13示意性示出了根据本公开另一实施例的获取表征分析指标的分析篇幅的数值的流程图。
[0180]
如图13所示，根据本公开的实施例操作s1202可以包括操作s1212～操作s1232。
[0181]
在操作s1212，基于预设的标题级别与数值的转换关系，将第一文档201中的最高的标题级别转换得到第一数值(例如，记为b
max
)，其中最高的标题级别为标题层级结构中位于最上层的标题的级别。
[0182]
在操作s1222，基于标题级别与数值的转换对应关系，将目标标题级别转换得到第二数值(例如，记为b)。
[0183]
在操作s1232，以第一数值作为预设的归一化模型的参数，以第二数值作为归一化模型的变量，计算得到用于表征第一分析指标在第一文档201中的分析篇幅的数值(例如，记为b
′
)。
[0184]
在一个实施例中，归一化处理的公式可以如下式(4)所示。
[0185][0186]b′
＝0.5(如果b
max
＝1)
[0187]
图14示意性示出了根据本公开另一实施例的文档管理方法中利用第二人工智能
模型识别分析指标的指标类型的方法流程图。
[0188]
如图14所示，结合图8，流程1400中当识别第一分析指标的指标类型(操作s820)时，可以利用第二人工智能模型1401识别第一分析指标的指标类型为指标类型1、指标类型2或指标类型3其中之一(仅为示例)，其中，第二人工智能模型1401是基于机器学习技术得到的多分类模型。
[0189]
在一个实施例中，该第二人工智能模型1401可以采用双向编码器表示模型(bidirection encoder representations，bert)。其中，bert模型为一种主题词抽取模型。根据本公开的实施例，可以在bert模型中增加用于多分类的分类层。向bert模型输入预处理后的各类文本数据词向量，通过bert模型中文编码器，提取文本的语义信息，得到输入文本的序列编码；在此基础上，分别进行参数层特征抽取、池化层处理、以及随机遮蔽处理。将模型训练至收敛状态后，对于后续新识别的运营分析指标，可通过bert模型来分析指标所属类型。
[0190]
根据本公开的一个实施例，指标类型可以是基于分析对象而划分得到的类型。例如，在产品运营分析过程中，往往会从产品本身、客户、合作方等角度对产品的运营情况进行全面的分析，从而为产品的营销推广、功能优化、合作方筛选等工作提供决策依据。因此，可以针对不同的分析对象或分析角度，建立不同类型的指标，以更好地刻画产品的特点。
[0191]
在一个实施例中，指标类型包括以下至少之一：针对产品本身的指标、针对客户的指标、或针对合作方的指标。例如，对于金融产品而言，产品运营分析报告中的指标类型可以包括但不限于产品本身、客户(包含个人客户、对公客户等)、合伙方三大类。其中，产品运营分析报告中的每个分析指标都可以都归属到上述三大类中的其中之一。从而在流程1400中，可以通过第二人工智能模型1401来识别一个分析指标是针对产品本身的指标、还是针对客户的指标、或者是针对合作方的指标。
[0192]
图15示意性示出了根据本公开一实施例的训练第二人工智能模型的方法流程图。
[0193]
如图15所示，结合图14，根据该实施例训练第二人工智能模型1401的方法1500可以包括操作s1501～操作s1504。
[0194]
在操作s1501，获取至少一个第二分析指标。本文中，“第二分析指标”是指训练第二人工智能模型1401时所使用的分析指标，例如可以是从第一文档201所描述的主题或所属领域中的大量文档中搜集整理或抽取出的分析指标。
[0195]
在操作s1502，将第二分析指标进行分词并转换为词向量，得到第二分析指标的第二特征向量。例如，可以通过通用分词库进行分词处理，并将第二分析指标转换为词向量。
[0196]
在操作s1503，标注第二分析指标的指标类型。例如，当指标类型分为针对产品本身的指标、针对客户的指标和针对合作方的指标三种类型时，可以根据第二分析指标所属的指标类型，对第二分析指标标注对应的标签信息。
[0197]
在操作s1504，以第二特征向量作为第二人工智能模型1401的输入，以对第二分析指标标注的指标类型作为第二人工智能模型1401的输出参考，训练第二人工智能模型1401。当第二人工智能模型1401收敛(例如，当经过一定的训练轮次后，在连续的几轮训练中输出结果不再变化或变化比例小于预设比例)，且准确率满足要求(例如，准确率＞90％)时，可以认为第二人工智能模型1401训练结束。
[0198]
在训练数据量较大的前提下，可以达到较好的识别准确率(例如，训练样本数＞
5000，准确率可＞90％)。并且随着训练数据量和样本多样性的提升，还可以进一步提升第二人工智能模型1401的准确率
[0199]
图16示意性示出了根据本公开另一实施例的训练第二人工智能模型的流程图。
[0200]
如图16所示，根据该实施例训练第二人工智能模型的方法1600可以包括操作s1501～操作s1503、以及操作s1604～操作s1606。
[0201]
在操作s1501，获取至少一个第二分析指标。
[0202]
在操作s1502，将第二分析指标进行分词并转换为词向量，得到第二分析指标的第二特征向量。
[0203]
在操作s1503，标注第二分析指标的指标类型。
[0204]
其中，操作s1501～操作s1503可以参考方法1500中的介绍，此处不再赘述。
[0205]
然后在操作s1604，以第二特征向量作为第二人工智能模型1401的输入，获取第二人工智能模型1401的输出。
[0206]
接下来在操作s1605，对第二人工智能模型1401的输出进行人工审核。
[0207]
此后在操作s1606，基于人工审核后的输出结果与对第二分析指标标注的指标类型的差异，训练第二人工智能模型1401。
[0208]
根据本公开的实施例，为了确保第二人工智能模型1401的准确率，以及便于文档的检索和复用，可以通过设置人工审核的方式，对训练过程中第二人工智能模型1401自动识别的结果做进一步调优。这样一方面可以提高最终呈现结果的准确性；另一方面还可以基于人工审核调整的结果进行第二人工智能模型1401的训练，进一步提高第二人工智能模型1401的预测准确率。
[0209]
图17示意性示出了根据公开再一实施例的文档管理方法的流程图。
[0210]
如图17所示，根据该实施例的文档管理方法1700可以包括操作s1～操作s4。其中，该方法1700用于对产品运营分析报告进行管理。
[0211]
首先在操作s1，从产品运营分析报告中识别产品运营指标。该实施例中，产品运营分析报告为前文描述的“第一文档”的具体实施例，相应的，产品运营指标为“第一分析指标”的一种具体实施例。从而操作s1的具体实现可以参考图3～图7中关于从第一文档中识别第一分析指标的相关介绍。
[0212]
然后在操作s2，针对识别出的每个产品运营指标，判断其指标类型。具体实现可以参考前文图14～图16中关于识别指标类型的相关介绍。
[0213]
接下来在操作s3，从获得的产品运营指标中，判断关键指标。具体实现可以参考前文在图9～图13中关于识别第一分析指标在第一文档201中的关键性的相关介绍。
[0214]
最后在操作s4，为产品运营分析报告建立指标标签，用于不同报告的指标检索。指标标签例如可以包括产品运营分析报告中的产品运营指标的名称、关键指标的名称、和/或关键指标的指标类型等。
[0215]
例如，对于某产品运营分析报告，通过操作s1～s4的分析加工，最终获得指标标签的内容可以包括：(1)产品运营指标有：有效账户数、合作方上线数、资金沉淀金额、和客群交易量；(2)上述各产品运营指标的指标类型为：产品、合作放、产品、客户；(3)关键指标为：有效账户数。
[0216]
可以理解的是，企业可以将很多产品运营分析报告的指标标签进行存储，并且支
持多维度的检索。例如，检索具有相同关键指标的所有相关报告；获取相同指标类型的所有关键指标等。因此，对于产品运营分析人员而言，可以便捷地检索现有报告的分析指标，从而减少了运营分析的调研时间，提升了运营分析的效率。
[0217]
可见，根据本公开的实施例，方法1700通过人工智能技术实现从运营分析报告中自动识别产品运营指标及其指标类型的效果，并且建立指标标签，将产品运营指标与指标标签共同作为数据分析资产的一部分进行存在。更进一步地，建立了指标标签后可以支持针对指标的检索，大大提升了产品运营分析人员查找以往分析报告指标、查找相似指标等工作的便利性，从而提升了数据分析资产的可用性，并优化了产品运营分析的效率。
[0218]
基于上述各个实施例的文档管理方法，本公开实施例还提供了一种文档管理装置。以下将结合图18～图21对本公开实施例的文档管理装置进行详细描述。
[0219]
图18示意性示出了根据本公开一实施例的文档管理装置1800的结构框图。
[0220]
如图18所示，根据本公开的实施例，该装置1800可以包括第一获取模块1810、第一识别模块1820以及指标标签建立模块1830。根据本公开另一实施例，该装置1800还可以进一步包括第二识别模块1840。该装置1800可以用于实现参考图2～图17所描述的方法。
[0221]
第一获取模块1810用于获取第一文档。在一个实施例中，第一获取模块1810可以执行前文描述的操作s310.
[0222]
第一识别模块1820用于识别第一文档的语句中出现的第一分析指标。在一个实施例中，第一识别模块1820可以执行前文描述的操作s320。
[0223]
指标标签建立模块1830用于基于第一分析指标，建立第一文档的指标标签。在一个实施例中，指标标签建立模块1830可以执行前文描述的操作s330。
[0224]
第二识别模块1840用于识别第一分析指标的属性信息，其中，属性信息包括以下至少之一：在第一文档中的关键性或指标类型；其中，关键性用于指示第一分析指标是否为第一文档中的关键指标。相应地，指标标签建立模块1830还用于基于第一分析指标和第一分析指标的属性信息，构建指标标签的内容。在一个实施例中，第二识别模块1840可以执行前文描述操作s820。相应的，指标标签建立模块1830可以执行前文描述的操作s830。
[0225]
根据本公开的实施例，第二识别模块1840可以包括关键指标识别模块1841或指标类型识别模块1842中的至少一个。
[0226]
关键指标识别模块1841用于识别第一分析指标在第一文档中的关键性，即识别第一分析指标是否为关键指标。
[0227]
指标类型识别模块1842用于识别第一分析指标的指标类型。
[0228]
图19示意性示出了根据本公开一实施例的文档管理装置中第一识别模块1820的结构框图。
[0229]
如图19所示，根据该实施例，第一识别模块1820可以包括分词子模块1921、第一识别子模块1922、指标输出子模块1923以及第一训练子模块1924。其中，第一识别模块1820可以用于利用第一人工智能模型识别第一文档中的第一分析指标，其中，第一人工智能模型是基于自然语言处理和机器学习技术得到的。
[0230]
具体地，分词子模块1921用于对第一文档中的语句进行分词处理。在一个实施中，分词子模块1921可以执行前文描述的操作s421。
[0231]
第一识别子模块1922包括第一人工智能模型，用于利用第一人工智能模型识别分
词后的第一文档中的每个词与第一分析指标的关系。在一个实施例中，第一识别子模块1922可以执行前文描述的操作s422。
[0232]
指标输出子模块1923用于基于第一人工智能模型识别出的每个词与第一分析指标的关系，将与第一分析指标相关的一个词或连续的多个词组合输出，以得到第一分析指标。在一个实施例中，指标输出子模块1923可以执行前文描述的操作s423。
[0233]
第一训练子模块1924可以用于训练第一人工智能模型，具体训练过程可以包括：获取至少一个第二文档；以第二文档中的语句作为训练数据，对训练数据进行分词；基于分词后的训练数据中每个词与第一分析指标的关系，对训练数据中每个词进行标注；以及利用标注后的训练数据训练第一人工智能模型。在一个实施例中，第一训练子模块1924可以执行前文描述的操作s610～操作s640。
[0234]
关于该实施例中第一识别模块1820中各个模块的功能的详细描述，可以参考前文图4和图6的相关介绍，此处不再赘述。
[0235]
图20示意性示出了根据本公开一实施例的文档管理装置中关键指标识别模块1841的结构框图。
[0236]
如图20所示，根据该实施例，关键指标识别模块1841可以包括评估因素获取子模块2001、特征向量组合子模块2002、指标评价回归模型2003以及第二训练子模块2004。
[0237]
评估因素获取子模块2001用于获取用于评估第一分析指标在第一文档中的关键性的m个评估因素的数值，m为大于或等于2的整数。在一个实施例中，该m个评估因素包括以下至少之一：第一分析指标在第一文档中的出现位置；第一分析指标在第一文档中的分析篇幅；或第一分析指标在第一文档中的出现次数。在一个实施例中，评估因素获取子模块2001可以执行前文描述的操作s901。
[0238]
特征向量组合子模块2002用于基于m个评估因素的数值，得到第一分析指标的第一特征向量。在一个实施例中，特征向量组合子模块2002可以执行前文描述的操作s902。
[0239]
指标评价回归模型2003用于以第一特征向量作为输入，并基于预测第一分析指标在第一文档中的关键性。在一个实施例中，指标评价回归模型2003可以执行前文描述的操作s903。
[0240]
第二训练子模块2004用于训练指标评价回归模型2003。
[0241]
关于该实施例中关键指标识别模块1841中各个模块的功能的详细介绍，可以参考前文关于图9的介绍，此处不再赘述。
[0242]
图21示意性示出了根据本公开一实施例的文档管理装置中指标类型识别模块1842的结构框图。
[0243]
如图21所示，根据该实施例的指标类型识别模块1842可以包括第二人工智能模型2101和第三训练子模块2102。
[0244]
第二人工智能模型2101用于识别第一分析指标的指标类型，其中，第二人工智能模型是基于机器学习技术得到的多分类模型。
[0245]
第三训练子模块2102用于训练第二人工智能模型2101，具体的训练过程包括：获取至少一个第二分析指标；将第二分析指标进行分词并转换为词向量，得到第二分析指标的第二特征向量；标注第二分析指标的指标类型；以及以第二特征向量作为第二人工智能模型的输入，以对第二分析指标标注的指标类型作为第二人工智能模型的输出参考，训练
第二人工智能模型2101。在一个实施例，第三训练子模块2102可以执行操作s1501～操作s1504。
[0246]
根据本公开的另一实施例，第三训练子模块2102在对第二人工智能模型2101的训练过程中，可以设置人工审核，其中，在训练过程中，对第二人工智能模型2101的输出进行人工审核；以及基于人工审核后的输出结果与对第二分析指标标注的指标类型的差异，训练第二人工智能模型。在一个实施例中，第三训练子模块2102还可可以执行操作s1604～操作s1606。
[0247]
关于该实施例中指标类型识别模块1842中各个模块的功能的详细描述，可以参考前文关于图15和图16的介绍，此处不再赘述。
[0248]
根据本公开的实施例，第一获取模块1810、第一识别模块1820和/或其子模块、指标标签建立模块1830、关键指标识别模块1841和/或其子模块、以及指标类型识别模块1842和/或其子模块中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，第一获取模块1810、第一识别模块1820和/或其子模块、指标标签建立模块1830、关键指标识别模块1841和/或其子模块、以及指标类型识别模块1842和/或其子模块中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者第一获取模块1810、第一识别模块1820和/或其子模块、指标标签建立模块1830、关键指标识别模块1841和/或其子模块、以及指标类型识别模块1842和/或其子模块中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。
[0249]
图22示意性示出了适于实现根据本公开实施例的文档管理方法的电子设备的方框图。
[0250]
如图22所示，根据本公开实施例的电子设备2200包括处理器2201，其可以根据存储在只读存储器(rom)2202中的程序或者从存储部分2208加载到随机访问存储器(ram)2203中的程序而执行各种适当的动作和处理。处理器2201例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(asic))等等。处理器2201还可以包括用于缓存用途的板载存储器。处理器2201可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
[0251]
在ram 2203中，存储有电子设备2200操作所需的各种程序和数据。处理器2201、rom 2202以及ram 2203通过总线2204彼此相连。处理器2201通过执行rom 2202和/或ram 2203中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除rom 2202和ram 2203以外的一个或多个存储器中。处理器2201也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
[0252]
根据本公开的实施例，电子设备2200还可以包括输入/输出(i/o)接口2205，输入/输出(i/o)接口2205也连接至总线2204。电子设备2200还可以包括连接至i/o接口2205的以下部件中的一项或多项：包括键盘、鼠标等的输入部分2206；包括诸如阴极射线管(crt)、液
晶显示器(lcd)等以及扬声器等的输出部分2207；包括硬盘等的存储部分2208；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分2209。通信部分2209经由诸如因特网的网络执行通信处理。驱动器2210也根据需要连接至i/o接口2205。可拆卸介质2211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器2210上，以便于从其上读出的计算机程序根据需要被安装入存储部分2208。
[0253]
本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。
[0254]
根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的rom 2202和/或ram 2203和/或rom 2202和ram 2203以外的一个或多个存储器。
[0255]
本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本公开实施例所提供的方法。
[0256]
在该计算机程序被处理器2201执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
[0257]
在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分2209被下载和安装，和/或从可拆卸介质2211被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。
[0258]
在这样的实施例中，该计算机程序可以通过通信部分2209从网络上被下载和安装，和/或从可拆卸介质2211被安装。在该计算机程序被处理器2201执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
[0259]
根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如java，c ，python，“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0260]
附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0261]
本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
[0262]
以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于非结构化海量数据的智能分析方法与流程

文档管理方法、装置、设备及介质与流程

相关文献

最热文献