一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文档管理方法、装置、设备及介质与流程

2022-07-30 10:39:29 来源:中国专利 TAG:

技术特征:
1.一种文档管理方法,包括:获取第一文档;识别第一文档的语句中出现的第一分析指标;以及基于所述第一分析指标,建立所述第一文档的指标标签。2.根据权利要求1所述的方法,其中,所述识别第一文档的语句中出现的第一分析指标包括:利用第一人工智能模型识别所述第一文档中的所述第一分析指标,其中,所述第一人工智能模型是基于自然语言处理和机器学习技术得到的。3.根据权利要求2所述的方法,其中,所述利用第一人工智能模型识别所述第一文档中的所述第一分析指标包括:对所述第一文档中的语句进行分词处理;利用所述第一人工智能模型识别分词后的所述第一文档中的每个词与所述第一分析指标的关系;以及基于所述第一人工智能模型识别出的每个词与所述第一分析指标的关系,将与所述第一分析指标相关的一个词或连续的多个词组合输出,以得到所述第一分析指标。4.根据权利要求3所述的方法,其中,所述第一人工智能模型识别出的每个词与所述第一分析指标的关系包括:与所述第一分析指标相关、或与所述第一分析指标无关;其中,与所述第一分析指标相关包括以下至少之一:位于所述第一分析指标的开头、位于所述第一分析指标的中间或位于所述第一分析指标的结尾。5.根据权利要求2~4任意一项所述的方法,其中,所述第一人工智能模型是通过如下方式训练得到的:获取至少一个第二文档;以所述第二文档中的语句作为训练数据,对所述训练数据进行分词;基于分词后的所述训练数据中每个词与所述第一分析指标的关系,对所述训练数据中每个词进行标注;以及利用标注后的所述训练数据训练所述第一人工智能模型。6.根据权利要求5所述的方法,其中,所述第一人工智能模型采用条件随机场模型。7.根据权利要求1所述的方法,其中,在所述建立所述第一文档的指标标签之前,所述方法还包括:在识别得到多个所述第一分析指标时,基于对所述第一分析指标的语义分析,计算每两个所述第一分析指标的相似度;并将相似度大于相似阈值的每两个所述第一分析指标进行合并;和/或统计识别出的每个所述第一分析指标在所述第一文档中的出现次数,并将所述出现次数满足剔除条件的所述第一分析指标剔除。8.根据权利要求1所述的方法,其中,所述方法还包括:识别所述第一分析指标的属性信息,其中,所述属性信息包括以下至少之一:在所述第一文档中的关键性或指标类型;其中,所述关键性用于指示所述第一分析
指标是否为所述第一文档中的关键指标;则,所述基于所述第一分析指标,建立所述第一文档的指标标签还包括:基于所述第一分析指标和所述第一分析指标的所述属性信息,构建所述指标标签的内容。9.根据权利要求8所述的方法,其中,所述识别所述第一分析指标的属性信息包括:获取用于评估所述第一分析指标在所述第一文档中的所述关键性的m个评估因素的数值,m为大于或等于2的整数;基于所述m个评估因素的数值,得到所述第一分析指标的第一特征向量;以及以所述第一特征向量作为指标评价回归模型的输入,并基于所述指标评价回归模型的输出确定所述第一分析指标在所述第一文档中的所述关键性。10.根据权利要求9所述的方法,其中,所述m个评估因素包括以下至少之一:所述第一分析指标在所述第一文档中的出现位置;所述第一分析指标在所述第一文档中的分析篇幅;或所述第一分析指标在所述第一文档中的出现次数。11.根据权利要求10所述的方法,其中,所述获取用于评估所述第一分析指标在所述第一文档中的所述关键性的m个评估因素的数值包括:获取用于表征所述第一分析指标在所述第一文档中的出现位置的数值,具体包括:检索从所述第一文档中识别出的n个所述第一分析指标在所述第一文档中的首次出现位置,其中,n为大于或等于2的整数;基于所述首次出现位置的先后顺序,对n个所述第一分析指标进行编号;以及基于每个所述第一分析指标的编号,确定表征每个所述第一分析指标在所述第一文档中的出现位置的数值。12.根据权利要求10所述的方法,其中,所述获取用于评估所述第一分析指标在所述第一文档中的所述关键性的m个评估因素的数值包括:获取用于表征所述第一分析指标在所述第一文档中的分析篇幅的数值,具体包括:获取所述第一分析指标在所述第一文档中所属的标题的标题级别,得到目标标题级别;其中,所述标题级别依据标题层级结构而确定;以及基于所述目标标题级别,得到用于表征所述第一分析指标在所述第一文档中的所述分析篇幅的数值。13.根据权利要求12所述的方法,其中,所述获取所述第一分析指标在所述第一文档中所属的标题的标题级别包括:当所述第一分析指标出现在所述第一文档的标题中时,获取所述第一分析指标所在的标题的所述标题级别;或者当所述第一分析指标没有出现在所述第一文档的标题中时,确定所述第一分析指标所在的段落所属的标题,并获取该标题的标题级别。14.根据权利要求12所述的方法,其中,所述基于所述目标标题级别,得到用于表征所述第一分析指标在所述第一文档中的所述分析篇幅的数值包括:基于预设的所述标题级别与数值的转换关系,将所述第一文档中的最高的标题级别转换得到第一数值;所述最高的标题级别为所述标题层级结构中位于最上层的标题的级别;基于所述标题级别与数值的转换对应关系,将所述目标标题级别转换得到第二数值;
以及以所述第一数值作为预设的归一化模型的参数,以所述第二数值作为所述归一化模型的变量,计算得到用于表征所述第一分析指标在所述第一文档中的所述分析篇幅的数值。15.根据权利要求14所述的方法,其中,所述方法还包括:设置所述标题级别与数值的转换关系,其中,所述标题级别在所述标题层级结构中的位置越高,转换得到的数值越大。16.根据权利要求8所述的方法,其中,所述识别所述第一分析指标的属性信息包括:利用第二人工智能模型识别所述第一分析指标的所述指标类型,其中,所述第二人工智能模型是基于机器学习技术得到的多分类模型。17.根据权利要求16所述的方法,其中,所述第二人工智能模型是通过如下方式训练得到的:获取至少一个第二分析指标;将所述第二分析指标进行分词并转换为词向量,得到所述第二分析指标的第二特征向量;标注所述第二分析指标的所述指标类型;以及以所述第二特征向量作为所述第二人工智能模型的输入,以对所述第二分析指标标注的所述指标类型作为所述第二人工智能模型的输出参考,训练所述第二人工智能模型。18.根据权利要求17所述的方法,其中,所述以所述第二特征向量作为所述第二人工智能模型的输入,以对所述第二分析指标标注的所述指标类型作为所述第二人工智能模型的输出参考,训练所述第二人工智能模型还包括:对所述第二人工智能模型的输出进行人工审核;以及基于人工审核后的输出结果与对所述第二分析指标标注的所述指标类型的差异,训练所述第二人工智能模型。19.根据权利要求16~18任一项所述的方法,其中,所述第二人工智能模型采用bert模型。20.根据权利要求16~18任一项所述的方法,其中,所述指标类型包括基于指标的分析对象对所述第一分析指标进行划分得到的类型。21.根据权利要求20所述的方法,其中,所述指标类型包括以下至少之一:针对产品本身的指标、针对客户的指标、或针对合作方的指标。22.一种文档管理装置,包括:第一获取模块,用于获取第一文档;第一识别模块,用于识别第一文档的语句中出现的第一分析指标;以及指标标签建立模块,用于基于所述第一分析指标,建立所述第一文档的指标标签。23.根据权利要求22所述的装置,所述第一识别模块用于:利用第一人工智能模型识别所述第一文档中的所述第一分析指标,其中,所述第一人工智能模型是基于自然语言处理和机器学习技术得到的。24.根据权利要求22所述的装置,其中,所述装置还包括第二识别模块;所述第二识别模块用于识别所述第一分析指标的属性信息,其中,所述属性信息包括以下至少之一:在所述第一文档中的关键性或指标类型;其中,所述关键性用于指示所述第
一分析指标是否为所述第一文档中的关键指标;所述指标标签建立模块还用于基于所述第一分析指标和所述第一分析指标的所述属性信息,构建所述指标标签的内容。25.一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~21中任一项所述的方法。26.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~21中任一项所述的方法。27.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~21中任一项所述的方法。

技术总结
本公开提供了一种文档管理方法,属于人工智能技术领域。该方法包括:获取第一文档;识别第一文档的语句中出现的第一分析指标;以及基于所述第一分析指标,建立所述第一文档的指标标签。本公开还提供了一种文档管理装置、设备、存储介质和程序产品。存储介质和程序产品。存储介质和程序产品。


技术研发人员:胡屹 马无缰 张展 王敬凯
受保护的技术使用者:中国工商银行股份有限公司
技术研发日:2022.05.11
技术公布日:2022/7/29
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献