一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种分散文档管理的方法

2022-08-13 20:05:04 来源:中国专利 TAG:

技术特征:
1.一种分散文档管理的方法,其特征在于,包括以下步骤:第一步、收集分散文档,并在分散文档中添加搜索信息;第二步、把添加搜索信息的分散文档存储于云端服务器内;第三步、识别所述搜索信息的文本内容,使用倒排索引方法进行词频统计,得到各个词语的词频统计值,获得语义特征;第四步、根据语义特征进行分散文档的分类;第五步、对分类好的分散文档进行重复检测并删除重复文档;第六步、对检测完成的分散文档进行数据的安全加密管理;第七步、用户通过云端服务器查询所述分散文档的搜索信息,根据所述搜索信息向存储文档的云端服务器发送安全加密管理信息;第八步、存储文档的云端服务器接收到所述全加密管理信息之后对所述文档进行重新编辑以生成新版本的文档,所述新版本的文档提供给请求用户。2.根据权利要求1所述的一种分散文档管理的方法,其特征在于,所述第一步中搜索信息包括类别、关键字信息、名称、编号和编码。3.根据权利要求1所述的一种分散文档管理的方法,其特征在于,所述第四步的具体步骤如下:通过从第二步中存储的数据采样多个文档,抽取该多个文档作为分类对象;从存储部抽取第三步的语义特征;基于语义特征与分类对象内的类别信息出现的频率的相似性,对分类对象进行聚类,由此,按照每个语义特征生成所述类目。4.根据权利要求1所述的一种分散文档管理的方法,其特征在于,所述第五步中的具体步骤如下:获取全部已入库文档和待检测文档;从存储部抽取分词处理全部已入库文档和所述待检测文档;根据预设领域相关停用词集,过滤分词后的已入库文档和待检测文档;训练预处理后的已入库文档,生成句向量模型;根据所述句向量模型,生成过滤分词后的已入库文档的文档向量和待检测文档的文档向量;计算已入库文档的文档向量和待检测文档的文档向量的余弦值;根据所述余弦值,判断待检测文档与已入库文档是否相似;相似删除,不相似把待检测文档存储于入库文档。5.根据权利要求1所述的一种分散文档管理的方法,其特征在于,所述第六步中,第六步的安全管理为向第五步中数据的文档进行加密;具体步骤如下:为第五步中数据的文档建立唯一标识,并将文档的唯一标识设置在所述文档中;将文档的唯一标识上传至云端服务器,云端服务器以文档的唯一标识为索引存储每个文档对应的加密信息。6.根据权利要求5所述的一种分散文档管理的方法,其特征在于,所述加密信息包括:文档是否加密以及用哪种系统加密。

技术总结
本发明公开一种分散文档管理的方法,包括以下步骤:收集分散文档,添加搜索信息;分散文档存储于云端服务器内;使用倒排索引方法进行词频统计,得到各个词语的词频统计值,获得语义特征;根据语义特征进行分散文档的分类;对分散文档进行重复检测并删除重复文档;对分散文档进行数据的安全加密管理;根据所述搜索信息向存储文档的云端服务器发送安全加密管理信息;文档进行重新编辑以生成新版本的文档,新版本的文档提供给请求用户。有益效果:使得分散文档能够被有序的管理,能够便于用户搜索使用;有效降低云端服务器内存储文档的重复率,有效提高存储文档被检索使用时的效率;有效提高存储文档的安全性;使得分散文档能够被使用者高效管理。使用者高效管理。


技术研发人员:王晓华
受保护的技术使用者:威海职业学院(威海市技术学院)
技术研发日:2022.06.09
技术公布日:2022/8/12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献