一种无监督的密点标注和辅助定密方法

2022-12-19 23:47:03 来源：中国专利 TAG：

1.本发明涉及电子文件安全
技术领域：
：，具体说是一种无监督的密点标注和辅助定密方法。
背景技术：
：：2.定密工作作为保密管理工作的基础和源头，其重要性不言而喻。如何实现精准定密是目前保密工作亟待解决的问题。随着信息化手段的不断进步和电子政务系统研发的不断完善，各机关单位分别搭建了自己的办公自动化系统，还有部分单位开展了无纸化办公。国家秘密的产生形式和存储形态已发生较大变化，数字化手段在提升各级单位保密工作效率的同时，也带来了全方面的新挑战。3.当前，文件密级的确定大多以人工查找、确定、审核的方式进行，仅依靠于定密人员的保密知识和工作经验，难免存在“主观感觉”定密的现象，导致定密不准、定密尺度把握困难、定密经验无法传承等问题。一方面，由于涉密事项种类繁多，仅通过人工确定，使得定密周期长，定密效率低下。另一方面，一个事项定密的关键是由国家秘密的密点决定的，具有可区分的特点。而当前涉密文件的密级标注方式是对文件全文进行整体标注，机关单位形式上确定的“一项”国家秘密，实质内容上可能包含多项，或者仅有极少数的内容才属于国家秘密。对于这种情况，如果不对密点进行明确标注，简单按照“一项”国家秘密管理，往往会导致层层派生、层层定密、国家秘密过多、管理资源浪费、泄密风险加大等问题。确定国家秘密的密点，就是要筛选出真正具备国家秘密本质属性，泄露后会损害国家安全和利益的关键的、最小化的信息内容，为定密提供依据。因此，在人工定密的基础上，使用计算机技术辅助定密技术进行精准定密及密点标注，实现定密规范化、科学化、数字化，是当前保密工作的迫切需求。技术实现要素：4.针对现有技术中存在的缺陷，本发明的目的在于提供一种无监督的密点标注和辅助定密方法，提高了密点标注的效率和准确率，通过辅助定密有效避免了定密的随机性、主观性。5.为达到以上目的，本发明采取的技术方案是：6.一种无监督的密点标注和辅助定密方法，其特征在于，包括如下步骤：7.步骤1，针对不同秘密类型分别建立语料统计库；8.步骤2，根据步骤1得到的语料统计库计算词语置信度，按不同类型进行密级置信度排序，构建密点词库；9.步骤3，根据步骤1得到的语料统计库，利用多特征融合的密点句置信度评估算法，提取已定密文档中不同密级的密点句，构建密点句库；10.步骤4，利用步骤2构建的密点词库和步骤3构建的密点句库对待定密文档进行密点标注；11.步骤5，根据步骤4中得到的待标注文档的定密结果，纳入对应类别，更新词语统计库中相关词语的记录。12.在上述方案的基础上，步骤2所述根据步骤1得到的预料统计库计算词语置信度的算法为改进的ss3算法，通过函数gv(w，c)计算词语w专属于类别c的置信度，gv的计算涉及三个函数，定义如下式(1)：13.gv(w，c)＝lvσ(w，c)·sgλ(w，c)·snρ(w，c)ꢀꢀꢀꢀ(1)；14.上式中gv(w，c)为词语w专属于类别c的置信度；15.lvσ(w，c)是根据词语w在类别c中的局部概率对词语进行赋值，通过定义类内分布系数和改进局部概率，考虑类内分布对词语分类区分度的影响，以及文本间差异所带来的计算偏差，具体定义如式(2)：[0016][0017]其中，nc表示类别c中所有的文本数量，nw，c表示类别c中包含词语w的文本数量，dc，j类别c中的第j篇文本，w是所有词语的集合，wi∈w，和分别表示类别c中含有最多和最少文本数的词语的文本数量，是词语w在文本dc，j中出现的频数，是文本dc，j中含有最大词频数的词语的词频数量；[0018]sgλ(w，c)用于表示词语w对于类别c的重要性，当lvσ(w，c)显著大于大多数其他类别ci的lvσ(w，ci)时，其输出接近1的值；当对所有类别ci的lvσ(w，ci)都彼此接近时，它输出一个接近于0的值，具体定义如式(3)：[0019][0020]其中，lvw＝{lvσ(w，ci)|ci∈c}，即词语w的所有局部值的集合；表示lvw，的中位数；即lvw的绝对中位差；为超参数；[0021]snρ(w，c)为限制函数，用于衡量词语w对类别c重要的唯一性，它与词语w对其重要的类别的数量相关，将按比例减少词语w的全局值，具体定义如式(4)：[0022][0023]其中，即c中除c外，所有类别的sgλ(w，ci)的总和；为超参数。[0024]在上述方案的基础上，步骤3所述多特征融合的密点句置信度评估算法，该算法基于多特征融合的密点句置信度评估算法，从密点词特征、位置特征和总结词特征三个角度，评估密点句置信度，用于提取已定密文档中不同密级的密点句，积累具有完整语义表达的密点句经验，及时纳入机关单位新接触、新产生的国家秘密。[0025]计算密点句置信度主要考虑了三种特征，分别为：密点词特征、位置特征以及总结词特征。对文档中的每个句子，分别计算在上述三个特征上的特征得分，进行加权求和后作为密点句置信度，如下式(5)：[0026]cscore(si)＝γ1×classification(si) γ2×position(si) γ3×summary(si)(5)；[0027]其中，si表示文本d的第i个句子，则d＝{s1，s2，...，s|d|}，classification(si)表示句子si的密点词特征得分，position(si)表示句子si的位置特征得分，summary(si)表示句子si的总结词特征得分，γ1、γ2、γ3为大于0的实数超参数，且γ1 γ2 γ3＝1。[0028]在上述方案的基础上，密点词特征是衡量句子是否涉密，以及属于何种密级的最关键特征。一个句子中具有高密点词置信度属性的词语越多，则该句子涉密的可能性越大。本方法采用iss3算法所得词语的用于衡量句子的密点词特征得分，定义如式(6)：[0029][0030]其中，ni，j表示句子si在类别cj的词语总数，mi为句子si中词语的总数，|s|表示句子总数，wi，k表示句子si的第k个词，gv(wi，k，cj)表示词语wi，k在类别cj的gv值，的第j个分量表示句子si在对应类别cj的gv值，表示向量的l1范数，为向量的最大分量值，同时记录gmax对应的密级作为句子si的密级标签。[0031]考虑位置特征，在涉密文档中，往往不可能全文皆为密点，甚至很可能绝大篇幅都不涉密。而文档的开头、结尾通常都是概括性的关键内容，更容易出现密点句，因此这部分应赋予更高的特征得分。本方法将句子的位置特征得分定义如式(7)所示：[0032][0033]其中，i表示si是文本d的第i个句子，||d|表示文本d中句子的总数。初始position(si)值随着i值的增加而减少，当i增长为句子总数的一半时，position(si)值降至最低值，随着i值的持续增加，position(si)值回增，保证了越靠近文本的首尾段，句子的位置特征得分越高。[0034]考虑总结词特征，一般来说，由总结词引导的句子是对重要信息进行总结。在涉密文档中，密点有很大可能就是在有总结性和针对性的句子中。因此，本方法将总结词特征添加进句置信度计算中，具体定义如式(8)：[0035][0036]其中，slist为总结词表，对句子si的词语进行遍历，当该句子有总结词表中的总结词时，该特征得分为1，反之则为0；[0037]上述总结词包括：所以、因此、总之、总的来说、综上所述。[0038]在上述方案的基础上，步骤4所述对待定密文档进行密点标注的具体步骤为：[0039]步骤4-1，读入需要进行密点标注的文档；[0040]步骤4-2，利用jieba分词工具将上述文档内容切分为单个的词语，并且去除停用词，分为一系列词语集合；[0041]步骤4-3：将步骤4-2生成的所有词语集合与密点词库进行比对，在原文档中将所有的匹配词高亮标注，并显示其gv值作为置信度；[0042]步骤4-4：根据步骤4-3中标注出的匹配词语中的最高密级确定待标注文档的推荐密级，汇总运算符层层运算，最终得到整篇文档的gv，最大分量值所对应的类别即为分类结果。[0043]本发明所述的一种无监督的密点标注和辅助定密方法，其有益效果为：[0044]针对目前文件密级的确定大多以人工查找、确定、审核的方式进行，需要依靠于定密人员的保密知识和工作经验，难免存在“主观感觉”定密的现象，造成定密不准、定密尺度把握困难、定密经验无法传承等问题。为适应定密领域对密点标注的新需求，针对缺乏公共密点库，且已定密文件都未标注密点的问题，本发明对已定密文档训练构建密点词库和密点句库，计算词语和句子置信度，并通过汇总运算符得到整篇文档的gv值得到分类结果，或者与任一辅助定密算法结合，由定密算法给出推荐密级。该方法提高了密点标注的效率和准确率，通过辅助定密有效避免了定密的随机性、主观性。附图说明[0045]本发明有如下附图：[0046]图1本发明一种无监督的密点标注和辅助定密方法的流程示意图；[0047]图2本发明基于tss3算法构建密点词库的流程示意图；[0048]图3本发明通过多特征融合构建密点句库的流程示意图；[0049]图4本发明待定密文档进行密点标注的流程示意图；具体实施方式[0050]下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。[0051]实施例1[0052]由于已定密文件的敏感性，在此以类比实验的方式展示实例结果。由于新闻文本的语言表达较为规范，更贴近现实公文写作要求，选取了由清华大学推出的公开新闻数据集thucnews进行类比实验。同时构建了教育领域模拟定密数据集。抽取财经、股票、彩票、房产三个较为相近的类别分别对应为绝密、机密、秘密、内部四个密级，教育对应公开，共抽取24000篇。[0053]如图1、图2、图3、图4所示，一种无监督的密点标注和辅助定密方法，包括以下步骤：[0054]步骤1，在训练过程之前，针对不同秘密类型分别建立语料统计库，具体来说，秘密等级包括绝密、机密、秘密、内部、公开共五类。[0055]步骤2，从语料统计库中利用算法计算词语置信度，按不同类型进行密级置信度排序，构建密点词库，具体为：[0056]使用改进的ss3算法计算词语置信度算法，通过函数gv(w,c)计算词语w专属于类别c的置信度，具体参照前文所述式(1)-(4)，部分计算结果为：[0057]基金(0、0.572、0.161、0、0)[0058]期货(0、0.236、0.457、0.183、0)[0059]考试(0、0、0、0.161、0.362)[0060]假设：类别c1共有三篇文本d1、d2、d3，共出现三个词语w1、w2、w3。σ＝1[0061][0062]根据式(2)计算可得：[0063][0064][0065][0066]假设词语w1在五个类的lv值分别为0.1、0.2、0.3、0.4、0.5，λ＝1,ρ＝1。[0067]根据式(3)计算可得：[0068][0069][0070][0071][0072][0073][0074][0075]根据式(4)计算可得：[0076][0077][0078][0079][0080][0081]根据式(1)计算可得：[0082]gv(w1，c1)＝0.1×0×0.504＝0[0083]gv(w1，c2)＝0.2×0×0.504＝0[0084]gv(w1，c3)＝0.3×0.002×0.505＝0[0085]gv(w1，c4)＝0.4×0.982×0.750＝0.295[0086]gv(w1，c5)＝0.5×1×0.754＝0.377[0087]则可得[0088]在上述计算过程中，首先对涉密文档集合进行预处理，分为分词、去停用词和统计三步，将已有涉密文档集合从文本格式转化为iss3算法输入的数据格式，并记录在数据库的词语统计表vstable中。采用iss3算法计算每个词的其各分量表示该词语专属于对应类别的置信度。在本应用场景下为四维向量，各维度分别表示单词w专属于绝密、机密、秘密、内部、公开这五个密级的置信度。在得到所有词语的密级置信度后，将其更新存入密点词库gvtable。待定密文档进行密点词标注时，可根据提前设定好的阈值，选取各gv分量大于设定阈值的词语作为标注的密点词。[0089]步骤3，从语料统计库中利用多特征融合的密点句置信度评估方法，提取已定密文档中不同密级的密点句，构建密点句库；[0090]在本实施例中，对涉密文档进行分句。切分时以句号、感叹号和问号作为句子分割符。采用基于多特征融合的密点句置信度评估方法，对分句后的句子分别计算句置信度。多特征指密点词特征、位置特征以及总结词特征，其中密点词特征得分需要由密点词库中存储的每个词语的来衡量。根据各句子计算所得的句置信度大小和提前设定的阈值，分别构建密点句库核心层和外围层。核心层为最具代表性的密点句集合，外围层为替补密点句集合。待定密文档分句后形成句子集合，一方面采用基于多特征融合的密点句置信度评估方法标注密点句，另一方面通过与密点句库的密点句集合进行语义相似度比对标注密点句，将标注的密点句放入密点句库标注层中。具体参照前文所述式(5)-(8)，部分计算结果为：[0091]两基金获准发行(0.583类别2)[0092]经具有证券期货相关评估业务资格的评估机构评估(0.594类别3)[0093]自学考试4月考试报名正在进行中(0.634类别5)[0094]具体来说，假设文档首句s为“两基金获准发行”，经过分词后可得：两/基金/获准/发行。[0095]为便于举例计算，假设其gv向量分别为：两(0、0、0、0、0)，基金(0、0.5、0.4、0、0)，获准(0、0、0、0、0)，发行(0、0.2、0.1、0、0)，密点词阈值设为0.05，每个类别中所有句子中最大的密点词数量与句子词语总数比值都为2/3，γ1、γ2、γ3设置分别为0.8、0.1、0.1。[0096]根据式(6)计算可得：[0097][0098][0099][0100][0101][0102][0103]并记录密级标签为c2[0104]因为该句为首句，且无总结词，根据式(7)、(8)计算可得：[0105]position(s)＝1，summary(s)＝0[0106]根据式(5)计算可得该句的密点句置信度为：[0107]cscoer(s)＝0.8×0.583 0.1×1 0.1×0＝0.5664[0108]步骤4，利用步骤2构建的密点词库和步骤3构建的密点句库对待定密文档进行密点标注，具体为：[0109]读入需要进行密点标注的文档；利用jieba分词工具将文档内容切分为单个的词语，并且去除停用词，分为一系列词语集合；将生成的所有词语集合与密点词库进行比对，在原文档中将所有的匹配词高亮标注，并显示其gv值作为置信度；根据匹配词语中的最高密级确定待标注文档的推荐密级，采用最大池化层层运算，最终得到整篇文档的，最大分量值所对应的类别即为分类结果。[0110]步骤5，根据待标注文档的定密结果，纳入对应类别，更新词语统计库中相关词语的记录，构建具有增量学习特性，能持续学习、动态更新的涉密领域敏感词库,，具体为：[0111]结合辅助定密算法的定密结果，定密人员判断文档密级，文档数量积累到一定数量之后，作为词语统计库的输入，更新词语记录，既不需要存储所有文档，也不需要每次添加新的训练文档时都从头开始重新训练，从而使学习能增量连续，不断从新定密文档中学习新的密点经验。[0112]本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。当前第1页12当前第1页12

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：基于路面多边形推导道路边线的方法及系统与流程

一种无监督的密点标注和辅助定密方法

相关文献

最热文献