一种超大规模数据自动分类处理方法及系统与流程

2022-06-25 08:33:20 来源：中国专利 TAG：

1.本发明涉及专利分类技术领域，具体的，涉及一种超大规模数据自动分类处理方法及系统。

背景技术：

2.专利是知识产权的一部分，指的是一项发明创造向国务院的专利行政部门提出专利申请并经过审查合格后，由国家知识产权局向专利申请人授予的一种在规定时间内对该项发明创造享有的专有权。在专利申请的过程中，专利录入的工作人员需要将专利进行分类后，人工录入到专利数据库。这个分类的细项有一千个以上，庞杂的专利分类让专利审核人员很难进行专利的正确分类录入。
3.虽然每个专利审核人员都有审核内容相关的专业背景，但真正具体到某个专利的时候，往往是跨两个或者多个专业的。这就使得专利审核人员在进行分类的时候可能产生错误，从而使专利的录入结果不准确。
4.为此，使用分类系统进行专利自动分类来代替人工审核很有必要。由于专利文献的专业度较高，内容非常严谨，因此分类结果需要有较高的可信度。但是现有的分类系统准确度不高，需要进一步改进。

技术实现要素：

5.本发明提出一种超大规模数据自动分类处理方法及系统，在bert文本分类模型上增加了二次校验，解决了现有技术中专利分类准确率低的问题。
6.本发明的技术方案如下：
7.第一方面，一种超大规模数据自动分类处理方法，包括，
8.调用语料库对预训练bert模型进行训练，得到文本分类模型；
9.将待分类文献a输入所述文本分类模型，输出初步分类结果r1；
10.在所述分类结果的准确性满足所述预设值时，将所述初步分类结果r1作为最终分类结果，否则，对所述待分类文献a执行二次检验算法，输出二次分类结果r2，并将所述二次分类结果r2作为最终分类结果。
11.进一步，所述二次检验算法包括，
12.将所述待分类文献a按句进行拆分，得到待分类文献a的子句集合b＝[a1,a2,...,an]；
[0013]
将所述子句集合b随机拆分成m个子集{b1,b2,...,bm}，每个子集的子句个数为n/m；
[0014]
对m个子集{b1,b2,...,bm}进行分类，获得分类结果{r
21
,r
22
,...,r
2m
}；
[0015]
将所述分类结果{r
21
,r
22
,...,r
2m
}中出现次数最多的分类作为二次分类结果r2。
[0016]
进一步，所述语料库包括文本库、专利库和多个分类好的子专利库，
[0017]
所述调用语料库对预训练bert模型进行训练，得到文本分类模型包括，
[0018]
调用文本库和/或专利库对预训练bert模型进行训练，得到泛语言文本分类模型；和，
[0019]
调用分类好的子专利库对预训练bert模型进行训练，得到精准文本分类模型。
[0020]
第二方面，一种超大规模数据自动分类处理系统，包括，
[0021]
第一训练单元，用于调用语料库对预训练bert模型进行训练，得到文本分类模型；
[0022]
第一处理单元，用于将待分类文献a输入所述文本分类模型，输出初步分类结果r1；
[0023]
第二处理单元，在所述分类结果的准确性满足所述预设值时，将所述初步分类结果r1作为最终分类结果，否则，对所述待分类文献a执行二次检验算法，输出二次分类结果r2，并将所述二次分类结果r2作为最终分类结果。
[0024]
进一步，还包括第三处理单元，用于执行二次检验算法，所述第三处理单元包括，
[0025]
第一拆分单元，用于将所述待分类文献a按句进行拆分，得到待分类文献a的子句集合b＝[a1,a2,...,an]；
[0026]
第二拆分单元，用于将所述子句集合b随机拆分成m个子集{b1,b2,...,bm}，每个子集的子句个数为n/m；
[0027]
第一分类单元，用于对m个子集{b1,b2,...,bm}进行分类，获得分类结果{r
21
,r
22
,...,r
2m
}；
[0028]
第一输出单元，用于将所述分类结果中出现次数最多的分类作为二次分类结果r2。
[0029]
进一步，所述第一处理单元包括，
[0030]
第一判断单元，用于判断待分类文献a是否具有初步分类信息；若是，则将待分类文献a输入所述精准文本分类模型，若否，则将待分类文献a输入所述泛语言文本分类模型。
[0031]
第三方面，一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现所述的一种超大规模数据自动分类处理方法的步骤。
[0032]
本发明的工作原理及有益效果为：
[0033]
本发明通过对bert模型进行训练，得到文本分类模型，使用文本分类模型对录入的专利文本进行自动分类，代替了人工分类，并且具有较高的分类准确率。再将分类结果进行二次校验，通过对专利文本的结构进行随机抽取后，重新编排成若干新的文本，再对这些子文本的分类情况进行评分式的筛选，对照原始分类结果给出最终的分类。进一步提高了分类结果的准确率。本发明能够以较高的准确性对新审核的专利文本进行自动分类，且分类的准确率、效率都应高于人工分类。
具体实施方式
[0034]
下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都涉及本发明保护的范围。
[0035]
本发明提出一种超大规模数据自动分类处理方法，用于对系统新录入的专利文本
(即待分类文献a)进行分类，包括如下步骤：
[0036]
步骤1：调用语料库对预训练bert模型进行训练，得到文本分类模型；
[0037]
bert是一个开源的深度学习语言模型。通过对语言表征的预训练，bert可以对自然语言进行理解。使用bert前，首先需要使用一个大型的语料库(比如维基百科、已经分类完毕的专利库等)对bert进行训练。训练后，bert形成一个能对自然语言进行理解的矢量库，这个矢量库模型可以用于自然语言处理的下游任务，比如文本自动分类等。
[0038]
分类模型的bert代码可以直接采用googel发布的开源代码。该项目源码可以从github上下载。在bert的代码中，run_classifier.py是一个用于实现文本分类的处理类(dataprocessor)。使用这个类中的代码，就可以进行文本的自动分类任务。在任务开始前，我们需要先指定训练集、验证集、测试集。在该类中这三种数据集分别由get_tran_examples、get_dev_examples和get_test_examples三个方法对应。通过对这三个方法的加工，我们还可以实现标签处理、文本抽取、权重参数调整等定制功能。
[0039]
为了对专利文本进行精确的子分类划分，在本发明中训练两个bert模型：第一个bert模型通过调用文本库或专利库中的任意专利、或者是维基百科进行训练，得到泛语言文本分类模型，用于泛语言理解。第二个bert模型通过调用分类好的一级或二级子专利库进行训练，得到精准文本分类模型，某个特定的专利二级分类里的所有专利。这种操作的意义在于，在新录入的专利文本大分类已经确定的情况下(即待分类文献a具有初步分类信息)，使用第二个模型进行专利领域的三、四级分类任务，分类结果或更加准确。
[0040]
步骤2：将待分类文献a输入所述文本分类模型，输出初步分类结果r1；
[0041]
步骤3：判断所述分类结果的准确性是否满足预设值；如果满足所述预设值，则将所述初步分类结果r1作为最终分类结果，如果不满足所述预设值，所述待分类文献a执行二次检验算法，输出二次分类结果r2，并将所述二次分类结果r2作为最终分类结果。
[0042]
二次校验算法的具体步骤如下所示：
[0043]
将所述待分类文献a按句进行拆分，得到待分类文献a的子句集合b＝[a1,a2,...,an]；
[0044]
将所述子句集合b随机拆分成m个子集{b1,b2,...,bm}，每个子集的子句个数为n/m；
[0045]
对m个子集{b1,b2,...,bm}进行分类，获得分类结果{r
21
,r
22
,...,r
2m
}；
[0046]
将所述分类结果中出现次数最多的分类作为二次分类结果r2。
[0047]
二次分类校验技术是为了进一步提高专利文本分类的准确性。使用bert模型进行文献预处理时，将整篇文献作为语料进行输入。二次校验时，通过对原文献的结构进行随机抽取后，重新编排成若干新的文献，再对这些子文献的分类情况进行评分式的筛选，对照原始分类结果给出最终的分类。
[0048]
二次校验算法归属于一个强分类器，并使用一组或多组弱分类器进行评分式的二分类，为强分类器进行辅助决策或误差校正。在上层强分类器的分类无疑义情况下，这个辅助分类器是不起作用的。
[0049]
实施例1
[0050]
在专利文本中随机抽样分成3组，通过bert文本分类模型进行测试。自动分类结果如表1所示。
[0051]
表1 bert文本分类模型准确率分组统计
[0052]
样本组样本数准确率查全率15094％100％25088％98％35090％98％avg5090.7％98.6％
[0053]
这个结果基本可以代替手工分类。
[0054]
进一步，加入二次校验，基于二次校验分类算法的分组统计结果如表2所示。
[0055]
表2 bert二次校验分类算法准确率分组统计
[0056]
样本组样本数准确率查全率15094％100％25090％98％35090％100％avg5091.3％99.3％
[0057]
使用二次校验算法进行辅助后，对于一次分类成功的内容基本不会有影响，但对于分类错误的内容，其分类准确率有了提升。
[0058]
因此，本发明提出的自动分类处理方法能够代替传统的分类方法。鉴于专利文献的专业性强，覆盖面广，对专利自动分类的探索同时也证明，本发明还能应用于其它专业文献或专业图书的分类。
[0059]
对比例1
[0060]
针对传统的tf-idf算法对自动分类结果进行了统计。
[0061]
首先，在专利文本中随机抽样分成3组，并分别使用tf-idf算法提取词频特征，然后按照分类概率进行分类。tf-idf的自动分类准确率表现如表3所示。
[0062]
表3 tf-idf分类结果统计
[0063]
样本组样本数准确率查全率15076％100％25070％98％35072％98％avg5072.7％98.6％
[0064]
从上表可以看出，由于tf-idf的分析方法较为简单，分类结果较差，其分类准确率不足以完全取代人工。
[0065]
对比之下，bert在文本自动分类上表现卓越。即使不使用任何辅助手段，bert的分类准确率为90％以上以上。
[0066]
实施例2
[0067]
本实施例中提出一种超大规模数据自动分类处理系统，包括，
[0068]
第一训练单元，用于调用语料库对预训练bert模型进行训练，得到文本分类模型；
[0069]
第一处理单元，用于将待分类文献a输入所述文本分类模型，输出初步分类结果r1；
[0070]
第一判断单元，用于判断所述分类结果的准确性是否满足预设值；如果满足所述预设值，则将所述初步分类结果r1作为最终分类结果，如果不满足所述预设值，所述待分类文献a执行二次检验算法，输出二次分类结果r2，并将所述二次分类结果r2作为最终分类结果。
[0071]
进一步，还包括第二处理单元，用于执行二次检验算法，所述第二处理单元包括，
[0072]
第一拆分单元，用于将所述待分类文献a按句进行拆分，得到待分类文献a的子句集合b＝[a1,a2,...,an]；
[0073]
第二拆分单元，用于将所述子句集合b随机拆分成m个子集{b1,b2,...,bm}，每个子集的子句个数为n/m；
[0074]
第一分类单元，用于对m个子集{b1,b2,...,bm}进行分类，获得分类结果{r
21
,r
22
,...,r
2m
}；
[0075]
第一输出单元，用于将所述分类结果中出现次数最多的分类作为二次分类结果r2。
[0076]
进一步，所述第一处理单元包括，
[0077]
第二判断单元，用于判断待分类文献a是否具有初步分类信息；若是，则将待分类文献a输入所述精准文本分类模型，若否，则将待分类文献a输入所述泛语言文本分类模型。
[0078]
实施例3
[0079]
本实施例中提出一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-4任一项所述的一种超大规模数据自动分类处理方法的步骤。
[0080]
以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种嵌套实体识别方法、装置、电子设备和存储介质与流程

一种超大规模数据自动分类处理方法及系统与流程

相关文献

最热文献