一种文本自动分类方法及系统与流程

2022-07-13 23:43:59 来源：中国专利 TAG：

1.本公开属于文本分类领域，具体涉及一种文本自动分类方法及系统。

背景技术：

2.本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。
3.文本是体现数据的重要载体，各种部门会根据其工作的增多或者科技创新书写大量的文件，然而，文本的数据量越来越大，对文本进行筛选、分析的人力成本也在激增。
4.通过分析发现，这些文本往往涉及类型众多，分布在不同的网站中，但是缺少高效的信息处理手段，相关人群在寻找自己相关类型文本时存在成本高、耗时久，甚至找不到的困难，影响检索的效果。因为需要通过预先对文本进行合理地设定分类标签，从而提高检索配对的效率，帮助各类主体人群找到与自身需求相关的文本信息。
5.但是在文本挖掘领域，许多新技术的应用仍处于探索阶段，并且由于文本的长短不一、信息密度大、分类体系不统一等特点，研究人员在借助信息技术手段对文本进行自动分类时会遇到困难，尚未形成得到广泛认可的技术方案。
6.目前在文本分类领域，许多新的自然语言处理技术还没有得到深入应用，如预训练语言模型。通过人工标注对文本进行归类的成本过高；传统的正则表达式进行分类减少了一定的人工成本却忽略了文本语义；采用word2vec训练词向量再结合神经网络语言模型模型进行分类，虽然在准确度上有了很大的提升，但是对文本语义的理解还不够充分，并且忽略了词的上下文关系。

技术实现要素：

7.本公开为了解决上述问题，提出了一种文本自动分类方法及系统，本公开通过提取正文的关键子句并重排序，在融合标题信息后，放入构建好的bert模型中进行文本的自动分类，辅助创新主体便捷地检索和配对适合自身需求的文本。
8.根据一些实施例，本公开采用如下技术方案：
9.一种文本自动分类方法，包括以下步骤：
10.获取待分类的文本数据，设置文本数据的分类准则并按照分类准则对文本数据进行标注；
11.读取待分类的文本数据，对文本数据正文信息进行预处理；
12.提取文本数据正文句子，计算正文句子的特征贡献值并提取关键子句，基于特征贡献值进行关键子句重排序；
13.将关键子句与文本数据标题进行融合作为特征文本数据，组成数据集并划分为训练集和验证集；
14.读取特征文本数据，将文本数据转化为特征向量，并记录到tfrecord格式文件中；
15.设置训练参数，读取tfrecord格式文件并将其转化为标准的模型输入，输入修正
后的bert模型中进行训练，输出分类结果。
16.根据另一一些实施例，本公开还采用如下技术方案：
17.信息获取模块，用于获取待分类的文本数据，设置文本数据的分类准则并按照分类准则对文本数据进行标注；
18.信息预处理模块，用于对文本数据正文信息进行预处理；
19.信息提取模块，用于提取文本数据正文句子，计算正文句子的特征贡献值并提取关键子句，基于特征贡献值进行关键子句重排序，并将关键子句与文本数据标题进行融合作为特征文本数据，
20.数据处理模块，用于读取文本特征数据，将文本数据转化为特征向量，并记录到tfrecord格式文件中；
21.分类模块，用于读取tfrecord格式文件并将其转化为标准的模型输入，输入修正后的bert模型中进行训练，输出分类结果。
22.修正模块，用于对bert模型进行修正，得到修正后的bert_policy模型。
23.与现有技术相比，本公开的有益效果为：
24.本发明提出的文本自动分类方法，在工具视角下定义分类准则，设置了分类维度；；修正后的bert_policy模型能够适应文本特点，得到的词向量能够包含文本领域内的信息，帮助模型进行语义理解；关键子句重排序能够充分利用正文的关键信息，作为标题的补充特征；通过bert深度学习模型进行训练并分类，自动输出准确的工具类别，从而降低了大量人工处理的成本。
附图说明
25.构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。
26.图1为基于模型的文本自动分类方法的训练流程图。
27.图2为基于模型的文本自动分类方法的预测流程图。
具体实施方式：
28.下面结合附图与实施例对本公开作进一步说明。
29.应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
30.需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
31.本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产
品的形式。
32.实施例1
33.本公开实施例提供了一种文本自动分类方法，包括以下步骤：
34.步骤一：获取待分类的文本数据，设置文本数据的分类准则并按照分类准则对文本数据进行标注；
35.步骤二：读取待分类的文本数据，对文本数据正文信息进行预处理；
36.步骤三：提取文本数据正文句子，计算正文句子的特征贡献值并提取关键子句，基于特征贡献值进行关键子句重排序；
37.步骤四：将关键子句与文本数据标题进行融合作为特征文本数据，组成数据集并划分为训练集和验证集；
38.步骤五：读取特征文本数据，将文本数据转化为特征向量，并记录到tfrecord格式文件中；
39.步骤六：设置训练参数，读取tfrecord格式文件并将其转化为标准的模型输入，输入修正后的bert模型中进行训练，输出分类结果。
40.具体的，获取待分类的文本数据，获取待分类的文本数据后，在文本主题工具视角下定义文本分类准则，对文本记载的文字进行划分标题种类，采用二级编码的方式对划分的文本种类进行分类标注。
41.例如，若是采用相关政策的文本数据，获取有关政策的文本进行分类，对于政策文本的标注中，在政策工具视角下定义政策文本的分类准则，如表1，具体对政策文本进行分类，可分为供给型政策，包括：科技支持、人才支持、财政支持、信息支持、公共服务、基础设施；环境型政策：服务外包、政府采购、贸易管制、购置补贴、海外机构管理；需求型政策：金融支持、财税优惠、法规管制、目标规划、示范推广、知识产权、对外合作；然后采用二级编码的方式对待分类的政策文本进行分类标注。
42.表1：政策文本数据二级编码分类标注表
43.[0044][0045]
进一步的，对文本数据正文信息进行预处理，对文本正文信息进行读取，对文本正文信息进行分词、去除停用词，对大量文本进行分句，组成单句训练集，使用masked language model对谷歌官方提供的bert-base-chinese模型进行修正，对修正后的预训练语言模型命名为bert_policy模型。在修正过程中随机将数据集中15％的词用[mask]掩码替换掉，让模型去预测被掩码的词。
[0046]
同时，再将80％被掩码替换的单词用特殊的屏蔽字符表示，10％用随机的一个词替换，10％保持这个词不变。
[0047]
读取待分类的文本数据，计算正文句子的特征贡献值，提取关键子句，并基于特征贡献值进行子句重排序，特征贡献值计算公式为：
[0048]
feature
score
＝ws ts-hs；
[0049]
ws为句权重、ts为主题强度、hs为句信息量。
[0050]
对正文进行分词、分句、去停用词、统计词频，计算任意两个句子的相似度，即：
[0051][0052]
公式中，si，sj分别表示两个句子，wk表示句子中的词，分子部分的意思是同时出现在两个句子中的同一个词的个数，分母是对句子中词的个数求对数之和。
[0053]
循环计算任意两个句子之间的相似度，进而对各个句子的权重值进行迭代计算得到每个句子的句权重ws，即：
[0054][0055]
公式中，ws(si)是句子si的权重值，d表示阻尼系数(0≤d≤1)，表示某一句子随机指向到另一句子的概率，一般取值为0.85。对于特定句子si，in(si)为指向句子si的句子集，out(sj)为句子sj向外指向的句子集，w
ji
表示si，sj的相似度，ws(sj)表示上一次迭代后句子sj的权重值。
[0056]
将每个句子中的词语wk与种子词表中的关键词tj进行相似度计算，
[0057][0058]
wk与tj是词向量，种子词表为人工设置的每个类别下的关键词。
[0059]
则ts计算公式为：
[0060][0061]
n为种子词表词语个数、m为句子词语个数。
[0062]
计算每个句子中的词语在正文中出现的概率p(wk)，则hs计算公式为：
[0063]
hs(si)＝-∑kp(wk)logp(wk)
[0064]
对正文句子的特征贡献值feature
score
设置阈值t，超过阈值则选为关键子句，并进行重排序，融合在标题之后作为特征文本数据，组成数据集用于分类。
[0065]
划分数据集，将数据集随机划分为80％的训练集和20％的验证集，每一条数据按照文本、tab分隔符、标签的形式存储在文档中。
[0066]
读入数据集，将文本数据转化为特征向量，并记录到tfrecord格式文件中，转化成的特征向量包含token embeddings是经过大规模无监督训练获取的词向量；segment embedding是分段向量，用于区分每一个单词属于句子a还是句子b；position embedding是编码单词出现的位置向量。[cls]标志放在第一个句子的首位，[sep]标志放在句子后面用于区分输入的两个句子。特征转化时采用的预训练语言模型是修正后bert_policy模型。
[0067]
利用大量文本数据对谷歌官方提供的bert-base-chinese模型进行修正，输出bert_policy模型。
[0068]
对模型进行训练，设置训练参数，训练时采用的预训练语言模型是修正后的ert_policy模型。读取tfrecord格式文件并将特征转化成标准的模型输入，这一步主要通过bert模型的transformer层来实现，将文本embedding通过多个self-attention得到不同的编码结果，其中self-attention可以计算每个词与序列中其它词的关系，得到当前文本数
据的标准的模型输入表征，将其输入到预先配置好的bert模型中，用训练集的标准输入进行训练，用验证集的标准输入进行评估，输出待分类文本数据的分类结果。
[0069]
微调参数，保留准确率最高的模型。对于文本分类的效果采用准确率(accuracy)，计算公式如下，
[0070][0071]
其中，tp表示预测样本中的指定类别被正确预测的样本数量；tn表示指定类别之外的其他类别被正确预测的样本数量；fp表示预测为指定类别但实际上是其他类别的样本数量；fn表示预测为其他类别但实际上是指定类别的样本个数。
[0072]
文本分类预测，读入待分类的文本数据，对正文进行关键子句提取与重排序，并融合标题，将文本转化为特征向量并转化为标准的模型输入，加载训练好的最佳模型进行预测，输出预测的标签结果。
[0073]
以上，实现对文本进行自动分类预测，首先读入待分类的文本数据，对正文进行特征词组、关键子句提取并融合标题，将文本转化为特征向量并转化为标准的模型输入，加载训练好的模型中进行预测，输出预测标签结果。
[0074]
实施例2
[0075]
本公开实施例还提供了一种文本自动分类系统，包括：
[0076]
信息获取模块，用于获取待分类的文本数据，设置文本数据的分类准则并按照分类准则对文本数据进行标注；
[0077]
信息预处理模块，用于对文本数据正文信息进行预处理；
[0078]
信息提取模块，用于提取文本数据正文句子，计算正文句子的特征贡献值并提取关键子句，基于特征贡献值进行关键子句重排序，并将关键子句与文本数据标题进行融合作为特征文本数据，
[0079]
数据处理模块，用于读取文本特征数据，将文本数据转化为特征向量，并记录到tfrecord格式文件中；
[0080]
分类模块，用于读取tfrecord格式文件并将其转化为标准的模型输入，输入修正后的bert模型中进行训练，输出分类结果。
[0081]
修正模块，用于对bert模型进行修正，得到修正后的bert_policy模型。上述模块执行以下的方法步骤：
[0082]
步骤一：获取待分类的文本数据，设置文本数据的分类准则并按照分类准则对文本数据进行标注；
[0083]
步骤二：读取待分类的文本数据，对文本数据正文信息进行预处理；
[0084]
步骤三：提取文本数据正文句子，计算正文句子的特征贡献值并提取关键子句，基于特征贡献值进行关键子句重排序；
[0085]
步骤四：将关键子句与文本数据标题进行融合作为特征文本数据，组成数据集并划分为训练集和验证集；
[0086]
步骤五：读取特征文本数据，将文本数据转化为特征向量，并记录到tfrecord格式文件中；
[0087]
步骤六：设置训练参数，读取tfrecord格式文件并将其转化为标准的模型输入，输
入修正后的bert模型中进行训练，输出分类结果。
[0088]
本公开在文本类型工具视角下定义分类准则，设置了分类维度；针对文本中存在大量领域内词汇的特点，本发明利用大量无标注文本数据对bert官方提供的预训练语言模型进行修正得到bert_policy模型，使其得到的词向量能够很好的包含文本领域内的信息，帮助模型进行语义理解。针对文本正文部分的关键信息，该发明通过提取正文的关键子句并重排序，在融合标题信息后，放入构建好的bert模型中进行文本的自动分类，辅助创新主体便捷地检索和配对适合自身需求的文本数据。
[0089]
实施例三
[0090]
本实施例提供了一种计算机可读存储介质，用于存储计算机程序，该程序执行时能够运行上述文本自动分类方法的步骤。
[0091]
实施例四
[0092]
本实施例提供了一种电子设备，包括处理器、储存器及储存在储存器中的计算机程序，当设备运行时，该处理器能够运行储存在储存器中的计算机程序以执行上述文本自动分类方法的步骤。
[0093]
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0094]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0095]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0096]
以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。
[0097]
上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种用于评估深度超分辨率网络泛化能力的方法

一种文本自动分类方法及系统与流程

相关文献

最热文献