一种基于政策文件数据的分类方法与流程

2022-07-31 05:49:49 来源：中国专利 TAG：

1.本发明涉及文本数据分类技术领域，尤其涉及一种基于政策文件数据的分类方法。

背景技术：

2.随着大数据产业领域研究的兴起，政府数字化转型也逐步成为一个热点话题。政府数据在大数据背景下如何充分发挥数据价值。政府数据包含种类繁多：业务系统数据、政策文件数据、统计数据等，涉及到各个领域和方向。其中政府文件数据作为不可缺少的一部分，政府文件数据的一项基础工作就是数据分类整理，将政策文件数据按照的业务分类体系进行整理，实现数据更好的统计、分析、应用。然而现阶段对于政策文件的分类研究还比较少，对后续的政策数据的应用造成了阻碍。
3.现有的传统文本分类方法，该方法是传统的机器学习分类方法将整个文本分类问题就拆分成了特征工程和分类器两部分。特征工程分为文本预处理、特征提取、文本表示三个部分，最终目的是把文本转换成计算机可理解的格式，但是传统方法文本表示是高纬度高稀疏的，特征表达能力很弱，此外需要人工进行特征工程，成本很高。
4.为了更好的推动政策文件数据的实际应用，在本文中提出了一种基于政策文件数据的文本分类方法研究，该方法通过构建各个标签分类体系下的构建每个分类的关键词词库，在训练样本数据过少的情况下，通过关键词标注的方式对文本数据进行分类，然后对标注的结果有人工进行审核、校验，生成深度学习训练所需要的精确语料集，使用深度学习算法构建模型，提升模型识别的精准度。

技术实现要素：

5.为解决上述技术问题，本发明的目的是提供一种基于政策文件数据的分类方法，该方法从多个标签分类体系下构建分类模型的文本库，针对不同标签分类体系分析，选择不同的标签体系数据进行模型训练。并且抽取部分政策文件数据在该标签体系下进行分类处理，对比模型和专家人工的分类结果差异，分析模型的准确率和性能。然后对模型的分类结果进行筛选审核，将审核后的分类结果存储作为训练样本数据，方便后续模型的迭代训练，提高算法的准确度，构建的政策文本分类技术可以促政策数据在大数据背景下灵活运用和充分发挥数据价值。
6.本发明的目的通过以下的技术方案来实现：
7.一种基于政策文件数据的分类方法，包括：
8.a、构建不同分类下政策文件的样本数据，并存储到数据库中；
9.b、选取在标签库中找到某个标签分类体系的数据，按照模型训练的数据需求将样本数据构建成训练数据集和测试数据集；
10.c、将分类完成的训练样本语料数据加载到程序中，使用 textrnn attention算法对政策文件分类的数据进行训练，根据训练过程中的准确率调整模型参数，最终生成政策
文件数据的分类模型；
11.d、抽取政策文件相关数据，采用分类模型对政策数据进行标注分类操作，获取标注结果，分析模型的准确性和性能，对识别结果进行审核、筛选与修正；
12.e、对校验后的分类结果，按照模型训练集预料的需求格式进行存储，以进行迭代训练，提升不同分类体系下的分类准确性。
13.与现有技术相比，本发明的一个或多个实施例可以具有如下优点：通过构建各个标签分类体系下的每个分类的关键词词库，在训练样本数据过少的情况下，通过关键词标注的方式对文本数据进行分类，然后对标注的结果有人工进行审核、校验，生成深度学习训练所需要的精确语料集，使用深度学习算法构建模型，提升模型识别的精准度。
14.使用textrnn attention算法对生成的数据集进行训练生成政策文件分类的模型。在应用的过程中，将政策文件按照各个业务需求构建标注分类体系，本文以行业分类作为此次验证测试的分类体系，将模型的预测结果进行人工校验修正进行存储。就可以在下次模型的迭代训练时，使用政策文件的分类模型对现有的政策数据进行标注分类操作，使得分类的结果更加的精确。
附图说明
15.图1是基于政策文件数据的分类方法流程图；
16.图2是textrnn算法中lstm神经网络的最小单元结构示意图；
17.图3是textrnn算法的架构图；
18.图4是基于政策文件的文本分类方法图；
19.图5是textrnn attention算法的工作流程图。
具体实施方式
20.为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。
21.本实施例提供了一种基于政策文件数据的分类方法，该方法对政策文件在各个分类体系下标注分类，为后续的政策文件应用提高清晰的数据类别，本实施例提出的核心操作包括以下几点：1、解决现有的政策文件分类模型准确度不高的问题。2、采用预标注分类的工作流程，扩充模型的样本数据集。3、采用闭关的工作流程可以迭代的训练模型，提高模型的精准度。
22.为了降低人工标注的资源浪费以及不准确性。在获取训练数据集时，采用各个分类体系下的每个类别的关键词进行标注分类，然后由人工对标注结果进行核验，标注的分类结果文本可构建训练语料集。
23.如图1所示，为基于政策文件数据的分类方法流程，包括如下步骤：
24.步骤10构建分类体系，对每个分类类别构建关键词词库，通过不通过关键词进行预标注，对样本数据进行复分类标注，预标注后进行审核，构建不同分类下的样本数据，以便于模型训练的使用；
25.步骤20选取在标签库中找到某个标签分类体系的数据，按照模型训练的数据需求将样本数据构建成训练数据集和测试数据集；每个类别下的样本数据量尽可能的均衡，避
免对模型的训练结果造成过拟合和欠拟合的影响；
26.步骤30将抽取的样本数据集加载到程序中，使用textrnn attention算法对政策文件分类的数据进行训练，根据训练过程中的准确率调整模型参数，最终生成政策文件数据的分类模型；
27.如图3和图5所示，分别为textrnn attention算法的架构与 textrnn attention算法流程，textrnn attention算法包括以下操作：
28.1)输入预处理，使用word2vec、cbow、skip-gram或者glove模型将输入的文本先转换为词向量，然后将词向量拼接构建文本矩阵。
29.2)将处理结构的文本矩阵作为双向lstm神经网络隐藏层的输入，通过学习上下文的信息经过多层神经元的处理，输出每个文本对应于每个标注分类的得分情况。将该结果作为神经网络的输入流转到下一个流程进行处理。
30.3)取反向lstm在最后一个时间步长上隐藏状态，然后拼接进入注意力层，衡量每个单词对分类任务的贡献程度，再经过一个fc全连接层进行一个多分类；得到最终的预测结果(lstm的最小单元结构如图2所示)。
31.4)模型训练完成后即可对模型进行测试，通过分析模型分类结果对模型参数、结构调整，进行模型的迭代训练操作，逐步优化模型性能，获取政策文件的分类模型。
32.步骤40抽取政策文件相关数据，使用分类模型对政策数据进行标注分类操作，获取标注结果，采用人工校验的方式进行对分分析，分析模型的准确性和性能，对识别结果进行审核、筛选、修正；
33.步骤50对人工校验后的分类结果，按照模型训练集预料的需求格式进行存储，方便后续的迭代训练，提升不同分类体系下的分类准确性。
34.上述实施例的具体工作过程如图4所示。
35.上述步骤10中获取的政策文件按照估计格式对文本进行标注分类，将标注好的结果存储构建训练语料集，在选取语料的过程中，各个分类数据的数据量要均衡，避免由于数据量差距太大导致预测结果不准确的问题。
36.第一列数据政策文件的分类标签，其中涉及到复分类，每个分类以符号“|”间隔，第二列数据为政策文件数据。在标注分了过程中，为了提高分类的精准度，对政策文件数据进行了预处理，将文件数据中的一些无意义的特殊字符进行过滤，在上述的行业分类体系中包含：林业、交通运输页、卫生和社会工作、建筑业等。
37.把构建好的样本数据集加载到程序中，使用神经网络模型进行训练，生成政策文件的分类模型，其具体操作如下：
38.遗忘门：f
(t)
＝σ(wfh
(t-1)
ufx
(t)
bf)
39.f
(t)
代表了遗忘上一层隐藏细胞状态的概率，h
(t-1)
为上一序列的隐藏状态，x
(t)
表示本序列数据，wf，uf，bf是线性关系的系数和偏倚；
40.输入门：i
(t)
＝σ(w
ih(t-1)
uix
(t)
bi)
41.a
(t)
＝tanh(wah
(t-1)
uax
(t)
ba)
42.在输入门由两部分计算组成，用两种计算结果的乘积更新细胞状态；式子涉及到的变量与遗忘门中的相同；
43.细胞状态：c
(t)
＝c
(t-1)
⊙f(t)
i
(t)
⊙a(t)
44.再次计算中，c
(t-1)
是上一细胞状态，其他几个变量是上文的计算结果；
45.输出门：o
(t)
＝σ(w
oh(t-1)
uox
(t)
bo)
46.h
(t)
＝o
(t)
⊙
tanh(c
(t)
)
47.隐藏状态更新会把当前的隐藏状态的计算结果作为输入传输给下一时刻，bilstm会有正向和反向的隐藏状态，将正向和反向两者进行拼接操作，最初生成完整的隐藏状态
48.h＝[h1,h2,h3,
…
,h
t
]是上一操作的输出向量，t是句子长度，其中d
ω
是lstm层的输出维度；计算如下：
[0049]
m＝tanh(h)
[0050]
α＝softmax(ω
t
m)
[0051]
γ＝hα
t
[0052]
然后用于最后分类的特征为h
*
＝tanh(γ)。
[0053]
最后对政策文件的分类结果通过人工的校验，将错误的分类结果筛出，进行修改。将修改后正确的分类结果存储到数据库中，方便下次模型训练的使用。基于政策文件的分类方法对政府公报等相关政策数据的分类的准确率更高，对政府的数字化转型和政府类数据的分析应用起到了推动的作用，采用预购建训练语料集的方式，可以有效地提高模型的训练效率，降低人员的工作难度，并且创建多个业务分类体系构建训练语料，使得对每个分类体系的分类更加的精确。
[0054]
虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：表格还原方法、装置、电子设备及存储介质与流程

一种基于政策文件数据的分类方法与流程

相关文献

最热文献