一种基于中文仿生文献摘要的句子分类方法及系统

2022-08-10 16:07:55 来源：中国专利 TAG：

1.本发明属于自然语言处理领域，更具体地，涉及一种基于中文仿生文献摘要的句子分类方法及系统。

背景技术：

2.仿生技术是一种利用生物知识解决机械领域技术难题的方法。然而，目前关于生物方面的知识缺少结构化的整合，生物专家和机械专家需要详细了解双方领域的专业知识，才能够更好地设计仿生技术。
3.知识图谱作为一种新的信息化技术，可以有效地通过关系网络将散乱的生物知识进行连接，形成结构化网络图谱，为仿生技术的研究提供了帮助。知识图谱的构建离不开实体抽取和关系抽取。人工标注是实体和关系抽取模型训练数据的重要来源，但是由于科研论文内容复杂并且存在许多与标注无关的噪声数据，直接标注会消耗大量的人力和时间成本。

技术实现要素：

4.针对现有技术的缺陷，本发明的目的在于提供一种基于中文仿生文献中句子的文本分类方法及系统，旨在解决现有的为仿生技术提供指导的知识图谱在构建过程中离不开实体抽取和关系抽取，人工标注是实体抽取和关系抽取模型训练数据的重要方法，但是由于科研论文内容复杂并且存在许多与标注无关的噪声数据，直接标注会消耗大量的人力和时间成本的问题。
5.为实现上述目的，本发明提供了一种基于中文仿生文献摘要的句子分类方法，包括以下步骤：
6.s1：对中文仿生科技文献摘要去噪处理后进行句子划分和分词处理，获取句子数据库和词语向量库；
7.s2：以多领域科技文献摘要的要素作为句子类别，采用标注句子类别的多领域科技文献摘要数据集训练bert模型，得到初始bert模型；
8.s3：提取句子数据库中部分句子进行人工标注句子类别，采用词频分析方法，在词语向量库中获取判断句子分类的关键词语；
9.s4：基于判断句子分类的关键词语和句子类别，对句子数据库中未进行人工标注句子类别的句子分别采用词频分析方法和输入初始bert模型中进行分类，获取第一分类结果集dataset1和第二分类结果集dataset2；
10.s5：将dataset1和dataset2中分类结果一致的句子存入分类数据库dataset3；
11.s6：将当前迭代作为上次迭代，其中，每次迭代完成对bert模型的一次训练，且词频分析方法采用较上次迭代更小的分词粒度；
12.s7：在dataset1中剔除dataset3中的句子，若dataset1为上次迭代前的bert模型获取，则采用较上次迭代更小的分词粒度的词频分析方法对dataset1再次分类并更新，且
采用上次迭代后的bert模型对dataset2再次分类并更新；反之，采用上次迭代后的bert模型对dataset1再次分类并更新，且采用较上次迭代更小的分词粒度的词频分析方法对dataset2再次分类并更新；
13.s8：转至s6，直至bert模型达到最好训练效果时停止句子分类，dataset3作为最终的分类结果。
14.进一步优选地，基于中文仿生文献摘要的句子分类方法，在s8后还包括：
15.s9：使用可解释性工具captum对训练完成的bert模型进行解释性分析，使用captum insights对分析结果进行可视化，高亮出每个句子中判别句子分类的关键信息。
16.进一步优选地，s1具体包括以下步骤：
17.s1.1：从pdf和caj格式的仿生科技文献中提取摘要数据；
18.s1.2：对摘要数据中不清晰的数据或含有的水印采用图像处理方法进行去雾去噪；并对摘要数据中的噪声信息采用正则表达式过滤；
19.s1.3：利用分段换行符从去噪后的摘要数据中取出各段落，存入段落数据库；
20.s1.4：采用正则表达式，对各段落以句子为单位进行拆分创建句子数据库；
21.s1.5：使用jieba分词工具将句子数据库中的句子转换为分词后对应的分词向量；分词粒度包括：句子级别、短语级别、单词级别和字符级别；其中，各个分词向量构建为词语向量库。
22.进一步优选地，词频分析方法为：
23.对句子数据库中的部分句子进行人工标注句子类别，采用词频分析方法在词语向量库中筛选出各句子类别下句子中出现频率为前十的词语作为判断句子分类的关键词语，用以表征句子类别；
24.对句子数据库中未进行人工标注句子类别的每一个句子进行词频统计，利用句子中出现频率最高的词语与判断句子分类的关键词语进行对比判断句子的类型，获取仿生领域文献摘要中句子的分类。
25.进一步优选地，仿生科技文献摘要的要素类别包括：研究背景、研究意义、研究过程、研究内容和实验结果。
26.进一步优选地，s1.5之后还包括：
27.采用停用词的集合包，对词语向量库中的各词语与停用词比对，在词语向量库中剔除与停用词一致的词语。
28.另一方面，本发明提供了一种基于中文仿生文献摘要的句子分类系统，包括：
29.预处理模块，用于对中文仿生科技文献摘要去噪处理后进行句子划分和分词处理，获取句子数据库和词语向量库；
30.模型预训练模块，用于以多领域科技文献摘要的要素作为句子类别，采用标注句子类别的多领域科技文献摘要数据集训练bert模型，得到初始bert模型；
31.关键词语获取模块，用于提取句子数据库中部分句子进行人工标注句子类别，采用词频分析方法，在词语向量库中获取判断句子分类的关键词语；词频分析模块，用于基于判断句子分类的关键词语和句子类别，对句子数据库中未进行人工标注句子类别的句子或通过上次迭代前bert模型获取的分类结果集采用词频分析方法进行分类，获取分类结果集；
32.bert模块，其内设置bert模型，用于将句子数据库中未进行人工标注句子类别的句子或通过词频分析方法获取的分类结果集输入到上次迭代后的bert模型中，获取分类结果集；其中，对句子数据库中的句子每分类一次，完成对bert模型的一次训练；
33.交集计算模块，用于将通过词频分析方法获取的分类结果集与通过上次迭代前的bert模型获取的分类结果集取交集，获取分类数据库；其中，对句子数据库中的句子分类一次，词频分析方法采用较上次分类更小的分词粒度；
34.数据剔除模块，用于在通过词频分析方法获取的分类结果集与通过上次迭代前的bert模型获取的分类结果集中剔除分类数据库中的句子，更新通过词频分析方法获取的分类结果集与通过上次迭代前的bert模型获取的分类结果集，分别输入至上次迭代后的bert模块和词频分析模块中进行上次迭代后bert模型的句子分类和词频分析方法的句子分类；
35.判断模块，用于判断bert模型是否达到最好训练效果，若是则停止句子分类，将分类数据库作为最终的分类结果；否则驱动词频分析模块和bert模块运行。
36.进一步优选地，句子分类系统还包括：可解释性工具captum，用于训练完成的bert模型进行解释性分析，使用captum insights对分析结果进行可视化，高亮出每个句子中判别句子分类的关键信息。
37.进一步优选地，词频分析方法为：
38.对句子数据库中的部分句子进行人工标注句子类别，采用词频分析方法在词语向量库中筛选出各句子类别下句子中出现频率为前十的词语作为判断句子分类的关键词语，用以表征句子类别；
39.对句子数据库中未进行人工标注句子类别的每一个句子进行词频统计，利用句子中出现频率最高的词语与判断句子分类的关键词语进行对比判断句子的类型，获取仿生领域文献摘要中句子的分类。
40.进一步优选地，预处理模块包括：数据提取单元、去噪单元、段落划分单元、句子拆分单元、jieba分词工具和停用词剔除单元；
41.数据提取单元用于从pdf和caj格式的仿生科技文献中提取摘要数据；
42.去噪单元用于对摘要数据中不清晰的数据或含有的水印采用图像处理方法进行去雾去噪，并对摘要数据中的噪声信息采用正则表达式过滤；
43.段落划分单元用于利用分段换行符从去噪后的摘要数据中取出各段落，存入段落数据库中；
44.句子拆分单元用于采用正则表达式，对各段落以句子为单位进行拆分创建句子数据库；
45.jieba分词工具用于将句子数据库中的句子转换为分词后对应的分词向量；分词粒度包括：句子级别、短语级别、单词级别和字符级别；其中，各个分词向量构建为词语向量库；
46.停用词剔除单元用于采用停用词的集合包，对词语向量库中的各词语与停用词比对，在词语向量库中剔除与停用词一致的词语。
47.总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：
48.本发明只需要提取句子数据库中部分句子进行人工标注句子，获取判断句子分类
的关键词语；利用bert模型在进行句子分类的过程中持续优化训练自身参数，且词频分析方法可以采用不同的分词粒度，将剩余的句子可交叉使用词频分析方法和bert模型进行准确分类，减少了人工标注的工作量。
49.本发明提供的中文仿生文献摘要的句子分类方法，以多领域科技文献摘要的要素作为句子类别，最终从分类数据库中可以清晰获知各句子类型，在知识图谱构建过程中，摘要中研究背景和研究意义等要素会属于噪声数据，因此在采用句子构建知识图谱时，可直接舍弃标注研究背景和研究意义下的句子，减少实体抽取和关系抽取中的人工标注，可减少人力和时间的成本。
50.本发明提供的中文仿生文献摘要的句子分类方法，包括词频分析方法和bert模型两种交叉进行句子分类，更为具体地，对句子数据库中未进行人工标注句子类别的句子分别采用词频分析方法和输入初始bert模型中进行分类，获取第一分类结果集dataset1和第二分类结果集dataset2；将dataset1和dataset2中分类结果一致的句子存入分类数据库dataset3；下次迭代时在dataset1中剔除dataset3中的句子，若dataset1为通过上次迭代前的bert模型获取的，则采用较上次迭代更小的分词粒度的词频分析方法对dataset1再次分类并更新，且采用上次迭代后的bert模型对dataset2再次分类并更新；反之，采用上次迭代后的bert模型对dataset1再次分类并更新，且采用较上次迭代更小的分词粒度的词频分析方法对dataset2再次分类并更新；以此类推，最终获取的dataset3相较于传统单一方法进行句子分类的结果更加准确。
附图说明
51.图1是本发明实施例提供的基于中文仿生文献中句子的文本分类方法示意图。
具体实施方式
52.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
53.实施例
54.一方面，本发明实施例提供了一种基于中文仿生文献摘要的句子分类方法，包括以下步骤：
55.s1：对仿生科技文献的摘要进行预处理；
56.预处理包括：从pdf、caj等文献文件中提取摘要数据，由于文献大部分为电子文档数据，因此，预处理阶段需要去除噪声、文本抓取和分词处理等必要步骤；更为具体地：
57.s1.1从pdf和caj格式的文献中提取摘要数据；
58.s1.2对摘要数据去噪；
59.摘要数据可能会不清晰或者含有水印，因此需要采用专门的图像处理方法进行去雾去噪；
60.摘要数据还包括url和无意义字符(如引用标号)等对于分类任务无关的噪声信息，需针对摘要数据自行建立字符库，采用正则表达式将噪声信息过滤；
61.s1.3句子划分；
62.利用分段换行符从去噪后的摘要数据中取出各段落，存入段落数据库；
63.对每一段落进行句子拆分，将摘要数据以句子为单位进行拆分创建句子数据库，采用正则表达式；其中，拆分方法为：以“？”、“！”、“。”为结束符号对文献摘要文本进行拆分，获取所有完整句子；
64.s1.4分词处理
65.对经过去除噪声信息的句子数据库使用jieba分词工具，将句子数据转换为分词后对应的分词向量，英文句子数据分词侧重进行词形还原和词干提取等操作，中文句子数据侧重考虑分词粒度，如：句子级别、短语级别、单词级别和字符级别；在仿生文献的场景中选择合适的分词粒度，以达到更好的模型效果；
66.s1.5停用词剔除
67.采用停用词的集合包，对词语向量库中的各词语与停用词比对，在词语向量库中剔除与停用词一致的词语；
68.s2：以摘要的要素作为句子的类别(一般摘要包含研究背景、研究意义、研究过程、研究内容和实验结果五个部分)针对拆分后的句子数据库使用bert模型和词频分析方法对仿生领域文献摘要句子进行分类；
69.其中，bert模型的运行过程为：
70.bert模型为一种常用的句子分类模型，包括预训练和微调两部分操作；预训练的具体过程为：将训练集输入bert模型中，然后执行预训练启动代码，预训练操作自动执行，得到预训练的模型；微调的具体过程为：首先设置预训练后的模型的超参数，然后将测试集输入预训练后的模型，执行微调启动代码，微调操作自动执行；词频分析方法为一种常用的句子分类方法；对句子中每个词语出现的次数进行统计分析，可根据每个词语出现的频数判断该词语在文本中的重要性，筛选出现频数最多的几个词语以表征类别；
71.s2具体内容如下：
72.s2.1使用词频分析方法进行句子分类
73.将抽取句子数据库中部分句子以研究背景、研究意义、研究过程、研究内容和实验结果为类别进行人工分类，并对句子进行标注；
74.对人工分类的每一个句子进行词频统计，统计出五种类型的句子中出现频率为前十的词语，将上述词语作为判断句子分类的关键词语，即采用频率为前十的词语表征类别；
75.将剩余句子作为训练数据，对每一个句子进行词频统计，利用句子中出现频率最高的词语与判断句子分类的关键词语进行对比，以此判断句子的类型，获取仿生领域文献摘要中句子的第一分类结果集dataset1；
76.s2.2使用bert模型进行句子分类
77.将多领域科技文献摘要数据集与仿生领域文献摘要数据集转换为bert模型处理时需要的格式；多领域科技文献摘要数据集包括pubmed-20k和cs-abstracts；其中，多领域科技文献摘要数据集中的句子分类是已知的；
78.以研究背景、研究意义、研究过程、研究内容和实验结果为类别，使用多领域科技文献摘要数据集对bert模型进行预训练获取初始bert模型model1；
79.使用预处理后的仿生领域文献摘要数据作为测试集对取初始bert模型model1进行微调，获取仿生领域文献摘要中句子的第二分类结果集dataset2；
80.s3：两种分类方法配合使用
81.整体概括为：将第一次迭代中两种分类方法分别得到的第一分类结果集dataset1和第二分类结果集dataset2中相同的句子以及对应的类别保存到分类数据库dataset3中；bert模型自身训练更新，且词频分析方法调整为较当前迭代更小的分词粒度；对剔除相同句子的第一分类结果集dataset1中各句子采用上次迭代后的bert模型进行第二次迭代分类，更新第一分类结果集dataset1；对剔除相同句子的第二分类结果集dataset2中的各句子采用分词粒度更小的词频分析方法进行第二次迭代分类，更新第二分类结果集dataset2；将再次分类得到的第一分类结果集dataset1和第二分类结果集dataset2中相同的句子数据与分类数据库中的数据进行合并；重复以上交叉分类操作，当bert模型达到最好训练效果时，停止句子分类，分类数据库中保存的句子作为最终的分类结果；具体如下：
82.s3.1：将使用两种分类方法分别获取的第一分类结果集dataset1与第二分类结果集dataset2取交集存储至分类数据库dataset3；
83.s3.2：将当前迭代作为上次迭代，其中，每次迭代完成对bert模型的一次训练，且词频分析方法采用较上次迭代更小的分词粒度；
84.s3.3：在第一分类结果集dataset1中剔除分类数据库dataset3中的句子，将第一分类结果集dataset1中剩余的句子使用上次迭代后的bert模型再次分类，更新第一分类结果集dataset1；
85.s3.4：在第二分类结果集dataset2中剔除分类数据库dataset3中的句子，将第二分类结果集dataset2中剩余的句子使用较上次迭代更小的分词粒度的词频分析方法再次分类更新第二分类结果集dataset2；
86.s3.5：将第一分类结果集dataset1与第二分类结果集dataset2取交集存入分类数据库dataset3中；
87.s3.6：将当前迭代作为上次迭代，其中，每次迭代完成对bert模型的一次训练，且词频分析方法采用较上次迭代更小的分词粒度；
88.s3.7：在第一分类结果集dataset1中剔除分类数据库dataset3中的句子，若第一分类结果集dataset1为上次迭代前的bert模型获取的，则采用较上次迭代更小的分词粒度的词频分析方法对第一分类结果集dataset1再次分类，更新第一分类结果集dataset1，采用上次迭代后的bert模型对第二分类结果集dataset2再次分类，更新第二分类结果集dataset2；反之，采用上次迭代后的bert模型对第一分类结果集dataset1再次分类，更新第一分类结果集dataset1，采用较上次迭代更小的分词粒度的词频分析方法对第二分类结果集dataset2再次分类，更新第二分类结果集dataset2；
89.s3.8：转至s3.6，直至bert模型达到最好训练效果时停止句子分类，分类数据库作为最终的分类结果；
90.s4：为了给之后的实体标准与关系标注工作提供帮助，需要在仿生文献摘要每个句子中标记支持该句子分类判别的关键信息，因此，使用可解释性工具captum对训练完成的bert模型进行可解释性分析，使用captum insights对分析结果进行可视化，高亮出每个句子中判别句子类型的关键信息。
91.另一方面，本发明提供了一种基于中文仿生文献摘要的句子分类系统，包括：
92.预处理模块，用于对中文仿生科技文献摘要去噪处理后进行句子划分和分词处
理，获取句子数据库和词语向量库；
93.模型预训练模块，用于以多领域科技文献摘要的要素作为句子类别，采用标注句子类别的多领域科技文献摘要数据集训练bert模型，得到初始bert模型；
94.关键词语获取模块，用于提取句子数据库中部分句子进行人工标注句子类别，采用词频分析方法，在词语向量库中获取判断句子分类的关键词语；词频分析模块，用于基于判断句子分类的关键词语和句子类别，对句子数据库中未进行人工标注句子类别的句子或通过上次迭代前bert模型获取的分类结果集采用词频分析方法进行分类，获取分类结果集；
95.bert模块，其内设置bert模型，用于将句子数据库中未进行人工标注句子类别的句子或通过词频分析方法获取的分类结果集输入到上次迭代后的bert模型中，获取分类结果集；其中，对句子数据库中的句子每分类一次，完成对bert模型的一次训练；
96.交集计算模块，用于将通过词频分析方法获取的分类结果集与通过上次迭代前的bert模型获取的分类结果集取交集，获取分类数据库；其中，对句子数据库中的句子分类一次，词频分析方法采用较上次分类更小的分词粒度；
97.数据剔除模块，用于在通过词频分析方法获取的分类结果集与通过上次迭代前的bert模型获取的分类结果集中剔除分类数据库中的句子，更新通过词频分析方法获取的分类结果集与通过上次迭代前的bert模型获取的分类结果集，分别输入至上次迭代后的bert模块和词频分析模块中进行上次迭代后bert模型的句子分类和词频分析方法的句子分类；
98.判断模块，用于判断bert模型是否达到最好训练效果，若是则停止句子分类，将分类数据库作为最终的分类结果；否则驱动词频分析模块和bert模块运行。
99.进一步优选地，句子分类系统，还包括可解释性工具captum，用于训练完成的bert模型进行解释性分析，使用captum insights对分析结果进行可视化，高亮出每个句子中判别句子分类的关键信息。
100.进一步优选地，所述词频分析方法为：
101.对句子数据库中的部分句子进行人工标注句子类别，采用词频分析方法在词语向量库中筛选出各句子类别下句子中出现频率为前十的词语作为判断句子分类的关键词语，用以表征句子类别；
102.对句子数据库中未进行人工标注句子类别的每一个句子进行词频统计，利用句子中出现频率最高的词语与判断句子分类的关键词语进行对比判断句子的类型，获取仿生领域文献摘要中句子的分类。
103.进一步优选地，预处理模块包括：数据提取单元、去噪单元、段落划分单元、句子拆分单元、jieba分词工具和停用词剔除单元；
104.所述数据提取单元用于从pdf和caj格式的仿生科技文献中提取摘要数据；
105.所述去噪单元用于对摘要数据中不清晰的数据或含有的水印采用图像处理方法进行去雾去噪，并对摘要数据中的噪声信息采用正则表达式过滤；
106.所述段落划分单元用于利用分段换行符从去噪后的摘要数据中取出各段落，存入段落数据库中；
107.所述句子拆分单元用于采用正则表达式，对各段落以句子为单位进行拆分创建句子数据库；
108.所述jieba分词工具用于将句子数据库中的句子转换为分词后对应的分词向量；分词粒度包括：句子级别、短语级别、单词级别和字符级别；其中，各个分词向量构建为词语向量库；
109.所述停用词剔除单元用于采用停用词的集合包，对词语向量库中的各词语与停用词比对，在词语向量库中剔除与停用词一致的词语。
110.本发明只需要提取句子数据库中部分句子进行人工标注句子，获取判断句子分类的关键词语；利用bert模型在进行句子分类的过程中持续优化训练自身参数，且词频分析方法可以采用不同的分词粒度，将剩余的句子可交叉使用词频分析方法和bert模型进行准确分类，减少了人工标注的工作量。
111.本发明提供的中文仿生文献摘要的句子分类方法，以多领域科技文献摘要的要素作为句子类别，最终从分类数据库中可以清晰获知各句子类型，在知识图谱构建过程中，摘要中研究背景和研究意义等要素会属于噪声数据，因此在采用句子构建知识图谱时，可直接舍弃标注研究背景和研究意义下的句子，减少实体抽取和关系抽取中的人工标注，可减少人力和时间的成本。
112.本发明提供的中文仿生文献摘要的句子分类方法，包括词频分析方法和bert模型两种交叉进行句子分类，更为具体地，对句子数据库中未进行人工标注句子类别的句子分别采用词频分析方法和输入初始bert模型中进行分类，获取第一分类结果集dataset1和第二分类结果集dataset2；将dataset1和dataset2中分类结果一致的句子存入分类数据库dataset3；下次迭代时在dataset1中剔除dataset3中的句子，若dataset1为通过上次迭代前的bert模型获取的，则采用较上次迭代更小的分词粒度的词频分析方法对dataset1再次分类并更新，且采用上次迭代后的bert模型对dataset2再次分类并更新；反之，采用上次迭代后的bert模型对dataset1再次分类并更新，且采用较上次迭代更小的分词粒度的词频分析方法对dataset2再次分类并更新；以此类推，最终获取的dataset3相较于传统单一方法进行句子分类的结果更加准确。
113.本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：流程图处理方法、装置、设备及介质与流程

一种基于中文仿生文献摘要的句子分类方法及系统

相关文献

最热文献