一种标点符号添加方法、装置、电子设备及存储介质与流程

2022-02-23 01:26:44 来源：中国专利 TAG：

1.本发明涉及自然语言处理技术领域，具体地涉及一种标点符号添加方法、装置、电子设备及存储介质。

背景技术：

2.随着互联网技术的不断发展，越来越多的人愿意在网络上分享自己的观点或看法，通过对这些数据进行分析，可以得到人们对某件事情的态度，针对不同的群体可以利用这些结果进行不同的决策。例如，当人们就某一产品发表自己的购物体验以及使用感受时，作为商家可以通过分析用户的观点，得到用户对产品不同属性的观点，从而发现产品的优缺点，对产品进行改进；作为潜在购买者，可以通过分析已购买人群对该产品的使用体验，从而决定自己是否需要购买该产品。然而由于人们的书写习惯，经常出现无标点符号的文本，这对自动化分析文本观点造成困扰，使得分析的结果不够准确，也对人工理解文本的语义带来一定的不便。
3.目前已经有相关技术方法，可以对无标点符号的文本数据进行标点符号添加。最常见的方法是通过规则统计，对无标点符号的文本数据进行标点符号添加。该方法主要存在两个问题：需要耗费大量的人工对添加后的数据进行修改校验，且人与人之间的理解不同，不同的人对同一文本的校验结果可能不同；对于不同领域不同的社交平台，人们的书写方式可能会发生变化，基于统计规则的标点符号添加，不能很好的做到跨领域跨平台的标点符号添加。

技术实现要素：

4.本发明的目的在于提供一种无标点符号文本数据分析、快速自动进行标点符号添加且结果准确的标点符号添加方法、装置、电子设备及存储介质。
5.为解决上述技术问题，本发明采用的一个技术方案是：提供一种标点符号添加方法，所述方法包括：
6.构建初始浅层神经网络模型；
7.获取初始文本数据，将所述初始文本数据进行数据预处理，生成待标注文本数据；
8.将所述待标注文本数据进行标注处理，生成带标签的预训练文本数据；
9.将所述预训练文本数据映射至所述初始浅层神经网络模型进行训练，得到目标浅层神经网络模型；
10.获取预处理文本数据，将所述预处理文本数据映射至所述目标浅层神经网络模型中进行标签预测得到标签预测结果；
11.根据所述标签预测结果对所述预处理文本数据进行标点符号的添加，生成目标文本数据。
12.为解决上述技术问题，本发明采用的另一个技术方案是：提供一种标点符号添加装置，包括用于执行如上所述的标点符号添加方法的单元。
13.为解决上述技术问题，本发明采用的另一个技术方案是：提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器之间通过通信总线完成相互间的通信。
14.存储器，用于存放计算机程序。
15.处理器，用于执行存储器上所存放的程序时，实现如上所述的标点符号添加方法的步骤。
16.为解决上述技术问题，本发明采用的另一个技术方案是：一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理执行时实现如上所述的标点符号添加方法的步骤。
17.本发明通过构建初始浅层神经网络模型，利用浅层神经网络模型较强的自学习能力，导入初始文本数据对其进行训练，得到目标浅层神经网络模型，之后利用目标浅层神经网络模型可实现大量数据的快速自动处理，节省人力物力，且可避免人工误差，提高处理结果的准确性。其中，初始文本数据导入前需要进行数据预处理，并对数据预处理之后生成的待标注文本数据进行标注处理，生成用于进行训练的预训练文本数据，预训练文本数据包含有对待标注文本数据进行标注处理的处理结果，可用作初始浅层神经网络模型进行学习训练，使得得到的目标浅层神经网络模型同样具有标注处理的能力。当导入预处理文本数据后，目标浅层神经网络模型便能根据学习训练的结果对预处理文本数据进行处理，得到对预处理文本数据进行标签预测的标签预测结果，根据标签预测结果对预处理文本数据进行相应的标点符号添加，可生成具有完整标点符号的目标文本数据。
附图说明
18.为了更清楚地说明本发明的技术方案，下面将对发明中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
19.图1是本发明一实施例的标点符号添加方法的流程示意图。
20.图2是本发明一实施例的标点符号添加方法的子流程示意图。
21.图3是本发明一实施例的标点符号添加方法的子流程示意图。
22.图4是本发明一实施例的标点符号添加方法的子流程示意图。
23.图5是本发明一实施例的标点符号添加方法的子流程示意图。
24.图6是本发明一实施例的标点符号添加方法的子流程示意图。
25.图7是本发明一实施例的标点符号添加方法的子流程示意图。
26.图8是本发明一实施例的电子设备的模块结构示意图。
27.图9是本发明一实施例的标点符号添加装置的模块结构示意图。
具体实施方式
28.下面将结合本发明实施例中的附图，对实施例中的技术方案进行清楚、完整地描述，附图中类似的组件标号代表类似的组件。显然，以下将描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出
创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
29.应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
30.还应当理解，在此本发明实施例说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明实施例。如在本发明实施例说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。
31.请参考图1，图1是本发明一实施例的一种标点符号添加方法的流程示意图。
32.本发明提供了一种标点符号添加方法，所述方法包括：
33.s101：构建初始浅层神经网络模型。
34.可理解地，神经网络是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统，它反映了人脑功能的许多基本特征，是一个高度复杂的非线性动力学习系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力，神经网络模型是以神经元的数学模型为基础来描述的，神经网络模型由网络拓扑、节点特点和学习规则来表示，浅层神经网络模型为单隐层神经网络模型。
35.s102：获取初始文本数据，将所述初始文本数据进行数据预处理，生成待标注文本数据。
36.可理解地，所述初始文本数据包括符合设定要求行业、领域及品牌的电商评论数据，对初始文本数据进行数据预处理，经过数据预处理的初始文本数据作为待标注文本数据，可以过滤清理掉有可能影响分析的一些噪声数据，有利于提高后续分析结果的处理速度和准确性。
37.s103：将所述待标注文本数据进行标注处理，生成带标签的预训练文本数据。
38.可理解地，对待标注文本数据进行标注处理后，生成的预训练文本数据包含有标注结果，即具有标签，可用作后续进行学习训练，使得学习模型同样具有该标注处理的能力。
39.s104：将所述预训练文本数据映射至所述初始浅层神经网络模型进行训练，得到目标浅层神经网络模型。
40.可理解地，神经网络模型具有良好的表示学习能力。
41.s105：获取预处理文本数据，将所述预处理文本数据映射至所述目标浅层神经网络模型中进行标签预测得到标签预测结果。
42.可理解地，所述预处理文本数据包括符合设定要求行业、领域及品牌的电商评论数据，经过学习训练后的目标浅层神经网络模型具备有标注处理能力，可以对预处理文本数据的字符进行标签的预测，判断预处理文本数据不同的字符需要标注的标签类型。
43.s106：根据所述标签预测结果对所述预处理文本数据进行标点符号的添加，生成目标文本数据。
44.可理解地，经过步骤s105判断出预处理文本的字符对应的标签类型后，能够根据标签预测结果判断出预处理文本数据中，需要添加标点符号的位置，根据判断出的位置对应进行标点符号的添加即可，最后生成具有完整标点符号的目标文本数据，目标文本数据
可用于人们对电商评论数据进行准确的分析。
45.本发明通过构建初始浅层神经网络模型，利用浅层神经网络模型较强的自学习能力，导入初始文本数据对其进行训练，得到目标浅层神经网络模型，之后利用目标浅层神经网络模型可实现大量数据的快速自动处理，节省人力物力，且可避免人工误差，提高处理结果的准确性。其中，初始文本数据导入前需要进行数据预处理，并对数据预处理之后生成的待标注文本数据进行标注处理，生成用于进行训练的预训练文本数据，预训练文本数据包含有对待标注文本数据进行标注处理的处理结果，可用作初始浅层神经网络模型进行学习训练，使得得到的目标浅层神经网络模型同样具有标注处理的能力。当导入预处理文本数据后，目标浅层神经网络模型便能根据学习训练的结果对预处理文本数据进行处理，得到对预处理文本数据进行标签预测的标签预测结果，根据标签预测结果对预处理文本数据进行相应的标点符号添加，可生成具有完整标点符号的目标文本数据。
46.请参考图2，图2是本发明一实施例的一种标点符号添加方法的子流程示意图。
47.进一步地，本发明的所述获取初始文本数据，将所述初始文本数据进行数据预处理，生成待标注文本数据包括：
48.s201：获取样本文本数据。
49.可理解地，为了扩展目标浅层神经网络模型的泛化能力，所述样本文本数据包含了各个领域、行业的电商评论数据，从而便于后续实现跨领域的无标点符号文本分析。样本文本数据的获取包括上传、下载等方式。其中，泛化能力是指及其学习算法对新鲜样本的适应能力，学习的目的是学到隐含在数据背后的规律，对具有同一规律的学习集以外的数据，经过训练的网络也能给出合适的输出。
50.s202：将所述样本文本数据按照设定要求进行筛选，经过筛选的样本文本数据作为所述初始文本数据。
51.可理解地，例如，由于样本文本数据来源比较广泛，可按照设定要求进行筛选，例如，从海量的样本文本数据中筛选出3c、家电、食品、服装、护肤品五大领域中的十八个品牌的电商评论数据，作为初始文本数据。
52.s203：获取所述初始文本数据并进行数据预处理。
53.可理解地，进行数据预处理，可过滤丢弃影响分析速度和结果的无用数据。
54.s204：将经过所述数据预处理的初始文本数据作为所述待标注文本数据。
55.请参考图3，图3是本发明一实施例的一种标点符号添加方法的子流程示意图。
56.进一步地，本发明的所述数据预处理包括：
57.s301：筛选获取符合设定数据长度要求且有标点符号的初始文本数据。
58.具体地，过滤丢弃符合设定数据长度要求且无标点符号的初始文本数据。
59.s302：筛选获取包含中文数据的初始文本数据。
60.具体地，过滤丢弃未包含中文数据的初始文本数据。
61.s303：筛选获取所述预处理文本数据中有意义的初始文本数据。
62.具体地，过滤丢弃所述预处理文本数据中无意义的初始文本数据。
63.s304：将所述初始文本数据中的标点/符号/英文/字母的表述方式和格式按照设定要求转换为统一的表述方式和格式。
64.可理解地，进行数据预处理，可过滤丢弃影响分析速度和结果的无用的初始文本
数据。
65.请参考图4，图4是本发明一实施例的一种标点符号添加方法的子流程示意图。
66.进一步地，本发明的所述将所述待标注文本数据进行标注处理，生成预训练文本数据包括：
67.s401：获取待标注文本数据。
68.可理解地，待标注文本数据是经过数据预处理的，可直接用来进行标注处理。
69.s402：将所述待标注文本数据按照设定要求进行分割，生成片段文本数据，将片段文本数据的首字符标注b标签，将片段文本数据的其他字符标注o标签，生成bo标签文本数据。
70.可理解地，本发明基于命名提示识别技术，对原有的命名实体标注模式中的bio标注方式进行改进，定义了一种文本标注方式，该文本标志方式包括b标签和o标签，利用b标签表示文本数据中包含的首字符，利用o标签表示文本数据中包含的其他字符。首先根据待标注文本数据的标点符号将待标注文本数据分割为片段文本数据，每个片段文本数据为一段完整的文本数据，再标注每个片段文本数据的首字符为b标签，每个片段文本数据的其他字符为p标签，整合汇总所有经过标注处理的片段文本数据，生成bo标签文本数据。
71.s403：将所述bo标签文本数据作为所述预训练文本数据。
72.请参考图5，图5是本发明一实施例的一种标点符号添加方法的子流程示意图。
73.进一步地，本发明的所述构建初始浅层神经网络模型，将所述预训练文本数据映射至所述初始浅层神经网络模型进行训练，得到目标浅层神经网络模型包括：
74.s501：构建可以进行命名实体识别的bilstm crf网络模型，并将其作为初始浅层神经网络模型。
75.可理解地，命名实体识别是自然语言处理里的一项处理任务，就是指从文本中识别出命名性指称项，为关系抽取等任务做铺垫。具体来说就是识别出各领域、行业内的各种实体类型。
76.s502：获取预训练文本数据，并将所述预训练文本数据映射至所述bilstm crf网络模型中进行训练。
77.s503：将训练完成后的bilstm crf网络模型作为所述目标浅层神经网络模型。
78.可理解地，预训练文本数据包含有标注处理结果，bilstm crf网络模型经过训练后同样能具有对应的标注处理的能力，这样可处理多个领域、行业的文本数据分析，实现跨领域。
79.请参考图6，图6是本发明一实施例的一种标点符号添加方法的子流程示意图。
80.进一步地，本发明的所述获取预处理文本数据，将所述预处理文本数据映射至所述目标浅层神经网络模型中进行标签预测得到标签预测结果包括：
81.s601：获取输入文本数据。
82.可理解地，输入文本数据包括海量的各领域、行业、品牌的电商评论数据，且为无标点符号的文本数据。
83.s602：将所述输入文本数据进行处理，并把经过处理的输入文本数据作为所述预处理文本数据。
84.可理解地，输入文本数据的处理包括清洗、过滤，筛选出符合设定要求的文本数据
用作接下来的任务。
85.s603：将所述预处理文本数据映射至所述目标浅层神经网络模型中。
86.s604：利用所述目标浅层神经网络模型对所述目标文本数据包含的字符进行标签预测，生成带标签的预处理文本数据，将带标签的预处理文本数据作为标签预测结果。
87.可理解地，目标文本数据映射至目标浅层神经网络模型中后，目标浅层神经网络模型根据之前的学习训练结果，预测出目标文本数据包含的字符对应的b标签和o标签，从而生成带有bo标签的预测标签文本数据。根据之前步骤标注处理过程，可识别预测标签文本数据包含的字符标注为b标签的为首字符，可在其与前一字符之间的位置添加标点符号，待全部的具有b标签的首字符与前一字符之间均添加完标点符号后过程完成，最后生成可用于进行分析的具有完整标点符号的目标文本数据。
88.请参考图7，图7是本发明一实施例的一种标点符号添加方法的子流程示意图。
89.进一步地，本发明的所述根据所述预测标签文本数据的标签预测结果进行标点符号的添加包括：
90.s701：获取所述带标签的预处理文本数据。
91.s702：判断所述带标签的预处理文本数据包含的字符的标签类型。
92.可理解地，标签类型包括b标签和o标签。
93.s703：若判断字符的标签类型为b标签，则于该字符与前一字符之间的位置添加标点符号。
94.在所述步骤s703中还包括，若标签类型为b标签，进一步判断具有b标签的预测标签文本数据包含的字符之前是否具有字符，若具有字符，则于该字符与前一字符之间添加标点符号，若不具有字符，则不进行标点符号的添加。
95.本发明提供了一种基于命名实体识别技术对跨领域数据进行标点符号添加的标点符号添加方法，在标点符号添加的过程中无需人工参与，自动进行标注，且在数据选取阶段通过抽取不同平台不同领域不同品牌的数据作为训练数据，完美地解决了跨领域跨平台的标点符号添加问题。另外，在本发明中使用的网络模型为广泛使用的bilstm crf网络结构，其网络层数以及参数量相较于目前常用的bert模型小很多，对于线上实时任务的处理更加实用，且能够取得较高的准确率。
96.请参考图8，图8是本发明一实施例的电子设备的模块结构示意图。
97.本发明还提供了一种电子设备，包括处理器801、通信接口802、存储器803和通信总线804，其中，处理器801、通信接口802和存储器803之间通过通信总线804完成相互间的通信。
98.存储器803，用于存放计算机程序。
99.处理器801，用于执行存储器上所存放的程序时，实现如上所述的标点符号添加方法的步骤。
100.请参考图9，图9是本发明一实施例的标点符号添加装置的模块结构示意图。
101.本发明还提供了一种标点符号添加装置900，包括用于执行如上所述的标点符号添加方法的单元，包括：
102.构建单元901，用于构建初始浅层神经网络模型；
103.第一获取单元902，用于获取初始文本数据，将所述初始文本数据进行数据预处
理，生成待标注文本数据；
104.标注单元903，用于将所述待标注文本数据进行标注处理，生成带标签的预训练文本数据；
105.映射单元904，用于将所述预训练文本数据映射至所述初始浅层神经网络模型进行训练，得到目标浅层神经网络模型；
106.第二获取单元905，用于获取预处理文本数据，将所述预处理文本数据映射至所述目标浅层神经网络模型中进行标签预测得到标签预测结果。
107.添加单元906，用于根据所述标签预测结果对所述预处理文本数据进行标点符号的添加，生成目标文本数据。
108.在一实施例中，所述获取初始文本数据，将所述初始文本数据进行数据预处理，生成待标注文本数据包括：
109.获取样本文本数据；
110.将所述样本文本数据按照设定要求进行筛选，经过筛选的样本文本数据作为所述初始文本数据；
111.获取所述初始文本数据并进行数据预处理；
112.将经过所述数据预处理的初始文本数据作为所述待标注文本数据。
113.在一实施例中，所述数据预处理包括：
114.筛选获取符合设定数据长度要求且有标点符号的初始文本数据；
115.筛选获取包含中文数据的初始文本数据；
116.筛选获取所述预处理文本数据中有意义的初始文本数据；
117.将所述初始文本数据中的标点/符号/英文/字母的表述方式和格式按照设定要求转换为统一的表述方式和格式。
118.在一实施例中，所述将所述待标注文本数据进行标注处理，生成预训练文本数据包括：
119.获取待标注文本数据；
120.将所述待标注文本数据按照设定要求进行分割，生成片段文本数据，将片段文本数据的首字符标注b标签，将片段文本数据的其他字符标注o标签，生成bo标签文本数据；
121.将所述bo标签文本数据作为所述预训练文本数据。
122.在一实施例中，所述构建初始浅层神经网络模型，将所述预训练文本数据映射至所述初始浅层神经网络模型进行训练，得到目标浅层神经网络模型包括：
123.构建可以进行命名实体识别的bilstm crf网络模型，并将其作为初始浅层神经网络模型；
124.获取预训练文本数据，并将所述预训练文本数据映射至所述bilstm crf网络模型中进行训练；
125.将训练完成后的bilstm crf网络模型作为所述目标浅层神经网络模型。
126.在一实施例中，所述获取预处理文本数据，将所述预处理文本数据映射至所述目标浅层神经网络模型中进行标签预测得到标签预测结果包括：
127.获取输入文本数据；
128.将所述输入文本数据进行处理，并把经过处理的输入文本数据作为所述预处理文
本数据；
129.将所述预处理文本数据映射至所述目标浅层神经网络模型中；
130.利用所述目标浅层神经网络模型对所述目标文本数据包含的字符进行标签预测，生成带标签的预处理文本数据，将带标签的预处理文本数据作为标签预测结果。
131.在一实施例中，所述根据所述标签预测结果对所述预处理文本数据进行标点符号的添加，生成目标文本数据包括：
132.获取所述带标签的预处理文本数据；
133.判断所述带标签的预处理文本数据包含的字符的标签类型；
134.若判断字符的标签类型为b标签，则于该字符与前一字符之间的位置添加标点符号。
135.本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理执行时实现如上所述的标点符号添加方法的步骤。
136.在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不应理解为必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外，本领域的技术人员可以将本说明书中描述的不同实施例或示例进行结合和组合。
137.显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，尚且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。
138.以上所述，为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于大数据的信息安全备份存储系统的制作方法

一种标点符号添加方法、装置、电子设备及存储介质与流程

相关文献

最热文献