标点符号判断方法、装置、电子设备及存储介质与流程

2022-11-23 17:29:42 来源：中国专利 TAG：

1.本发明涉及文本识别技术领域，尤其涉及一种标点符号判断方法、装置、电子设备及存储介质。

背景技术：

2.标点符号是文本的重要组成部分，同样的文字序列，经过不同的标号和点号的标注，其含义也会大相径庭。所以标点符号的使用，也是提高语言表达水平的一个重要知识点。
3.随着人工智能技术的普及和应用，智能教育可提供学生提高学习效率，并提供老师实现试卷或作业的智能批改，以将精力更多地专注于教学水平的提高。然而，目前智能批改技术，无法针对文本中标点符号的使用合理性进行有效判断。
4.有鉴于此，亟需一种可针对文本中标点符号的使用合理性，进行智能化检测的处理手段。

技术实现要素：

5.有鉴于此，本公开实施例提供一种标点符号判断方法、装置、电子设备及存储介质，以至少部分的解决上述问题。
6.根据本公开的一方面，提供了一种标点符号判断方法，包括：识别目标语句的文字信息、标号信息、点号信息、句类信息，获得所述目标语句的目标特征序列；重组所述目标特征序列中的各字符特征，获得所述目标特征序列的标号重组特征和点号重组特征；根据所述标号重组特征和所述点号重组特征，对所述目标语句的标号信息和点号信息执行判断，获得所述目标语句的标点符号判断结果。
7.根据本公开的第二方面，提供一种标点符号判断装置，包括：融合模块，用于识别目标语句的文字信息、标号信息、点号信息、句类信息，获得所述目标语句的目标特征序列；重组模块，用于重组所述目标特征序列中的各字符特征，获得所述目标特征序列的标号重组特征和点号重组特征；判断模块，用于根据所述标号重组特征和所述点号重组特征，对所述目标语句的标号信息和点号信息执行判断，获得所述目标语句的标点符号判断结果。
8.根据本公开的第三方面，提供一种电子设备，包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行上述第一方面所述的标点符号判断方法。
9.根据本公开的第四方面，提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如第一方面所述的标点符号判断方法。
10.本公开各方面提供的标点符号判断方案，通过识别目标语句的文字信息、标号信息、点号信息、句类信息，以基于多个维度，针对文本中各标点符号的使用合理性进行判断，以引导使用者正确地使用标点符号，提高使用者的语言表达能力。
附图说明
11.在下面结合附图对于示例性实施例的描述中，本公开的更多细节、特征和优点被公开，在附图中：
12.图1为本公开示例性实施例的标点符号判断方法的流程示意图。
13.图2为本公开另一示例性实施例的标点符号判断方法的流程示意图。
14.图3为本公开另一示例性实施例的标点符号判断方法的流程示意图。
15.图4为本公开另一示例性实施例的标点符号判断方法的流程示意图。
16.图5为本公开示例性实施例的标点符号判断装置的架构示意图。
17.图6为本公开示例性实施例的电子设备的架构示意图。
具体实施方式
18.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。
19.应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
20.本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
21.需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。
22.随着人工智能技术的发展，存在大量的ocr(光学字符识别)、asr(自动语音识别技术)的应用场景，其中，ocr的处理过程本身会引入识别错误，asr的输出则是不带有标点符号的纯文字文本，因此，标点符号的纠错也是这两个场景当前无法解决的技术问题。
23.在现有技术中，主要使用概率模型(例如n-gram模型、条件随机场模型等)来解决文本中标点符号的自动添加问题。然而，这些方法均需要人为设计特征，对于先验知识的依赖程度较高，导致模型的实际应用范围有限，且此类模型也无法针对文本中的错误标点符号进行纠错。
24.鉴于现有技术方案，均是仅针对无标点的文本数据进行标点的自动添加，并无法针对文本中已添加标点进行标点纠错，本公开提出一种标签符号判断处理技术，可针对文本中标点符号进行使用合理性的判断，以引导用户正确使用标点符号。
25.需说明的是，本公开所指的标点符号可分为标号与点号两部分。
[0026]“标号”可包含括号、破折号、书名号、省略号、引号、专名号、着重号、间隔号、连接号等，主要用于标明词语或句子的性质与作用。
[0027]“点号”可包含顿号、逗号、分号、句号、冒号、叹号等。
[0028]
需说明的是，问号和叹号既属于点号也属于标号，具体地，在用于表示句末停顿时，问号和叹号属于点号，而在用于表示句子语气时，问号和叹号则属于标号。
[0029]
以下参照各附图详细描述本公开的各实施例。
[0030]
图1为本公开示例性实施例的标点符号判断方法的流程示意图。如图所示，本实施例主要包括以下步骤：
[0031]
步骤s102，识别目标语句的文字信息、标号信息、点号信息、句类信息，获得目标语句的目标特征序列。
[0032]
可选地，可对待检测文本中的各原始语句，执行错句筛选处理和/或语句转换处理，获得待检测文本中的各目标语句。
[0033]
实施例1
[0034]
可根据待检测文本中各原始语句的标点符号识别结果、给定的符号使用规则，筛选各原始语句中满足符号使用规则的各个目标语句。
[0035]
可选地，给定的符号使用规则可包括点号规则与标号规则。
[0036]
具体地，可根据给定的点号规则，对原始语句中各点号的点号位置进行检测，当检测出应当位于句末的点号(例如，句号“。”、问号“？”、叹号“！”，等)出现在句首时，将包含此点号的原始语句从待检测文本中剔除。
[0037]
具体地，可根据给定的点号规则，对原始语句中各点号的点号位置进行检测，当检测出原始语句中存在点号连用情况时，根据点号不能连用的基本使用规则，可将此原始语句从待检测文本中剔除。
[0038]
具体地，可根据给定的标号规则，对原始语句中属于成对使用的各成对标号进行检测，若检测原始语句中存在成对标号未成对使用(例如，原始语句中仅有一个引号、括号、书名号等)，或者若检测原始语句中存在成对标号嵌套错乱的情况(例如
“‘’”
、
““””
等情况)，可将此原始语句从待检测文本中剔除。
[0039]
实施例2
[0040]
可根据待检测文本中各原始语句的标点符号识别结果、给定的符号转换规则，对各原始语句执行转换处理，获得各原始语句对应的各目标语句。
[0041]
可选地，对各原始语句执行的转换处理可包括但不限于：字符替换处理、字符删除处理、语句拆分处理中的一个。
[0042]
示例性地，可根据给定的符号转换规则，针对原始语句中的书名号及书名号中的字符信息进行字符替换。
[0043]
具体地，由于书名号及书名号中的字符信息，对于外部标点的使用几乎不存在影响，相反地，若在书名或论文题目中包含有语气词时，反而会对外部标点的使用形成误导，因此，本公开通过将书名号及书名号中的字符信息作为一个整体，并使用指定的一个替换字符(例如#)进行替换，以提高标点符号判别结果的准确性。
[0044]
例如：
[0045]
原始语句：第一次接触《故乡》这篇文章，应该是小学六年级的时候。
[0046]
目标语句：第一次接触#这篇文章，应该是小学六年级的时候。
[0047]
示例性地，可根据给定的符号转换规则，将原始语句中占用两个字符的标号，替换为占用一个字符的标号。
[0048]
具体地，由于在后续判别过程中，针对每个标号或点号，均是按照一个字符进行处理，因此，通过将占用两个字符的标号替换成一个字符，可以提高标点符号判别结果的准确性。
[0049]
例如，可将占用两个字符的省略号
“……”
，替换为仅占用一个字符的省略号
“…”
。
[0050]
又如，可将占用两个字符的破折号“——”，替换为仅占用一个字符的破折号“—”。
[0051]
示例性地，可根据给定的符号转换规则，识别原始语句的括号中的字符长度，并根据识别结果，对原始语句执行转换处理(转换处理包括但不限于：删除处理、拆分处理)。
[0052]
具体地，由于括号中的字符信息主要是注释，不影响整句中其它标点的使用，因此，可删除括号中的字符信息，或将括号中的字符信息作为单句处理，以提高标点符号判别结果的准确性。
[0053]
于本实施例中，若括号中的字符长度小于给定的第一长度阈值，删除括号及括号中的字符信息(包括文字和/或标点符号)。
[0054]
例如：
[0055]
原始语句：赵国的长城东起于代(今河北宣化境内)，中间经过山西北部，西北折入阴山，至高阙(今乌拉山与狼山之间的缺口)为止。
[0056]
目标语句：赵国的长城东起于代，中间经过山西北部，西北折入阴山，至高阙为止。
[0057]
于本实施例中，若括号中的字符长度不小于给定的第一长度阈值，将括号中的字符信息与原始语句进行拆分，生成多个目标语句。
[0058]
例如：
[0059]
原始语句：他培养了许多香花，喂养和训练了许多小动物。(他后来还曾照顾动物园里一只没有母虎的乳虎，每天一匙一匙地用牛奶喂它。)
[0060]
目标语句1：他培养了许多香花，喂养和训练了许多小动物。
[0061]
目标语句2：他后来还曾照顾动物园里一只没有母虎的乳虎，每天一匙一匙地用牛奶喂它。
[0062]
示例性地，可根据给定的符号转换规则，识别原始语句的引号中的字符长度，并根据识别结果，对原始语句执行转换处理(转换处理包括但不限于拆分处理)。
[0063]
于本实施例中，若引号中的字符长度不小于给定的第二长度阈值，根据引号中的字符信息(包括文字和标点符号)和原始语句，生成多个目标语句，其示例性举例说明如下：
[0064]
原始语句：李老教导他的学生说：“一定要采取实事求是的态度，知之为知之，不知为不知，不要强不知以为知。”[0065]
目标语句1：李老教导他的学生说：“一定要采取实事求是的态度，知之为知之，不知为不知，不要强不知以为知。”[0066]
目标语句2：一定要采取实事求是的态度，知之为知之，不知为不知，不要强不知以为知。
[0067]
实施例3
[0068]
可根据待检测文本中各原始语句的标点符号识别结果、给定的符号使用规则，确
定各原始语句中满足符号使用规则的各待检测语句，并根据各待检测语句的标点符号识别结果、给定的符号转换规则，对各待检测语句执行转换处理，获得各待检测语句对应的各目标语句。
[0069]
针对本实施例3中待检测语句与目标语句的具体获取方案，可参考上述实施例1和实施例2的相关描述，在此不予赘述。
[0070]
可选地，可根据目标语句的文字信息、标号信息、点号信息执行加和融合，获得目标语句的融合特征序列，并将目标语句的句类信息与融合特征序列进行拼接，获得目标语句的目标特征序列。
[0071]
步骤s104，重组目标特征序列中的各字符特征，获得目标特征序列的标号重组特征和点号重组特征。
[0072]
可选地，可利用编码器，提取目标特征序列中的各字符特征。
[0073]
可选地，可利用双向长短期记忆网络(bi-lstm)，对目标特征序列中的各字符特征进行特征重组，获得目标特征序列的标号重组特征和点号重组特征。
[0074]
步骤s106，根据标号重组特征和点号重组特征，对目标语句的标号信息和点号信息执行判断，获得目标语句的标点符号判断结果。
[0075]
可选地，可利用标号判别器，根据标号重组特征，对目标语句中的每一个标号执行合理性判断，获得目标语句中每一个标号的标号判断结果。
[0076]
具体地，标号判别器可根据标号重组特征，针对目标语句中每一个标号对应的标号位置执行预测，获得每一个标号位置的预测标号，并根据每一个标号位置的预测标号，对目标语句中的每一个标号执行合理性判断，获得目标语句中每一个标号的标号判断结果。
[0077]
可选地，可利用点号判别器，根据点号重组特征，对目标语句中的每一个点号执行合理性判断，获得目标语句中每一个点号的点号判别结果。
[0078]
具体地，点号判别器可根据点号重组特征，针对目标语句中的每一个点号对应的点号位置执行预测，获得每一个点号位置的预测点号，并根据每一个点号位置的预测点号，对目标语句中的每一个点号执行合理性判断，获得目标语句中每一个点号的点号判别结果。
[0079]
综上所述，本实施例的标点符号判断方法，通过融合并重组目标语句的文字信息、标号信息、点号信息、句类信息，以基于多个特征维度，对目标语句中的标点符号执行判断，可提供准确性较高的标点符号判断结果，以引导使用者正确使用标点符号，提高语言表达水平。
[0080]
本实施例提供的标点符号判断方法，利用给定的符号使用规则，可从待检测文本的各原始语句中筛选出满足符号使用规则的各个目标语句，剔除标点符号的使用明显不合规的原始语句，利用此文本预处理手段，可有效减少标点符号的判别处理量，提高标点符号的判别处理效果。
[0081]
本实施例提供的标点符号判断方法，利用给定的符号转换规则，可将待检测文本中的长句、复杂句等转换为简单句，以避免对于标点符号判别处理造成干扰，提高标点符号判别处理的准确性。
[0082]
图2示出了本公开另一示例性实施例的标点符号判断方法的处理流程图。本实施例为上述步骤s102的具体实施方案。如图所示，本实施例主要包括以下步骤：
[0083]
步骤s202，根据从目标语句中识别出的各文字、各文字对应的各文字位置，获得目标语句的文字特征序列，根据从目标语句中识别出的各标号、各标号对应的各标号位置，获得目标语句的标号特征序列，并根据从目标语句中识别出的各点号、各点号对应的各点号位置，获得目标语句的点号特征序列。
[0084]
于本实施例中，目标语句的文字特征序列、标号特征序列、句号特征序列具有相同的序列长度。
[0085]
可选地，可根据从目标语句中识别出的每一个文字，每一个文字的文字位置，生成目标语句的文字特征序列。
[0086]
可选地，可根据从目标语句中识别出的每一个标号、每一个标号的标号位置、目标语句的文字特征序列，针对目标语句中的每一个标号执行字符替换处理，生成目标语句的标号特征序列。
[0087]
具体地，可将从目标语句中识别出的任意一个标号或任意一组连续的多个标号，确定为当前单位标号，根据当前单位标号在目标语句中的当前位置，从目标语句的各文字中确定位于当前单位标号的前一个位置的一个前续文字，并将文字特征序列中前续文字对应的字符替换为当前单位标号，据以获得与文本特征序列具有相同的特征长度的标号特征序列。
[0088]
需说明的是，由于在目标语句中可能出现连续的多个标号(例如，“《红楼梦》”)，有鉴于此，本公开针对标号特征序列中的每一个占用字符加注括号(例如中括号)，使得多个连续的标号在标号特征序列中仅占用一个字符位置。
[0089]
例如，将“《红楼梦》”中的
““
《”转换为一个字符[“《]，并将“》
””
转换为一个字符[》”]，从而确保目标语句的文本特征序列和标号特征序列具有相同的序列长度。
[0090]
于本实施例中，在同一字符位置中包含有连续的多个标号的情况下，可针对每一个标号设定一个h2维的标号向量，并通过对同一字符位置上的各标号向量进行加和处理，获得所述字符位置对应的一个新的h2维的字符向量。
[0091]
可选地，可根据从目标语句中识别出的每一个点号、每一个点号的点号位置、目标语句的文字特征序列，针对目标语句中的每一个点号执行字符替换处理，生成与文本特征序列具有相同序列长度的点号特征序列。
[0092]
具体地，可将从目标语句中识别出的任意一个点号确定为当前点号，根据当前点号在目标语句中的当前位置，从目标语句的各文字中确定位于当前点号的前一个位置的一个前续文字，并将文字特征序列中前续文字对应的字符替换为当前点号，据以获得与文本特征序列具有相同的特征长度的点号特征序列。
[0093]
针对目标语句的文字特征序列、标号特征序列、点号特征序列的示例性说明如下：
[0094]
目标语句为：妈妈问：“小刚，外面下雨了？”[0095]
文字特征序列为：[[cls]，妈，妈，问，小，刚，外，面，下，雨，了，[sep]]
[0096]
标号特征序列为：[[0],[0],[0],[“],[0],[0],[0],[0],[0],[0],[”],[0]]
[0097]
点号特征序列为：[0,0,0,：,0,，,0,0,0,0,？,0]
[0098]
上述文本特征序列中，[cls]和[sep]为收尾占位符。
[0099]
于本实施例中，文字特征序列可例如为l
×
h1的张量，其中，l表示文本特征序列的序列长度(即目标语句中的文字个数加上两个占位符)，h1为文字特征序列中的各字符特征
维度。
[0100]
于上述标号特征序列中，位于首位和末位的两个字符“0”，分别对应文本特征序列中的“[cls]”和“[sep]”两个占位符，其中，标号
““”
替换文字特征序列中前续文字“问”对应的字符；点号“，”替换文字特征序列中前续文字“刚”对应的字符；点号
“””
替换文字特征序列中前续文字“了”对应的字符。于本实施例中，标号特征序列可例如为l
×
h2的张量，其中，l表示标号特征序列的序列长度(与文字特征序列的序列长度相同)，h2为点号特征序列中的各字符特征维度。
[0101]
上述点号特征序列中，位于首位和末位的两个字符“0”，分别对应文本特征序列中的“[cls]”和“[sep]”两个占位符，其中，点号“：”替换文字特征序列中前续文字“问”对应的字符；点号“，”替换文字特征序列中前续文字“刚”对应的字符；点号“？”替换文字特征序列中前续文字“了”对应的字符。于本实施例中，点号特征序列可例如为l
×
h3的张量，其中，l表示点号特征序列的序列长度(与文字特征序列的序列长度相同)，h3为点号特征序列中的各字符特征维度。
[0102]
于本实施例中，字符特征维度h1、h2、h3可设为相同的特征维度。
[0103]
步骤s204，根据目标语句的句类信息，获得目标语句的句类特征。
[0104]
可选地，可对目标语句执行嵌入编码，获得目标语句的嵌入向量，对嵌入向量执行特征提取，获得嵌入向量的嵌入特征，并根据嵌入特征，对目标语句执行句类预测，获得目标语句的句类信息。
[0105]
具体地，可对目标语句执行词嵌入编码，获得目标语句的词嵌入向量，并利用特征提取模型对词嵌入向量执行特征提取，获得词嵌入向量的词嵌入特征，再利用句类分类器根据词嵌入特征对目标语句执行句类预测，获得目标语句的句类信息。
[0106]
可选地，特征提取模型可包括但不限于：cnn(卷积神经网络，convolutional neural networks)模型、lstm(长短期记忆网络，long short-term memory)模型、bert(bidirectional encoder representation from transformers)模型等。
[0107]
可选地，句类分类器可至少包括全连接层和softmax层，用于根据给定的多个句类类别和目标语句的嵌入特征执行句类预测，并将最大概率值对应的句类类别，确定为目标语句的句类信息。
[0108]
可选地，给定的各句类类别可包括但不限于：疑问句、祈使句、陈述句、感叹句。
[0109]
需说明的是，句类类别的划分并不以上述四类为限，可根据实际检测精度的需求，进行调整，例如，将疑问句进一步划分为一般疑问句、设问句、反问句等等。
[0110]
于本实施例中，可根据给定的引号转换规则，识别目标语句的引号中的字符长度，若引号中的字符长度大于给定的第三长度阈值，确定引号中的至少一个待替换字符，并将所确定的至少一个待替换字符转换为一个指定字符。
[0111]
具体地，可根据目标语句的引号中所包含的所有字符信息、给定的保留字符阈值，确定所有字符信息中满足保留字符阈值的首端保留字符、尾端保留字符，并确定目标语句中位于首端保留字符和尾端保留字符之间的至少一个待替换字符，据以执行指定字符的替换处理。
[0112]
例如：在保留字符阈值设定为5个，指定字符设定为$的情况下，针对目标语句的转换处理如下：
[0113]
目标语句：李老教导他的学生说：“一定要采取实事求是的态度，知之为知之，不知为不知，不要强不知以为知。”[0114]
转换后的目标语句：李老教导他的学生说：“一定要采取实$知以为知。”[0115]
步骤s206，根据目标语句的文字特征序列、标号特征序列、句号特征序列、句类特征，获得目标特征序列。
[0116]
可选地，可融合目标语句的文字特征序列、标号特征序列、句号特征序列，获得目标语句的融合特征序列，并拼接目标语句的融合特征序列和句类特征，获得目标特征序列。
[0117]
具体地，可根据文字特征序列(t)、标号特征序列(d)、句号特征序列(b)中各字符特征对应的各字符位置，针对具有相同字符位置的各字符特征进行特征相加，获得融合特征序列(t d b)，再将句类特征(c)与融合特征序列(t d b)进行拼接，获得目标特征序列(s＝[c,t d b])。
[0118]
综上所述，本实施例提供的标点符号判断方法，通过将目标语句的文字信息、标号信息、点号信息、句类信息转换为具有相同序列长度的文字特征序列、标号特例序列、点号特征序列，以便于执行特征序列的融合处理，并可基于多种特征维度执行标点符号的预测判断，以提高判断结果的准确性。
[0119]
再者，本实施例提供的标点符号判断方法，通过引入句类信息，可有效提高标点符号判断结果的准确性。
[0120]
具体地，不同的语境对于标点符号的标注存在着较大影响。例如：“小刚，外面下雨了。”和“小刚，外面下雨了？”从标点使用合理性角度来看，都是正确的，但是在语义上存在很大区别。有鉴于此，本实施例通过将目标语句的句类信息与文字信息、标号信息、点号信息进行进一步融合，以基于四个维度的特征信息执行标点符号的判断处理，不仅可进一步提高判断结果的客观性，并可满足不同语境的标点符号标注需求。
[0121]
此外，本实施例提供的标点符号判断方法，通过在执行句类信息的预测前，针对目标语句的引号中的内容执行转换处理，借以提高句类预测结果的准确性。
[0122]
图3示出了本公开另一示例性实施例的标点符号判断方法的处理流程图。如图所示，本实施例主要示出了上述步骤s104的具体实施方案。如图所示，本实施例主要包括以下步骤：
[0123]
步骤s302，对目标特征序列中的各字符进行特征提取，获得目标特征序列的各字符特征。
[0124]
可选地，可利用编码器，对目标特征序列中的各字符进行特征提取，获得各字符对应的各字符特征。其中，所提取的各字符特征中融合了前后文信息、标号信息、点号信息、句类信息的特征，可有助于提高标点符号判断结果的准确性。
[0125]
可选地，编码器可包括bert(bidirectionalencoder representations fromtransformer)模型。但并不以此为限，可进行序列特征提取的任意一种深度模型均可适用于本公开。
[0126]
于本实施例中，各字符特征的提取过程如下述公式1所示：
[0127]
f＝m(s)
ꢀꢀ
(公式1)
[0128]
于上述公式1中，s表示目标特征序列，f表示各字符特征，m表示编码器的信息抽取过程。
[0129]
于本公开中，目标特征序列更侧重于展现目标语句的整体语句特征，而各字符特征则更侧重于展示目标语句中单个字符的特征。
[0130]
步骤s304，利用第一双向lstm模型，根据各字符特征进行特征重组，获得标号重组特征。
[0131]
于本实施例中，标号重组特征的重组过程如下述公式2所示：
[0132]
f1＝lstm1(f)
ꢀꢀ
(公式2)
[0133]
于上述公式2中，f表示各字符特征，f1表示标号重组特征，lstm1表示第一双向长短期记忆模型。
[0134]
步骤s306，利用第二双向长短期记忆模型，根据目标特征序列的各字符特征、标号重组特征进行特征重组，获得点号重组特征。
[0135]
于本实施例中，点号重组特征的重组过程如下述公式3所示：
[0136]
f2＝lstm2(f f1)
ꢀꢀ
(公式3)
[0137]
于上述公式3中，f表示各字符特征，f1表示标号重组特征，f2表示点号重组特征，lstm2表示第二双向长短期记忆模型。
[0138]
综上所述，本实施例的标点符号判断方法，利用双向lstm模型对于序列顺序更为敏感的特性，针对目标特征序列中的各字符特征进行重组，以分别获取标号重组特征和点号重组特征，可有效提高标点符号判断结果的准确性。
[0139]
再者，由于标号信息对于点号的判断可以起到积极的作用，因此，在执行点号特征重组过程中，通过引入标号重组特征，可进一步提高点号判断结果的准确性。
[0140]
图4示出了本公开另一示例性实施例的标点符号判断方法的处理流程图。本实施例为上述步骤s106的具体实施方案。如图所示，本实施例主要包括以下步骤：
[0141]
步骤s402，利用标号判别器，根据标号重组特征、给定的标号类别，对目标语句中各实际标号对应的各标号位置执行预测，获得各标号位置对应的各预测标号，并比对同一标号位置的实际标号与预测标号，获得目标语句的点号判别结果。
[0142]
可选地，标号判别器至少包括全连接层和sigmoid层，sigmoid函数也叫logistic函数，用于隐层神经元输出，取值范围为(0,1)，它可以将一个实数映射到(0,1)的区间，可以用来做二分类。
[0143]
其中，利用了sigmoid层可输出各预测类别(例如，各标号类别)对应的各概率值的特性，以配合目标语句中可能存在连续的多个标号的判断需求。
[0144]
于本实施例中，标号判别器如下述公式4和公式5所示：
[0145]bout
＝sigmoid(fc1(f1))
ꢀꢀ
(公式4)
[0146][0147]
于上述公式4中，f1表示标号重组特征，fc1表示标号判别器的全连接层，sigmoid表示标号判别器的sigmoid层，b
out
表示标号判别器输出的标号判断结果。
[0148]
于上述公式5中，x表示标号判别器的全连接层的输出结果。
[0149]
于本实施例中，给定的标号类别可包括15类。
[0150]
具体地，常用的标号包括有单引号、双引号、括号、破折号、省略号、连接号、间隔号、书名号、单书名号(其中，大括号、中括号、专名号、分割号可不作限制)，成对标号包括有5类，共14类，并增加一个空类标号类别，用于表示在某一标号位置上无需加注标号的情况。
[0151]
需说明的是，标号类别并不以上述实施例所述的15类为限，本领域技术人员可根据实际检测需求进行任意增减，本公开对此不作限制。
[0152]
于本实施例中，标号判别器可根据标号重组特征、各标号类别，输出目标语句中每一个标号位置对应于各标号类别的各概率分值(例如输出15个标号类别的15个概率分值)，sigmoid层用于针对各标号类别对应的各概率分值执行归一化处理。
[0153]
可选地，针对各标号位置中的任意一个当前标号位置，可根据当前标号位置对应于各标号类别的各概率分值，将概率分值最大的一个或多个标号类别确定为当前标号位置的预测标号。
[0154]
可选地，针对各标号位置中的任意一个当前标号位置，可根据当前标号位置对应于各标号类别的各概率分值，将概率分值大于分值阈值的一个或多个标号类别，确定为当前标号位置的预测标号。
[0155]
步骤s404，利用点号判别器，根据点号重组特征、给定的点号类别，对目标语句中各实际点号对应的各点号位置执行预测，获得各点号位置对应的各预测点号，并比对同一点号位置的实际点号与预测点号，获得目标语句的点号判别结果。
[0156]
可选地，点号判别器至少包括：全连接层和softmax层，softmax逻辑回归模型是logistic回归模型在多分类问题上的推广，在多分类问题中，类标签y可以取两个以上的值。
[0157]
其中，利用了softmax层仅输出最大概率值对应的一个预测类别(例如点号类别)，以配合目标语句中一个文字后面仅会出现一个点号的判断需求。
[0158]
于本实施例中，点号判别器如下述公式6和7所示：
[0159]dout
＝softmax(fc2(f2))
ꢀꢀ
(公式6)
[0160][0161]
于上述公式6中，f2表示点号重组特征，fc2表示点号判别器的全连接层，softmax表示标号判别器的softmax层，d
out
表示点号判别器输出的点号判断结果。
[0162]
于上述公式7中，表示点号判别器的全连接层(fc2)输出的第i个点号类别的概率分值，c表示所有点号类别的数量值。
[0163]
其中，借由公式7的softmax函数公式，可确保所有点号类别的概率分值的总和等于1。
[0164]
于本实施例中，给定的点号类别可包括8类。
[0165]
具体地，常用的点号有句末点号、句内点号，其中，句末点号进一步包括：句号、问号、叹号，句内点号进一步包括：逗号、顿号、分号、冒号，合计共7类，并增加一个空类点号类别，用于表示在某一点号位置上无需加注点号的情况。
[0166]
需说明的是，点号类别并不以上述实施例所述的8类为限，本领域技术人员可根据实际检测需求进行任意增减，本公开对此不作限制。
[0167]
于本实施例中，点号判别器可根据点号重组特征、各点号类别，预测目标语句中每一个点号位置对应于各点号类别的各概率分值，且针对各点号位置中的任意一个当前点号位置，根据当前点号位置对应于各点号类别的各概率分值，将概率分值最大的一个点号类别，确定为当前点号位置的预测点号。
[0168]
步骤s406，判断目标语句中是否存在不合理标号和/或不合理点号，若是，执行步骤s408，若否，退出本流程。
[0169]
可选地，针对各标号位置中的任意一个当前标号位置，可比对当前标号位置的实际标号与预测标号，若比对结果为两者不吻合，确定当前标号位置上的实际标号不合理，并获得目标语句中存在不合理标号的判断结果。
[0170]
可选地，针对各点号位置中的任意一个当前点号位置，可比对当前点号位置的实际点号与预测点号，若比对结果为两者不吻合，确定当前点号位置上的实际点号不合理，并获得目标语句中存在不合理点号的判断结果。
[0171]
步骤s408，输出不合理标号的推荐标号和/或输出不合理点号的推荐点号。
[0172]
具体地，若获得目标语句中存在不合理标号的判断结果，根据不合理标号对应的不合理标号位置，将所述不合理标号位置对应的预测标号(参考步骤s402)，作为推荐标号予以输出。
[0173]
具体地，若获得目标语句中存在不合理点号的判断结果，根据不合理点号对应的不合理点号位置，将所述不合理点号位置对应的预测点号(参考步骤s404)，作为推荐点号予以输出。
[0174]
综上所述，本实施例提供的标点符号判断方法，分别基于标号重组特征和点号重组特征，针对目标语句中的标号和点号分别执行预测，可以获得准确性较高的标点符号判断结果。
[0175]
再者，利用包含sigmoid层的标号判别器，执行目标语句的标号判断，以适应目标语句中可能存在连续的多个标号的判断需求，并利用包含softmax层的点号判别器，执行目标语句的点号判断，以适应目标语句中一个文字后面仅会出现一个点号的判断需求，从而进一步提高标点符号判断结果的合理性。
[0176]
图5示出了本公开示例性实施例的标点符号判断装置的架构示意图。如图所示，本实施例的标点符号判断装置500包括：融合模块502、重组模块504、判断模块506。
[0177]
融合模块502，用于识别目标语句的文字信息、标号信息、点号信息、句类信息，获得所述目标语句的目标特征序列。
[0178]
重组模块504，用于重组所述目标特征序列中的各字符特征，获得所述目标特征序列的标号重组特征和点号重组特征。
[0179]
判断模块506，用于根据所述标号重组特征和所述点号重组特征，对所述目标语句的标号信息和点号信息执行判断，获得所述目标语句的标点符号判断结果。
[0180]
可选地，标点符号判断装置500还包括获取模块(未示出)，用于根据待检测文本中各原始语句的标点符号识别结果、给定的符号使用规则，筛选各原始语句中满足所述符号使用规则的各个目标语句；和/或根据待检测文本中各原始语句的标点符号识别结果、给定的符号转换规则，对各原始语句执行转换处理，获得各原始语句对应的各目标语句。
[0181]
可选地，所述符号使用规则包括点号规则与标号规则；对各原始语句执行的所述转换处理至少包括：字符替换处理、字符删除处理、语句拆分处理中的一个。
[0182]
可选地，融合模块502还用于：根据从所述目标语句中识别出的各文字、各文字对应的各文字位置，获得所述目标语句的文字特征序列；根据从所述目标语句中识别出的各标号、各标号对应的各标号位置，获得所述目标语句的标号特征序列；根据从所述目标语句
中识别出的各点号、各点号对应的各点号位置，获得所述目标语句的点号特征序列；根据所述目标语句的句类信息，获得所述目标语句的句类特征；根据所述目标语句的文字特征序列、标号特征序列、句号特征序列、句类特征，获得所述目标特征序列。
[0183]
可选地，所述目标语句的文字特征序列、标号特征序列、句号特征序列具有相同的序列长度。
[0184]
可选地，融合模块502还用于：融合所述目标语句的文字特征序列、标号特征序列、句号特征序列，获得所述目标语句的融合特征序列；拼接所述目标语句的融合特征序列和句类特征，获得所述目标特征序列。
[0185]
可选地，获取模块还用于：对所述目标语句执行嵌入编码，获得所述目标语句的嵌入向量；对所述嵌入向量执行特征提取，获得所述嵌入向量的嵌入特征；根据所述嵌入特征，对所述目标语句执行句类预测，获得所述目标语句的句类信息。
[0186]
可选地，重组模块504还用于：对所述目标特征序列中的各字符进行特征提取，获得所述目标特征序列的各字符特征；利用第一双向长短期记忆模型，根据各字符特征进行特征重组，获得所述标号重组特征；利用第二双向长短期记忆模型，根据所述目标特征序列的各字符特征、所述标号重组特征，进行特征重组，获得所述点号重组特征。
[0187]
可选地，判断模块506还用于：利用标号判别器，根据所述标号重组特征、给定的标号类别，对所述目标语句中各实际标号对应的各标号位置执行预测，获得各标号位置对应的各预测标号，并比对同一标号位置的实际标号与预测标号，获得目标语句的点号判别结果；利用点号判别器，根据所述点号重组特征、给定的点号类别，对所述目标语句中各实际点号对应的各点号位置执行预测，获得各点号位置对应的各预测点号，并比对同一点号位置的实际点号与预测点号，获得所述目标语句的点号判别结果。
[0188]
可选地，所述标号判别器至少包括：全连接层和sigmoid层。
[0189]
可选地，所述点号判别器至少包括：全连接层和softmax层。
[0190]
可选地，判断模块506还用于：若所述目标语句的标点符号判断结果为所述目标语句中存在不合理标号和/或不合理点号时，输出所述不合理标号的推荐标号和/或输出所述不合理点号的推荐点号。
[0191]
本公开实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开示例性实施例所述的标点符号判断方法。
[0192]
本公开示例性实施例提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开示例性实施例的标点符号判断方法。
[0193]
请参考图6，现将描述可以作为本公开的服务器或客户端的电子设备1300的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0194]
如图6所示，电子设备600包括计算单元601，其可以根据存储在只读存储器(rom)602中的计算机程序或者从存储单元608加载到随机访问存储器(ram)603中的计算机程序，来执行各种适当的动作和处理。在ram 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、rom 602以及ram 603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
[0195]
电子设备600中的多个部件连接至i/o接口605，包括：输入单元606、输出单元607、存储单元608以及通信单元609。输入单元606可以是能向电子设备600输入信息的任何类型的设备，输入单元606可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元607可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元604可以包括但不限于磁盘、光盘。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙tm设备、wifi设备、wimax设备、蜂窝通信设备和/或类似物。
[0196]
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理。例如，在一些实施例中，如上述的标点符号判断方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由rom 602和/或通信单元609而被载入和/或安装到电子设备600上。在一些实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述的标点符号判断方法。
[0197]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0198]
在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0199]
如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(pld))，包括，接收作为机器可读信号的机器指令的机器可读
介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
[0200]
为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0201]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
[0202]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
[0203]
需要指出，根据实施的需要，可将本公开实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本公开实施例的目的。
[0204]
以上实施方式仅用于说明本公开实施例，而并非对本公开实施例的限制，有关技术领域的普通技术人员，在不脱离本公开实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本公开实施例的范畴，本公开实施例的专利保护范围应由权利要求限定。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于区块链的安全监控系统的制作方法

标点符号判断方法、装置、电子设备及存储介质与流程

相关文献

最热文献