文本正则方法及相关装置、电子设备、存储介质与流程

2022-04-13 20:43:59 来源：中国专利 TAG：

1.本技术涉及自然语音处理技术领域，特别是涉及一种文本正则方法及相关装置、电子设备、存储介质。

背景技术：

2.自然语言领域中，存在诸多希望将非标准形式文本转换成目标语种中标准形式文本的应用场景。以语音合成应用场景为例，在语音合成前端处理中，需要把不规则书写的文本如数字，时间日期，货币单位，特殊符号等准确转换成目标语种的单词，从而保证语音合成的过程中有准确的前端信息输入，得到准确的语音合成结果。以目标语种是中文为例，需要将“123”转写成中文“一百二十三”，将“1/10”转写成中文“十分之一”，将“8:00am”转写成“早上八点钟”等等。
3.对于一般语种的文本正则，一种是利用规则进行文本转写，具体地，预先设定一定转写规则，在文本与转写规则匹配的情况下，则按照转写规则进行文本正则；另一种是利用端到端模型进行文本转写，具体地，将文本输入端到端模型后，端到端模型直接采用机器翻译的方式输出正则后的文本。
4.然而，涉及性数格语种的语言环境中，同一个语义的文本其不同的性数格会有不同的书写方式和发音，单纯地利用端到端模型或者规则进行文本转写，一方面准确性无法得到保障，另一方面由于性数格语言文字转换的多样性，对训练数据质量以及数量均有更为严苛的要求，因此如何提升性数格语言的文本正则准确性和便捷性成为亟待解决的问题。

技术实现要素：

5.本技术主要解决的技术问题是提供一种文本正则方法及相关装置、电子设备、存储介质，能够提升性数格语言的文本正则准确性和便捷性。
6.为了解决上述技术问题，本技术第一方面提供了一种文本正则方法，包括：解析待正则文本，得到目标子文本；其中，所述待正则文本由若干子文本组成，所述目标子文本为需作正则处理的所述子文本，所述目标子文本需转写为目标语种，且所述目标语种的语法涉及性数格；识别所述目标子文本关于若干种属性的属性类别；其中，所述若干种属性包括性数格属性，所述性数格属性的属性类别包括所述目标子文本在所述目标语种中的性数格类别；基于所述目标子文本的属性类别，将所述目标子文本转写为所述目标语种，得到与所述目标子文本具有相同语义的正则化子文本；基于所述目标子文本对应的正则化子文本，得到所述待正则文本对应的已正则文本。
7.为了解决上述技术问题，本技术第二方面提供了一种文本正则装置，包括：解析模块、识别模块、转写模块和获取模块，解析模块，用于解析待正则文本，得到目标子文本；其中，所述待正则文本由若干子文本组成，所述目标子文本为需作正则处理的所述子文本，所述目标子文本需转写为目标语种，且所述目标语种的语法涉及性数格；识别模块，用于识别
所述目标子文本关于若干种属性的属性类别；其中，所述若干种属性包括性数格属性，所述性数格属性的属性类别包括所述目标子文本在所述目标语种中的性数格类别；转写模块，用于基于所述目标子文本的属性类别，将所述目标子文本转写为所述目标语种，得到与所述目标子文本具有相同语义的正则化子文本；获取模块，用于基于所述目标子文本对应的正则化子文本，得到所述待正则文本对应的已正则文本。
8.为了解决上述技术问题，本技术第三方面提供了一种电子设备，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现第一方面中的文本正则方法。
9.为了解决上述技术问题，本技术第四方面提供了一种计算机可读存储介质，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面中的文本正则方法。
10.上述方案，解析待正则文本，得到需作正则处理的目标子文本后，识别目标子文本关于若干种属性的属性类别，再基于目标子文本的属性类别，将目标子文本转写为目标语种，得到与目标子文本具有相同语义的正则化子文本，最后基于目标子文本对应的正则化子文本，得到待正则文本对应的已正则文本，由于本方案先确定目标子文本的属性类别，再利用属性类别进行目标语种的文本转写，巧妙地将转写问题转换为分类问题，实行先分类后转写，因而能够提升性数格语言的文本正则准确性和便捷性。
附图说明
11.图1是本技术文本正则方法一实施例的流程示意图；
12.图2是本技术文本正则方法另一实施例的流程示意图；
13.图3是本技术文本正则装置一实施例的框架示意图；
14.图4是本技术电子设备一实施例的框架示意图；
15.图5是本技术计算机可读存储介质一实施例的框架示意图。
具体实施方式
16.下面结合说明书附图，对本技术实施例的方案进行详细说明。
17.以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本技术。
18.本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。
19.请参阅图1，图1是本技术文本正则方法一实施例的流程示意图。
20.具体而言，可以包括如下步骤：
21.步骤s11：解析待正则文本，得到目标子文本。
22.本技术文本正则方法欲将待正则文本转化为符合目标语种标准形式的文本。目标语种可以是阿拉伯语，俄罗斯语，波兰语等语法涉及性数格的语种。在语法涉及性数格的目标语种中，名词、代词或者形容词的书写形式和发音会因为语义或者在文本中的位置会有相应的变化，例如，文本前后缀的不同，则该文本的书写形式也不同，从而涉及性数格的语
种中，同一个文本其不同的性数格会有不同的书写方式和发音，因此，需要将不规则书写的待正则文本准确的转化成目标语种的文本。
23.待正则文本为需作正则处理的文本，其由若干子文本组成。子文本可以是数字、符号、文字等文本组成部分或其任意组合，例如，仅为数字、仅为符号，以及数字和符号的组合等等。若子文本已经是目标语种的标准形式，则属于不需作正则处理的子文本，而若子文本是目标语种的非标准形式，则需作正则处理，因而本技术首先解析待正则文本，得到目标子文本，该目标子文本为需作正则处理的子文本，且需转写为目标语种。待正则文本的解析方法可以是现有技术中分词、神经网络模型等任意一种文本解析方法，在此不做具体限定。
24.例如，目标语种为阿拉伯语，现存在一个待正则文本为例如，目标语种为阿拉伯语，现存在一个待正则文本为其中，“d”、“3200”、“1080”、
“×”
、“1920”这些子文本由于不是阿拉伯语的标准形式，所以是需作正则处理的目标子文本，而其余子文本本身已经是阿拉伯语，则无需作正则处理。
25.步骤s12：识别目标子文本关于若干种属性的属性类别。
26.不同子文本可能属于相同或不同属性，且相同属性下不同子文本的属性类别也可能相同或不同。若干种属性包括性数格属性、数词属性和符号属性等，在此不做具体限定。
27.在目标语种的语法涉及性数格的情况下，若干种属性包括性数格属性，该性数格属性的属性类别包括目标子文本在目标语种中的性数格类别。性数格类别的性是指名词、代词、形容词通过语法形式的变化表达人们对文本及其属性的类别认识，性数格类别的性可以包括阴性、阳性和中性的属性类别。性数格类别的数是名词、代词等通过语法形式的变化来表示人们对于文本的数量认识，性数格类别的数可以包括单数、复数和双数的属性类别；性数格类别的格是格位，也是名词、代词等通过语法形式的变化表示同其他文本组成部分的关系。可以理解的，不同语种的格位表示不一致。例如，阿拉伯语中数字
‘1’
可能对应有(阴性主格)，(阴性宾格)，(阴性属格)，(阳性主格)，(阳性宾格)，(阳性属格)共6种性数格类别。
28.在目标子文本为数字的情况下，若干种属性还包括数词属性，数词属性的属性类别包括目标子文本的数词类别。在一公开实施例中，数词类别可以包括基数词、序数词和字符串。对于数字同时包括数词类别和性数格类别，例如，基数词、序数词和字符串3种数词类别和(阴性主格)，(阴性宾格)，(阴性属格)，(阳性主格)，(阳性宾格)，(阳性属格)6种性数格类别的任意组合，共计18种类别，具体如基数词-阴性主格。性数格语言的文本正则主要困难集中在数字的数词类别的确定上，对于如时间、日期等数字子文本可以是数字组合起来进行类别分类，也可以是一个一个数字的数词类别的组合。数字的具体转写形式依赖大量的规则，并且由于很多情况下性数格需要根据上下文进行确定，单纯依靠预设文本规则或者端到端模型正确率不能得到保障；另外由于性数格语言中数字转换形式的多样性，要想达到与一般语言同样的效果，端到端模型方法对数据量和数据质量有更高的要求。尤其是一种数字会有多种转写方式，端到端模型在进行预测的时候会面临更大的压力。相较于已有的文本正则化研究没有考虑到数字作为子文本时存在多种数词类别的特性，没有将数字单独区分开实现文本正则，本技术可以识别数字的数词
类别，再基于数词类别转写文本，从而可以处理同一数字子文本存在多种转写方式的文本正则。
29.例如语音合成中前端文本的文本正则过程中，需要按照哪种书写方式进行发音需要根据文本前后的内容以及整体的语义去决定其表意类别，因此目标子文本的表意类别的准确性格外重要。在目标子文本为符号的情况下，若干种属性还包括符号属性，符号属性的属性类别包括目标子文本的表意类别。例如，符号
“‑”
的表意类别可以是“减号”还是
“…
到
…
的范围”；符号“：”的表意类别可以是“冒号”、“时间点”、“比分”；还有货币单位以及其他的一些特殊符号也需要依据具体的语境确定表意类别。
30.步骤s13：基于目标子文本的属性类别，将目标子文本转写为目标语种，得到与目标子文本具有相同语义的正则化子文本。
31.对于分类出来的属性类别结果，再经过具体的规则转写成目标语种的文本。例如，确定目标子文本的属性类别后，基于属性类别与以目标语种表示的文本的映射关系，将与属性类别对应的以目标语种表示的文本作为正则化子文本，以基于目标子文本的属性类别，将目标子文本转写为目标语种，得到与目标子文本具有相同语义的正则化子文本。相较于端到端模型的文本正则实质为翻译，本技术先分类后转写，将文本正则当做分类任务来做，使用相对端到端模型更少的数据，同时也能避免端到端模型常见的不可恢复性错误。其中，映射关系是子文本、属性类别和目标语种表示的正则化子文本的对应关系。
32.在一公开实施例中，基于目标子文本的属性类别，将目标子文本转写为目标语种，得到与目标子文本具有相同语义的正则化子文本时的具体步骤为：在转写规则集合中进行查询，得到与目标子文本满足匹配条件的第一子文本；其中，转写规则集合包括若干子文本对，子文本对包括具有相同语义的第一子文本和第二子文本，且第二子文本按照第一子文本的属性类别以目标语种表示；将第一子文本所属子文本对中的第二子文本，作为目标子文本的正则化子文本。匹配条件可以是第一子文本与目标子文本两者语义相同且属性类别也完全相同，也可以是第一子文本与目标子文本的属性类别相同即可。
33.对于一般语种的文本正则，现有技术利用预设文本规则进行文本转写，具体地，预先设定一定数量的转写规则，在文本与转写规则匹配的情况下，则按照转写规则进行文本正则。利用预设文本规则进行文本转写时，必须预先设定转写规则，并且一个子文本只能转写呈一种目标语种的文本，例如，子文本数字
‘1’
对应的正则化子文本仅为
‘
one’一种，子文本数字
‘2’
对应的正则化子文本仅为
‘
two’一种。然而语法涉及性数格的语种中，一个子文本往往对应多种形式，需要转写为多种正则化子文本，如阿拉伯语的子文本为数字
‘1’
时，可能对应有(阴性主格)，(阴性宾格)，(阴性属格)，(阳性主格)，(阳性宾格)，(阳性属格)6种不同的正则化子文本，每种属性类别对应一种正则化子文本，此时利用预设文本规则进行文本转写则无法实现，而本公开实施例基于目标子文本的属性类别确定正则化子文本时，适用于同一子文本对应多种正则化子文本的场景。单纯的依靠预设文本规则进行性数格语言的文本正则会有以下的限制：第一，子文本的数词类别、表意类别等无法找到通用的规则，而需要单独定制规则，导致规则数量需求多；第二，如果遇到陌生的文本或者对应的规则没有收录，往往会出现错误，且对于文本的格位，往往需要根据具体语义去确定，无法找到适用的规则，因此规则的泛化性和准确性较差；第三，相同
文本存在多种转写方式时仅依靠规则无法进行文本转写。现有技术也有利用端到端模型进行文本转写的，具体地，将文本输入端到端模型后，端到端模型直接采用机器翻译的方式输出正则后的文本，但是由于深度学习网络和训练数据量的限制，往往会有一些不可恢复性错误，比如将数字
‘
123’的子文本被转写成“一百三十二”。而本技术先确定子文本的属性类别，再利用属性类别进行目标语种的文本转写，进行先分类后转写，能够解决单纯依靠规则或者端到端模型进行文本转写的上述问题。
34.因此，通过识别目标子文本关于若干种属性的属性类别，再基于目标子文本的属性类别，将目标子文本转写为目标语种，得到与目标子文本具有相同语义的正则化子文本，可以解决现有技术中预设文本规则和端到端模型无法需要根据文本上下文语境进行文本正则转写的问题。
35.步骤s14：基于目标子文本对应的正则化子文本，得到待正则文本对应的已正则文本。
36.由于目标子文本是待正则文本中需作正则处理的子文本，现得到目标子文本对应的正则化子文本后，即可基于目标子文本对应的正则化子文本，得到待正则文本对应的已正则文本。例如，在基于目标子文本对应的正则化子文本，得到待正则文本对应的已正则文本时，将待正则文本中目标子文本，替换为目标子文本对应的正则化文本，则可以得到已正则文本。
37.上述方案，解析待正则文本，得到需作正则处理的目标子文本后，识别目标子文本关于若干种属性的属性类别，再基于目标子文本的属性类别，将目标子文本转写为目标语种，得到与目标子文本具有相同语义的正则化子文本，最后基于目标子文本对应的正则化子文本，得到待正则文本对应的已正则文本，由于本方案先确定目标子文本的属性类别，再利用属性类别进行目标语种的文本转写，实行先分类后转写，因而能够提升性数格语言的文本正则准确性和便捷性。
38.性数格语言的文本正则主要是确定非标准形式的目标子文本在语境中的性(阴性，阳性和中性的)、数(单数，复数和双数)和格位等性数格类别、数词类别和表意类别的属性类别，然后由属性类别确定转写形式，得到与目标子文本具有相同语义的正则化子文本，从而通过先分类再转写得到以目标语种表示的已正则文本。为了进一步提升性数格语言的文本正则准确性和便捷性，本公开实施例可以利用属性分类网络实现属性类别的确定，具体请参阅图2，图2是本技术文本正则方法另一实施例的流程示意图。具体而言，可以包括如下步骤：
39.步骤s21：对待正则文本进行分析，得到若干子文本。
40.待正则文本的分析方法可以是现有的任意实现方法，在此不做具体限定。通过对待正则文本进行分析，得到若干个子文本。
41.步骤s22：利用目标语种的正则规则集合，分别对若干子文本进行规则匹配，得到目标子文本。
42.正则规则集合包括第一子集合、第二子集合中至少一者，所其中，第一子集合包括无需正则处理的若干种文本规则，第二子集合包括需作正则处理的若干种文本规则。例如，在一公开实施例中，正则规则集合包括第一子集合和第二子集合，将若干子文本与第一子集合和第二子集合进行规则匹配，将与第二子集合匹配成功的子文本作为目标子文本，将
与第一子集合匹配成功的子文本舍弃，不作为目标子文本。正则规则集合仅包括第一子集合的情况下，将若干子文本与第一子集合进行规则匹配，并将匹配失败的子文本作为目标子文本即可。正则规则集合仅包括第二子集合的情况下，将若干子文本与第二子集合进行规则匹配，并将匹配成功的子文本作为目标子文本即可。正则规则集合是针对目标语种建立的一套基本的正则规则集合，集合内收录有确定的文本规则，即由文本规则可以唯一确定子文本是否需作正则处理。第一子集合和第二子集合中的文本规则均可以自定义设置，在此不做具体限定。
43.因此，解析待正则文本，得到目标子文本时，可以对待正则文本进行分析，得到若干子文本，再利用目标语种的正则规则集合，分别对若干子文本进行规则匹配，得到目标子文本，对于无需正则处理的若干种文本规则对应的子文本，提前过滤掉，并无需执行后续步骤s23至步骤s24，减小数据处理量，提高文本正则效率。
44.步骤s23：识别目标子文本关于若干种属性的属性类别，其中，若干种属性的属性类别是利用属性分类网络对待正则文本进行处理而预测得到的。
45.本公开实施例中，若干种属性的属性类别是利用属性分类网络对待正则文本进行处理而预测得到的。利用属性分类网络辅助进行文本正则并非现有技术中端到端模型直接采用机器翻译的方式输出正则后的文本，而是把性数格属性、数词属性和符号属性等当成一种类别使用网络进行预测，然后再由步骤s24具体的转写规则进行文本转写。
46.属性分类网络是利用样本文本训练得到的，且样本文本中样本子文本标注有样本标记。在样本子文本需作正则处理的情况下，样本标记包括样本子文本关于若干种属性的样本属性类别，在样本子文本无需正则处理的情况下，样本标记为预设标记。预设标记可以自定义设置，例如预设标记为《self》。样本子文本的若干种属性包括性数格属性、或者性数格属性与数词属性、符号属性两种属性的任意组合等。样本子文本的属性包括性数格属性的情况下，样本标记的样本属性类别包括样本子文本在目标语种中的性数格类别，例如，阿拉伯语中数字
‘1’
对应(阴性主格)的性数格类别。样本子文本的属性包括数词属性的情况下，样本标记的样本属性类别包括样本子文本在目标语种中的数词类别。样本子文本的属性包括符号属性的情况下，样本标记的样本属性类别包括样本子文本在目标语种中的表意类别。例如，符号
“‑”
的表意类别为“减号”。获取样本文本时，可以是在大文本中爬取相应的样本子文本，再对样本子文本进行人工标注，且对于时间点或者日期等有具体确定语义的样本子文本只需要整体标记出来，对其他数字则需要标注数词类别和性数格类别，对于符号也需要标注表意类别和性数格类别。
47.属性分类网络可以是循环神经网络(recurrent neural network,简称rnn)等网络作为单任务模型进行分类；也可以使用两个并行的网络作为多任务模型，也即由多个网络分别分类不同属性从而并行实现属性分类。网络的主体结构可以为两层双向的长短期记忆(long short-term memory,简称lstm)网络，目标子文本作为属性分类网络的输入，然后经过嵌入层，再经过两层双向的长短期记忆网络，最后输出目标子文本对应的属性类别。属性分类网络的组成可以根据需要自定义设置，能够实现属性分类任务即可。
48.为了增强属性分类网络的性能，可以在训练属性分类网络的网络输入中增加适当的辅助训练信息，例如辅助训练信息可以是样本子文本的n-gram字符信息、样本子文本在预训练模型上的语义信息等。例如一公开实施例中，属性分类网络的训练步骤包括：获取样
本子文本经向量化的第一嵌入表示，并获取样本子文本的n-gram字符信息，以及获取n-gram字符信息经向量化的第二嵌入表示；融合第一嵌入表示和第二嵌入表示，得到样本子文本的融合嵌入表示；利用属性分类网络对融合嵌入表示进行分类预测，得到样本子文本的预测标记；其中，预测标记为预设标记，或样本子文本关于若干种属性的预测属性类别；基于样本标记和预测标记之间的差异，调整属性分类网络的网络参数。又如一公开实施例中，先将样本子文本输入预训练模型，得到样本子文本在预训练模型上的语义信息，再获取样本子文本在预训练模型上的语义信息经向量化的嵌入表示；利用属性分类网络对该嵌入表示进行分类预测，得到样本子文本的预测标记；同样的，预测标记为预设标记，或样本子文本关于若干种属性的预测属性类别；基于样本标记和预测标记之间的差异，调整属性分类网络的网络参数。其中，预设标记可自定义设置，在此不做具体限定。为了表示样本文本中无需作正则处理的样本子文本，将无需作正则处理的样本子文本的预设标记标记为《self》。
49.在一公开实施例中，在利用目标语种的正则规则集合，分别对若干子文本进行规则匹配，得到目标子文本之后，以及分别对各种属性的属性类别进行检测，得到检测结果之前，可以利用目标语种的预设文本规则，分别对若干个目标子文本进行预设文本规则匹配，从而将与预设文本规则匹配成功的目标子文本，利用预设文本规则转写为以目标语种表示的正则化子文本，从而对于利用预设文本规则可以实现文本转写的目标子文本，不必识别属性类别，无需执行后续步骤s23至步骤s24，直接利用预设文本规则进行文本正则，而将与预设文本规则匹配失败的目标子文本输入属性分类网络。预设文本规则可以是现有技术中利用预设文本规则进行文本转写时预先设定的各种转写规则。例如，预设文本规则中“xx:xx”对应的标准化转换形式为时间点，如果子文本为“08:00”，则可以按照预设文本规则将该子文本的文本正则结果为“八点整”。另外，为了增加特征前后的可扩展性，还发展出了基于有限状态转换机以及基于权重的有限状态转换机的规则方法，具体可参阅现有技术，在此不做详细描述。由于利用预设文本规则进行文本正则需要根据目标语种的语法规则制定相应的规则，对不含性数格的语言可以解决大部分文本正则的问题，但存在无法处理一种以上转写可能性文本的问题，以及太多的规则可能会造成维护和灵活性上的缺陷，因此可以结合预设文本规则和属性分类网络两种方式对需作正则处理的子文本进行文本正则。具体地，对于直接按照预设文本规则确定转写文本，无需经过属性分类网络，从而避免如前所述深度学习网络和训练数据量的限制导致的不可恢复性错误，减少由于分类错误导致的影响，而对于无法利用预设文本规则进行文本正则的子文本，则利用属性分类网络对待正则文本进行处理而预测得到属性类别，再基于目标子文本的属性类别，将目标子文本转写为目标语种，得到与目标子文本具有相同语义的正则化子文本。
50.在一应用场景中，目标语种为阿拉伯语，现存在一个待正则文本为：其中，“d”、“3200”、“1080”、
“×”
、“1920”这些子文本由于不是阿拉伯语的标准形式，所以是需作正则处理的目标子文本，而其余子文本本身已经是阿拉伯语，则无需作正则处理。对于“d”可以由前述预设文本规则判断按照英文字母的发音，无需使用属性分类网络进行属性类别判断及后续转写。对于“3200”、“1080”、“1920”这3个数字，则需要经过属性分类网络判断其数词类别属于字符串、基数词还是序数词，以及具体的性数格类别；而对于
“×”
乘号这一符号也需要经过属性
分类网络判断具体的性数格类别。训练属性分类网络的时候，目标语种为阿拉伯语，待正则文本为：文本为：“d”的标签为预设标记《self》，而“3200”、“1080”、“1920”的标签为数词类别和性数格类别对应的标记，而
“×”
的标签为性数格类别对应的标记，以便对于《self》标签的子文本，会保留原始的书写形式，不进行转换，对于数字的标签和符号的标签则将与目标子文本具有相同语义的正则化子文本替换原始的书写形式。
51.步骤s24：分别对各种属性的属性类别进行检测，得到检测结果，检测结果包括属性的属性类别是否识别正确，并响应于检测结果包括属性的属性类别识别不正确，将对应属性的属性类别替换为校正类别。
52.为了避免不同属性的目标子文本之间的分类结果有干扰，例如
“×”
乘号这一符号本来应该仅有阴性属格的性数格类别，却给出基数词阴性属格的数词类别和性数格类别的组合，因此，在识别目标子文本关于若干种属性的属性类别之后，对分类结果进行排查，过滤掉不合理的分类结果，提升属性类别的准确性。具体地，在识别目标子文本关于若干种属性的属性类别之后，以及在基于目标子文本的属性类别，将目标子文本转写为目标语种，得到与目标子文本具有相同语义的正则化子文本之前，通过分别对各种属性的属性类别进行检测，得到检测结果；其中，检测结果包括属性的属性类别是否识别正确；响应于检测结果包括属性的属性类别识别不正确，将对应属性的属性类别替换为校正类别。以
“×”
乘号这一符号本来应该仅有阴性属格的性数格类别，却给出基数词阴性属格的数词类别和性数格类别的组合为例，通过对各种属性的属性类别进行检测，得到检测结果，发现属性的属性类别识别不正确后，响应于检测结果包括属性的属性类别识别不正确，将基数词阴性属格替换为校正类别阴性属格。
53.步骤s24可以根据需要执行，也即是其他公开实施例中也可以不执行步骤s24。
54.步骤s25：基于目标子文本的属性类别，将目标子文本转写为目标语种，得到与目标子文本具有相同语义的正则化子文本。
55.步骤s25的描述可参阅图1实施例中的步骤s13，在此不再赘述。
56.步骤s26：基于目标子文本对应的正则化子文本，得到待正则文本对应的已正则文本。
57.步骤s26的描述可参阅图1实施例中的步骤s14，在此不再赘述。对于上述一公开实施例中，在利用目标语种的正则规则集合，分别对若干子文本进行规则匹配，得到目标子文本之后，以及分别对各种属性的属性类别进行检测，得到检测结果之前，可以利用目标语种的预设文本规则，分别对若干个目标子文本进行预设文本规则匹配，从而将与预设文本规则匹配成功的目标子文本，利用预设文本规则转写为以目标语种表示的正则化子文本时，汇总利用预设文本规则转写为以目标语种表示的正则化子文本和基于目标子文本的属性类别，将目标子文本转写为目标语种，得到与目标子文本具有相同语义的正则化子文本，得到待正则文本对应的已正则文本即可。
58.上述方案中，利用目标语种的正则规则集合，分别对待正则文本的若干子文本进行规则匹配，得到目标子文本，提前过滤掉无需正则处理的若干子文本减小数据处理量，提
高文本正则效率；识别目标子文本关于若干种属性的属性类别时，若干种属性的属性类别是利用属性分类网络对待正则文本进行处理而预测得到的，可以提升确定属性类别的效率和准确性；通过分别对各种属性的属性类别进行检测，得到检测结果，检测结果包括属性的属性类别是否识别正确，并响应于检测结果包括属性的属性类别识别不正确，将对应属性的属性类别替换为校正类别，可避免不同属性的目标子文本之间的分类结果的干扰。
59.请参阅图3，图3是本技术文本正则装置30一实施例的框架示意图。文本正则装置30包括解析模块31、识别模块32、转写模块33和获取模块34，解析模块31，用于解析待正则文本，得到目标子文本；其中，所述待正则文本由若干子文本组成，所述目标子文本为需作正则处理的所述子文本，所述目标子文本需转写为目标语种，且所述目标语种的语法涉及性数格；识别模块32，用于识别所述目标子文本关于若干种属性的属性类别；其中，所述若干种属性包括性数格属性，所述性数格属性的属性类别包括所述目标子文本在所述目标语种中的性数格类别；转写模块33，用于基于所述目标子文本的属性类别，将所述目标子文本转写为所述目标语种，得到与所述目标子文本具有相同语义的正则化子文本；获取模块34，用于基于所述目标子文本对应的正则化子文本，得到所述待正则文本对应的已正则文本。
60.上述方案，解析模块31解析待正则文本，得到需作正则处理的目标子文本后，识别模块32识别目标子文本关于若干种属性的属性类别，再转写模块33基于目标子文本的属性类别，将目标子文本转写为目标语种，得到与目标子文本具有相同语义的正则化子文本，最后获取模块34基于目标子文本对应的正则化子文本，得到待正则文本对应的已正则文本，由于本方案先确定目标子文本的属性类别，再利用属性类别进行目标语种的文本转写，实行先分类后转写，因而能够提升性数格语言的文本正则准确性和便捷性。
61.在一些公开实施例中，在目标子文本为数字的情况下，若干种属性还包括数词属性，数词属性的属性类别包括目标子文本的数词类别。
62.因此，在目标子文本为数字的情况下，若干种属性还包括数词属性，且数词属性的属性类别包括目标子文本的数词类别，则能够进一步丰富目标子文本的属性信息，提升后续转写为目标语种的准确性。
63.在一些公开实施例中，在所述目标子文本为符号的情况下，所述若干种属性还包括符号属性，所述符号属性的属性类别包括所述目标子文本的表意类别。
64.因此，在目标子文本为符号的情况下，若干种属性还包括符号属性，且符号属性的属性类别包括目标子文本的表意类别，则能够进一步丰富目标子文本的属性信息，提升后续转写为目标语种的准确性。
65.在一些公开实施例中，所述若干种属性的属性类别是利用属性分类网络对所述待正则文本进行处理而预测得到的，所述属性分类网络是利用样本文本训练得到的，且所述样本文本中样本子文本标注有样本标记；其中，在所述样本子文本需作正则处理的情况下，所述样本标记包括所述样本子文本关于所述若干种属性的样本属性类别，在所述样本子文本无需正则处理的情况下，所述样本标记为预设标记。
66.因此，利用属性分类网络辅助进行文本正则，把性数格属性、数词属性和符号属性等属性当成一种类别使用网络进行预测，巧妙地将转写问题转换为分类问题，能够提升性数格语言的文本正则准确性和便捷性。另外，属性分类网络的训练样本样本标记包括预设标记和关于所述若干种属性的样本属性类别，不仅区分是否需要正则处理，而且能够处理
一般语言和性数格语言。
67.在一些公开实施例中，所述属性分类网络的训练步骤包括：获取所述样本子文本经向量化的第一嵌入表示，并获取所述样本子文本的n-gram字符信息，以及获取所述n-gram字符信息经向量化的第二嵌入表示；融合所述第一嵌入表示和所述第二嵌入表示，得到所述样本子文本的融合嵌入表示；利用所述属性分类网络对所述融合嵌入表示进行分类预测，得到所述样本子文本的预测标记；其中，所述预测标记为所述预设标记，或所述样本子文本关于所述若干种属性的预测属性类别；基于所述样本标记和所述预测标记之间的差异，调整所述属性分类网络的网络参数。
68.因此，通过融合将样本子文本经向量化的第一嵌入表示和n-gram字符信息经向量化的第二嵌入表示后，将利用所述属性分类网络对所述融合嵌入表示进行分类预测，以实现属性分类网络的训练，基于此，在训练属性分类网络的网络输入中增加适当的辅助训练信息，能够增强属性分类网络的性能。
69.在一些公开实施例中，解析模块31用于所述解析待正则文本，得到目标子文本时，还用于对所述待正则文本进行分析，得到所述若干子文本；利用所述目标语种的正则规则集合，分别对所述若干子文本进行规则匹配，得到所述目标子文本；其中，所述正则规则集合包括第一子集合、第二子集合中至少一者，所述第一子集合包括无需正则处理的若干种文本规则，所述第二子集合包括需作正则处理的若干种文本规则。
70.因此，解析待正则文本，得到目标子文本时，可以对待正则文本进行分析，得到若干子文本，再利用目标语种的正则规则集合，分别对若干子文本进行规则匹配，得到目标子文本，对于无需正则处理的若干种文本规则对应的子文本，提前过滤掉，并无需执行后续分类及转写，减小数据处理量，提高文本正则效率。
71.在一些公开实施例中，转写模块33用于所述基于所述目标子文本的属性类别，将所述目标子文本转写为所述目标语种，得到与所述目标子文本具有相同语义的正则化子文本时，还用于在转写规则集合中进行查询，得到与所述目标子文本满足匹配条件的第一子文本；其中，所述转写规则集合包括若干子文本对，所述子文本对包括具有相同语义的第一子文本和第二子文本，且所述第二子文本按照所述第一子文本的属性类别以所述目标语种表示；将所述第一子文本所属所述子文本对中的第二子文本，作为所述目标子文本的正则化子文本。
72.因此，在第二子文本按照所述第一子文本的属性类别以所述目标语种表示的情况下，在转写规则集合中进行查询，得到与所述目标子文本满足匹配条件的第一子文本，即可将所述第一子文本所属所述子文本对中的第二子文本，作为所述目标子文本的正则化子文本，由此基于目标子文本的属性类别确定正则化子文本时，巧妙地将转写问题转换为分类问题，实行先分类后转写，适用于同一子文本对应多种正则化子文本的场景，可以解决现有技术中预设文本规则和端到端模型无法需要根据文本上下文语境进行文本正则转写的问题。
73.在一些公开实施例中，所述匹配条件包括：所述第一子文本与所述目标子文本两者语义相同且属性类别也完全相同。
74.因此，通过匹配条件，能够找到与目标子文本语义相同且属性类别也完全相同的第一子文本，进而用于后续确定正则化子文本，利用匹配条件确定唯一对应关系，提高转写
准确性。
75.在一些公开实施例中，在所述识别所述目标子文本关于若干种属性的属性类别之后，以及在所述基于所述目标子文本的属性类别，将所述目标子文本转写为所述目标语种，得到与所述目标子文本具有相同语义的正则化子文本之前，文本正则装置30还用于分别对各种所述属性的属性类别进行检测，得到检测结果；其中，所述检测结果包括所述属性的属性类别是否识别正确；响应于所述检测结果包括所述属性的属性类别识别不正确，将对应所述属性的属性类别替换为校正类别。
76.因此，通过对各种所述属性的属性类别进行检测，在检测结果包括所述属性的属性类别识别不正确，将对应所述属性的属性类别替换为校正类别，可以避免不同属性的目标子文本之间分类结果的干扰。
77.在一些公开实施例中，获取模块34用于所述基于所述目标子文本对应的正则化子文本，得到所述待正则文本对应的已正则文本时，还用于将所述待正则文本中所述目标子文本，替换为所述目标子文本对应的正则化文本，得到所述已正则文本。
78.因此，由于目标子文本是待正则文本中需作正则处理的子文本，现得到目标子文本对应的正则化子文本后，将待正则文本中目标子文本，替换为目标子文本对应的正则化文本，则可以快速得到已正则文本。
79.请参阅图4，图4是本技术电子设备40一实施例的框架示意图。电子设备40包括相互耦接的存储器41和处理器42，存储器41中存储有程序指令，处理器42用于执行程序指令以实现上述任一文本正则方法实施例中的步骤。具体地，电子设备40可以包括但不限于：台式计算机、笔记本电脑、服务器、手机、平板电脑等等，在此不做限定。
80.具体而言，处理器42用于控制其自身以及存储器41以实现上述任一文本正则方法实施例中的步骤。处理器42还可以称为cpu(central processing unit，中央处理单元)。处理器42可能是一种集成电路芯片，具有信号的处理能力。处理器42还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器42可以由集成电路芯片共同实现。
81.上述方案，解析待正则文本，得到需作正则处理的目标子文本后，识别目标子文本关于若干种属性的属性类别，再基于目标子文本的属性类别，将目标子文本转写为目标语种，得到与目标子文本具有相同语义的正则化子文本，最后基于目标子文本对应的正则化子文本，得到待正则文本对应的已正则文本，由于本方案先确定目标子文本的属性类别，再利用属性类别进行目标语种的文本转写，实行先分类后转写，因而能够提升性数格语言的文本正则准确性和便捷性。
82.请参阅图5，图5是本技术计算机可读存储介质50一实施例的框架示意图。计算机可读存储介质50存储有能够被处理器运行的程序指令51，程序指令51用于实现上述任一文本正则方法实施例中的步骤。
83.上述方案，解析待正则文本，得到需作正则处理的目标子文本后，识别目标子文本关于若干种属性的属性类别，再基于目标子文本的属性类别，将目标子文本转写为目标语
种，得到与目标子文本具有相同语义的正则化子文本，最后基于目标子文本对应的正则化子文本，得到待正则文本对应的已正则文本，由于本方案先确定目标子文本的属性类别，再利用属性类别进行目标语种的文本转写，实行先分类后转写，因而能够提升性数格语言的文本正则准确性和便捷性。
84.在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。
85.上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。
86.在本技术所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。
87.作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
88.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
89.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种用于病例记录导入设备及大数据分析应用系统的制作方法

文本正则方法及相关装置、电子设备、存储介质与流程

相关文献

最热文献