一种确定目标语言文本大小写的方法及装置与流程

2022-05-26 18:15:21 来源：中国专利 TAG：

1.本技术涉及文本处理领域，特别是涉及一种确定目标语言文本大小写的方法及装置。

背景技术：

2.在一些场景中，需要确定目标语言文本的大小写。例如，自动语音识别(automatic speech recognition，asr)可以将语音转换成文字。当由语音识别到的文字既目标语言(例如英文)又包括其它语言的文本(例如中文)时，所输出的目标语言文本全都是小写的。因此，在基于asr获得文本之后，还需要确定目标语言文本的大小写，以进一步对文本中目标语言文本的大小写进行调整。
3.目前，可以基于人工制定的规则确定目标语言文本的大小写，但是，采用这种方式，准确度不是很高。
4.因此，亟需一种方案，能够准确的确定目标语言文本的大小写。

技术实现要素：

5.本技术所要解决的技术问题是如何准确的确定目标语言文本的大小写，提供一种确定目标语言文本大小写的方法及装置。
6.第一方面，本技术实施提供了一种确定目标语言文本大小写的方法，所述方法包括：
7.获取待处理文本，所述待处理文本包括目标语言文本和其它语言的文本；
8.将所述待处理文本输入机器学习模型，得到所述目标语言文本的格式，所述目标语言文本的格式，用于指示所述目标语言文本中各个字符的大小写，所述机器学习模型，用于确定目标语言文本的格式。
9.可选的，所述目标语言文本包括第一文本，所述第一文本的格式，包括以下任意一种：
10.全小写、首字符大写、全大写以及其它，其中，所述其它表示除所述全小写、所述首字符大写以及所述全大写之外的格式。
11.可选的，所述机器学习模型，通过如下方式训练得到：
12.获取训练文本和所述训练文本对应的标签，所述训练文本对应的标签，用于指示所述训练文本中目标语言文本的格式，所述训练文本包括目标语言文本和所述其它语言的文本；
13.基于所述训练文本和所述训练文本对应的标签，训练得到所述机器学习模型。
14.可选的，所述获取训练文本，包括：
15.获取语料，所述语料包括目标语言文本和其它语言的文本；
16.将所述语料中的部分所述其它语言的文本翻译成目标语言文本，得到所述训练文本。
17.可选的，所述机器学习模型，包括特征提取模块和特征变换模块；
18.所述特征提取模块，用于提取所述待处理文本中各个文本的特征；
19.所述特征变换模块，用于根据所述各个文本的特征，确定所述待处理文本中的目标语言文本的格式。
20.可选的，所述特征提取模块为预训练语言模型。
21.可选的，所述方法还包括：
22.根据所述目标语言文本的格式对所述待处理文本中的目标语言文本进行处理，得到目标文本，所述目标文本中目标语言文本的大小写与所述目标语言文本的格式相匹配。
23.可选的，所述目标语言文本包括第一文本，所述第一文本的格式为其它格式，所述方法还包括：
24.根据预先存储的所述第一文本和第一标准文本之间的对应关系，确定所述第一标准文本，所述第一标准文本用于指示所述第一文本各个字符的大小写；
25.所述根据所述目标语言文本的格式对所述待处理文本中的目标语言文本进行处理，得到目标文本，包括：
26.将所述第一文本转换为所述第一标准文本。
27.可选的，所述获取待处理文本，包括：
28.对语音进行识别，得到所述待处理文本。
29.第二方面，本技术实施例提供了一种确定目标语言文本大小写的装置，所述装置包括：
30.获取单元，用于获取待处理文本，所述待处理文本包括目标语言文本和其它语言的文本；
31.第一确定单元，用于将所述待处理文本输入机器学习模型，得到所述目标语言文本的格式，所述目标语言文本的格式，用于指示所述目标语言文本中各个字符的大小写，所述机器学习模型，用于确定目标语言文本的格式。
32.可选的，所述目标语言文本包括第一文本，所述第一文本的格式，包括以下任意一种：
33.全小写、首字符大写、全大写以及其它，其中，所述其它表示除所述全小写、所述首字符大写以及所述全大写之外的格式。
34.可选的，所述机器学习模型，通过如下方式训练得到：
35.获取训练文本和所述训练文本对应的标签，所述训练文本对应的标签，用于指示所述训练文本中目标语言文本的格式，所述训练文本包括目标语言文本和所述其它语言的文本；
36.基于所述训练文本和所述训练文本对应的标签，训练得到所述机器学习模型。
37.可选的，所述获取训练文本，包括：
38.获取语料，所述语料包括目标语言文本和其它语言的文本；
39.将所述语料中的部分所述其它语言的文本翻译成目标语言文本，得到所述训练文本。
40.可选的，所述机器学习模型，包括特征提取模块和特征变换模块；
41.所述特征提取模块，用于提取所述待处理文本中各个文本的特征；
42.所述特征变换模块，用于根据所述各个文本的特征，确定所述待处理文本中的目标语言文本的格式。
43.可选的，所述特征提取模块为预训练语言模型。
44.可选的，所述装置还包括：
45.处理单元，用于根据所述目标语言文本的格式对所述待处理文本中的目标语言文本进行处理，得到目标文本，所述目标文本中目标语言文本的大小写与所述目标语言文本的格式相匹配。
46.可选的，所述目标语言文本包括第一文本，所述第一文本的格式为其它格式，所述装置还包括：
47.第二确定单元，用于根据预先存储的所述第一文本和第一标准文本之间的对应关系，确定所述第一标准文本，所述第一标准文本用于指示所述第一文本各个字符的大小写；
48.所述处理单元，用于：
49.将所述第一文本转换为所述第一标准文本。
50.可选的，所述获取单元，用于：
51.对语音进行识别，得到所述待处理文本。
52.第三方面，本技术实施例提供了一种设备，所述设备包括处理器和存储器；
53.所述处理器用于执行所述存储器中存储的指令，以使得所述设备执行以上第一方面任一项所述的方法。
54.第四方面，本技术实施例提供了一种计算机可读存储介质，包括指令，所述指令指示设备执行以上第一方面任一项所述的方法。
55.第五方面，本技术实施例提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行以上第一方面任一项所述的方法。
56.与现有技术相比，本技术实施例具有以下优点：
57.本技术实施例提供了一种确定目标语言文本大小写的方法，在一个示例中，该方法可以由客户端执行。客户端可以获取待处理文本，所述待处理文本包括目标语言文本和其它语言的文本。而后，将所述待处理文本输入机器学习模型，所述机器学习模型能够用于确定目标语言文本的格式。将所述待处理文本输入机器学习模型之后，可以得到所述目标语言文本的格式，其中，所述目标语言文本的格式，用于指示所述目标语言文本中各个字符的大小写。由此可见，利用本技术实施例的方案，无需利用预先制定的规则来确定目标语言文本的大小写，而是利用机器学习模型来确定目标语言文本中各个字符的大小写，从而能够提升确定目标语言文本中各个字符的大小写的准确度。
附图说明
58.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
59.图1为本技术实施例提供的一种确定目标语言文本大小写的方法的流程示意图；
60.图2为本技术实施例提供的一种训练机器学习模型的方法的流程示意图；
61.图3为本技术实施例提供的一个示例性应用场景示意图；
62.图4为本技术实施例提供的一种确定目标语言文本大小写的装置的结构示意图。
具体实施方式
63.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
64.本技术的发明人经过研究发现，目前，可以基于人工制定的规则确定目标语言文本的大小写，但是，对于目标语言文本而言，某一文本在不同的语境下可能对应不同的语义，并且该文本在不同语义下的大小写方式不同。例如，对应英文文本“it”，其在“it is”和“it公司”中的语义不同，对应的大小写方式也不同。而基于人工指定的规则无法判断该文本所处的语境中的语义，因此，采用人工指定的规则确定目标语言文本的大小写，准确度不是很高。
65.为了解决上述问题，本技术实施例提供了一种确定目标语言文本大小写的方法及装置。
66.下面结合附图，详细说明本技术的各种非限制性实施方式。
67.示例性方法
68.参见图1，该图为本技术实施例提供的一种确定目标语言文本大小写的方法的流程示意图。在一个示例中，所述方法可以由客户端执行，当然，所述方法也可以由服务端执行，本技术实施例不做具体限定。在本实施例中，所述方法例如可以包括以下步骤：s101-s102。
69.s101：获取待处理文本，所述待处理文本包括目标语言文本和其它语言的文本。
70.本技术实施例不具体限定所述目标语言文本，目标语言文本可以是字符具备大写和小写两种格式的任意文本，例如，所述目标语言文本可以是英文文本，又如，所述目标语言文本可以是拉丁文本，此处不一一列举说明。
71.在本技术实施例中，其它语言的文本指的是除所述目标语言文本之外的其它一种或者多种语言的文本。举例说明，所述目标语言文本为英文文本，所述其它语言的文本包括中文文本和韩文文本，则所述待处理文本包括英文文本、中文文本和韩文文本。
72.本技术实施例不具体限定s101的具体实现方式，作为一个示例中，可以对语音进行识别，以得到所述待处理文本。例如，本技术实施例的方案应用在输入法中，则用户通过语音的方式进行输入，则输入法可以获得用户输入的语音，并进一步对所述语音进行识别，从而获得所述待处理文本。
73.作为另一个示例中，客户端可以从网页中获取待处理文本。例如，用户可以在该网页中输入文本，相应的，客户端可以获取用户在网页中输入的文本作为待处理文本。
74.在一个示例中，例如，所述待处理文本为对语音进行识别得到的，所述待处理文本中包括的目标语言文本均采用小写。
75.s102：将所述待处理文本输入机器学习模型，得到所述目标语言文本的格式，所述目标语言文本的格式，用于指示所述目标语言文本中各个字符的大小写，所述机器学习模
型，用于确定目标语言文本的格式。
76.在本技术实施例中，为了能够准确的识别出目标语言文本中各个字符的大小写，可以基于预先训练的机器学习模型来对所述待处理文本进行处理，具体地，该机器学习模型用于确定目标语言文本的格式，而所述目标语言文本的格式，用于指示所述目标语言文本中各个字符的大小写。因此，利用机器学习模型来对所述待处理文本进行处理，即可得到目标语言文本中各个字符的大小写。
77.关于目标语言的格式，现以目标语言文本所包括的第一文本为例进行说明。第一文本是所述目标语言文本中的任意一个文本。
78.第一文本的格式，可以是全小写，即第一文本中的各个字符均采用小写。
79.第一文本的格式，也可以是首字符大写，即：第一文本的各个字符中，除第一个字符大写之外，其它字符均小写。
80.第一文本的格式，还可以是全小写，即：第一文本中的各个字符均采用小写。
81.另外，第一文本的格式，还可以是除前述全小写、所述首字符大写以及所述全大写之外的其它格式，例如，所述第一文本中的首字符以及中间某几个字符采用大写，其它字符采用小写。关于所述其它格式，此处不一一列举说明。
82.如上所述，所述机器学习模型是预先训练得到的，接下来，对训练所述机器学习模型的方法进行介绍。
83.参见图2，该图为本技术实施例提供的一种训练机器学习模型的方法的流程示意图。图2所示的方法，可以包括如下s201-s202。
84.s201：获取训练文本和所述训练文本对应的标签，所述训练文本对应的标签，用于指示所述训练文本中目标语言文本的格式，所述训练文本包括目标语言文本和其它语言的文本。
85.s202：基于所述训练文本和所述训练文本对应的标签，训练得到所述机器学习模型。
86.在本技术实施例中，获取训练文本在具体实现时，可以有多种实现方式。以下介绍几种可能的实现方式。
87.在一个示例中，可以获取包括目标语言文本和其它语言的文本的语料，将所述语料作为训练文本。为了保证模型训练的质量，使得训练得到的机器学习模型能够准确的确定待处理文本中目标语言文本的格式，所述语料可以是目标语言文本的格式较为准确的语料，例如，所述语料可以是某些官方网站发布的新闻，又如，所述语料可以是书籍中记载的文本。
88.在另一个示例中，考虑到对于前述语料而言，其包括的目标语言的格式可能比较单一。举例说明：目标语言文本为英文，语料中包括的英文大多采用全大写。而考虑到在实际中，待处理文本中的目标语言文本的格式可能是多种多样的。因此，可以丰富训练文本，使得训练文本中的目标语言文本的格式尽可能多样化。这样一来，即使待处理文本中的目标语言文本的格式是多种多样的，训练得到的机器学习模型也能够准确的确定待处理文本中目标语言文本的格式。
89.鉴于此，获取所述语料之后，可以将所述语料中的部分所述其它语言的文本翻译成目标语言文本，不难理解的是，将所述语料中的部分所述其它语言的文本翻译成目标语
言文本之后，所得到的文本中包括的目标语言文本的格式相较于前述语料而言更加丰富。因此，可以将所述语料中的部分所述其它语言的文本翻译成目标语言文本之后得到的文本，作为所述训练文本。
90.关于所述机器学习模型，需要说明的是，在一个示例中，所述机器学习模型可以包括特征提取模块和特征变换模块。
91.在模型训练阶段：
92.所述特征提取模块，用于提取训练文本中各个文本的特征。
93.所述特征变换模块，用于根据所述训练文本中各个文本的特征，预测所述训练文本中目标语言文本的格式。
94.而后，基于预测得到的训练文本中目标语言文本的格式、以及所述训练文本对应的标签，对所述特征提取模块的参数和所述特征变换模块的参数进行调整。
95.在模型训练完成之后：
96.所述特征提取模块，用于提取所述待处理文本中各个文本的特征。
97.所述特征变换模块，用于根据所述待处理文本中各个文本的特征，确定所述待处理文本中的目标语言文本的格式。
98.关于所述特征提取模块，需要说明的是，在一个示例中，所述特征提取模块可以采用卷积神经网络(convolutional neural networks,cnn)结构。在又一个示例中，考虑到预训练模型能够基于大量与场景无关的语料训练得到，其具备良好的特征提取能力，并且，预训练模型可以将其基于大量与场景无关的语料而获得的特征提取能力迁移到特定的场景(例如确定目标语言文本大小写)中。因此，在一个示例中，所述特征提取模块可以是预训练语言模型。本技术实施例不具体限定所述预训练模型，所述预训练模型可以是bert模型。
99.关于所述特征变换模型，需要说明的是，在一个示例中，所述特征变换模块可以包括一个或者多个全连接(fully connected，fc)层(layers)。
100.通过以上描述可知，利用本技术实施例的方案，无需利用预先制定的规则来对确定目标语言文本的大小写，而是利用机器学习模型来确定目标语言文本中各个字符的大小写，从而能够提升确定目标语言文本中各个字符的大小写的准确度。
101.在一个示例中，在执行s102获得待处理文本中目标语言文本的格式之后，可以根据所述目标语言文本的格式对所述待处理文本中的目标语言文本进行处理，得到目标文本。作为一个示例，可以对所述待处理文本中目标语言文本中一个或者多个字符的大小写进行修改，使得修改后的目标语言文本的大小写与所述目标语言文本的格式相匹配。举例说明：目标语言文本为英文，待处理文本中包括英文文本“it”，所述机器学习模型输出的结果指示所述英文文本的格式为全大写，故而，可以将英文文本“it”修改为“it”。
102.如前文所述，目标语言文本的格式包括其它格式，对于待处理文本中包括的属于目标语言文本的第一文本而言，若机器学习模型输出的结果指示所述第一文本的格式为其它，对于这种情况，可以结合预先存储的第一文本和第一标准文本之间的对应关系，对所述第一文本进行处理。具体地，可以将第一文本转换为第一标准文本。其中：所述第一标准文本用于指示所述第一文本各个字符的大小写，第一标准文本的格式为前述其它格式。举例说明：目标语言文本为英文，待处理文本中包括英文文本“abcd”，根据预先存储的“abcd”和“abcd”之间的对应关系，可以将英文文本“abcd”修改为“abcd”。
103.关于由所述待处理文本得到目标文本的过程，现结合图3进行说明。图3为一个示例性场景式示意图。
104.如图3所示，目标语言文本为英文文本，待处理文本为“abcd是一个最新上市的it公司”，将待处理文本输入机器学习模型之后，所述机器模型输出英文文本abcd的格式为“其它格式”，所述机器学习模型输出英文文本“it”的格式为“全大写”。则可以基于所述机器学习模型输出的英文文本“it”的格式，将英文文本“it”转换为“it”。并结合预先存储的“abcd”和“abcd”的对应关系，将英文文本“abcd”转换为“abcd”，从而得到目标文本：“abcd是一个最新上市的it公司”。
105.示例性设备
106.基于以上实施例提供的方法，本技术实施例还提供了一种装置，以下结合附图介绍该装置。
107.参见图4，该图为本技术实施例提供的一种确定目标语言文本大小写的装置的结构示意图。所述装置400例如可以具体包括：获取单元401和第一确定单元402。
108.获取单元401，用于获取待处理文本，所述待处理文本包括目标语言文本和其它语言的文本；
109.第一确定单元402，用于将所述待处理文本输入机器学习模型，得到所述目标语言文本的格式，所述目标语言文本的格式，用于指示所述目标语言文本中各个字符的大小写，所述机器学习模型，用于确定目标语言文本的格式。
110.可选的，所述目标语言文本包括第一文本，所述第一文本的格式，包括以下任意一种：
111.全小写、首字符大写、全大写以及其它，其中，所述其它表示除所述全小写、所述首字符大写以及所述全大写之外的格式。
112.可选的，所述机器学习模型，通过如下方式训练得到：
113.获取训练文本和所述训练文本对应的标签，所述训练文本对应的标签，用于指示所述训练文本中目标语言文本的格式，所述训练文本包括目标语言文本和所述其它语言的文本；
114.基于所述训练文本和所述训练文本对应的标签，训练得到所述机器学习模型。
115.可选的，所述获取训练文本，包括：
116.获取语料，所述语料包括目标语言文本和其它语言的文本；
117.将所述语料中的部分所述其它语言的文本翻译成目标语言文本，得到所述训练文本。
118.可选的，所述机器学习模型，包括特征提取模块和特征变换模块；
119.所述特征提取模块，用于提取所述待处理文本中各个文本的特征；
120.所述特征变换模块，用于根据所述各个文本的特征，确定所述待处理文本中的目标语言文本的格式。
121.可选的，所述特征提取模块为预训练语言模型。
122.可选的，所述装置还包括：
123.处理单元，用于根据所述目标语言文本的格式对所述待处理文本中的目标语言文本进行处理，得到目标文本，所述目标文本中目标语言文本的大小写与所述目标语言文本
的格式相匹配。
124.可选的，所述目标语言文本包括第一文本，所述第一文本的格式为其它格式，所述装置还包括：
125.第二确定单元，用于根据预先存储的所述第一文本和第一标准文本之间的对应关系，确定所述第一标准文本，所述第一标准文本用于指示所述第一文本各个字符的大小写；
126.所述处理单元，用于：
127.将所述第一文本转换为所述第一标准文本。
128.可选的，所述获取单元401，用于：
129.对语音进行识别，得到所述待处理文本。
130.由于所述装置400是与以上方法实施例提供的方法对应的装置，所述装置400的各个单元的具体实现，均与以上方法实施例为同一构思，因此，关于所述装置400的各个单元的具体实现，可以参考以上方法实施例的描述部分，此处不再赘述。
131.本技术实施例提供了一种设备，所述设备包括处理器和存储器；
132.所述处理器用于执行所述存储器中存储的指令，以使得所述设备执行以上方法实施例任一项所述的确定目标语言文本大小写的方法。
133.本技术实施例提供了一种计算机可读存储介质，包括指令，所述指令指示设备执行以上方法实施例任一项所述的确定目标语言文本大小写的方法。
134.本技术实施例提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行以上方法实施例任一项所述的确定目标语言文本大小写的方法。
135.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本技术的真正范围和精神由下面的权利要求指出。
136.应当理解的是，本技术并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。
137.以上所述仅为本技术的较佳实施例，并不用以限制本技术，凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种确定目标语言文本大小写的方法及装置与流程

相关文献

最热文献