一种文本处理方法及装置与流程

2022-02-20 23:25:47 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，特别是涉及一种文本处理方法及装置。

背景技术：

2.机器翻译等以神经网络为基础的人工智能算法，因其超强的拟合能力和端到端的全局优化能力，目前在自然语言翻译等相关领域得到了广泛应用。
3.随着贸易国际化的继续深入，在很多领域中都需要使用机器翻译，例如电商领域、医疗领域、新闻领域、汽车领域、教育领域以及交通领域等，机器翻译发挥着越来越大的作用。
4.为了提高机器翻译的精准度，往往需要分别训练各个领域对应的翻译模型，如此，当需要对某一文本翻译时，可以首先确定该文本所属的领域，然后基于该领域对应的翻译模型对该文本翻译。
5.其中，对于任意一个领域，该领域对应的翻译模型的泛化能力的高低取决于准备的该领域的双语平行语料的数据量，搜集到的该领域的双语平行语料的数据量越大，训练出的该领域对应的翻译模型的泛化能力也就越高。
6.如此，在训练该领域对应的翻译模型之前，需要准备大量的该领域的双语平行语料，但是在现有技术中，需要工作人员在海量的双语平行语料中人工筛选该领域的双语平行语料。
7.然而，在海量的双语平行语料中人工筛选该领域的双语平行语料的效率较低，且需要耗费非常大的人工工作量，导致人工成本较高。

技术实现要素：

8.为了降低人工成本，本技术示出了一种文本处理方法及装置。
9.第一方面，本技术示出了一种文本处理方法，所述方法包括：
10.获取待识别文本；
11.基于n-gram语言模型在所述待识别文本中获得第一文本块，所述第一文本块包括n个相邻的词，n为大于1的整数；
12.获取所述第一文本块在种子文本中的出现次数；
13.根据所述出现次数确定所述待识别文本与所述种子文本是否属于同一领域。
14.在一个可选的实现方式中，所述获取待识别文本，包括：
15.在第一文本库中选择任意一个文本，并作为待识别文本；
16.或，
17.在所述第一文本库中获得与所述种子文本的语义相关的文本，并作为所述待识别文本。
18.在一个可选的实现方式中，所述在所述第一文本库中获得与所述种子文本的语义相关的文本，包括：
19.根据所述种子文本的语义生成检索查询词；
20.根据所述检索查询词在所述第一文本库中进行检索；
21.获得与所述种子文本的语义相关的文本。
22.在一个可选的实现方式中，所述获取所述第一文本块在种子文本中的出现次数，包括：
23.查询已知的频次词典获取所述第一文本块在种子文本中的出现次数，其中，所述频次词典中存储有如下对应关系：文本块以及文本块在种子文本中出现的次数。
24.在一个可选的实现方式中，所述频次词典通过如下方式获得：
25.基于n-gram语言模型在所述种子文本中获得第二文本块，所述第二文本块包括n个相邻的词；
26.获取所述第二文本块在所述种子文本中的出现次数；
27.所述频次词典中，建立所述第二文本块与所述第二文本块在所述种子文本中的出现次数之间的对应关系。
28.在一个可选的实现方式中，所述根据所述出现次数确定所述待识别文本与所述种子文本是否属于同一领域，包括：
29.将不同的第一文本块在所述种子文本中的出现次数求和，得到总次数；
30.根据所述总次数确定所述待识别文本与所述种子文本是否属于同一领域。
31.在一个可选的实现方式中，所述根据所述总次数确定所述待识别文本与所述种子文本是否属于同一领域，包括：
32.在所述总次数大于或等于第一预设阈值的情况下，确定所述种子文本与所述待识别文本属于同一领域；
33.在所述总次数小于第一预设阈值的情况下，确定所述种子文本与所述待识别文本不属于同一领域。
34.在一个可选的实现方式中，所述根据所述总次数确定所述待识别文本与所述种子文本是否属于同一领域，包括：
35.获取所述待识别文本中包括的词的数量；
36.计算所述总次数与所述数量之间的比值；
37.在所述比值大于或等于第二预设阈值的情况下，确定所述种子文本与所述待识别文本属于同一领域；
38.在所述比值小于第二预设阈值的情况下，确定所述种子文本与所述待识别文本不属于同一领域。
39.在一个可选的实现方式中，所述方法还包括：
40.在所述种子文本与所述待识别文本属于同一领域的情况下，获取所述待识别文本对应的翻译文本；
41.将所述待识别文本与所述翻译文本存储在所述领域对应的第二文本库中。
42.在一个可选的实现方式中，所述方法还包括：
43.根据所述第二文本库中的文本训练所述领域对应的领域分类模型；
44.基于所述领域分类模型在第一文本库中筛选与所述种子文本属于同一领域的文本；
45.获取筛选出的文本对应的翻译文本；
46.将筛选出的文本与筛选出的文本对应的翻译文本存储在所述第二文本库中。
47.在一个可选的实现方式中，所述方法还包括：
48.根据所述第二文本库中的文本训练所述领域对应的文本翻译模型。
49.第二方面，本技术示出了一种文本处理装置，所述装置包括：
50.第一获取模块，用于获取待识别文本；
51.第二获取模块，用于基于n-gram语言模型在所述待识别文本中获得第一文本块，所述第一文本块包括n个相邻的词，n为大于1的整数；
52.第三获取模块，用于获取所述第一文本块在种子文本中的出现次数；
53.确定模块，用于根据所述出现次数确定所述待识别文本与所述种子文本是否属于同一领域。
54.在一个可选的实现方式中，所述第一获取模块包括：
55.选择单元，用于在第一文本库中选择任意一个文本，并作为待识别文本；
56.或，
57.搜索单元，用于在所述第一文本库中获得与所述种子文本的语义相关的文本，并作为所述待识别文本。
58.在一个可选的实现方式中，所述搜索单元包括：
59.生成子单元，用于根据所述种子文本的语义生成检索查询词；
60.检索子单元，用于根据所述检索查询词在所述第一文本库中进行检索；
61.获得子单元，用于获得与所述种子文本的语义相关的文本。
62.在一个可选的实现方式中，所述第三获取模块包括：
63.查找单元，用于查询已知的频次词典获取所述第一文本块在种子文本中的出现次数，其中，所述频次词典中存储有如下对应关系：文本块以及文本块在种子文本中出现的次数。
64.在一个可选的实现方式中，所述第三获取模块还包括：
65.第一获取单元，用于基于n-gram语言模型在所述种子文本中获得第二文本块，所述第二文本块包括n个相邻的词；
66.第二获取单元，用于获取所述第二文本块在所述种子文本中的出现次数；
67.存储单元，用于所述频次词典中，建立所述第二文本块与所述第二文本块在所述种子文本中的出现次数之间的对应关系。
68.在一个可选的实现方式中，所述确定模块包括：
69.求和单元，用于将不同的第一文本块在所述种子文本中的出现次数求和，得到总次数；
70.确定单元，用于根据所述总次数确定所述待识别文本与所述种子文本是否属于同一领域。
71.在一个可选的实现方式中，所述确定单元包括：
72.第一确定子单元，用于在所述总次数大于或等于第一预设阈值的情况下，确定所述种子文本与所述待识别文本属于同一领域；
73.第二确定子单元，用于在所述总次数小于第一预设阈值的情况下，确定所述种子
文本与所述待识别文本不属于同一领域。
74.在一个可选的实现方式中，所述确定单元包括：
75.获取子单元，用于获取所述待识别文本中包括的词的数量；
76.计算子单元，用于计算所述总次数与所述数量之间的比值；
77.第三确定子单元，用于在所述比值大于或等于第二预设阈值的情况下，确定所述种子文本与所述待识别文本属于同一领域；
78.第四确定子单元，用于在所述比值小于第二预设阈值的情况下，确定所述种子文本与所述待识别文本不属于同一领域。
79.在一个可选的实现方式中，所述装置还包括：
80.第四获取模块，用于在所述种子文本与所述待识别文本属于同一领域的情况下，获取所述待识别文本对应的翻译文本；
81.第一存储模块，用于将所述待识别文本与所述翻译文本存储在所述领域对应的第二文本库中。
82.在一个可选的实现方式中，所述装置还包括：
83.第一训练模块，用于根据所述第二文本库中的文本训练所述领域对应的领域分类模型；
84.筛选模块，用于基于所述领域分类模型在第一文本库中筛选与所述种子文本属于同一领域的文本；
85.第五获取模块，用于获取筛选出的文本对应的翻译文本；
86.第二存储模块，用于将筛选出的文本与筛选出的文本对应的翻译文本存储在所述第二文本库中。
87.在一个可选的实现方式中，所述装置还包括：
88.第二训练模块，用于根据所述第二文本库中的文本训练所述领域对应的文本翻译模型。
89.第三方面，本技术示出了一种电子设备，所述电子设备包括：
90.处理器；和
91.存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如第一方面所述的文本处理方法。
92.第四方面，本技术示出了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如第一方面所述的文本处理方法。
93.与现有技术相比，本技术实施例包括以下优点：
94.在需要使用大量的属于同一领域的文本的情况下，例如，需要使用大量的属于同一领域文本训练该领域对应的文本翻译模型的情况下，不需要技术人员在包括各个领域的文本的文本库中人工筛选大量的该领域的文本，技术人员可以人工搜集少量的该领域的文本，并作为种子文本提交给电子设备，以使电子设备可以从文本库中选择文本，并作为待识别文本，然后自动化地基于n-gram语言模型在待识别文本中获得第一文本块，第一文本块包括n个相邻的词，并获取第一文本块在种子文本中的出现次数，再根据出现次数确定待识别文本与种子文本是否属于同一领域。
95.通过上述方式，可以在文本库中自动化地筛选出大量的该领域的文本，由于不需
要技术人员在包括各个领域的文本的文本库中人工筛选大量的该领域的文本，技术人员可以人工搜集少量的该领域的文本，从而可以降低人工工作量，进而降低人工成本。
附图说明
96.图1是本技术一示例性实施例示出的一种文本处理方法的流程示意图。
97.图2是本技术一示例性实施例示出的一种文本处理装置的结构框图。
98.图3是本技术一示例性实施例提供的装置的结构示意图。
具体实施方式
99.为使本技术的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本技术作进一步详细的说明。
100.参照图1，示出了本技术一种文本处理方法的流程示意图，该方法应用于电子设备中，该方法可以包括：
101.在步骤s101中，获取待识别文本；
102.在本技术中，对于任意一个领域，可以搜集该领域的某一语种的至少一个文本，并作为种子文本，其中，种子文本可以是技术人员人工搜集的，也可以是电子设备通过其他方式搜集的。
103.之后电子设备可以在海量的文本中筛选与种子文本属于同一领域的文本，筛选出的文本的语种与种子文本的语种可以相同。
104.海量的文本可以包括网络中的文本等，例如，网页上的文本，或者，网络视频中的字幕、弹幕以及评论等。
105.例如，在一种示例中，事先电子设备可以自动搜集网络中的文本中的至少部分文本，然后可以将搜集到的文本存储在第一文本库中。
106.如此，电子设备就可以在第一文本库中筛选与种子文本属于同一领域的文本。
107.在本技术中，可以在第一文本库中选择任意一个文本，并作为待识别文本，然后按照之后的步骤s102～步骤s104的流程以确定待识别文本与种子文本是否属于同一领域，再在第一文本库中选择一个未选择过的文本，并作为待识别文本，然后继续按照之后的步骤s102～步骤s104的流程以确定最新选择的待识别文本与种子文本是否属于同一领域。直至确定出第一文本库中的每一个文本分别与种子文本是否属于同一领域为止，从而实现从第一文本库中筛选出与种子文本属于同一领域的文本。
108.在步骤s102中，基于n-gram语言模型在待识别文本中获得第一文本块，第一文本块包括n个相邻的词，n为大于1的整数；
109.在本技术中，可以将待识别文本分词，得到待识别文本中的多个词。
110.其中，在一个例子中，在待识别文本的语种为英语等拉丁语系的语种的情况下，可以将待识别文本中的各个单词分别作为词，然后基于n-gram语言模型分别将待识别文本中的n个相邻的词组成文本块，将得到的文本块均作为第一文本块。
111.在一个例子中，在待识别文本的语种为汉语的情况下，可以将待识别文本中的不成词的单个字作为词，或者，将至少两个相邻的字组成的词。
112.例如，假设待识别文本包括：“汽车发动机是重要的参数”，其中包括的词有：“汽
车”、“发动机”、“是”、“重要的”以及“参数”。
113.基于2-gram语言模型在“汽车发动机是重要的参数”获得的第一文本块包括：待识别文本中的2个相邻的词，例如，“汽车发动机”、“发动机是”、“是重要的”以及“重要的参数”。
114.基于3-gram语言模型在“汽车发动机是重要的参数”获得的第一文本块包括：待识别文本中的3个相邻的词，例如，“汽车发动机是”、“发动机是重要的”以及“是重要的参数”。
115.在步骤s103中，获取第一文本块在种子文本中的出现次数；
116.在本技术一个实施例中，对于任意一个第一文本块，可以在种子文本中实时查找该第一文本块，统计查找到的该第一文本块的数量，并作为该第一文本块在种子文本中的出现次数。对于其他每一个第一文本块，同样如此。
117.当然，也可以通过其他方式来获取第一文本块在种子文本中的出现次数，具体参见之后的实施例，在此不作详述。
118.在步骤s104中，根据出现次数确定待识别文本与种子文本是否属于同一领域。
119.其中，本步骤具体可以参见之后的实施例，在此不做详述。
120.在需要使用大量的属于同一领域的文本的情况下，例如，需要使用大量的属于同一领域文本训练该领域对应的文本翻译模型的情况下，不需要技术人员在包括各个领域的文本的文本库中人工筛选大量的该领域的文本，技术人员可以人工搜集少量的该领域的文本，并作为种子文本提交给电子设备，以使电子设备可以从文本库中选择文本，并作为待识别文本，然后自动化地基于n-gram语言模型在待识别文本中获得第一文本块，第一文本块包括n个相邻的词，n为大于1的整数，并获取第一文本块在种子文本中的出现次数，再根据出现次数确定待识别文本与种子文本是否属于同一领域。
121.通过上述方式，可以在文本库中自动化地筛选出大量的该领域的文本，由于不需要技术人员在包括各个领域的文本的文本库中人工筛选大量的该领域的文本，技术人员可以人工搜集少量的该领域的文本，从而可以降低人工工作量，进而降低人工成本。
122.其中，在步骤s101中，可以在第一文本库中选择一个文本，并作为待识别文本，例如，可以在第一文本库中随机选择一个文本(选择任意一个文本)，或者，在第一文本库中按照特定的顺序选择一个文本，并作为待识别文本，然后根据待识别文本对应的第一文本块在种子文本中的出现次数确定待识别文本与种子文本是否属于同一领域。
123.然而，经过发明人研究发现：实际上，在两个文本属于同一领域的情况下，两个文本的语义之间往往是相关的，在两个文本分别属于不同领域的情况下，两个文本的语义之间往往是不相关的。
124.如此，在两个文本的语义之间不相关的情况下，两个文本往往不属于同一领域，而在两个文本的语义之间相关的情况下，两个文本才可能属于同一领域。
125.因此，在确定待识别文本与种子文本是否属于同一领域时，为了进一步地提高确定待识别文本与种子文本是否属于同一领域的准确率，除了需要根据待识别文本对应的第一文本块在种子文本中的出现次数之外，还可以结合待识别文本的语义以及种子文本的语义。
126.例如，在本技术中，可以根据种子文本的语义在第一文本库中先初步筛选出可能与种子文本属于同一领域的文本，然后再基于步骤s102～步骤s104的流程来确定初步筛选
出的文本与种子文本是否属于同一领域。
127.其中，在根据种子文本的语义在第一文本库中初步筛选出可能与种子文本属于同一领域的文本时，可以在第一文本库中获得语义与种子文本的语义相关的文本，并作为待识别文本。
128.具体地，可以根据种子文本的语义生成检索查询词，例如，可以基于语义分析技术在种子文本中选取最能够体现种子文本的语义的关键词，并作为检索查询词，然后可以根据检索查询词在第一文本库中检索；获得与种子文本的语义相关的文本，例如，搜索与检索查询词的语义语义相关的文本等。
129.例如，对于第一文本库中的任意一个文本，可以基于语义分析技术在该文本中选取最能够体现该文本的语义的关键词，然后确定该关键词的语义与检索查询词的语义是否相关，如果相关，则说明该文本的语义与种子文本的语义相关。
130.其中，在确定两个词的语义之间是否相关时，可以获取两个词之间的语义相关度，在语义相关度大于或等于预设相关度的情况下，可以确定这两个词的语义相关，在语义相关度小于预设相关度的情况下，可以确定这两个词的的语义无关。
131.本技术对获取两个词之间的语义相关度的具体获取方式不做限定，可以使用现有技术中的任意一种获取语义相关度的方式。
132.技术人员可以根据实际情况来设定预设相关度，本技术对预设相关度的具体数值不做限定，例如，可以为0.6、0.7或0.8等。
133.在一个方式中，可以基于dssm(deep structured semantic models,深度结构化语义模型)来获取两个词之间的语义相关度。
134.通过上述方式，结合待识别文本对应的第一文本块在种子文本中的出现次数、待识别文本的语义以及种子文本的语义，来确定待识别文本与种子文本是否属于同一领域，可以提高确定的结果的准确率。
135.在本技术一个实施例中，是在搜集到种子文本之后，电子设备才开始执行步骤s101，再执行步骤s102，然后执行步骤s103等。
136.然而，在执行步骤s103：获取第一文本块在种子文本中的出现次数时，在一个方式中，电子设备可以实时地基于n-gram语言模型在种子文本中获得第二文本块，第二文本块包括n个相邻的词，n为大于1的整数，然后对于任意一个第二文本块，可以获取该第二文本块在种子文本中的出现次数，之后可以频次词典中，建立第二文本块与第二文本块在种子文本中的出现次数之间的对应关系。对于其他每一个第二文本块，同样执行上述操作。然后可以查询已知的频次词典获取每一个第一文本块在种子文本中的出现次数，其中，频次词典中存储有如下对应关系：文本块以及文本块在种子文本中出现的次数。
137.然而，上述“基于n-gram语言模型在种子文本中获得第二文本块，第二文本块包括n个相邻的词，n为大于1的整数，然后对于任意一个第二文本块，可以获取该第二文本块在种子文本中的出现次数，之后可以频次词典中，建立第二文本块与第二文本块在种子文本中的出现次数之间的对应关系。对于其他每一个第二文本块，同样执行上述操作”的频次词典的创建流程需要耗费一段较长时间，且由于需要等待频次词典的创建流程执行完毕之后，才能查询已知的频次词典获取每一个第一文本块在种子文本中的出现次数，所以导致步骤s103需要耗费较长时间，从而降低了确定待识别文本与种子文本是否属于同一领域的
效率。
138.因此，为了提高确定待识别文本与种子文本是否属于同一领域的效率，需要降低步骤s103需要耗费的时间，为了降低步骤s103需要耗费的时间，在本技术另一实施例中，在搜集到种子文本之后，电子设备可以开始执行步骤s101，并行地，电子设备还可以执行频次词典的创建流程。如此使得，电子设备在开始执行步骤s101时，电子设备也已经同时开始执行频次词典的创建流程。
139.这样，在电子设备执行到步骤s103时，电子设备已经执行了频次词典的创建流程中的至少部分流程，电子设备最多只需要等待频次词典的创建流程中的其他部分流程完毕，即可查询已知的频次词典获取每一个第一文本块在种子文本中的出现次数，相比于等待前述实施例中的频次词典的创建流程执行完毕才能查询已知的频次词典获取每一个第一文本块在种子文本中的出现次数，本技术实施例在执行完毕步骤s102之后可以等待较少时间就可以查询已知的频次词典获取每一个第一文本块在种子文本中的出现次数，从而可以降低步骤s103需要耗费的时间，进而可以提高确定待识别文本与种子文本是否属于同一领域的效率。
140.其中，在本技术一个实施例中，在步骤s104中，可以将不同的第一文本块在种子文本中的出现次数求和，得到总次数，然后根据总次数确定待识别文本与种子文本是否属于同一领域。
141.例如，在一个实施例中，在待识别文本中的各个第一文本块在种子文本中的出现次数较多的情况下，待识别文本中与种子文本往往属于同一领域。
142.在待识别文本中的各个第一文本块在种子文本中的出现次数较少的情况下，待识别文本中与种子文本往往不属于同一领域。
143.且，在待识别文本中的各个第一文本块在种子文本中的出现次数越多的情况下，待识别文本中与种子文本属于同一领域的可能性越大。在待识别文本中的各个第一文本块在种子文本中的出现次数越少的情况下，待识别文本中与种子文本往往不属于同一领域的可能性越小。
144.技术人员事先可以根据实际情况以及经验来设置第一预设阈值，这样，在本实施例中，电子设备就可以确定总次数是否大于或等于第一预设阈值，在总次数大于或等于第一预设阈值的情况下，可以确定种子文本与待识别文本属于同一领域；而在总次数小于第一预设阈值的情况下，可以确定种子文本与待识别文本不属于同一领域。
145.然而，有时候，第一预设阈值可能处于一个较低的水平。这样，假设一种情况：实际上待识别文本与种子文本并不属于同一领域，但是待识别文本包括的词较多，这样，基于n-gram语言模型在待识别文本中获得第一文本块的数量就较多，这样，不同的第一文本块在种子文本中的出现次数求和得到的总次数很可能大于第一预设阈值，这样，按照上述方式，就会确定种子文本与待识别文本属于同一领域。但是实际上待识别文本与种子文本并不属于同一领域，这就出现了确定结果错误的情况。
146.当然，有时候也可能发生实际上待识别文本与种子文本属于同一领域但却确定出待识别文本与种子文本不属于同一领域的情况。
147.为了避免上述两种确定结果错误的情况发生，在本技术另一实施例中，在根据总次数确定待识别文本与种子文本是否属于同一领域时，可以获取待识别文本中包括的词的
数量，然后计算总次数与该数量之间的比值，从而实现将不同的第一文本块在种子文本中的出现次数求和得到的总次数归一化，这样，即使不同的待识别文本包括的词的数量不同，甚至即使不同的待识别文本包括的词的数量差异很大，也可以将各个待识别文本对应的总次数归一化，之后确定该比值是否大于或等于第二预设阈值，在该比值大于或等于第二预设阈值的情况下，可以确定种子文本与待识别文本属于同一领域；在该比值小于第二预设阈值的情况下，可以确定种子文本与待识别文本不属于同一领域，从而可以避免出现确定错误的情况。
148.其中，第二预设阈值可以是技术人员事先根据实际情况以及经验来设置的。
149.本技术的一个目的是可以基于属于同一个领域的多个文本训练该领域对应的文本翻译模型，然而，在训练文本翻译模型时需要双语语料，因此，在本技术另一实施例中，在种子文本与待识别文本属于同一领域的情况下，可以获取待识别文本对应的翻译文本，然后将待识别文本与翻译文本存储在该领域对应的第二文本库中，以将属于该领域的文本归类，之后在第二文本库中的文本数量满足要求的情况下，就可以根据第二文本库中的文本训练该领域对应的文本翻译模型。
150.其中，本技术的文本翻译模型是需要将一个语种的文本翻译为另一个语种的文本，其中，种子文本以及待识别文本都属于该一个语种，获取奥的待识别文本对应的翻译文本可以属于该另一个语种。
151.在本技术中，待识别文本是电子设备根据种子文本从第一文本库中筛选出的与种子文本属于同一领域的文本，待识别文本的语种与种子文本的语种相同。
152.第一文本库中除了包括待识别文本，还可以包括待识别文本对应的翻译文本，如此，在获取待识别文本对应的翻译文本时，可以从第一文本库中获取待识别文本对应的翻译文本。
153.其中，第一文本库至少包括一个语种的文本与文本在另一个语种中对应的翻译文本之间的对应关系。
154.对于该对应关系中的任意一个对应表项，该对应表项中的一个语种的文本与该文本在另一个语种中对应的翻译文本可以是事先从网络上搜集的，例如，在网络上的有些平台上，提供了双语的新闻、双语的小说、双语的作文以及双语的产品介绍等，所以，可以直接搜集到一个语种的文本，以及，可以直接搜集到该文本在另一个语种中对应的翻译文本，而不需要技术人员人工对进行翻译工作，从而可以降低技术人员的负担。
155.现实中存在的语言种类有很多，例如，汉语、英语、俄语、法语、日语、德语以及韩语等，在进行文本翻译时，通常是将一个语种的文本翻译为另一个语种的文本。
156.因此，对于任意两个不同的语种，第一文本库中可以包括任意两个不同的语种的一个语种的文本与该一个语种的文本在另一个语种中对应的翻译文本之间的对应关系。对于其他每两个不同的语种，同样如此。因此，在第一文本库中可以找到任意语种的文本在另一个语种中对应的翻译文本。
157.其中，在第二文本库中的文本的数量未达到第一预设数量的情况下，使用第二文本库中的文本训练出的该领域的文本翻译模型的泛化程度可能无法满足要求。
158.因此，为了使得训练出的该领域的文本翻译模型的泛化程度可能能够满足要求，需要第二文本库中的文本的数量大于或等于第一预设数量，也即，需要继续在第一文本库
中筛选该领域的文本以及该文本对应的翻译文本。
159.在一个实施例中，可以根据确定出的、与种子文本属于同一领域的待识别文本，在第一文本库中筛选与待识别文本属于同一领域的文本，具体筛选过程可以参见图1所示的实施例，在此不做详述。
160.或者，在另一实施例中，可以基于文本分类模型在第一文本库中筛选与待识别文本属于同一领域的文本。
161.具体的，虽然第二文本库中的文本的数量小于第一预设数量，然而，在第二文本库中的文本的数量大于第二预设数量的情况下，可以根据第二文本库中的文本训练该领域对应的领域分类模型；例如，可以基于第二文本库中的文本对初始模型训练，直至初始模型中的参数收敛，得到文本分类模型。其中，初始模型包括：支持向量机(support vector machine)、k近邻(k-nearest neighbor)模型以及多重伯努利(multiple-bernoulli)模型等。
162.之后可以基于领域分类模型在第一文本库中筛选与种子文本属于同一领域的文本；然后获取筛选出的文本对应的翻译文本，再将筛选出的文本与筛选出的文本对应的翻译文本存储在第二文本库中。直至第二文本库中的文本的数量大于或等于第一预设数量为止，就可以根据第二文本库中的文本训练该领域对应的文本翻译模型。
163.在一个可能的实现场景中，可以基于训练得到的该领域对应的文本翻译模型对该领域的文本进行翻译，得到翻译结果。
164.例如，在一个可能的实施例中，可以将翻译结果提供给多种类型的主体，例如提供给专利代理事务所、国家知识产权局专利局、企业或翻译公司等。企业包括申请专利的申请人，还可以包括专利数据库等各种类型的数据库的提供商等。上述主体在得到翻译结果之后就可以使用翻译结果从事正常活动等。
165.例如，在一个例子中，企业具有英文的申请文件，需要在国家知识产权局专利局申请专利，而在国家知识产权局专利局申请专利需要中文的申请文件，因此，需要将英文的申请文件翻译成中文的申请文件，然后基于中文的申请文件在国家知识产权局专利局申请专利。
166.在一个例子中，企业可以将对英文的申请文件的翻译工作委托给翻译公司，翻译公司可以确定英文的申请文件的领域，然后基于该领域的文本翻译模型对英文的申请文件进行翻译，得到中文的申请文件，然后翻译公司将中文的申请文件交给企业审核，在企业审核无误之后，企业可以将中文的申请文件递交给专利代理事务所，以委托专利代理事务进行专利申请工作。专利代理事务所可以将中文的申请文件递交给国家知识产权局专利局来申请专利。国家知识产权局专利局收到申请专利的请求以及中文的申请文件之后，可以开始进行专利申请流程等。
167.另外，还可以将中文的申请文件交给数据库的提供商，以使数据库的提供商可以基于中文的申请文件对外提供数据服务等。
168.参照图2，示出了本技术一种文本处理装置的实施例的结构框图，具体可以包括如下模块：
169.第一获取模块11，用于获取待识别文本；
170.第二获取模块12，用于基于n-gram语言模型在所述待识别文本中获得第一文本
块，所述第一文本块包括n个相邻的词，n为大于1的整数；
171.第三获取模块13，用于获取所述第一文本块在种子文本中的出现次数；
172.确定模块14，用于根据所述出现次数确定所述待识别文本与所述种子文本是否属于同一领域。
173.在一个可选的实现方式中，所述第一获取模块包括：
174.选择单元，用于在第一文本库中选择任意一个文本，并作为待识别文本；
175.或，
176.搜索单元，用于在所述第一文本库中获得与所述种子文本的语义相关的文本，并作为所述待识别文本。
177.在一个可选的实现方式中，所述搜索单元包括：
178.生成子单元，用于根据所述种子文本的语义生成检索查询词；
179.检索子单元，用于根据所述检索查询词在所述第一文本库中进行检索；
180.获得子单元，用于获得与所述种子文本的语义相关的文本。
181.在一个可选的实现方式中，所述第三获取模块包括：
182.查找单元，用于查询已知的频次词典获取所述第一文本块在种子文本中的出现次数，其中，所述频次词典中存储有如下对应关系：文本块以及文本块在种子文本中出现的次数。
183.在一个可选的实现方式中，所述第三获取模块还包括：
184.第一获取单元，用于基于n-gram语言模型在所述种子文本中获得第二文本块，所述第二文本块包括n个相邻的词；
185.第二获取单元，用于获取所述第二文本块在所述种子文本中的出现次数；
186.存储单元，用于所述频次词典中，建立所述第二文本块与所述第二文本块在所述种子文本中的出现次数之间的对应关系。
187.在一个可选的实现方式中，所述确定模块包括：
188.求和单元，用于将不同的第一文本块在所述种子文本中的出现次数求和，得到总次数；
189.确定单元，用于根据所述总次数确定所述待识别文本与所述种子文本是否属于同一领域。
190.在一个可选的实现方式中，所述确定单元包括：
191.第一确定子单元，用于在所述总次数大于或等于第一预设阈值的情况下，确定所述种子文本与所述待识别文本属于同一领域；
192.第二确定子单元，用于在所述总次数小于第一预设阈值的情况下，确定所述种子文本与所述待识别文本不属于同一领域。
193.在一个可选的实现方式中，所述确定单元包括：
194.获取子单元，用于获取所述待识别文本中包括的词的数量；
195.计算子单元，用于计算所述总次数与所述数量之间的比值；
196.第三确定子单元，用于在所述比值大于或等于第二预设阈值的情况下，确定所述种子文本与所述待识别文本属于同一领域；
197.第四确定子单元，用于在所述比值小于第二预设阈值的情况下，确定所述种子文
本与所述待识别文本不属于同一领域。
198.在一个可选的实现方式中，所述装置还包括：
199.第四获取模块，用于在所述种子文本与所述待识别文本属于同一领域的情况下，获取所述待识别文本对应的翻译文本；
200.第一存储模块，用于将所述待识别文本与所述翻译文本存储在所述领域对应的第二文本库中。
201.在一个可选的实现方式中，所述装置还包括：
202.第一训练模块，用于根据所述第二文本库中的文本训练所述领域对应的领域分类模型；
203.筛选模块，用于基于所述领域分类模型在第一文本库中筛选与所述种子文本属于同一领域的文本；
204.第五获取模块，用于获取筛选出的文本对应的翻译文本；
205.第二存储模块，用于将筛选出的文本与筛选出的文本对应的翻译文本存储在所述第二文本库中。
206.在一个可选的实现方式中，所述装置还包括：
207.第二训练模块，用于根据所述第二文本库中的文本训练所述领域对应的文本翻译模型。
208.在需要使用大量的属于同一领域的文本的情况下，例如，需要使用大量的属于同一领域文本训练该领域对应的文本翻译模型的情况下，不需要技术人员在包括各个领域的文本的文本库中人工筛选大量的该领域的文本，技术人员可以人工搜集少量的该领域的文本，并作为种子文本提交给电子设备，以使电子设备可以从文本库中选择文本，并作为待识别文本，然后自动化地基于n-gram语言模型在待识别文本中获得第一文本块，第一文本块包括n个相邻的词，并获取第一文本块在种子文本中的出现次数，再根据出现次数确定待识别文本与种子文本是否属于同一领域。
209.通过上述方式，可以在文本库中自动化地筛选出大量的该领域的文本，由于不需要技术人员在包括各个领域的文本的文本库中人工筛选大量的该领域的文本，技术人员可以人工搜集少量的该领域的文本，从而可以降低人工工作量，进而降低人工成本。
210.本技术实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本技术实施例中各方法步骤的指令(instructions)。
211.本技术实施例提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得电子设备执行如上述实施例中一个或多个所述的方法。本技术实施例中，所述电子设备包括服务器、网关、子设备等，子设备为物联网设备等设备。
212.本公开的实施例可被实现为使用任意适当的硬件，固件，软件，或及其任意组合进行想要的配置的装置，该装置可包括服务器(集群)、终端设备如iot设备等电子设备。
213.图3示意性地示出了可被用于实现本技术中所述的各个实施例的示例性装置1300。
214.对于一个实施例，图3示出了示例性装置1300，该装置具有一个或多个处理器1302、被耦合到(一个或多个)处理器1302中的至少一个的控制模块(芯片组)1304、被耦合
到控制模块1304的存储器1306、被耦合到控制模块1304的非易失性存储器(nvm)/存储设备1308、被耦合到控制模块1304的一个或多个输入/输出设备1310，和被耦合到控制模块1306的网络接口1312。
215.处理器1302可包括一个或多个单核或多核处理器，处理器1302可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中，装置1300能够作为本技术实施例中所述网关等服务器设备。
216.在一些实施例中，装置1300可包括具有指令1314的一个或多个计算机可读介质(例如，存储器1306或nvm/存储设备1308)和与该一个或多个计算机可读介质相合并被配置为执行指令1314以实现模块从而执行本公开中所述的动作的一个或多个处理器1302。
217.对于一个实施例，控制模块1304可包括任意适当的接口控制器，以向(一个或多个)处理器1302中的至少一个和/或与控制模块1304通信的任意适当的设备或组件提供任意适当的接口。
218.控制模块1304可包括存储器控制器模块，以向存储器1306提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
219.存储器1306可被用于例如为装置1300加载和存储数据和/或指令1314。对于一个实施例，存储器1306可包括任意适当的易失性存储器，例如，适当的dram。在一些实施例中，存储器1306可包括双倍数据速率类型四同步动态随机存取存储器(ddr4sdram)。
220.对于一个实施例，控制模块1304可包括一个或多个输入/输出控制器，以向nvm/存储设备1308及(一个或多个)输入/输出设备1310提供接口。
221.例如，nvm/存储设备1308可被用于存储数据和/或指令1314。nvm/存储设备1308可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(hdd)、一个或多个光盘(cd)驱动器和/或一个或多个数字通用光盘(dvd)驱动器)。
222.nvm/存储设备1308可包括在物理上作为装置1300被安装在其上的设备的一部分的存储资源，或者其可被该设备访问可不必作为该设备的一部分。例如，nvm/存储设备1308可通过网络经由(一个或多个)输入/输出设备1310进行访问。
223.(一个或多个)输入/输出设备1310可为装置1300提供接口以与任意其他适当的设备通信，输入/输出设备1310可以包括通信组件、拼音组件、传感器组件等。网络接口1312可为装置1300提供接口以通过一个或多个网络通信，装置1300可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如wifi、2g、3g、4g、5g等，或它们的组合进行无线通信。
224.对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器(例如，存储器控制器模块)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑封装在一起以形成系统级封装(sip)。对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(soc)。
225.在各个实施例中，装置1300可以但不限于是：服务器、台式计算设备或移动计算设
备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中，装置1300可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，装置1300包括一个或多个摄像机、键盘、液晶显示器(lcd)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(asic)和扬声器。
226.本技术实施例提供了一种电子设备，包括：一个或多个处理器；和，其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述电子设备执行如本技术中一个或多个所述的文本处理方法。
227.对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
228.本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。
229.本技术实施例是参照根据本技术实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、和流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程文本处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程文本处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
230.这些计算机程序指令也可存储在能引导计算机或其他可编程文本处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
231.这些计算机程序指令也可装载到计算机或其他可编程文本处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
232.尽管已描述了本技术实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例和落入本技术实施例范围的所有变更和修改。
233.最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
234.以上对本技术所提供的一种文本处理方法及装置，进行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的一般技术人员，依据本技术的思想，在具
体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本技术的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：物联网平台的注册方法、系统及平台与流程

一种文本处理方法及装置与流程

相关文献

最热文献