一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种语言处理方法、装置、设备及计算机可读存储介质与流程

2021-11-26 21:38:00 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,尤其涉及一种语言处理方法、装置、设备及计算机可读存储介质。


背景技术:

2.现有的光学字符识别技术(optical character recognition,ocr)和输入法能够对包括黏着语在内的多种语言进行处理。由于黏着语包括多个基础字母,每个基础字母可对应至少两种不同的字型,在词语中呈现的字型基于基础字母出现在词语中的位置、或者基础字母间的组合形式等因素而定,在对黏着语的处理过程中,现有的ocr和输入法在显示黏着语的文本形式时,无法对黏着语的字型进行自动选型,所显示的黏着语字型正确率往往无法满足期望。


技术实现要素:

3.本技术提供了一种语言处理方法、装置、设备及计算机可读存储介质,至少能够解决无法对黏着语的字型进行自动选型、无法正确显示黏着语的字型的技术问题。
4.一方面,本技术提供了一种语言处理方法,所述方法包括:
5.获取目标文本的至少两个基本区编码,所述基本区编码与至少两种字型编码关联;
6.确定所述至少两个基本区编码中相邻两个基本区编码的组合关系,所述组合关系表征相邻两个基本区编码是否对应相同的目标字型编码;
7.基于所述组合关系,从所述各个基本区编码关联的至少两种字型编码中确定所述各个基本区编码对应的目标字型编码;
8.获取所述目标字型编码对应的目标字符;
9.基于所述目标字符,显示所述目标文本。
10.另一方面提供了一种语言处理装置,所述装置包括:
11.第一获取模块,获取目标文本的至少两个基本区编码,所述基本区编码与至少两种字型编码关联;
12.第一确定模块,用于确定所述至少两个基本区编码中相邻两个基本区编码的组合关系,所述组合关系表征相邻两个基本区编码是否对应相同的目标字型编码;
13.第二确定模块,用于基于所述组合关系,从所述各个基本区编码关联的至少两种字型编码中确定所述各个基本区编码对应的目标字型编码;
14.第二获取模块,用于获取所述目标字型编码对应的目标字符;
15.显示模块,用于基于所述目标字符,显示所述目标文本。
16.另一方面提供了一种语言处理设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序、所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上所述的语言处理方法。
17.另一方面提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述的语言处理方法。
18.本技术提供的语言处理方法、装置、设备及计算机可读存储介质,具有如下技术效果:
19.本技术通过获取目标文本的至少两个基本区编码,确定至少两个基本区编码中相邻两个基本区编码的组合关系,可基于所述组合关系,从所述各个基本区编码关联的至少两种字型编码中确定所述各个基本区编码对应的目标字型编码,实现至少两个基本区编码的自动选型;根据目标字型编码对应的目标字符显示目标文本,实现目标文本的字型的正确显示,提高目标文本的可读性。
附图说明
20.为了更清楚地说明本技术实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
21.图1是本技术实施例提供的一种语言处理方法的流程示意图;
22.图2是本技术实施例提供的一种确定相邻两个基本区编码的组合关系的方法的流程示意图;
23.图3是本技术实施例提供的另一种确定相邻两个基本区编码的组合关系的方法的流程示意图;
24.图4是本技术实施例提供的一种基本区编码组合的示意图;
25.图5是本技术实施例提供的又一种确定相邻两个基本区编码的组合关系的方法的流程示意图;
26.图6是本技术实施例提供的再一种确定相邻两个基本区编码的组合关系的方法的流程示意图;
27.图7是本技术实施例提供的一个基本区编码“0645”的不同语法信息对应的字型编码的示意图;
28.图8是本技术实施例提供的一种目标文本中单词的正确显示与错误显示的对比图;
29.图9是本技术实施例提供的一种语言处理方法的应用示例的流程示意图;
30.图10是本技术实施例提供的一种语言处理装置的结构示意图;
31.图11是本技术实施例提供的一种服务器的结构示意图。
具体实施方式
32.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
33.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
34.以下介绍本技术一种语言处理方法,图1是本技术实施例提供的一种语言处理方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图1所示,所述方法可以包括:
35.s101:获取目标文本的至少两个基本区编码,所述基本区编码与至少两种字型编码关联。
36.本说明书实施例中,所述目标文本可以为黏着语文本对应的编码文本。
37.在实际应用中,黏着语文本可以包括至少两个不同的黏着语文字,至少两个不同的黏着语文字的字型具有对应的基础字母。计算机可以通过ocr技术识别图像中的黏着语文本,还可以通过黏着语输入法获取外部输入的黏着语文本,在对黏着语文本存储的情况下,对至少两个黏着语文字的字型对应的基础字母的编码进行存储,得到黏着语文本对应的编码文本。
38.本说明书实施例中,所述目标文本的至少两个基本区编码对应至少两个基础字母的编码,所述基本区编码关联的至少两种字型编码对应上述基础字母关联的至少两种字型。
39.在一些实施例中,所述至少两个基本区编码、以及所述至少两种字型编码的编码类型可以包括但不限于统一码(unicode)。
40.以目标文本为阿拉伯字母体系的维吾尔语(一种黏着语,以下简称维吾尔语)文本对应的编码文本为例:
41.维吾尔语包括32个基础字母,每个基础字符与至少两个维吾尔文字型关联,总共128种维吾尔语字型。计算机可以通过ocr技术识别图像中维吾尔语文本,还可以通过维吾尔语输入法获取外部输入的维吾尔语文本,在对维吾尔语文本进行存储的情况下,对至少两个维吾尔语字型对应的基础字母的编码进行存储,得到维吾尔语文本对应的编码文本。
42.本说明书实施例中,获取目标文本的至少两个基本区编码,可以通过对至少两个基本区编码进行字型编码的自动选择(自动选型),实现目标文本的字型的正确显示。
43.s103:确定所述至少两个基本区编码中相邻两个基本区编码的组合关系,所述组合关系表征相邻两个基本区编码是否对应相同的目标字型编码。
44.本说明书实施例中,为了对目标文本的至少两个基本区编码进行自动选型,需要考虑至少两个基本区编码中相邻两个基本区编码的组合关系。对于可以组合的相邻两个基本区编码,需要将它们作为一个编码组合,确定该编码组合对应的目标字型。
45.本说明书实施例中,为了确定至少两个基本区编码中相邻两个基本区编码的组合关系,所述方法还包括:
46.根据目标文本对应的书写顺序,确定所述至少两个基本区编码的处理优先级;
47.遍历所述至少两个基本区编码;
48.确定与当前遍历到的基本区编码相邻、且处理优先级高于所述当前遍历到的基本区编码的第一编码;
49.确定与当前遍历到的基本区编码相邻、且处理优先级低于所述当前遍历到的基本区编码的第二编码。
50.本说明书实施例中,根据至少两个基本区编码的处理优先级,先确定第一编码与当前遍历到的基本区编码的组合关系。相应的,如图2所示,所述确定所述至少两个所述至少两个基本区编码中相邻两个基本区编码的组合关系,包括:
51.s201:获取预设的至少一个基本区编码组合,所述基本区编码组合中的两个基本区编码对应相同的目标字型编码。
52.本说明书实施例中,可以根据黏着语的语言规则,对能够建立组合关系的两个基本区编码进行穷举,获得至少一个基本区编码组合,将至少一个基本区编码组合预先设置在计算机中。
53.s203:判断在所述至少一个基本区编码组合中是否存在第一目标编码组合;其中,所述第一目标编码组合为所述第一编码与所述当前遍历到的基本区编码的组合。
54.s205:在判断出存在所述第一目标编码组合的情况下,判断所述当前遍历到的基本区编码和所述第一编码是否已建立组合关系,在判断出未建立组合关系的情况下,建立所述当前遍历到的基本区编码和所述第一编码的组合关系。
55.本说明书实施例中,在第一编码能够与当前遍历到的基本区编码建立组合关系的情况下,为了避免组合关系的重复建立,还需要判断第一编码是否已经与当前遍历到的基本区编码建立组合关系。在第一编码和当前遍历到的基本区编码未建立组合关系的情况下,建立第一编码与当前遍历到的基本区编码的组合关系。
56.s207:在遍历结束时,将遍历过程中建立的组合关系作为所述至少两个基本区编码中相邻两个基本区编码的组合关系。
57.本说明书实施例中,将建立组合关系的相邻两个基本区编码作为基本区编码组合。
58.本说明书实施例中,在第一编码和当前遍历到的基本区编码已经建立组合关系的情况下,无需处理当前遍历到的基本区编码。相应的,如图3所示,所述确定所述至少两个所述至少两个基本区编码中相邻两个基本区编码的组合关系,包括:
59.s301:在判断出存在所述第一目标编码组合、且所述当前遍历到的基本区编码和所述第一编码已建立组合关系的情况下,遍历下一个基本区编码。
60.以维吾尔语为例,如图4所示,为本说明书实施例提供的一种基本区编码组合的示意图,由相邻的两个基本区编码“0644”和“0627”组成,对应的字型编码为“fedf fe8e”。
61.假设当前遍历到的基本区编码为“0627”,第一编码为“0644”,第二编码为“0634”,则可以判断得到“0644”可以与“0627”建立组合,进一步判断“0644”是否已经和“0627”建立组合,在没有建立组合的情况下建立“0644”和“0627”的组合关系,如果已经建立组合,则继
续遍历“0627”之后的第二编码“0634”。
62.本说明书实施例中,可以通过判断第一编码和当前遍历到的基本区编码是否已经建立组合关系,来避免重复建立第一编码和当前遍历到的基本区编码的组合关系,进而避免重复对第一组合编码进行自动选型的问题,提高本技术自动选型方案的严谨性。
63.此外,在没有建立“0644”和“0627”的组合关系的情况下,按照这两个基本区编码对应的字型进行显示,则会得到错误字符在建立“0644”和“0627”的组合关系的情况下,确定建立得到的基本区编码组合对应的目标字型编码为“fedf fe8e”,按照字型编码“fedf fe8e”对应的字型显示,则会得到正确字符
64.本说明书实施例中,通过将建立组合关系的相邻两个基本区编码作为基本区编码组合,自动选择基本区编码组合对应的字型,可以提高所显示的目标文本的字型的准确性,大大增加目标文本的可读性。
65.本说明书实施例中,根据至少两个基本区编码的处理优先级,在第一编码无法与当前遍历到的基本区编码组合的情况下,再确定当前遍历到的基本区编码与第二编码的组合关系。相应的,如图5所示,所述确定所述至少两个所述至少两个基本区编码中相邻两个基本区编码的组合关系,包括:
66.s501:在判断出不存在所述第一目标编码组合的情况下,判断所述至少一个基本区编码组合中是否存在第二目标编码组合;其中,所述第二目标编码组合为所述当前遍历到的编码与所述第二编码的组合;
67.s503:在判断出存在所述第二目标编码组合的情况下,建立所述当前遍历到的基本区编码与所述第二编码的组合关系。
68.以维吾尔语为例,如图6所示,为本说明书实施例提供的一种基本区编码组合,由相邻的两个基本区编码“0644”和“0627”组成,对应的字型编码为“fedf fe8e”。
69.假设当前遍历到的基本区编码为“0644”,第一编码为“0634”,第二编码为“0627”,则可以判断得到“0634”和“0644”无法建立组合关系,“0644”可以与“0627”建立组合,建立“0644”和“0627”的组合关系。
70.本说明书实施例中,根据处理优先级先确定第一编码和当前遍历到的基本区编码能否建立组合关系,在第一编码无法和当前遍历到的基本区编码建立组合关系的情况下,再确定当前遍历到的基本区编码进行组合,可以避免当前遍历到的基本区编码在可以和第一编码组合的情况下,错误的和第二编码组合,提高自动选型方案的严谨性。
71.本说明书实施例中,在当前遍历到的基本区编码无法与第二编码建立组合关系的情况下,相应的,如图6所示,所述确定所述至少两个基本区编码中相邻两个基本区编码的组合关系,包括:
72.s601:在判断出不存在所述第一目标编码组合、且不存在所述第二目标编码组合的情况下,确定所述当前遍历到的基本区编码在所述目标文本中的目标语法信息;
73.s603:基于所述目标语法信息,从所述当前遍历到的基本区编码关联的至少两种字型编码中确定所述当前遍历到的基本区编码对应的目标字型编码。
74.本说明书实施例中,对于能够建立组合关系的相邻两个基本区编码,将相邻两个基本区编码作为整体(基本区编码组合)进行自动选型。而对于当前遍历到的基本区编码无
法与对应的第一编码或第二编码进行组合的情况,基于当前遍历到的基本区编码在目标文本中的目标语法信息,对其进行自动选型。
75.本说明书实施例中,所述当前遍历到的基本区编码在目标文本中的目标语法信息可以为上述不同语法信息中的一种。
76.本说明书实施例中,充分考虑影响基本区编码对应的目标字型编码选择的因素,可提高自动选型方案的准确性和严谨性。
77.在一个可选的实施例中,为了确定所述当前遍历到的基本区编码在目标文本中的目标语法信息,所述确定所述当前遍历到的基本区编码在所述目标文本中的目标语法信息,包括:
78.确定第一编码和第二编码的类型,所述类型包括文字类型和符号类型;
79.根据所述第一编码和第二编码的类型,确定所述当前遍历到的基本区编码在所述目标文本的目标语法信息。
80.本说明书实施例中,目标文本的至少一个基本区编码可以包括符号类型的基本区编码和/或文字类型的基本区编码,符号类型的基本区编码用于分隔文字类型的基本区编码。基于此,根据第一编码和第二编码的类型,可以确定当前遍历到的基本区编码在目标文本中的目标语法信息。
81.在一个具体的实施例中,所述根据所述第一编码和第二编码的类型,确定所述当前遍历到的基本区编码在所述目标文本的单词中的目标语法信息,包括:
82.在第一编码和第二编码的类型均为符号类型的情况下,确定所述当前遍历到的基本区编码的目标语法信息为:所述当前遍历到的基本区编码为所述目标文本的单词;
83.在第一编码的类型为符号类型、且第二编码的类型为文字类型的情况下,确定所述当前遍历到的基本区编码的目标语法信息为:所述当前遍历到的基本区编码位于目标文本的单词的词首;
84.在第一编码和第二编码的类型均为文字类型的情况下,确定所述当前遍历到的基本区编码的目标语法信息为:所述当前遍历到的基本区编码位于目标文本的单词的词中;
85.在第一编码的类型为文字类型、且第二编码的类型为符号类型的情况下,确定所述当前遍历到的基本区编码的目标语法信息为:所述当前遍历到的基本区编码位于目标文本的单词的词尾。
86.本说明书实施例中,当前遍历到的基本区编码在目标文本中的语法信息不同,所对应的目标字型编码不同。
87.在一个可选的实施例中,为了基于基本区编码在目标文本中的目标语法信息,对基本区编码进行自动选型,所述方法还包括:
88.预先设置第二映射信息,所述第二映射信息表征所述当前遍历到的基本区编码的不同语法信息与对应的目标字型编码间的映射关系;其中,所述当前遍历到的基本区编码的不同语法信息包括以下至少两种:所述当前遍历到的基本区编码为所述目标文本的单词;所述当前遍历到的基本区编码位于目标文本的单词的词首;所述当前遍历到的基本区编码位于目标文本的单词的词中;所述当前遍历到的基本区编码位于目标文本的单词的词尾;
89.相应的,所述基于所述目标语法信息,从所述当前遍历到的基本区编码关联的至
少两种字型编码中确定所述当前遍历到的基本区编码对应的目标字型编码,包括:
90.根据所述第二映射关系和所述目标语法信息,从所述当前遍历到的基本区编码关联的至少两种字型编码中确定所述当前遍历到的基本区编码对应的目标字型编码。
91.本说明书实施例中,根据目标文本对应的黏着语的语言规则,确定当前遍历到的基本区编码的不同语法信息对应的字型编码,预先建立不同语法信息与对应的字型编码的映射关系,得到第二映射信息。
92.以维吾尔语为例,如图7所示,为本说明书实施例提供的一个基本区编码“0645”的不同语法信息对应的字型编码的示意图。其中,语法信息为目标文本的单词对应的字型编码是独立式编码,语法信息为位于目标文本的单词的词首对应的字型编码是后连式编码,语法信息为位于目标文本的单词的词中对应的字型编码是前后连式编码,语法信息为位于目标文本的单词的词尾对应的字型编码是前连式编码。此外,图7还展示了各字型编码对应的字符。
93.其中,该基本区编码的对应的维吾尔语中的基础字母是辅音,与独立式编码相同。如果基本区编码的对应的维吾尔语中的基础字母是元音,与独立式编码相同,其关联的至少两个字型编码还包括简单独立式编码,在此不作枚举。
94.本说明书实施例中,通过预先设置第二映射关系,可以在基于当前遍历到的基本区编码在目标文本中的目标语法信息的情况下,迅速从当前遍历到的基本区编码关联得至少两个字型编码中确定目标字型编码,提高了语言处理速度。
95.本说明书实施例中,目标文本的至少一个基本区编码还可以包括至少一个特殊的基本区编码,上述至少一个特殊的基本区编码与相邻的第一编码和第二编码无法组合,也无法仅根据其在目标文本中的目标语法信息,来确定对应的目标字型编码。针对这一类特殊的基本区编码,需要结合其对应的第一编码具体是哪个/些编码,来确定其对应的目标字型编码。
96.在一个可选的实施例中,在当前遍历到的基本区编码为特殊的基本区编码的情况下,所述方法还包括:
97.预先设置至少一个编码集合;
98.预先设置第三映射信息,所述第三映射信息表征所述第一编码分别为预设的各个编码集合中的编码的情况下、与对应的目标字型编码间的映射关系;
99.相应的,所述基于所述目标语法信息,从所述当前遍历到的基本区编码关联的至少两种字型编码中确定所述当前遍历到的基本区编码对应的目标字型编码,还包括:
100.在所述当前遍历到的基本区编码位于所述目标文本中单词的词中的情况下,判断所述第一编码是否属于预设的至少一个编码集合;
101.根据判断结果,从至少一个编码集合中确定所述第一编码的所属编码集合;
102.根据所述第三映射信息和所述第一编码的所属编码集合,确定所述当前遍历到的基本区编码对应的目标字型编码。
103.本说明书实施例中,在当前遍历到的基本区编码位于目标文本中单词的词中的情况下,其对应的目标字型编码还需要结合第一编码的具体编码来确定。可以理解,第一编码的类型为文字类型,至少一个编码集合中的基本区编码的类型为文字类型。
104.本说明书实施例中,根据目标文本对应的黏着语的语言规则,确定当前遍历到的
基本区编码在位于目标文本中单词的词中、对应的目标字型编码为不同字型编码的情况下,可以作为第一编码的(基本区)编码集合,预先建立不同字型编码与对应的基本区编码集合的映射关系,得到第三映射关系。
105.为了方便编码集合的表示和处理,在一个可选的实施例中,可以从1开始对全部字型编码进行重新编码。以维吾尔语为例,维吾尔语具有128个字型编码,则可以将这些字型编码按照1

128进行重新编码。
106.以基本区编码“fbf4”为例,对其重新编码得到新编码为“6”,当其位于目标文本中单词的词中的情况下,如果第一编码属于以新编码表示的集合{9,10,11,12,13,65,66,67,68,69}中,“fbf4”对应的新编码为50,新编码50对应的目标字型编码为“06c8”;其中,新编码9

13分别对应的字型编码为“062f,0631,0632,0698,06cb”,新编码65

69分别对应的字型编码为“feaa,feae,feb0,fe8b,fbdf”。
107.s105:基于所述组合关系,从所述各个基本区编码关联的至少两种字型编码中确定所述各个基本区编码对应的目标字型编码。
108.本说明书实施例中,对于能够建立组合关系的相邻两个基本区编码,将相邻两个基本区编码作为整体(基本区编码组合)进行自动选型,确定基本区编码组合对应的字型编码为目标字型编码。
109.在一个可选的实施例中,为了确定基本区编码组合对应的字型编码,所述方法还包括:
110.预先设置第一映射信息,所述第一映射信息表征各个基本区编码组合与对应的目标字型编码间的映射关系;
111.相应的,所述基于所述组合关系,从所述各个基本区编码关联的至少两种字型编码中确定所述各个基本区编码对应的目标字型编码,包括:
112.在所述当前遍历到的基本区编码与所述第二编码建立有组合关系的情况下,根据所述第一映射信息,从各个基本区编码组合对应的目标字型编码中确定与所述第二目标编码组合对应的目标字型编码。
113.本说明书实施例中,根据目标文本对应的黏着语的语言规则,确定至少一个基本区编码组合对应的字型编码,预先建立至少一个基本区编码与对应的字型编码的映射关系,得到第一映射信息。
114.具体的,第一映射信息可以参考图8所示。
115.s107:获取所述目标字型编码对应的目标字符;
116.本说明书实施例中,不同的字型编码对应的字符不同。
117.在一个可选的实施例中,预先建立不同字型编码与对应的字符的映射关系,得到第四映射信息,根据第四映射信息,获取目标字型编码对应的目标字符。
118.s109:基于所述目标字符,显示所述目标文本。
119.本说明书实施例中,在确定目标文本的至少两个基本区编码对应的目标字型编码之后,根据目标字型编码对应的目标字符,对目标文本进行显示。
120.如图8所示,为本说明书实施例提供的一种目标文本中单词的正确显示与错误显示的对比图:
121.以维吾尔语为例,维吾尔语的书写顺序为从右到左。
122.图8中涉及一个由三个基本区编码组成的单词,分别位于单词的词首、词中和词尾。如果没有对三个基本区编码进行自动换型,则会根据基本区编码对应的字符对单词进行显示,得到图8中的无选型错误显示;如果按照本说明书实施例中的语言处理方法,自动选择三个基本区编码对应的目标字型编码,按照目标字型编码对应的目标字符对单词进行显示,得到图8中的有选型正确显示。
123.本说明书实施例中,通过获取目标文本的至少两个基本区编码,对至少两个基本区编码进行自动换型,可实现目标文本的字型的正确显示,提高目标文本的可读性。
124.为了详细阐述上述说明书实施例提供的语言处理方法的应用,如图9所示,以维吾尔语为例,介绍本技术提供的语言处理方法的一种应用示例。具体的流程包括:
125.s901:获取维吾尔语的一个单词的全部基本区编码“0644 0627
……
0649”;其中,“ ”为每个基本区编码间的分隔符,以便于区分各个基本区编码。
126.s902:获取根据维吾尔语的语言规则预设的至少一个基本区编码组合;
127.s903:遍历“0644 0627
……
0649”中的每个基本区编码,根据预设的至少一个基本区编码组合,确定“0644 0627
……
0649”中存在的能够建立组合关系的相邻两个基本区编码为“0644”和“0627”;
128.s904:建立“0644”和“0627”的组合关系,将“0644”和“0627”的目标编码组合表示为“(0644 0627)”;
129.s905:对于无法与相邻的基本区编码建立组合关系的基本区编码“0649”,确定“0649”的目标语法信息为位于维吾尔语中单词的词尾;
130.s906:根据预设的第一映射信息,确定“(0644 0627)”对应的目标字型编码为“(fedf fe8e)”;
131.s907:根据预设的第二映射信息,确定“0649”的目标语法信息为位于维吾尔语中单词的词尾的情况下,对应的目标字型编码为它的前连式编码“fef0”;
132.s908:根据“(fedf fe8e)
……
fef0”对应的目标字符,对维吾尔语的该单词进行显示。
133.上述s901至s908可以理解为对维吾尔语的单词的全部基本区编码进行正向编码的过程。
134.在一个可选的实施例中,为了确保正向编码的过程没有失误,上述流程还可以包括反向解码的过程,具体的流程为:
135.在执行s907之后,执行s909。
136.s909:根据预设的第一映射信息和第二映射信息,对“(fedf fe8e)
……
fef0”进行反向解码,在反向解码得到的多个基本区编码为“0644 0627
……
0649”的情况下,确定正向编码的过程没有失误;执行s908。
137.本说明书实施例中,根据如上所述的语言处理方法对获得的目标文本的至少两个基本区编码进行正向编码和反向编码,对正向编码得到的结果和反向编码得到的结果进行映射,可减少语言处理的误差,确保目标文本的字型的正确显示。
138.如图10所示,为本技术实施例提供的一种语言处理装置。参照图10,所述装置包括:
139.第一获取模块1001,获取目标文本的至少两个基本区编码,所述基本区编码与至
少两种字型编码关联;
140.第一确定模块1002,用于确定所述至少两个基本区编码中相邻两个基本区编码的组合关系,所述组合关系表征相邻两个基本区编码是否对应相同的目标字型编码;
141.第二确定模块1003,用于基于所述组合关系,从所述各个基本区编码关联的至少两种字型编码中确定所述各个基本区编码对应的目标字型编码;
142.第二获取模块1004,用于获取所述目标字型编码对应的目标字符;
143.显示模块1005,用于基于所述目标字符,显示所述目标文本。
144.在一些实施例中,所述装置还包括:
145.第三确定模块,用于根据目标文本对应的书写顺序,确定所述至少两个基本区编码的处理优先级;
146.遍历模块,用于遍历所述至少两个基本区编码;
147.第四确定模块,用于确定与当前遍历到的基本区编码相邻、且处理优先级高于所述当前遍历到的基本区编码的第一编码;
148.第五确定模块,用于确定与当前遍历到的基本区编码相邻、且处理优先级低于所述当前遍历到的基本区编码的第二编码;
149.相应的,所述第一确定模块1002,还包括:
150.获取单元,用于获取预设的至少一个基本区编码组合,所述基本区编码组合中的两个基本区编码对应相同的目标字型编码;
151.第一判断单元,用于判断在所述至少一个基本区编码组合中是否存在第一目标编码组合;其中,所述第一目标编码组合为所述第一编码与所述当前遍历到的基本区编码的组合;
152.第一建立单元,用于在判断出存在所述第一目标编码组合的情况下,判断所述当前遍历到的基本区编码和所述第一编码是否已建立组合关系,在判断出未建立组合关系的情况下,建立所述当前遍历到的基本区编码和所述第一编码的组合关系;
153.第一确定单元,用于在遍历结束时,将遍历过程中建立的组合关系作为所述至少两个基本区编码中相邻两个基本区编码的组合关系。
154.相应的,所述第一确定模块1002,还包括:
155.第二判断单元,用于在判断出不存在所述第一目标编码组合的情况下,判断所述至少一个基本区编码组合中是否存在第二目标编码组合;其中,所述第二目标编码组合为所述当前遍历到的编码与所述第二编码的组合;
156.第二建立单元,在判断出存在所述第二目标编码组合的情况下,建立所述当前遍历到的基本区编码与所述第二编码的组合关系。
157.相应的,所述第一确定模块1002,还包括:
158.遍历单元,用于在判断出存在所述第一目标编码组合、且所述当前遍历到的基本区编码和所述第一编码已建立组合关系的情况下,遍历下一个基本区编码。
159.在一些实施例中,所述装置还包括:
160.第一映射模块,用于预先设置第一映射信息,所述第一映射信息表征各个基本区编码组合与对应的目标字型编码间的映射关系;
161.相应的,所述第二确定模块1003,包括:
162.确定单元,用于在所述当前遍历到的基本区编码与所述第二编码建立有组合关系的情况下,根据所述第一映射信息,从各个基本区编码组合对应的目标字型编码中确定与所述第二目标编码组合对应的目标字型编码。
163.在一些实施例中,所述第一确定模块1002,还包括:
164.第二确定单元,用于在判断出不存在所述第一目标编码组合、且不存在所述第二目标编码组合的情况下,确定所述当前遍历到的基本区编码在所述目标文本中的目标语法信息;
165.第三确定单元,用于基于所述目标语法信息,从所述当前遍历到的基本区编码关联的至少两种字型编码中确定所述当前遍历到的基本区编码对应的目标字型编码。
166.在一些实施例中,所述第三确定单元,包括:
167.第一确定子单元,用于确定第一编码和第二编码的类型,所述类型包括文字类型和符号类型;
168.第二确定子单元,用于根据所述第一编码和第二编码的类型,确定所述当前遍历到的基本区编码在所述目标文本的目标语法信息。
169.在一些实施例中,所述第二确定子单元,具体用于:
170.在第一编码和第二编码的类型均为符号类型的情况下,确定所述当前遍历到的基本区编码的目标语法信息为:所述当前遍历到的基本区编码为所述目标文本的单词;
171.在第一编码的类型为符号类型、且第二编码的类型为文字类型的情况下,确定所述当前遍历到的基本区编码的目标语法信息为:所述当前遍历到的基本区编码位于目标文本的单词的词首;
172.在第一编码和第二编码的类型均为文字类型的情况下,确定所述当前遍历到的基本区编码的目标语法信息为:所述当前遍历到的基本区编码位于目标文本的单词的词中;
173.在第一编码的类型为文字类型、且第二编码的类型为符号类型的情况下,确定所述当前遍历到的基本区编码的目标语法信息为:所述当前遍历到的基本区编码位于目标文本的单词的词尾。
174.在一些实施例中,所述装置还包括:
175.第二映射模块,用于预先设置第二映射信息,所述第二映射信息表征所述当前遍历到的基本区编码的不同语法信息与对应的目标字型编码间的映射关系;其中,所述当前遍历到的基本区编码的不同语法信息包括以下至少两种:所述当前遍历到的基本区编码为所述目标文本的单词;所述当前遍历到的基本区编码位于目标文本的单词的词首;所述当前遍历到的基本区编码位于目标文本的单词的词中;所述当前遍历到的基本区编码位于目标文本的单词的词尾;
176.相应的,所述述第三确定单元,还包括:
177.第三确定子单元,用于根据所述第二映射关系和所述目标语法信息,从所述当前遍历到的基本区编码关联的至少两种字型编码中确定所述当前遍历到的基本区编码对应的目标字型编码。
178.在一些实施例中,所述装置还包括:
179.设置模块,用于预先设置至少一个编码集合;
180.第三映射模块,用于预先设置第三映射信息,所述第三映射信息表征所述第一编
码分别为预设的各个编码集合中的编码的情况下、与对应的目标字型编码间的映射关系;
181.相应的,所述第三确定单元,还包括:
182.判断子单元,用于在所述当前遍历到的基本区编码位于所述目标文本中单词的词中的情况下,判断所述第一编码是否属于预设的至少一个编码集合;
183.第四确定子单元,用于根据判断结果,从至少一个编码集合中确定所述第一编码的所属编码集合;
184.第五确定子单元,用于根据所述第三映射信息和所述第一编码的所属编码集合,确定所述当前遍历到的基本区编码对应的目标字型编码。
185.所述的装置实施例中的装置与方法实施例基于同样地发明构思。
186.本技术实施例还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现前述的语言处理方法。
187.根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
188.本技术实施例提供了一种语言处理服务器,该语言处理服务器包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的语言处理方法。
189.存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及语言处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
190.本技术实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图11是本技术实施例提供的一种语言处理方法的服务器的硬件结构框图。如图11所示,该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,cpu)1110(处理器1110可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器1130,一个或一个以上存储应用程序1123或数据1122的存储介质1120(例如一个或一个以上海量存储设备)。其中,存储器1130和存储介质1120可以是短暂存储或持久存储。存储在存储介质1120的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1110可以设置为与存储介质1120通信,在服务器1100上执行存储介质1120中的一系列指令操作。服务器1100还可以包括一个或一个以上电源1160,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1140,和/或,一个或一个以上操作系统1121,例如windows servertm,mac os xtm,unixtm,linuxtm,freebsdtm等等。
191.输入输出接口1140可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1100的通信供应商提供的无线网络。在一个实例中,输入输出接口1140包括一个网络适配器(network interface controller,nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口1140可以为射频(radio frequency,rf)模块,其用于通过无线方式与互联网进行通讯。
192.本领域普通技术人员可以理解,图11所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器1100还可包括比图11中所示更多或者更少的组件,或者具有与图11所示不同的配置。
193.本技术的实施例还提供了一种存储介质,所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种语言处理方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的语言处理方法。
194.可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(rom,read

onlymemory)、随机存取存储器(ram,randomaccess memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
195.由上述本技术提供的语言处理方法、装置、服务器或存储介质的实施例可见,本技术中通过确定至少两个基本区编码中相邻两个基本区编码的组合关系,可以基于组合关系对目标文本的至少两个基本区编码进行自动选型,实现目标文本的字型的正确显示,大大提高目标文本的可读性。
196.需要说明的是:上述本技术实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
197.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
198.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
199.以上所述仅为本技术的较佳实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献