一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

中文文本的转换方法、装置、设备及介质与流程

2022-02-21 04:24:38 来源:中国专利 TAG:


1.本发明涉及人工智能领域,尤其涉及一种中文文本的转换方法、装置、计算机设备以及存储介质。


背景技术:

2.在计算机系统中,数据的存储形式通常多种多样(如,一部分数据是以中文的形式存储的,另一部分数据是以英文的形式存储的),为了便于对数据进行处理,通常需要对不同形式的数据进行数据标准化处理,从而将数据转换成同一形式,更便于后续对数据进行的处理。在数据标准化处理中,将中文文本转换成对应的英文文本是一种常见的标准化处理方式。目前,将中文文本转换成英文文本的常见实现方式是,通过基于人工智能技术的中英文文本转换模型来实现。具体地,中英文文本转换模型可以先理解中文文本的语义,然后再根据中文文本的语义生成对应的英文文本,从而实现中英文的转换。然而,中英文文本转换模型中的转换过程通常较为复杂且可解释性较差,其转换得到的英文文本的准确度不高,如,同一个中文文本在两次转换中,可能会产生并不完全相同的英文文本。另外,在使用中英文文本转换模型来进行中英文的转换过程中,通常需要进行大量的数据计算,导致其文本转换效率通常也不高。可见,目前的中文文本的转换方法的转换准确度和转换效率仍有进一步提升的空间。


技术实现要素:

3.本发明所要解决的技术问题在于,目前的中文文本的转换方法的转换准确度和转换效率较低。
4.为了解决上述技术问题,本发明第一方面公开了一种中文文本的转换方法,所述方法包括:
5.获取待转换的中文文本;
6.基于预设的词根库对待匹配文本执行预设的匹配操作,以得到所述待匹配文本对应的匹配词根和尾部文本,其中,所述待匹配文本是基于所述待转换的中文文本确定出的,所述待匹配文本的初始值为所述中文文本,所述词根库预先存储有多个中文词根,且每个所述中文词根均预先设置有对应的英文词根,所述尾部文本是指所述待匹配文本中除去所述匹配词根的部分文本;
7.将所述匹配词根添加至预设的词根容器中;
8.判断所述尾部文本是否为空值;
9.当判断出所述尾部文本不为空值时,将所述尾部文本确定为新的待匹配文本,并触发执行所述基于预设的词根库对待匹配文本执行预设的匹配操作,以得到所述待匹配文本对应的匹配词根和尾部文本的步骤;
10.当判断出所述尾部文本为空值时,从所述词根容器中提取出所有的所述匹配词根,并按照每个所述匹配词根添加至所述词根容器的先后顺序,将每个所述匹配词根在所
述词根库中对应的英文词根进行组合,以得到所述中文文本对应的英文文本。
11.本发明第二方面公开了一种中文文本的转换装置,所述装置包括:
12.获取模块,用于获取待转换的中文文本;
13.匹配模块,用于基于预设的词根库对待匹配文本执行预设的匹配操作,以得到所述待匹配文本对应的匹配词根和尾部文本,其中,所述待匹配文本是基于所述待转换的中文文本确定出的,所述待匹配文本的初始值为所述中文文本,所述词根库预先存储有多个中文词根,且每个所述中文词根均预先设置有对应的英文词根,所述尾部文本是指所述待匹配文本中除去所述匹配词根的部分文本;
14.添加模块,用于将所述匹配词根添加至预设的词根容器中;
15.判断模块,用于判断所述尾部文本是否为空值;
16.确定模块,用于当判断出所述尾部文本不为空值时,将所述尾部文本确定为新的待匹配文本,并触发执行所述基于预设的词根库对待匹配文本执行预设的匹配操作,以得到所述待匹配文本对应的匹配词根和尾部文本的步骤;
17.组合模块,用于当判断出所述尾部文本为空值时,从所述词根容器中提取出所有的所述匹配词根,并按照每个所述匹配词根添加至所述词根容器的先后顺序,将每个所述匹配词根在所述词根库中对应的英文词根进行组合,以得到所述中文文本对应的英文文本。
18.本发明第三方面公开了一种计算机设备,所述计算机设备包括:
19.存储有可执行程序代码的存储器;
20.与所述存储器连接的处理器;
21.所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的中文文本的转换方法中的部分或全部步骤。
22.本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的中文文本的转换方法中的部分或全部步骤。
23.本发明实施例中,获取待转换的中文文本,基于预设的词根库对待匹配文本执行预设的匹配操作,以得到待匹配文本对应的匹配词根和尾部文本,将匹配词根添加至预设的词根容器中,判断尾部文本是否为空值,当判断出尾部文本不为空值时,将尾部文本确定为新的待匹配文本,并再次执行预设的匹配操作,当判断出尾部文本为空值时,从词根容器中提取出所有的匹配词根,并将每个匹配词根对应的英文词根进行组合,以得到中文文本对应的英文文本。通过对待匹配文本的循环匹配,将待匹配文本完全分割为词根库中的中文词根,最后将分割成的中文词根所对应的英文词根组合成英文文本,以实现将中文文本转换为英文文本,从而能够在文本转换的过程中,通过简单的词根匹配来实现文本的转换,避免了使用计算复杂的文本转换模型,从而能够提高文本转换的转换效率,另外,基于词根匹配的转换形式的可解释性和稳定性也相对更高,从而能够提高文本转换的转换准确度。
附图说明
24.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于
本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
25.图1是本发明实施例公开的一种中文文本的转换方法的流程示意图;
26.图2是本发明实施例公开的一种中文文本的转换装置的结构示意图;
27.图3是本发明实施例公开的一种计算机设备的结构示意图;
28.图4是本发明实施例公开的一种计算机存储介质的结构示意图。
具体实施方式
29.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
30.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
31.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
32.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
33.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
34.本发明公开了一种中文文本的转换方法、装置、计算机设备以及存储介质,获取待转换的中文文本,基于预设的词根库对待匹配文本执行预设的匹配操作,以得到待匹配文本对应的匹配词根和尾部文本,将匹配词根添加至预设的词根容器中,判断尾部文本是否为空值,当判断出尾部文本不为空值时,将尾部文本确定为新的待匹配文本,并再次执行预设的匹配操作,当判断出尾部文本为空值时,从词根容器中提取出所有的匹配词根,并将每个匹配词根对应的英文词根进行组合,以得到中文文本对应的英文文本。通过对待匹配文本的循环匹配,将待匹配文本完全分割为词根库中的中文词根,最后将分割成的中文词根所对应的英文词根组合成英文文本,以实现将中文文本转换为英文文本,从而能够在文本转换的过程中,通过简单的词根匹配来实现文本的转换,避免了使用计算复杂的文本转换模型,从而能够提高文本转换的转换效率,另外,基于词根匹配的转换形式的可解释性和稳
定性也相对更高,从而能够提高文本转换的转换准确度。以下分别进行详细说明。
35.实施例一
36.请参阅图1,图1是本发明实施例公开的一种中文文本的转换方法的流程示意图。如图1所示,该中文文本的转换方法可以包括以下操作:
37.101、获取待转换的中文文本。
38.在上述步骤101中,当用户需要将某一中文文本转换为英文文本时,即可以在交互界面输入该中文文本,这样即可以获取到待转换的中文文本。可选地,也可以从当前的计算机系统中自动地检测存在的中文文本,然后将检测到的中文文本作为待转换的中文文本。如,获取到的待转换的中文文本为“企业客户数量”。
39.102、基于预设的词根库对待匹配文本执行预设的匹配操作,以得到所述待匹配文本对应的匹配词根和尾部文本,其中,所述待匹配文本是基于所述待转换的中文文本确定出的,所述待匹配文本的初始值为所述中文文本,所述词根库预先存储有多个中文词根,且每个所述中文词根均预先设置有对应的英文词根,所述尾部文本是指所述待匹配文本中除去所述匹配词根的部分文本。
40.在上述步骤102中,词根库中存储的中文词根和英文词根可以如下表所示:
[0041][0042][0043]
将待匹配文本与词根库中的中文词根进行匹配,从而获得待匹配文本对应的匹配词根和尾部文本,具体的匹配过程稍后进行具体描述。如,待匹配文本为“企业客户数量”时,匹配到的匹配词根和尾部文本则可以分别为“企业”和“客户数量”。本发明实施例的中文文本的转换方法,是一个循环匹配的过程,所以可以将完整的中文文本作为待匹配文本的初始值,以开始循环匹配的过程。如,将最初的待匹配文本设置为完整的中文文本“企业客户数量”,以开始循环。
[0044]
103、将所述匹配词根添加至预设的词根容器中。
[0045]
在上述步骤103中,在每次完成对待匹配文本的匹配之后,即可以将匹配到的匹配词根添加至词根容器中进行存储。其中,词根容器可以理解为一个预先设置的用于存储词根的存储空间。如,可以将待匹配文本“企业客户数量”的匹配词根“企业”添加至词根容器中。
[0046]
104、判断所述尾部文本是否为空值。
[0047]
在上述步骤104中,在循环匹配的过程中,在每次完成对待匹配文本的匹配之后,即可以判断尾部文本是否为空值,以此来判断中文文本是否已经被完全分割为词根库中的中文词根,从而判断出是否需要结束匹配的循环。
[0048]
105、当判断出所述尾部文本不为空值时,将所述尾部文本确定为新的待匹配文本,并触发执行所述基于预设的词根库对待匹配文本执行预设的匹配操作,以得到所述待匹配文本对应的匹配词根和尾部文本的步骤。
[0049]
在上述步骤105中,当尾部文本不为空值时,即表示中文文本未被完全分割为词根库中的中文词根,所以需要将尾部文本作为新的待匹配文本,然后再对新的待匹配文本进行匹配。若再一次匹配得到的尾部文本依然不为空值,则将会再进行一次匹配的循环,如此类推,直至最后一次匹配得到的尾部文本为空值,即表示中文文本已被完全分割为词根库中的中文词根,即可以停止匹配的循环,这样就形成了一个完整的匹配循环过程。如,待转换的中文文本为“企业客户数量”,则待匹配文本的初始值为“企业客户数量”。这样,在第一次匹配中,进行匹配的待匹配文本为“企业客户数量”,匹配得到的匹配词根和尾部文本分别为“企业”和“客户数量”,在第二次匹配中,进行匹配的待匹配文本为“客户数量”,匹配得到的匹配词根和尾部文本分别为“客户”和“数量”,在第三次匹配中,进行匹配的待匹配文本为“数量”,匹配得到的匹配词根为“数量”、尾部文本为空值。这样,即可以将待转换的中文文本完全分割为中文词根“企业”、“客户”和“数量”。
[0050]
106、当判断出所述尾部文本为空值时,从所述词根容器中提取出所有的所述匹配词根,并按照每个所述匹配词根添加至所述词根容器的先后顺序,将每个所述匹配词根在所述词根库中对应的英文词根进行组合,以得到所述中文文本对应的英文文本。
[0051]
在上述步骤106中,当尾部文本为空值时,即表示中文文本已被完全分割为词根库中的中文词根,可以结束匹配循环。由于在匹配循环中,每一次匹配之后,都会将匹配到的匹配词根存储至词根容器中,所以在匹配循环结束之后,中文文本被完全分割成的中文词根将会被存储在词根容器中。在匹配循环结束之后,将分割成的中文词根所对应的英文词根进行组合,即可以得到中文文本对应的英文文本,从而实现将中文文本转换为英文文本。如,中文文本“企业客户数量”完全分割为中文词根“企业”、“客户”和“数量”,中文词根添加至词根容器的顺序依次为“企业”、“客户”和“数量”,对应的英文词根依次为“company”、“customer”、“quantity”,则最终组合成的英文文本为“company customer quantity”。
[0052]
可选地,上述中文文本的转换方法可以应用于智能诊疗、远程会诊。上述中文文本为医疗文本,所述医疗文本可以是医疗电子记录(electronic healthcare record),电子化的个人健康记录,包括病历、心电图、医学影像等一系列具备保存备查价值的电子化记录。
[0053]
可见,实施图1所描述的中文文本的转换方法,获取待转换的中文文本,基于预设的词根库对待匹配文本执行预设的匹配操作,以得到待匹配文本对应的匹配词根和尾部文本,将匹配词根添加至预设的词根容器中,判断尾部文本是否为空值,当判断出尾部文本不为空值时,将尾部文本确定为新的待匹配文本,并再次执行预设的匹配操作,当判断出尾部文本为空值时,从词根容器中提取出所有的匹配词根,并将每个匹配词根对应的英文词根进行组合,以得到中文文本对应的英文文本。通过对待匹配文本的循环匹配,将待匹配文本
完全分割为词根库中的中文词根,最后将分割成的中文词根所对应的英文词根组合成英文文本,以实现将中文文本转换为英文文本,从而能够在文本转换的过程中,通过简单的词根匹配来实现文本的转换,避免了使用计算复杂的文本转换模型,从而能够提高文本转换的转换效率,另外,基于词根匹配的转换形式的可解释性和稳定性也相对更高,从而能够提高文本转换的转换准确度。
[0054]
在一个可选的实施例中,所述基于预设的词根库对待匹配文本执行预设的匹配操作,以得到所述待匹配文本对应的匹配词根和尾部文本,包括:
[0055]
查询预设的词根库中是否存在与待匹配文本相同的目标中文词根;
[0056]
当查询出所述词根库中不存在所述目标中文词根时,将所述待匹配文本中的最后一个字符删除,并触发执行所述查询预设的词根库中是否存在与待匹配文本相同的目标中文词根的步骤;
[0057]
当查询出所述词根库中存在所述目标中文词根时,将所述目标中文词根确定为所述待匹配文本对应的匹配词根,将所述待匹配文本中除去所述匹配词根的部分文本确定为所述待匹配文本对应的尾部文本。
[0058]
在该可选的实施例中,在对待匹配文本的匹配过程中,可以将整个待匹配文本与词根库中的中文词根进行比对,若查找到与待匹配文本相同的中文词根(即目标中文词根),则可以根据目标中文词根确定出待匹配文本的匹配词根和尾部文本,若未查找到与待匹配文本相同的中文词根(即目标中文词根),则可以将待匹配文本的最后一个字符删去,得到新的待匹配文本,然后查找与新的待匹配文本相同的中文词根,若还是未查找到,则继续删去最后一个字符,继续查找与新的待匹配文本相同的中文词根,如此循环,直至查找到与待匹配文本相同的中文词根(即目标中文词根)。如,上述的词根库和中文文本“企业客户数量”,则第一轮匹配中,待匹配文本依次为“企业客户数量”、“企业客户数”、“企业客户”、“企业客”、“企业”,最终待匹配文本“企业”能够查找到对应的目标中文词根,则第一轮匹配得到的匹配词根为“企业”,尾部文本为“客户数量”,然后在第二轮匹配中,待匹配文本依次为“客户数量”、“客户数”、“客户”,最终待匹配文本“客户”能够查找到对应的目标中文词根,则第二轮匹配得到的匹配词根为“客户”,尾部文本为“数量”,最后在第三轮匹配中,待匹配文本为“数量”,最终待匹配文本“数量”能够查找到对应的目标中文词根,则第三轮匹配得到的匹配词根为“数量”,尾部文本为空值,这样,即能够实现将中文文本“企业客户数量”完全分割为中文词根“企业”、“客户”和“数量”。
[0059]
可见,实施该可选的实施例,在对待匹配文本的匹配过程中,将整个待匹配文本与词根库中的中文词根进行比对,若查找到目标中文词根,则根据目标中文词根确定出待匹配文本的匹配词根和尾部文本,若未查找到目标中文词根,则将待匹配文本的最后一个字符删去,得到新的待匹配文本,然后查找与新的待匹配文本相同的中文词根,从而能够通过循环查找的方式实现对待匹配文本的匹配。
[0060]
在一个可选的实施例中,在查询出所述词根库中不存在所述目标中文词根之后,所述将所述待匹配文本中的最后一个字符删除之前,所述方法还包括:
[0061]
判断所述待匹配文本中的字符数量是否大于等于二;
[0062]
当判断出所述待匹配文本中的字符数量大于等于二时,触发执行所述将所述待匹配文本中的最后一个字符删除的步骤;
[0063]
当判断出所述待匹配文本中的字符数量未大于等于二时,输出用于提示用户匹配失败的错误提示。
[0064]
在该可选的实施例中,在循环查找目标中文词根的过程中,待匹配文本中的字符逐渐减少,但是也会有可能出现待匹配文本中的字符被完全减去之后,仍然查找不到匹配的目标中文词根的情况,也即待匹配文本在词根库中不存在匹配的匹配词根,所以可以判断待匹配文本剩余的字符数量是否大于等于二,若未大于等于二(即只剩余一个字符),则说明待匹配文本在词根库中不存在匹配的匹配词根,此时,则可以停止查找的循环,输出匹配失败的错误提示,这样就可以避免进入死循环,提高文本转换流程的可靠性。另外,在判断出待匹配文本剩余的字符数量未大于等于二之后,还可以由用户人工检查待匹配文本和词根库,然后可以根据检查情况对词根库进行更新,如,往词根库中添加新的中文词根和英文词根。
[0065]
可见,实施该可选的实施例,在循环查找目标中文词根的过程中,判断待匹配文本剩余的字符数量是否大于等于二,若未大于等于二,则输出匹配失败的错误提示,这样能够避免文本转换流程进入死循环,提高文本转换流程的可靠性。
[0066]
在一个可选的实施例中,在判断出所述待匹配文本中的字符数量未大于等于二之后,所述方法还包括:
[0067]
从所述词根容器中提取出目标匹配词根,并将所述目标匹配词根从所述词根容器中删除,其中,所述目标匹配词根是指所述词根容器中最后添加至所述词根容器的匹配词根;
[0068]
根据所述目标匹配词根,从所述中文文本中选取出目标文本以作为新的待匹配文本,其中,所述目标文本为所述中文文本中以所述目标匹配词根为起始,以所述中文文本的最后一个字符为结束的部分文本;
[0069]
基于所述词根库和所述目标匹配词根对所述待匹配文本执行预设的二次匹配操作,以得到所述待匹配文本对应的二次匹配词根和二次尾部文本;
[0070]
将所述二次匹配词根添加至所述词根容器中;
[0071]
将所述二次尾部文本确定为新的待匹配文本,并触发执行所述基于预设的词根库对待匹配文本执行预设的匹配操作,以得到所述待匹配文本对应的匹配词根和尾部文本的步骤。
[0072]
在该可选的实施例中,在判断出待匹配文本在词根库中不存在匹配的匹配词根之后,则说明上一次匹配得到的匹配词根可能并不准确,此时,可以将上一次匹配得到的匹配词根从词根容器中提取出来,并删除,然后将待匹配文本恢复至上一次匹配的状态,对待匹配文本进行二次匹配(具体的二次匹配过程,稍后进行具体描述),最后使用二次匹配得到的二次匹配词根和二次尾部文本再次开始循环匹配的过程,从而有利于循环匹配的顺利进行,有利于提高文本转换的可靠性和准确度。例如,中文文本“企业客户数量”经过两次匹配之后,可以得到匹配词根“企业”和“客户数”添加至词根容器中,剩余的字符“量”无法匹配到合适的词根,可见,这一次待匹配文本的分割结果并不理想,所以可以将匹配词根“客户数”,从词根容器中提取出来,并删除,然后将待匹配文本恢复至“客户数量”,对待匹配文本“客户数量”进行二次匹配,最后即可以将待匹配文本“客户数量”继续分割更为合适的匹配词根“客户”和“数量”。
[0073]
可见,实施该可选的实施例,在判断出待匹配文本在词根库中不存在匹配的匹配词根之后,将上一次匹配得到的匹配词根从词根容器中提取出来,并删除,然后将待匹配文本恢复至上一次匹配的状态,对待匹配文本进行二次匹配,最后使用二次匹配得到的二次匹配词根和二次尾部文本再次开始循环匹配的过程,从而有利于循环匹配的顺利进行,有利于提高文本转换的可靠性和准确度。
[0074]
在一个可选的实施例中,所述基于所述词根库和所述目标匹配词根对所述待匹配文本执行预设的二次匹配操作,以得到所述待匹配文本对应的二次匹配词根和二次尾部文本,包括:
[0075]
查询所述词根库中是否存在二次中文词根,其中,所述二次中文词根是指与待匹配文本相同且与所述目标匹配词根不同的中文词根;
[0076]
当查询出所述词根库中不存在所述二次中文词根时,将所述待匹配文本中的最后一个字符删除,并触发执行所述查询所述词根库中是否存在二次中文词根的步骤;
[0077]
当查询出所述词根库中存在所述二次中文词根时,将所述二次中文词根确定为所述待匹配文本对应的二次匹配词根,将所述待匹配文本中除去所述二次匹配词根的部分文本确定为所述待匹配文本对应的二次尾部文本。
[0078]
在该可选的实施例中,二次匹配的过程与第一次匹配的过程类似,均是通过不断地删除待匹配文本中的最后一个字符,然后不断地查找词根库中与待匹配文本相同的,且与上一次匹配得到的匹配词根(即目标匹配词根)不同的中文词根,从而实现对待匹配文本的二次匹配。如上述的例子,待匹配文本恢复至“客户数量”之后,则依次从词根库中查找与“客户数量”、“客户数”以及“客户”相同的中文词根,其中,当待匹配文本被删除至“客户数”时,虽然在词根库中存着相同的中文词根,但是其与上一次匹配得到的匹配词根(即目标匹配词根)相同,所以将会被忽略,继续将待匹配文本删除至“客户”进行查找,最后在该次二次匹配中得到的二次匹配词根和二次尾部文本分别为“客户”和“数量”。
[0079]
可见,实施该可选的实施例,在对待匹配文本的二次匹配过程中,将整个待匹配文本与词根库中的中文词根进行比对,若查找到与待匹配文本相同且与目标匹配词根不同的二次中文词根,则根据二次中文词根确定出待匹配文本的二次匹配词根和二次尾部文本,若未查找到二次中文词根,则将待匹配文本的最后一个字符删去,得到新的待匹配文本,然后继续查找与新的待匹配文本相同且与目标匹配词根不同的二次中文词根,从而能够通过循环查找的方式实现对待匹配文本的二次匹配。
[0080]
在一个可选的实施例中,在查询出所述词根库中不存在所述二次中文词根之后,所述将所述待匹配文本中的最后一个字符删除之前,所述方法还包括:
[0081]
判断所述待匹配文本中的字符数量是否大于等于二;
[0082]
当判断出所述待匹配文本中的字符数量大于等于二时,触发执行所述将所述待匹配文本中的最后一个字符删除的步骤;
[0083]
当判断出所述待匹配文本中的字符数量未大于等于二时,输出用于提示用户二次匹配失败的错误提示。
[0084]
在该可选的实施例中,与第一次匹配过程类似,在二次匹配的过程中,也会有可能出现待匹配文本中的字符被完全减去之后,仍然查找不到匹配的二次中文词根的情况,也即待匹配文本在词根库中不存在匹配的二次匹配词根,所以在二次匹配的过程中,可以判
断待匹配文本剩余的字符数量是否大于等于二,若未大于等于二(即只剩余一个字符),则说明待匹配文本在词根库中不存在匹配的二次匹配词根,此时,则可以停止查找的循环,输出二次匹配失败的错误提示,这样就可以避免进入死循环,提高文本转换流程的可靠性。
[0085]
可见,实施该可选的实施例,在循环查找二次中文词根的过程中,判断待匹配文本剩余的字符数量是否大于等于二,若未大于等于二,则输出二次匹配失败的错误提示,这样能够避免文本转换流程进入死循环,提高文本转换流程的可靠性。
[0086]
在一个可选的实施例中,所述将所述二次尾部文本确定为新的待匹配文本之前,所述方法还包括:
[0087]
判断所述二次尾部文本是否为空值;
[0088]
当判断出所述二次尾部文本不为空值时,触发执行所述将所述二次尾部文本确定为新的待匹配文本的步骤;
[0089]
当判断出所述二次尾部文本为空值时,触发执行所述从所述词根容器中提取出所有的所述匹配词根,并按照每个所述匹配词根添加至所述词根容器的先后顺序,将每个所述匹配词根在所述词根库中对应的英文词根进行组合,以得到所述中文文本对应的英文文本的步骤。
[0090]
在该可选的实施例中,在二次匹配之后,若二次尾部文本为空值,则表明中文文本已被完全分割,则不需要再进行匹配操作,可以直接提取词根容器中的匹配词根,进行组合来得到中文文本对应的英文文本,这样能够避免文本转换流程进入死循环,提高文本转换流程的可靠性。
[0091]
可选地,还可以:将所述中文文本的转换方法的中文文本的转换信息上传至区块链中。
[0092]
具体来说,中文文本的转换信息是通过运行所述中文文本的转换方法后得到的,用于记录中文文本的转换情况,例如,获取到的中文文本、匹配到的匹配词根和尾部文本等等。将中文文本的转换信息上传至区块链可保证其安全性和对用户的公正透明性。用户可以从区块链中下载得到该中文文本的转换信息,以便查证所述中文文本的转换方法的中文文本的转换信息是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0093]
实施例二
[0094]
请参阅图2,图2是本发明实施例公开的一种中文文本的转换装置的结构示意图。如图2所示,该中文文本的转换装置可以包括:
[0095]
获取模块201,用于获取待转换的中文文本;
[0096]
匹配模块202,用于基于预设的词根库对待匹配文本执行预设的匹配操作,以得到所述待匹配文本对应的匹配词根和尾部文本,其中,所述待匹配文本是基于所述待转换的中文文本确定出的,所述待匹配文本的初始值为所述中文文本,所述词根库预先存储有多个中文词根,且每个所述中文词根均预先设置有对应的英文词根,所述尾部文本是指所述待匹配文本中除去所述匹配词根的部分文本;
[0097]
添加模块203,用于将所述匹配词根添加至预设的词根容器中;
[0098]
判断模块204,用于判断所述尾部文本是否为空值;
[0099]
确定模块205,用于当判断出所述尾部文本不为空值时,将所述尾部文本确定为新的待匹配文本,并触发执行所述基于预设的词根库对待匹配文本执行预设的匹配操作,以得到所述待匹配文本对应的匹配词根和尾部文本的步骤;
[0100]
组合模块206,用于当判断出所述尾部文本为空值时,从所述词根容器中提取出所有的所述匹配词根,并按照每个所述匹配词根添加至所述词根容器的先后顺序,将每个所述匹配词根在所述词根库中对应的英文词根进行组合,以得到所述中文文本对应的英文文本。
[0101]
对于上述中文文本的转换装置的具体描述可以参照上述中文文本的转换方法的具体描述,为避免重复,在此不再一一赘述。
[0102]
实施例三
[0103]
请参阅图3,图3是本发明实施例公开的一种计算机设备的结构示意图。如图3所示,该计算机设备可以包括:
[0104]
存储有可执行程序代码的存储器301;
[0105]
与存储器301连接的处理器302;
[0106]
处理器302调用存储器301中存储的可执行程序代码,执行本发明实施例一公开的中文文本的转换方法中的步骤。
[0107]
实施例四
[0108]
请参阅图4,本发明实施例公开了一种计算机存储介质401,计算机存储介质401存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一公开的中文文本的转换方法中的步骤。
[0109]
以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0110]
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(read-only memory,rom)、随机存储器(random access memory,ram)、可编程只读存储器(programmable read-only memory,prom)、可擦除可编程只读存储器(erasable programmable read only memory,eprom)、一次可编程只读存储器(one-time programmable read-only memory,otprom)、电子抹除式可复写只读存储器(electrically-erasable programmable read-only memory,eeprom)、只读光盘(compact disc read-only memory,cd-rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
[0111]
最后应说明的是:本发明实施例公开的一种中文文本的转换方法、装置、计算机设
备以及存储介质所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献