一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

逆向文本规整方法、模型训练方法和相关设备与流程

2022-05-18 10:06:11 来源:中国专利 TAG:


1.本技术涉及人工智能(artificial intelligence,ai)技术领域,尤其涉及一种逆向文本规整方法、模型训练方法、装置、设备以及计算机可读存储介质、计算机程序产品。


背景技术:

2.很多应用如智能助理会使用语音识别(automatic speech recognition,asr),以减少用户操作,为用户提供便利。语音识别结果通常是纯文字。例如,语音1的识别结果可以为“我们在四点零七碰头”。又例如,语音2的识别结果为:“四点零七版本发布”。然而上述识别结果不符合预设文字表达规范,即用户的阅读习惯,例如语音1的识别结果中的“四点零七”为时间,为了符合用户的阅读习惯,可以表示为“4:07”,语音2的识别结果中的“四点零七”为数字,为了符合用户的阅读习惯,可以表示为“4.07”。
3.为了使得语音识别结果符合用户的阅读习惯,可以通过逆向文本规整(inverse text normalization,itn)技术实现。itn是指语音转换为文本时使用标准化的格式展示数字、金额、日期和地址等对象,以符合标准的预设文字表达规范。
4.目前,itn通常使用基于规则的系统,需要人工撰写大量的正则式,以将语音识别结果转换为符合标准的预设文字表达规范的文本。该方法需要耗费大量的时间成本和人力成本,而且转换准确度也难以满足业务需求。


技术实现要素:

5.本公开的目的在于:提供一种逆向文本规整方法、模型训练方法、装置、设备、计算机可读存储介质以及计算机程序产品,能够减少时间成本和人力成本实现高精度的逆向文本规整以及模型训练。
6.第一方面,本公开提供了一种模型训练方法,该方法包括:
7.获取原始语料,所述原始语料符合预设文字表达规范;
8.对所述原始语料进行文本规整tn,获得tn文本;
9.以所述tn文本和所述tn文本中至少一个文本对象的标签为训练语料,通过所述训练语料训练逆向文本规整itn模型,所述itn模型用于对不符合预设文字表达规范的文本进行itn,所述标签用于指示所述文本对象的转换格式。
10.第二方面,本公开提供了一种逆向文本规整itn方法,该方法包括:
11.获取原始文本;
12.将所述原始文本输入itn模型,通过所述itn模型对所述原始文本中不符合预设文字表达规范的文本对象进行格式转换,获得转换文本;
13.其中,所述itn模型采用训练语料训练得到,所述训练语料包括对符合预设文字表达规范的原始语料进行文本规整tn获得的tn文本以及所述tn文本中至少一个文本对象的标签,所述标签用于指示所述文本对象的转换格式。
14.第三方面,本公开提供了一种模型训练装置,该装置包括:
15.获取模块,用于获取原始语料,所述原始语料符合预设文字表达规范;
16.规整模块,用于对所述原始语料进行文本规整tn,获得tn文本;
17.训练模块,用于以所述tn文本和所述tn文本中至少一个文本对象的标签为训练语料,通过所述训练语料训练逆向文本规整itn模型,所述itn模型用于对不符合预设文字表达规范的文本进行itn,所述标签用于指示所述文本对象的转换格式。
18.第四方面,本公开提供了一种逆向文本规整itn装置,该装置包括:
19.获取模块,用于获取原始文本;
20.转换模块,用于将所述原始文本输入itn模型,通过所述itn模型对所述原始文本中不符合预设文字表达规范的文本对象进行格式转换,获得转换文本;其中,所述itn模型采用训练语料训练得到,所述训练语料包括对符合预设文字表达规范的原始语料进行文本规整tn获得的tn文本以及所述tn文本中至少一个文本对象的标签,所述标签用于指示所述文本对象的转换格式。
21.第五方面,本公开提供了一种电子设备,包括:
22.存储装置,其上存储有计算机程序;
23.处理装置,用于执行所述存储装置中的所述计算机程序,以实现本公开第一方面或第一方面中任一项所述方法的步骤。
24.第六方面,本公开提供了一种电子设备,包括:
25.存储装置,其上存储有计算机程序;
26.处理装置,用于执行所述存储装置中的所述计算机程序,以实现本公开第二方面或第二方面中任一项所述方法的步骤。
27.第七方面,本公开提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现本公开第一方面或第一方面中任一项所述方法的步骤。
28.第八方面,本公开提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现本公开第二方面或第二方面中任一项所述方法的步骤。
29.第九方面,本公开提供了一种包含指令的计算机程序产品,当其在设备上运行时,使得设备执行上述第一方面或第一方面的任一种实现方式所述的方法。
30.第十方面,本公开提供了一种包含指令的计算机程序产品,当其在设备上运行时,使得设备执行上述第二方面或第二方面的任一种实现方式所述的方法。
31.从以上技术方案可以看出,本公开至少具有如下优点:
32.在上述技术方案中,电子设备获取符合预设文字表达规范的原始语料,然后对原始语料进行文本规整,获得纯文字的tn文本,该tn文本包括至少一个文本对象,电子设备可以根据该tn文本和至少一个文本对象的用于指示转换格式的标签为训练语料,通过训练语料训练itn模型,从而获得能够将不符合预设文字表达规范的文本转换为符合预设文字表达规范的itn模型。该itn模型能够学习不符合预设文字表达规范的文本例如是不符合预设文字表达规范的tn文本的语义,基于语义对上述文本进行自动转换,获得符合预设文字表达规范的文本,无需人工撰写大量的正则式,减少了时间成本和人力成本。
33.基于上述itn模型,本公开还提供了一种itn方法,由于itn模型能够理解语义,并基于语义将不符合预设文字表达规范的原始文本转换为符合预设文字表达规范的转换文本,而不是通过正则式进行简单匹配,由此提高了转换精度。
34.本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
35.为了更清楚地说明本技术实施例的技术方法,下面将对实施例中所需使用的附图作以简单地介绍。
36.图1为本技术实施例提供的一种模型训练方法的流程示意图;
37.图2为本技术实施例提供的一种文本对象对应标签的示意图;
38.图3为本技术实施例提供的另一种文本对象对应标签的示意图;
39.图4为本技术实施例提供的又一种文本对象对应标签的示意图;
40.图5为本技术实施例提供的一种逆向文本规整方法的流程示意图;
41.图6为本公开实施例提供的一种模型训练装置的结构示意图;
42.图7为本公开实施例提供的一种逆向文本规整装置的结构示意图;
43.图8为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
44.本技术实施例中的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
45.首先对本技术实施例中所涉及到的一些技术术语进行介绍。
46.语音识别是指机器将语音信号转换为语音对应的文本内容。在通过语音识别(automatic speech recognition,asr)对语音进行转换时,所输出的结果通常为纯文字。例如,对于神舟十三号发射成功的新闻,asr的语音识别结果为:“二零二一年十月十六日,神舟十三号载人飞船发射取得圆满成功,飞行乘组状态良好。目前,天和核心舱和天舟二号、天舟三号组合体已进入对接轨道,满足与神舟十三号交会对接的任务要求和航天员进驻条件。”但是,对于这段文本,用户的阅读习惯通常为:“2021年10月16日,神舟十三号载人飞船发射取得圆满成功,飞行乘组状态良好。目前,天和核心舱和天舟二号、天舟三号组合体已进入对接轨道,满足与神舟十三号交会对接的任务要求和航天员进驻条件。”为了符合用户的阅读习惯,需要将“二零二一”转换为“2021”,将“十”转换为“10”,将“十六”转换为“16”等。
47.又例如,asr的语音识别结果为:“飞船入轨后,经约六点五小时飞行,于六时五十六分与天和核心舱和天舟二号、天舟三号组合体完成自主快速交会对接。”但是符合用户阅读习惯的通常为:“飞船入轨后,经约6.5小时飞行,于6时56分与天和核心舱和天舟二号、天舟三号组合体完成自主快速交会对接。”为了符合用户的阅读习惯,需要将“六点五”转换为“6.5”,将“六时五十六分”转换为“6时56分”。
48.逆向文本规整(inverse text normalization,itn)技术可以将纯文字的文本转换为符合预设文字表达规范,即符合用户阅读习惯的文本。其中,符合预设文字表达规范是指对于特定时间、数字、运算符号等,采用特定的非文字表述的规范。通常情况下,itn技术使用基于规则的系统,通过正则式(regular expression,regex)的方法进行文本转换,但是这种方法需要人工撰写大量的正则式。正则式是由普通字符与特殊字符组成的文字模
式,用于匹配特定的字符串。例如,正则式可以设定将“六”转换为“6”,将“五十六”转换为“56”。在本实施例中,以文字为中文汉字为例进行介绍。
49.但是这种通过正则式的转换方法,存在以下问题。一方面,系统无法理解语义,而规则也无法对于任何情况进行穷举,例如对于:“四点零七版本发布”中“四点零七”,这种方法无法确定为“4.07”还是“4:07”。另一方面,由于语言的特性以及用户的阅读习惯,这种方法很难获得符合预设文字表达规范的内容。例如,基于正则式的转换可能将:“飞流直下三千尺”转换为:“飞流直下3000尺”等。这种基于正则式的文本转换方法需要耗费大量的时间成本和人力成本,并且准确度也难以满足用户的阅读需求。
50.有鉴于此,本技术提供了一种逆向文本规整方法,该方法应用于电子设备。电子设备是指具有数据处理能力的设备,例如可以是服务器,或者是终端。其中,终端包括但不限于智能手机、平板电脑、笔记本电脑、个人数字助理(personal digital assistant,pda)或者智能穿戴设备等。服务器可以是云服务器,例如是中心云计算集群中的中心服务器,或者是边缘云计算集群中的边缘服务器。当然,服务器也可以是本地数据中心中的服务器。本地数据中心是指用户直接控制的数据中心。
51.具体地,电子设备获取原始文本,将原始文本输入训练好的itn模型,通过itn模型对原始文本中不符合阅读习惯的文本对象进行格式转换,获得转换文本。
52.其中,itn模型是通过训练语料训练获得的。具体地,电子设备获取符合阅读习惯的原始语料,然后对原始语料进行文本规整,获得纯汉字的tn文本,该tn文本包括至少一个文本对象,电子设备根据该tn文本和至少一个文本对象的用于指示转换格式的标签为训练语料训练itn模型。如此,电子设备可以通过文本规整获得训练逆向文本规整模型所需要的大量训练语料。
53.文本规整是指将各种格式的文本转换为纯汉字的文本。例如将“4:07”转换为“四点零七”,将“4.07”转换为“四点零七”。利用这种方式所获得的训练语料所训练获得的itn模型能够学习不符合阅读习惯的文本的语义,然后基于语义对文本进行自动转换,获得符合阅读习惯的文本。
54.为了使得本公开的技术方案更加清楚、易于理解,下面从电子设备为终端为例,如图1所示,对本公开实施例提供的逆向规整模型的训练方法进行介绍。
55.s102:终端获取原始语料。
56.原始语料是指规范的、符合预设文字表达规范,即用户阅读习惯的语料。其中,原始语料中特定时间、数字、运算符号等的使用格式为非文字表述的规范格式。在一些可能的实现方式中,原始语料可以是来源于新闻、论文、教科书等数字格式使用规范的文本。终端可以从新闻、论文、教科书等数字格式使用规范的素材中获取原始语料。
57.s104:终端对原始语料进行文本规整,获得tn文本。
58.tn文本是指经过文本规整(text normalization,tn)后所获得的文本。与itn文本相反,tn文本为纯汉字文本。例如:“二零二一年十月十六日”、“神舟十三号”、“六时五十六分”、“四点零七”等。
59.文本规整通常用在从文本到语音(text to speech,tts)中,用于将文本中的内容转换为语音所对应的文字。由于每一个字符具有对应的读音,文本规整可以获取字符读音对应的文字,例如“4.07”对应的读音为“四点零七”,故其对应的tn文本为“四点零七”。如
此,终端可以对符合用户阅读习惯的原始语料进行文本规整,从而获得纯汉字文本。
60.s106:终端将tn文本与至少一个正则式进行匹配,获得tn文本中至少一个文本对象的标签。
61.终端可以根据原始语料以及对应的tn文本,确定tn文本中文本对象的类型,然后根据文本对象的类型获取文本对象的标签,如此可以获得tn文本中每一个文本对象的标签。文本对象可以为汉字表示的数字、金额、日期、地址、运算符号等。文本对象的类型可以为数字、数字串、运算符号、计量单位等。
62.文本对象的类型和文本对象的标签可以通过正则式建立联系,因此文本对象的标签可以通过正则式对应文本对象的类型,进而反应文本对象的转换格式。在一些可能的实现方式中,终端可以根据正则式与文本对象的类型获取文本对象的标签。
63.文本对象的类型可以根据原始语料以及对应的tn文本获得。示例性地,对于原始语料为阿拉伯数字,tn文本为阿拉伯数字对应读法的文本对象,对应的文本对象的类型为数字。例如,原始语料为“36”,tn文本为“三十六”,那么对于文本对象“三十六”对应的类型为数字。对于原始语料为阿拉伯数字,tn文本为每个阿拉伯数字单独对应读法的文本对象,对应的类型为数字串。例如,原始语料为“36”,tn文本为“三六”,那么对于文本对象“三六”对应的类型为数字串。对于原始语料为运算符号,tn文本为该运算符号对应的读法,对应的类型为运算符号。对于原始语料为计量单位,tn文本为该计量单位对应的读法,对应的类型为计量单位。对于原始语料为时间,tn文本为该时间对应的读法,对应的类型为时间。对于原始语料表示范围,tn文本为该范围对应的读法,对应的类型为范围。例如原始语料为“3~4”,tn文本为“三至四”,那么对于文本对象“三至四”对应的类型为范围。对于原始语料为百分数,tn文本为该百分数对应的读法,对应的类型为百分比。对于原始语料为分数,tn文本为该分数对应的读法,对应的类型为分数。对于原始语料为小数,tn文本为小数对应的读法,对应的类型为小数。对于原始语料为比例,tn文本为比例对应的读法,对应的类型为比例。对于原始语料和tn文本相同的,对应的类型为其他。
64.正则式可以包括类型与标签的对应关系,终端可以根据正则式与文本对象的类型获取文本对象的标签。示例性地,类型为数字的文本对象对应的标签为“itninteger-b itninteger-i”。例如,原始语料为“36”,tn文本为“三十六”,文本对象类型为数字,文本对象“三十六”的标签可以依次为“itninteger-b”、“itninteger-i”和“itninteger-i”。类型为数字串的文本对象对应的标签为“itninteger-b”。例如,原始语料为“36”,tn文本为“三六”,文本对象类型为数字串,文本对象“三六”的标签可以依次为“itninteger-b”和“itninteger-b”。其中文本对象标签的个数和文本对象中汉字的个数相对应。类型为运算符号的文本对象对应的标签可以为“itnoperator”。类型为计量单位的文本对象对应的标签可以为“itnmeasure”。类型为时间的文本对象对应的标签可以为“itntime”。类型为范围的文本对象对应的标签可以为“itnrange”。类型为百分数的文本对象对应的标签可以为“itnpercent-b itnpercent-i”。类型为分数的文本对象对应的标签可以为“itnfraction-b,itnpercent-i”。类型为小数的文本对象对应的标签可以为“itndecimal”。类型为比例的文本对象对应的标签可以为“itnrate”。类型为其他的文本对象对应的标签可以为“itndefault”等。在一些可能的实现方式中,如果同一类型的多个连续文本对象对应连续字符串,则文本对象对应的标签在原标签后用
“‑
i”和
“‑
b”进行区分。例如,文本对象为“厘
米”时,对应的类型为计量单位,标签为“itnmeasure”,“厘米”二字分别对应的标签为:“itnmeasure-i、itnmeasure-b”。
65.在一些可能的实现方式中,终端可以采用文本对齐的方法,对原始语料和tn文本进行对齐,获得tn文本中文本对象的标签。如图2所示为一种原始语料和tn文本对齐的显示界面200,用户可以通过“选择”控件202选择tn文本中的文本对象,终端可以根据原始语料中的内容自动确定文本对象的类型并分配对应的标签,用户通过“修改”控件204为文本对象的标签进行修改。原始语料为:“2021年10月16日,神舟十三号载人飞船发射取得圆满成功,飞行乘组状态良好。目前,天和核心舱和天舟二号、天舟三号组合体已进入对接轨道,满足与神舟十三号交会对接的任务要求和航天员进驻条件。”tn文本为:“二零二一年十月十六日,神舟十三号载人飞船发射取得圆满成功,飞行乘组状态良好。目前,天和核心舱和天舟二号、天舟三号组合体已进入对接轨道,满足与神舟十三号交会对接的任务要求和航天员进驻条件。”其中,tn文本中,文本对象“二零二一”分别对应的标签为“itninteger-b、itninteger-b、itninteger-b和itninteger-b”,每一个字符对应一个标签。文本对象“十”对应的标签为“itninteger-b”。文本对象“十六”对应的标签为“itninteger-b和itninteger-i”。其余文本对象对应的标签均为“itndefault”。
66.又例如,如图3所示,原始语料为:“记者从青海省气象科学研究所了解到,卫星遥感监测数据显示,截至2021年9月底,青海湖水体面积为4625.6平方公里,比去年同期增加36.8平方公里,达到2004年以来最大值。”tn文本为:“记者从青海省气象科学研究所了解到,卫星遥感监测数据显示,截至二零二一年九月底,青海湖水体面积为四千六百二十五点六平方公里,比去年同期增加三十六点八平方公里,达到二零零四年以来最大值。”其中,tn文本中,文本对象“二零二一”分别对应的标签为“itninteger-b、itninteger-b、itninteger-b和itninteger-b”。文本对象“九”对应的标签为“itninteger-b”,文本对象“四千六百二十五点六”对应的标签为“itndecimal-b、itndecimal-i、itndecimal-i、itndecimal-i、itndecimal-i、itndecimal-i、itndecimal-i、itndecimal-i和itndecimal-i”,“三十六点八”对应的标签为“itndecimal-b、itndecimal-i、itndecimal-i、itndecimal-i和itndecimal-i”,“二零零四”对应的标签为“itninteger-b、itninteger-b、itninteger-b和itninteger-b”。其余文本对象对应的标签均为“itndefault”。
67.再例如,如图4所示,原始语料为:“正方形的周长=边长
×
4”。tn文本为:“正方形的周长等于边长乘四”。其中,tn文本中的文本对象“等于”对应的标签为“itnoperator-b和itnoperator-i”。文本对象“乘”对应的标签为“itnoperator”。文本对象“四”对应的标签为“itninteger-b”。
68.其中,文本对象的类型可以根据原始语料中符号的类型确定。例如原始语料中“ ”,则可以确定文本对象的类型为运算符号,原始语料中“4:07”,则可以确定文本对象的类型为时间,原始语料中“4.07”,则可以确定文本对象的类型为小数。
69.正则式中文本对象的类型与文本对象的标签可以由用户预先设定,终端可以根据tn文本中文本对象的类型与正则式中文本对象的类型与标签的对应关系进行匹配,获得tn文本中文本对象的标签。
70.s108:终端以tn文本和tn文本中至少一个文本对象的标签为训练语料。
71.在一些可能的实现方式中,终端可以对上述所获得的tn文本以及tn文本中文本对
象的标签中无法对齐的训练语料进行过滤。例如可能存在某一部分文本无法通过上述步骤进行对齐,为了训练数据的准确性,则可以删除这部分文本。终端也可以对于一些不想作为训练语料的文本进行过滤,例如该文本中可能涉及敏感词,作为训练语料可能影响其他训练语料的正常训练。终端也可以基于训练语料的数量对于所获得的tn文本以及tn文本中文本对象的标签进行过滤。例如,itn模型主要应用于对于新闻文本的转换,则可以减少其他类型文本作为训练语料的数量,以使itn模型获得较好的效果。
72.基于正则式进行逆向文本规整的方法存在下列问题,一方面,系统无法理解语义,而设定规则无法对于任何情况进行穷举。例如对于文本“四点零七”,这种方法无法确定对应的文本为“4.07”还是“4:07”。另一方面,由于中文的语言特性以及用户的阅读习惯,对于某些内容无需进行转换。例如对于“飞流直下三千尺”中的“三千”无需转换为“3000”,对于“十一届三中全会”中的“十一”和“三”也无需转换为“11”和“3”。基于正则式进行逆向文本规整的方法无法对文本内容是否需要转换进行判断,并且无法理解语义。采用逆向规整模型可以用于解决文本逆向规整的问题,但是这种方法需要大量的中文语料作为训练语料以使模型进行训练学习,因此本公开中可以采用tn对符合用户阅读习惯的文本进行规整以获得纯汉字的tn文本,然后通过tn文本中文本对象的标签建立文本对象与标签的对应关系,将tn文本和tn文本中至少一个文本对象的标签作为训练语料,通过训练语料训练itn模型,从而获得能够实现将纯汉字文本转换为符合用户阅读习惯的文本。
73.并且,tn转换和itn转换的精度体现在不同的地方。例如对于纯汉字文本“十三”,对于itn来说,其主要技术难点在于是否需要将十三进行转换,当纯汉字文本为“神舟十三号”时,则不需要进行转换,而当需要转换为数字时,其转换的数字确定为“13”。而对于数字“13”来说,进行tn可以转换为“十三”,也可以转换为“一三”,甚至可以转换为“一十三”。而无论对于“十三”、“一三”或者“一十三”,当itn确定需要转换为数字时,其对应的数字均为“13”。因此,由于tn转换和itn转换的精度体现在不同的地方,因此本公开中对于tn转换的精度要求不高,即无需高精度的tn转换即可以获得高精度的itn模型,从而降低了本公开中tn转换精度的要求。
74.s110:终端获取至少一个文本对象的扩展对象。
75.文本对象的扩展对象是指语义与文本对象的语义相同的对象。在一些可能的实现方式中,对于同一内容,具有不同的读法,例如对于“5:30”,对应的读法可以为“五点半”、“五点三十”、“五时三十”、“五点三十分”、“五时三十分”以及“五比三十”。那么文本对象为“五点半”的扩展对象可以为“五点三十”、“五时三十”、“五点三十分”、“五时三十分”以及“五比三十”等。
76.s112:终端根据扩展对象和标签扩展训练语料。
77.同样地,终端可以确定扩展对象的类型,然后根据扩展对象的类型确定扩展对象的标签,终端根据扩展对象和对应的标签扩展训练语料。如此,训练语料中包括对于同一原始语料的不同纯文本语料,例如对于原始语料“5:30”对应“五点半”、“五时三十”、“五点三十分”、“五时三十分”以及“五比三十”,因此itn模型对于纯汉字文本中“五点半”、“五时三十”、“五点三十分”、“五时三十分”以及“五比三十”均可以识别为“5:30”。
78.如此,终端根据相同的满足用户阅读习惯的原始文本对应多个不同的tn文本,使基于此训练的itn模型能够对多种不同的tn文本进行识别,从而避免出现对于应用不同读
法的纯汉字文本无法识别的现象。
79.s114:终端通过训练语料训练逆向文本规整itn模型。
80.itn模型可以用于对不符合阅读习惯的纯汉字文本进行逆向文本规整,获得符合用户阅读习惯的文本。在本实施例中,itn模型的训练语料为tn文本以及tn文本中文本对象的标签。
81.itn模型可以为深度学习模型。例如可以为基于注意力变换网络的双向编码器表示(bidirectional encoder representation from transformers,bert)模型。bert模型是一种采用掩码语言模型(masked language model,mlm)的预训练的语音表征模型。bert模型通过mlm将训练语料中15%的内容遮盖住,训练模型根据上下文全向预测被遮盖的内容,从而初步确定训练itn模型的参数。然后通过itn模型判断训练语料中的语句是否连续对itn模型进行训练。bert可以用于超大数据的训练中,在本实施例中可以采用bert模型进行百万级别的数据训练,以获得能够进行逆向文本规整的itn模型。
82.通过以上内容的描述,本公开提供了一种模型训练方法。具体地,终端可以获取符合阅读习惯的原始语料,对原始语料进行文本规整,获得tn文本,然后以tn文本和tn文本中指示文本对象的转换格式的标签为训练语料,根据训练语料训练itn模型。由于itn模型能够理解语义,因此,经过上述步骤训练所获得的itn模型能够将不符合阅读习惯的文本转换为符合阅读习惯的文本。
83.基于上述对于itn模型的训练,本技术提供了一种应用该itn模型的逆向文本规整方法。接下来如图5所示,对本公开实施例提供的逆向文本规整方法进行介绍。
84.s502:终端获取原始文本。
85.原始文本是指未经过itn模型进行转换的文本,可以为纯汉字文本。该原始文本可以来源于asr的输出。例如,asr对于语音进行转换,输出为纯汉字的识别结果。终端可以获取该纯汉字的输出结果作为原始文本。
86.在一些可能的实现方式中,该逆向文本规整方法可以应用于语音识别中,将语音识别所输出的纯汉字结果转换为符合用户阅读习惯的文本,从而提高语音识别输出文本的规范度。
87.s504:终端将原始文本输入itn模型,通过itn模型对原始文本中不符合阅读习惯的文本对象进行格式转换,获得转换文本。
88.itn模型为通过上述训练所获得的逆向文本规整模型。电子设备通过获取符合阅读习惯的原始语料,然后对原始语料进行文本规整以获得纯汉字的tn文本,然后根据该tn文本和至少一个文本对象的用于指示转换格式的标签获得itn模型的训练语料,从而利用该训练语料对itn模型进行训练,获得能够将不符合阅读习惯的文本转换为符合阅读习惯的文本的itn模型。
89.通过上述方式训练所获得的itn模型能够学习不符合阅读习惯的文本的语义,然后基于语义对文本进行自动转换,获得符合阅读习惯的文本。
90.图6是根据一示例性公开实施例示出的一种模型训练装置的示意图,如图6所示,所述模型训练装置600包括:
91.获取模块602,用于获取原始语料,所述原始语料符合预设文字表达规范;
92.规整模块604,用于对所述原始语料进行文本规整tn,获得tn文本;
93.训练模块606,用于以所述tn文本和所述tn文本中至少一个文本对象的标签为训练语料,通过所述训练语料训练逆向文本规整itn模型,所述itn模型用于对不符合预设文字表达规范的文本进行itn,所述标签用于指示所述文本对象的转换格式。
94.可选地,该装置还包括:
95.扩展模块,用于获取所述至少一个文本对象的扩展对象,所述扩展对象的语义与所述文本对象的语义相同;根据所述扩展对象和所述标签扩展所述训练语料。
96.可选地,该装置还包括:
97.匹配模块,用于将所述tn文本与至少一个正则式进行匹配,获得所述tn文本中至少一个文本对象的标签。
98.可选地,所述文本对象包括以下一种或多种:
99.通过文字表示的数字、金额、日期和地址。
100.可选地,itn模型为深度学习模型。
101.图7是根据一示例性公开实施例示出的一种逆向文本规整装置的示意图,如图7所示,所述逆向文本规整装置700包括:
102.获取模块702,用于获取原始文本;
103.转换模块704,用于将所述原始文本输入itn模型,通过所述itn模型对所述原始文本中不符合预设文字表达规范的文本对象进行格式转换,获得转换文本;其中,所述itn模型采用训练语料训练得到,所述训练语料包括对符合预设文字表达规范的原始语料进行文本规整tn获得的tn文本以及所述tn文本中至少一个文本对象的标签,所述标签用于指示所述文本对象的转换格式。
104.可选地,所述原始文本来自语音识别结果。
105.上述各模块的功能在上一实施例中的方法步骤中已详细阐述,在此不做赘述。
106.下面参考图8,其示出了适于用来实现本公开实施例的电子设备800的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图8示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
107.如图8所示,电子设备800可以包括处理装置(例如中央处理器、图形处理器等)801,其可以根据存储在只读存储器(rom)802中的程序或者从存储装置808加载到随机访问存储器(ram)803中的程序而执行各种适当的动作和处理。在ram803中,还存储有电子设备800操作所需的各种程序和数据。处理装置801、rom802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
108.通常,以下装置可以连接至i/o接口805:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置806;包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置807;包括例如磁带、硬盘等的存储装置808;以及通信装置809。通信装置809可以允许电子设备800与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备800,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
109.特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机
软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置809从网络上被下载和安装,或者从存储装置808被安装,或者从rom 802被安装。在该计算机程序被处理装置801执行时,执行本公开实施例的方法中限定的上述功能。
110.需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
111.在一些实施方式中,客户端、服务器可以利用诸如http(hypertext transfer protocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“lan”),广域网(“wan”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
112.上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
113.上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:确定所述扩展现实环境中的所述对象是否出现在所述终端的屏幕显示范围内;当所述对象未出现在所述终端的屏幕显示范围内时,向用户提示所述对象的方位;响应于所述用户根据提示的所述对象的方位触发的调整操作,调整所述终端的位姿,以使所述对象出现在所述终端的屏幕显示范围内。可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c ,还包括常规的过程式程序设计语言——诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
114.附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
115.描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定。
116.本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。
117.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
118.根据本公开的一个或多个实施例,示例1提供了一种模型训练方法,所述方法包括:获取原始语料,所述原始语料符合预设文字表达规范;对所述原始语料进行文本规整tn,获得tn文本;以所述tn文本和所述tn文本中至少一个文本对象的标签为训练语料,通过所述训练语料训练逆向文本规整itn模型,所述itn模型用于对不符合预设文字表达规范的文本进行itn,所述标签用于指示所述文本对象的转换格式。
119.根据本公开的一个或多个实施例,示例2提供了示例1的方法,所述方法还包括:获取所述至少一个文本对象的扩展对象,所述扩展对象的语义与所述文本对象的语义相同;根据所述扩展对象和所述标签扩展所述训练语料。
120.根据本公开的一个或多个实施例,示例3提供了示例1的方法,所述方法还包括:将所述tn文本与至少一个正则式进行匹配,获得所述tn文本中至少一个文本对象的标签。
121.根据本公开的一个或多个实施例,示例4提供了示例1至示例3任意一项所述的方法,所述文本对象包括以下一种或多种:通过文字表示的数字、金额、日期和地址。
122.根据本公开的一个或多个实施例,示例5提供了示例1至示例3任意一项所述的方法,itn模型为深度学习模型。
123.根据本公开的一个或多个实施例,示例6提供了一种逆向文本规整itn方法所述方法包括:获取原始文本;将所述原始文本输入itn模型,通过所述itn模型对所述原始文本中
不符合预设文字表达规范的文本对象进行格式转换,获得转换文本;其中,所述itn模型采用训练语料训练得到,所述训练语料包括对符合预设文字表达规范的原始语料进行文本规整tn获得的tn文本以及所述tn文本中至少一个文本对象的标签,所述标签用于指示所述文本对象的转换格式。
124.根据本公开的一个或多个实施例,示例7提供了示例6的方法,所述原始文本来自语音识别结果。
125.根据本公开的一个或多个实施例,示例8提供了一种模型训练装置,所述装置包括:获取模块,用于获取原始语料,所述原始语料符合预设文字表达规范;规整模块,用于对所述原始语料进行文本规整tn,获得tn文本;训练模块,用于以所述tn文本和所述tn文本中至少一个文本对象的标签为训练语料,通过所述训练语料训练逆向文本规整itn模型,所述itn模型用于对不符合预设文字表达规范的文本进行itn,所述标签用于指示所述文本对象的转换格式。
126.根据本公开的一个或多个实施例,示例9提供了示例8的装置,所述装置还包括:扩展模块,用于获取所述至少一个文本对象的扩展对象,所述扩展对象的语义与所述文本对象的语义相同;根据所述扩展对象和所述标签扩展所述训练语料。
127.根据本公开的一个或多个实施例,示例10提供了示例8的装置,所述装置还包括:匹配模块,用于将所述tn文本与至少一个正则式进行匹配,获得所述tn文本中至少一个文本对象的标签。
128.根据本公开的一个或多个实施例,示例11提供了示例8至示例10任意一项所述的装置,所述文本对象包括以下一种或多种:通过文字表示的数字、金额、日期和地址。
129.根据本公开的一个或多个实施例,示例12提供了示例8至示例10任意一项所述的装置,itn模型为深度学习模型。
130.根据本公开的一个或多个实施例,示例13提供了一种逆向文本规整itn装置,其特征在于,所述装置包括:获取模块,用于获取原始文本;转换模块,用于将所述原始文本输入itn模型,通过所述itn模型对所述原始文本中不符合预设文字表达规范的文本对象进行格式转换,获得转换文本;其中,所述itn模型采用训练语料训练得到,所述训练语料包括对符合预设文字表达规范的原始语料进行文本规整tn获得的tn文本以及所述tn文本中至少一个文本对象的标签,所述标签用于指示所述文本对象的转换格式。
131.根据本公开的一个或多个实施例,示例14提供了示例13的装置,所述原始文本来自语音识别结果。
132.以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
133.此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实
施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
134.尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献