一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种汉字到通用盲文的转换方法及系统

2022-05-06 07:07:17 来源:中国专利 TAG:


1.本发明涉及盲文处理技术领域,特别是汉字到通用盲文的自动转换领域。


背景技术:

2.盲文是盲人阅读和获取信息的重要方式。它是一种触觉符号系统,印刷在纸张或显示在点显器上,通过触摸进行阅读。盲文的基本单位称作“方”,一方包含6个点位,通过设置每个点位是否有点共可形成64种组合(包括6个点位都没有点的空方),这些组合构成了最基本的盲文符号。
3.为了生成盲文内容,需将普通人使用的文字内容转换为盲文。对于字母文字,存在从字母到盲文符号的直接映射,转换相对简单。当前,英语、葡萄牙语、丹麦语、西班牙语等很多语言到盲文的自动转换,都已有可用的计算机系统。而由于汉语盲文自身的特点,汉语-盲文自动转换难度较大。
4.由于不可能将汉字唯一映射到盲文符号,汉语盲文被定义为一种拼音文字。在汉语盲文中,大多数情况下用2-3方表示一个汉字,其中一方表示声母,一方表示韵母,有些情况还需要再增加一方表示声调。汉语盲文与汉字文本最大的区别在于其“分词连写”规则,即要求词与词之间用空方分隔。盲文分词与汉语分词不同,许多汉语中的短语在盲文中需要连写。针对分词连写,中国盲文标准中给出了100多条基于词法、语法和语义的细则,如
“‘
不’与动词、能愿动词、形容词、介词、单音节程度副词均应连写”等。
5.为了进一步减少歧义,盲文还制定了标调规则,即规定哪些音节需要显式地标出声调。当前主要有两种盲文方案在使用中,即“现行盲文”和“通用盲文”。两种盲文方案的分词规则相同,主要区别在于标调规则。在现行盲文中,为节省阅读时间和印刷成本,规定只对易混淆的词语、生疏词语、古汉语实词、非常用的单音节词等标调。一般认为现行盲文的标调率大约在5%左右。但是大量未标调的音节容易造成混淆,影响阅读和理解。因此,国家语委在2018年发布了“通用盲文”方案,通用盲文中虽然采用了一定的声调缺省设置,但是经过缺省规则转换,绝大多数音节都可确定声调。从2018年发布之日起,国家开始大力推广通用盲文,但是,由于目前缺乏汉字到通用盲文自动转换的工具和系统,而人工转换效率很低,导致目前通用盲文的图书资料数量较少,汉字-通用盲文对照的文本语料还处于空白。
6.当前,从汉字到现行盲文的转换方法和系统已经出现,有些已在盲文书籍编辑出版等领域投入真实应用。但汉字到通用盲文的转换方法和系统还很少。
7.汉字到盲文转换的关键问题有三个,即盲文分词、拼音标记和标调。
8.由于现行盲文和通用盲文的分词规则相同,因此在盲文分词方面任务是一致的。所谓盲文分词,是指把连写的汉字串(或由汉字转换而来的盲文符号串)按盲文规则分词。早期的盲文分词系统采用基于规则或词库的方法,主要思路是先把要转换的汉字文本按汉语分词规则分词,然后再根据盲文分词连写规则或是一个预先构建的盲文分词连写库对汉语分词进行一定的调整(主要是合并),以得到按盲文规则分词的汉字串。但是盲文分词连写涉及主观性很强的语法和语义规则,计算机定义和处理都很困难,而且盲文将汉语中的
许多短语连写,可连写的组合是无限的,无法通过一个分词连写库来穷举,因此这些方法性能有限。近年来,随着机器学习,特别是深度学习的发展,出现了基于机器学习,特别是深度学习的盲文分词方法。这些方法采用机器学习模型隐含地刻画盲文分词连写规范,避免了计算机直接处理复杂的语法和语义规则,可大大提升汉盲转换的准确率。现有技术利用盲文语料训练基于机器学习的盲文分词模型,能够将盲文串自动进行分词处理。这一方法的模型训练基于盲文语料,优势是易于获取,缺点在于盲文只表示汉字的读音,导致可能因同音产生歧义,从而影响最终的分词结果。后续现有技术基于汉字-现行盲文对照的语料,训练深度学习模型直接将汉字串按盲文规则分词,相比于对盲文字符串分词准确率更高。
9.拼音标记,是指标记某个汉字的拼音,由于拼音的音节与盲文的音节之间存在对应关系,因此在得到拼音后即可采用一个拼音和盲文音节之间的映射表得到对应的盲文。拼音标记的难点在于多音字的处理。当前的方法一般是在汉语分词的基础上基于拼音词典,结合机器学习模型(如n-gram模型,最大熵模型,人工神经网络)等方法进行多音字消歧。
10.标调,在这里是指确定每个汉字对应的音节是否需要带有声调标记。在现行盲文中,由于规定只对易混淆的词语、生疏词语、古汉语实词、非常用的单音节词等标调,因此需要自动判断每个字词是否符合这些情况。这些情况非常主观,很难通过一个词表或某种明确规则概括,因此现有技术采用机器学习模型来进行自动判断。而在通用盲文中,则相对比较简单,有明确的规则规定对每个音节可以缺省哪个声调(在阅读时,这些缺省的声调大多可以基于规则对应到确定的声调,因此除少数特殊情况外通用盲文事实上实现了每个音节都标调),因此直接按规则标记即可。
11.传统的方法一般将上述3个步骤依次进行,但是这种方式存在两个问题:一是各个步骤所需的时间要叠加,导致总体所需的时间较多;二是后一步骤依赖前一步骤,如果前一步骤的结果出错(如分词错误),则将影响后续步骤(如拼音标记和标调),导致错误叠加。如果能够采用一个统一的机器学习模型一次性实现上述3个步骤(对于通用盲文只需实现前两个步骤,因为标调采用规则实现即可),则可解决上述两个问题,得到更高的时间效率和转换准确率。但是这一思路对于通用盲文来说,还存在一个巨大的困难:要想实现用一个模型同时实现分词和拼音标记,则需要汉字-通用盲文对照的训练语料,即需要大量的语料,且这些语料需要同时有盲文分词和拼音标记信息。而当前,因为通用盲文正处在推广期,可用的语料很少,难以满足这一要求。


技术实现要素:

12.本发明要解决的技术问题为:针对缺乏甚至没有可用的大规模汉字-通用盲文对照语料的现状,采用相互独立的、当前可获取的两种语料——标记了盲文分词的汉字语料和汉字-拼音对照语料,训练一个模型同时实现盲文分词和拼音标记,从而实现高效率和高准确率的汉字到通用盲文转换。
13.具体来说,针对现有技术的不足,本发明提出一种汉字到通用盲文的转换方法,其中包括:
14.步骤1、构建深度学习模型,且该深度学习模型具有两个共享特征编码的子任务分支,其中一条子任务分支用于根据盲文规则将汉语文本分词,另一条子任务分支用于为每
个汉字标注拼音及对应声调;
15.步骤2、使用已标记盲文分词的汉字语料和汉字拼音的对照语料,交替训练该深度学习模型的两个子任务分支,直到两子任务分支的损失函数均收敛或达到预设迭代次数,保存当前深度学习模型作为识别模型;
16.步骤3、将待通用盲文转换的汉字数据输入该识别模型,得到该汉字数据的分词信息和带调拼音信息,并基于该分词信息和该带调拼音信息,以将该汉字数据转换为对应的通用盲文文本。
17.本发明还提出了一种汉字到通用盲文的转换方法,其中包括:
18.步骤1、构建深度学习模型,且该深度学习模型具有两个共享特征编码的子任务分支,其中一条子任务分支用于根据盲文规则将汉语文本分词,另一条子任务分支用于为每个汉字标注拼音及对应声调;
19.步骤2、使用已标记盲文分词的汉字语料和汉字-拼音的对照语料,交替训练该深度学习模型的两个子任务分支,直到两子任务分支的损失函数均收敛或达到预设迭代次数,保存当前深度学习模型作为中间模型;
20.步骤3、获取汉字-通用盲文对照语料,并将其分为多批数据,每批数据包含多条数据,每条数据都同时包含有汉字文本、汉字文本对应的盲文分词标记、汉字文本对应的带调拼音标记,依次用每批数据训练该中间模型,训练时用批数据的汉字文本作为输入,分别经过两个子任务分支,产生盲文分词的输出结果和拼音标记的输出结果,分别利用该盲文分词标记和该带调拼音标记计算各输出结果的损失函数,然后通过反向传播算法更新中间模型,直到各输出结果的损失函数均收敛或达到预设迭代次数,保存当前中间模型作为识别模型;
21.步骤4、将待通用盲文转换的汉字数据输入该识别模型,得到该汉字数据的分词信息和带调拼音信息,并基于该分词信息和该带调拼音信息,以将该汉字数据转换为对应的通用盲文文本。
22.所述的汉字到通用盲文的转换方法,其中该深度学习模型为语言表征模型。
23.本发明还提出了一种汉字到通用盲文的转换系统,其中包括:
24.构建模块,用于构建深度学习模型,且该深度学习模型具有两个共享特征编码的子任务分支,其中一条子任务分支用于根据盲文规则将汉语文本分词,另一条子任务分支用于为每个汉字标注拼音及对应声调;
25.训练模块,用于使用已标记盲文分词的汉字语料和汉字拼音的对照语料,交替训练该深度学习模型的两个子任务分支,直到两子任务分支的损失函数均收敛或达到预设迭代次数,保存当前深度学习模型作为识别模型;
26.转换模块,用于将待通用盲文转换的汉字数据输入该识别模型,得到该汉字数据的分词信息和带调拼音信息,并基于该分词信息和该带调拼音信息,以将该汉字数据转换为对应的通用盲文文本。
27.本发明还提出了一种汉字到通用盲文的转换系统,其中包括:
28.构建模块,用于构建深度学习模型,且该深度学习模型具有两个共享特征编码的子任务分支,其中一条子任务分支用于根据盲文规则将汉语文本分词,另一条子任务分支用于为每个汉字标注拼音及对应声调;
29.第一训练模块,用于使用已标记盲文分词的汉字语料和汉字-拼音的对照语料,交替训练该深度学习模型的两个子任务分支,直到两子任务分支的损失函数均收敛或达到预设迭代次数,保存当前深度学习模型作为中间模型;
30.第二训练模块,用于获取汉字-通用盲文对照语料,并将其分为多批数据,每批数据包含多条数据,每条数据都同时包含有汉字文本、汉字文本对应的盲文分词标记、汉字文本对应的带调拼音标记,依次用每批数据训练该中间模型,训练时用批数据的汉字文本作为输入,分别经过两个子任务分支,产生盲文分词的输出结果和拼音标记的输出结果,分别利用该盲文分词标记和该带调拼音标记计算各输出结果的损失函数,然后通过反向传播算法更新中间模型,直到各输出结果的损失函数均收敛或达到预设迭代次数,保存当前中间模型作为识别模型;
31.转换模块,用于将待通用盲文转换的汉字数据输入该识别模型,得到该汉字数据的分词信息和带调拼音信息,并基于该分词信息和该带调拼音信息,以将该汉字数据转换为对应的通用盲文文本。
32.所述的汉字到通用盲文的转换系统,其中该深度学习模型为语言表征模型。
33.本发明还提出了一种存储介质,用于存储所述任意一种汉字到通用盲文的转换方法的程序。
34.本发明还提出了一种客户端,用于上述任意一种汉字到通用盲文的转换系统。
35.由以上方案可知,本发明的优点在于:
36.通过采用本发明提出的汉字到通用盲文的转换方法和系统,可以克服当前可用的汉字-通用盲文对照语料缺乏的问题,采用相对容易获取的盲文分词语料和汉字-拼音对照语料即可训练基于深度神经网络的汉字-通用盲文转换模型,实现高准确率的汉字-通用盲文转换。将该技术应用于盲文编辑出版,可以提高盲文图书出版效率,丰富盲文图书资源;将该技术应用于盲用终端上的电子书阅读器、浏览器等软件,可以实现汉字到盲文的实时转换,通过输出到点显器,可以帮助盲人以盲文摸读方式阅读汉字文档,消除阅读障碍。
附图说明
37.图1为本发明整体流程图;
38.图2为本发明模型结构图;
39.图3为标记了盲文分词的汉字语料示例图;
40.图4为汉字和现行盲文词语级对照的语料示例图;
41.图5为汉字-拼音对照语料示例。
具体实施方式
42.本发明提出了一种汉字到通用盲文的转换方法,其主要步骤包括:
43.1.构建一个带有两个分支的深度学习模型,两个分支分别负责将汉语文本按盲文规则分词,以及为每个汉字标注及对应的带声调的拼音,两个分支共享特征编码模块。
44.优选地,可使用语言表征模型bert作为预训练模型,在bert之上设置两个任务分支,分别对应汉字到通用盲文转换的两个子任务:将汉语文本按盲文规则分词(盲文分词子任务),以及为每个汉字标注其对应的带声调的拼音(拼音标记子任务)。
45.2.采用标记了盲文分词的汉字语料和汉字-拼音对照语料训练步骤1构建的深度学习模型,训练方式为两个子任务分支交替训练。
46.交替训练的具体方式为:将标记了盲文分词的汉字语料和汉字-拼音对照语料分别分为若干批(batch),每批包含若干条数据。然后每次交替性地从两种语料中选出一批数据来训练模型的与该语料匹配的任务,在这两种任务的损失函数都达到收敛或达到预设迭代次数时停止训练。
47.3.可选地,采用可获取的汉字-通用盲文对照语料优化训练步骤2训练完成的模型。
48.首先由汉语-通用盲文语料分别得到标记了盲文分词的汉字语料和汉字-拼音对照语料。
49.优化训练方法为:将汉字-通用盲文对照语料分为若干批(batch),每批包含若干条数据,每条数据都同时包含有:汉字文本、汉字文本对应的盲文分词标记、汉字文本对应的带调拼音。依次用每批数据训练,在训练时,用该批数据的汉字文本作为输入,分别经过盲文分词和拼音标记两个子任务分支,产生盲文分词的输出结果和拼音标记的输出结果,然后利用训练数据中的盲文分词和拼音标记的标注数据,即汉字文本对应的盲文分词标记和汉字文本对应的带调拼音来计算损失函数,然后通过反向传播算法更新整个模型的参数。
50.4.采用步骤2或步骤3训练好的模型进行汉字到通用盲文的自动转换。
51.模型训练好后,对于一条输入的汉字文本,将其输入模型,经过两个子任务分支后,可分别得到两个子任务的预测结果,基于所述两个子任务的预测结果,可得到对应的通用盲文。
52.为让本发明的上述特征和效果能阐述得更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
53.本发明提出了基于深度学习的汉语到通用盲文的转换方法和系统,采用深度学习的方法,对输入的汉语句子进行特征分析和提取,并根据提取到的特征,得到汉语的拼音信息和分词信息,由此我们就可以得到其对应的通用盲文,其流程如图1所示。
54.具体步骤包括:
55.1.构建一个带有两个分支的深度学习模型,两个分支分别负责将汉语文本按盲文规则分词,以及为每个汉字标注及对应的带声调的拼音,两个分支共享特征编码模块。
56.在一个实施例中,使用bert作为预训练模型,在bert之上设置两个任务分支,分别对应汉字到通用盲文转换的两个子任务:将汉语文本按盲文规则分词(盲文分词子任务),以及为每个汉字标注其对应的带声调的拼音(拼音标记子任务)。模型结构如图2所示。
57.如图2所示的模型中,底层为bert,在bert的上层分别连接了两个全连接层,一个用于预测输入文本的分词信息,另一个用于预测输入文本的拼音信息。在得到这两个信息之后,就可以得到输入的汉语文本对应的通用盲文。
58.2.采用标记了盲文分词的汉字语料和汉字-拼音对照语料训练步骤1构建的深度学习模型,训练方式为两个子任务分支交替训练。
59.由于通用盲文于2018年发布实施,目前处于推广的初期,可用的汉字-通用盲文直接对照的语料很少,因此采用两类独立的语料同时训练步骤1中构建的深度学习模型。
60.采用的两种语料分别为标记了盲文分词的汉字语料和汉字-拼音对照语料。
61.(1)标记了盲文分词的汉字语料。即在汉字语料上,标记了按照盲文规则进行分词的信息。该语料可以采用汉字与盲文词语级对照的现行盲文语料,也可采用其它人工或自动标注得到的语料。
62.作为模型输入的标记了盲文分词的汉字语料,其中的每个汉语句子都带有如下方式的标记:句子中每个字的分词信息用“b”、“m”、“e”和“s”来表示。其中,“s”代表single,表示是一个单字,意为这个字可以单独作为一个词语;“b”代表begin,表示这个字是一个词语的开头,即是其所在词语的第一个字;“m”代表middle,表示这个字是其所在词语的中间的字,即既不是其所在词的第一个字,也不是最后一个字;“e”代表end,表示这个字是其所在词语的最后一个字。
63.因此,作为模型输入的标记了盲文分词的汉字语料,每条数据分别是一条汉语文本,以及其每个字对应的分词信息。如图3所示即为一条汉语文本及其对应的分词信息。
64.如果采用其它形式的标记了盲文分词的汉字语料,则需将其转化为图3所示的标注形式。
65.在一个实施例中,采用汉字和现行盲文词语级对照的语料,该语料如图4所示:汉字语料和现行盲文语料分别存储为两个文本文件,盲文以ascii码形式存储。两个文本文件的相同行分别表示同一个句子的汉字和现行盲文文本,汉字和现行盲文文本中均以空格表示分词标记。因此,这一语料中的汉字文本即为按盲文规则分词的汉字文本。由于现行盲文和通用盲文的分词规则相同,因此可以采用该语料训练汉字-通用盲文转换模型中的盲文分词子任务。训练前需要先将图4左侧所示的格式转为图3所示的格式,转换方法为对于每一个汉字,按照其在盲文词(被空格所隔开的汉字串,如第一行中的“我”、“的”、“一贯”、“做法”)中的位置,标记其为“b”、“m”、“e”、“s”之中的一个。
66.(2)汉字-拼音对照语料。汉字-拼音对照语料是指标记了每一个汉字对应的拼音的语料,由于通用盲文中几乎每个字都可以确定声调,因此语料中标注的拼音也需要是带有声调的拼音。
67.在一个实施例中,采用的汉字-拼音对照语料如图5所示。在该语料中,每条汉语语句会有其对应的拼音信息标注。拼音包括音节和声调,声调标记为:“1”表示一声(阴平),“2”表示二声(阳平),“3”表示三声(上声),“4”表示四声(去声),“5”表示轻声。同时,对于逗号、句号等标点符号以及拉丁字母、阿拉伯数字等等,用“p”来表示。
68.由于汉字与通用盲文对照的语料严重缺乏,因此无法用一种语料同时训练步骤1所构造的模型的两个子任务。而如果用两种语料分别训练两个模型,则无法利用两个任务之间的关联信息(读音和分词之间存在关联,不同的读音对应不同的分词),也不利于后续利用少量汉语和通用盲文对照的语料来优化训练统一的模型。因此,本发明采用标记了盲文分词的汉字语料和汉字-拼音对照语料这两种各自独立的语料来同时训练步骤1所构造的统一的多分支模型。采用一个模型同时实现两个子任务,能够利用两个子任务之间的关联信息更好地训练两个子任务分支所共享的bert模块,也更有利于后续用同时具有盲文分词和拼音标注的数据训练该统一模型。
69.在具体训练模型时,采用交替训练的方法:将标记了盲文分词的汉字语料和汉字-拼音对照语料分别分为若干批,一个优化的实施例中每批包含128条数据。然后每次交替性
地从两种语料中选出一批数据来训练模型的与该语料匹配的任务,在这两种任务的损失函数都达到收敛或达到预设迭代次数时停止训练。
70.3.可选地,采用可获取的少量汉字-通用盲文对照语料优化训练步骤2训练完成的模型。
71.通用盲文中既有盲文的分词信息,也有盲文对应的每个汉字的读音信息,这种读音信息可以通过盲文符号串和拼音符号串之间的映射表比较方便地转化为带调的汉语拼音。因此,可以由汉语-通用盲文语料分别得到格式如图3所示的标记了盲文分词的汉字语料和格式如图5所示的汉字-拼音对照语料。
72.在一个实施例中,所采用的汉字-通用盲文对照的语料格式与图4相同。该语料中按盲文分词的汉字文本与图4左侧所示格式完全相同,因此,可由该文本得到图3所示的用于输入模型的标记了盲文分词的汉字语料。
73.汉字-通用盲文对照的语料中的盲文语料与图4右侧格式几乎相同,区别在于盲文词中会增加一些盲文符号用于表示相应音字的声调。通过解析通用盲文的符号串,可以将其根据读音(包括声母、韵母和声调)转化为相应的拼音串。例如,可采用一个通用盲文带调音节与拼音带调音节的映射表实现上述转换,从而得到图5所示的汉字-拼音对照语料。
74.在由汉字-通用盲文对照语料得到标记了盲文分词的汉字语料和汉字-拼音对照语料后,可采用这些语料对步骤2中训练完成的模型进行继续训练。方法为:将汉字-通用盲文对照语料分为若干批(batch),一个优化的实施例中每批包含128条数据,每条数据都同时包含有:汉字文本、汉字文本对应的盲文分词标记、汉字文本对应的带调拼音。依次用每批数据训练,在训练时,用该批数据的汉字文本作为输入,分别经过盲文分词和拼音标记两个子任务分支,产生盲文分词的输出结果和拼音标记的输出结果,然后利用训练数据中的盲文分词和拼音标记的标注数据,即汉字文本对应的盲文分词标记和汉字文本对应的带调拼音来计算损失函数,然后通过反向传播算法更新整个模型的参数。
75.4.采用步骤2或步骤3训练好的模型进行汉字到通用盲文的自动转换。
76.模型训练好后,对于一条输入的汉字文本,将其输入模型,经过两个子任务分支后,可分别得到两个子任务的预测结果,即汉字文本对应的盲文分词标记和带调拼音。在一个实施例中,输入的汉字文本为“小行星的发现。”,经过模型预测后得到的分词标记为“b m e s b m e”,带调拼音为“xiao3 xing2 xing1 de5 fa1 xian4 p”。
77.基于汉字文本对应盲文分词标记和带调拼音,可得到对应的通用盲文,方法为:首先,将带调拼音根据分词标记分词,方法为按位置对应,将“b”和“e”之间的带调拼音音节连为一个词,将“s”标记对应的带调拼音音节单独成词。如上述实施例中,可得到拼音串“xiao3xing2xing1 de5 fa1xian4 p”。然后,利用拼音音节和标点、符号、数字等与通用盲文符号串之间的映射规则,得到通用盲文文本,如上述实施例中得到的盲文文本(ascii码编码)为“h》'h*1h*a d f9h%"2”。
78.以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
79.本发明还提出了一种汉字到通用盲文的转换系统,其中包括:
80.构建模块,用于构建深度学习模型,且该深度学习模型具有两个共享特征编码的
子任务分支,其中一条子任务分支用于根据盲文规则将汉语文本分词,另一条子任务分支用于为每个汉字标注拼音及对应声调;
81.训练模块,用于使用已标记盲文分词的汉字语料和汉字拼音的对照语料,交替训练该深度学习模型的两个子任务分支,直到两子任务分支的损失函数均收敛或达到预设迭代次数,保存当前深度学习模型作为识别模型;
82.转换模块,用于将待通用盲文转换的汉字数据输入该识别模型,得到该汉字数据的分词信息和带调拼音信息,并基于该分词信息和该带调拼音信息,以将该汉字数据转换为对应的通用盲文文本。
83.本发明还提出了一种汉字到通用盲文的转换系统,其中包括:
84.构建模块,用于构建深度学习模型,且该深度学习模型具有两个共享特征编码的子任务分支,其中一条子任务分支用于根据盲文规则将汉语文本分词,另一条子任务分支用于为每个汉字标注拼音及对应声调;
85.第一训练模块,用于使用已标记盲文分词的汉字语料和汉字-拼音的对照语料,交替训练该深度学习模型的两个子任务分支,直到两子任务分支的损失函数均收敛或达到预设迭代次数,保存当前深度学习模型作为中间模型;
86.第二训练模块,用于获取汉字-通用盲文对照语料,并将其分为多批数据,每批数据包含多条数据,每条数据都同时包含有汉字文本、汉字文本对应的盲文分词标记、汉字文本对应的带调拼音标记,依次用每批数据训练该中间模型,训练时用批数据的汉字文本作为输入,分别经过两个子任务分支,产生盲文分词的输出结果和拼音标记的输出结果,分别利用该盲文分词标记和该带调拼音标记计算各输出结果的损失函数,然后通过反向传播算法更新中间模型,直到各输出结果的损失函数均收敛或达到预设迭代次数,保存当前中间模型作为识别模型;
87.转换模块,用于将待通用盲文转换的汉字数据输入该识别模型,得到该汉字数据的分词信息和带调拼音信息,并基于该分词信息和该带调拼音信息,以将该汉字数据转换为对应的通用盲文文本。
88.所述的汉字到通用盲文的转换系统,其中该深度学习模型为语言表征模型。
89.本发明还提出了一种存储介质,用于存储所述任意一种汉字到通用盲文的转换方法的程序。本发明还提出了一种客户端,用于上述任意一种汉字到通用盲文的转换系统。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献