一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音识别文本的处理方法、装置、电子设备及存储介质与流程

2022-06-08 10:21:06 来源:中国专利 TAG:


1.本发明涉及人工智能领域,具体涉及一种语音识别文本的处理方法、装置、电子设备及存储介质。


背景技术:

2.目前,语音识别技术在各种场景普遍使用,例如手机中语音转写,智能客服的语音识别等。由于在开放的环境中噪音过多,国内方言也众多,语音识别系统对带口音的语音往往识别率较低,对后期处理造成较大影响,因此,对语音识别后的文本一般需要纠错处理。
3.通常文本纠错采用的方案包括:错误检测、候选召回、候选排序三个部分。采用的技术可以分为:基于规则式的通用纠错库,例如pycorrector(github的开源框架,开源使用最多);基于大规模样本训练深度学习模型的纠错算法(以百度纠错为代表);基于专业领域的dcqc纠错框架。其中,pycorrector利用了jieba分词器的词典,对未登录在jieba分词器的词语进行纠错,在通用领域有较好的效果,然而在专业领域,由于缺少大量专业领域词语,效果往往比较差。而深度学习模型纠错方法依赖于大量的文本语料,在缺少标注的语料的场景下实现较困难。
4.也就是说,目前语音识别后的文本纠错处理效果较差,影响了语音识别的准确率。


技术实现要素:

5.有鉴于此,本发明提供一种语音识别文本的处理方法、装置、电子设备及存储介质,以解决上述提及的至少一个问题。
6.根据本发明的第一方面,提供一种语音识别文本的处理方法,所述方法包括:
7.获取语音识别文本,并基于预先设置的检错规则对所述语音识别文本进行错误检测,以得到错误词组,所述检错规则基于分词词典和统计学语言模型设置;
8.根据预先设置的纠错规则对所述错误词组进行初级纠错处理,所述纠错规则基于预定语言模型构建而成;
9.响应于部分错误词组的初级纠错处理执行失败,将所述部分错误词组输入至预先训练的神经网络语言模型进行二次纠错处理;
10.根据所述初级纠错处理和所述二次纠错处理的结果对所述错误词组进行纠错处理,以生成纠错后的语音识别文本。
11.优选地,所述统计学语言模型为n-gram语言模型,基于预先设置的检错规则对所述语音识别文本进行错误检测包括:
12.基于所述分词词典对所述语音识别文本进行分词处理;
13.基于所述n-gram语言模型对分词处理后的每个字在上下文中出现的概率进行错误检测。
14.优选地,所述预定语言模型为word2vec模型,基于预定语言模型构建所述纠错规则包括:
15.将预定专业词语输入至所述word2vec模型,以输出拼音相似的多个候选词;
16.根据所述预定专业词语和相应的多个候选词构建所述纠错规则。
17.具体地,根据预先设置的纠错规则对所述错误词组进行初级纠错处理包括:
18.将所述错误词组与所述纠错规则中的候选词进行匹配操作;
19.响应于匹配操作成功,根据与匹配到的候选词相应的预定专业词语对错误词组进行纠错处理。
20.优选地,所述神经网络语言模型为双向rnn模型,将所述部分错误词组输入至预先训练的神经网络语言模型进行二次纠错处理包括:
21.将所述部分错误词组中的错误词组拼音、错误词组的上下文及该上下文的拼音输入至所述双向rnn模型进行二次纠错处理,以生成与该错误词组相应的多个候选词。
22.进一步地,所述方法还包括:
23.根据所述与该错误词组相应的多个候选词与该错误词组之间的拼音相似度进行二次纠错处理。
24.具体地,通过如下方式训练所述双向rnn模型:
25.获取历史语音识别文本,所述历史语音识别文本包括:历史准确文本和历史错误文本;
26.根据所述历史准确文本和所述历史错误文本的文字及拼音对所述双向rnn模型进行训练。
27.根据本发明的第二方面,提供一种语音识别文本的处理装置,所述装置包括:
28.错误检测单元,用于获取语音识别文本,并基于预先设置的检错规则对所述语音识别文本进行错误检测,以得到错误词组,所述检错规则基于分词词典和统计学语言模型设置;
29.初级纠错处理单元,用于根据预先设置的纠错规则对所述错误词组进行初级纠错处理,所述纠错规则基于预定语言模型构建而成;
30.二次纠错处理单元,用于响应于部分错误词组的初级纠错处理执行失败,将所述部分错误词组输入至预先训练的神经网络语言模型进行二次纠错处理;
31.语音识别文本纠错单元,用于根据所述初级纠错处理和所述二次纠错处理的结果对所述错误词组进行纠错处理,以生成纠错后的语音识别文本。
32.根据本发明的第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
33.根据本发明的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
34.由上述技术方案可知,通过基于预先设置的检错规则对获取的语音识别文本进行错误检测,得到错误词组,随后根据纠错规则对错误词组进行初级纠错处理,当部分错误词组的初级纠错处理执行失败时,将部分错误词组输入至神经网络语言模型进行二次纠错处理,之后,根据所述初级纠错处理和所述二次纠错处理的结果对所述错误词组进行纠错处理,生成纠错后的语音识别文本,如此,可以提高语音识别的准确率。
附图说明
35.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
36.图1是根据本发明实施例的语音识别文本处理方法的流程图;
37.图2是根据本发明实施例的针对语音识别后的文本纠错流程图;
38.图3是根据本发明实施例的双向rnn模型的架构示意图;
39.图4是根据本发明实施例的语音识别文本处理装置的结构框图;
40.图5是根据本发明实施例的针对语音识别后的文本纠错装置的示例结构图;
41.图6为本发明实施例的电子设备600的系统构成的示意框图。
具体实施方式
42.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
43.由于不同地区存在方言和口音,使得语音识别后的文本含有大量音近词而不是同音词,增加了语音识别文本的纠错难度。同时,目前语音识别后的文本纠错技术效果较差,影响了语音识别的准确率。基于此,本发明实施例提供一种语音识别文本的处理方案,该方案针对语音识别后的错误文本,构建语音识别后文本纠错词组对,从而可以将语音识别后的文本进行修正,提升语音识别的准确率。
44.需要说明的是,本技术技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。以下结合附图对本发明实施例进行详细描述。
45.图1是根据本发明实施例的语音识别文本处理方法的流程图,如图1所示,该方法包括:
46.步骤101,获取语音识别文本,并基于预先设置的检错规则对所述语音识别文本进行错误检测,以得到错误词组,所述检错规则基于分词词典(例如,jieba分词器的词典)和统计学语言模型设置。
47.优选地,统计学语言模型可以为n-gram(n元模型)语言模型。具体地,可以先基于所述分词词典对所述语音识别文本进行分词处理;随后,基于所述n-gram语言模型对分词处理后的每个字在上下文中出现的概率进行错误检测。
48.步骤102,根据预先设置的纠错规则对所述错误词组进行初级纠错处理,所述纠错规则基于预定语言模型构建而成。
49.这里的预定语言模型可以为word2vec(用来产生词向量的模型)模型。在实际操作中,可以将预定专业词语输入至所述word2vec模型,以输出拼音相似的多个候选词;之后,根据所述预定专业词语和相应的多个候选词构建所述纠错规则。
50.在执行步骤102时,可以将所述错误词组与所述纠错规则中的候选词进行匹配操作;当匹配操作成功时,根据与匹配到的候选词相应的预定专业词语对错误词组进行纠错
处理,也就是说,与匹配到的候选词对应的预定专业词语为该错误词组的正确词。
51.步骤103,响应于部分错误词组的初级纠错处理执行失败,将所述部分错误词组输入至预先训练的神经网络语言模型进行二次纠错处理。
52.优选地,这里的神经网络语言模型可以为双向rnn(recurrent neural network,循环神经网络)模型。在实际操作中,可以通过如下方式训练所述双向rnn模型:获取历史语音识别文本,所述历史语音识别文本包括:历史准确文本和历史错误文本;之后,根据所述历史准确文本和所述历史错误文本的文字及拼音对所述双向rnn模型进行训练。
53.在执行步骤103时,可以先将所述部分错误词组中的错误词组拼音、错误词组的上下文及该上下文的拼音输入至所述双向rnn模型进行二次纠错处理,以生成与该错误词组相应的多个候选词。之后,根据所述与该错误词组相应的多个候选词与该错误词组之间的拼音相似度进行二次纠错处理。
54.步骤104,根据所述初级纠错处理和所述二次纠错处理的结果对所述错误词组进行纠错处理,以生成纠错后的语音识别文本。
55.通过基于预先设置的检错规则对获取的语音识别文本进行错误检测,得到错误词组,随后根据纠错规则对错误词组进行初级纠错处理,当部分错误词组的初级纠错处理执行失败时,将部分错误词组输入至神经网络语言模型进行二次纠错处理,之后,根据所述初级纠错处理和所述二次纠错处理的结果对所述错误词组进行纠错处理,生成纠错后的语音识别文本,如此,可以提高语音识别的准确率。
56.为了更好地理解本发明,以下结合图2所示的流程来详细本发明实施例。
57.参见图2所示,该针对语音识别后的文本纠错流程具体包括:
58.步骤1:对获取的语音文件进行语音识别,即,对语音输入文件进行语音转文本操作。
59.步骤2:对语音识别后的文本进行分词处理,之后根据语言模型(例如,无监督的语言模型)对文本进行错误检测。在该步骤的错误检测中,本发明实施例采用词典分词结合模型判断的方式。分词词典可以选用比较通用的词典,例如,jieba分词器的词典,对于绝大部分而言,输入的词组都是常用的。在文本进行分词后,语言模型评判一个句子是否合理,如果一个短语出现的频率越低,那么最有可能是出现了错误词汇。
60.在实际操作中,该语言模型可以是n-gram语言模型。在评判一个句子是否合理时,一个局部的n-gram的条件概率比整个句子的概率明显低,则说明这个位置可能存在错误词。
61.在具体实施时,语言模型也可以使用神经网络模型或者其他统计学模型。本发明实施例采用基于字的n-gram语言模型,该模型主要对正常语料统计当前字在上下文中出现的频率,出现的频率越多,说明越合理,出现的频率越低,说明句子可能出现错误。
62.例如,对“目前语音识别在各种场景普遍使用,例如手机中语音转写,智能客服的语音识别。由于在开放的环境中噪音过多,国内方言也众多,语音识别系统对带口音的语音往往识别率较低。对后期的处理造成很大的问题。对语音识别后的文本往往需要进行纠错处理。”这段话进行统计每个字和前一个字出现的频率。统计如下:{('语','音'):6,('识','别'):5,('音','识'):4,('的','语'):2
……
}。之后统计出上述每个字对出现的概率,比如(

语’,

音’)的概率使用(

语’,

音’)出现的次数为6除以以“语”为前缀出现词的
个数8,那么,p(音|语)=6/8=0.75,即“语”出现时“音”字出现的概率为0.75。根据马尔科夫假设,可以计算出局部短语的概率。这样,较低概率的短语可以判定为错误短语。
63.步骤3:对步骤2可能的错误词组,进行候选词召回。纠错常用的方法可以是采用训练无监督的语言模型或者规则词典匹配方法。由于专业领域语料较少,特别的语音识别场景本身专有名词识别具有大量的错误。因此,仅采用语言模型往往效果较差。而规则词典匹配方法可以较为准确地进行纠错,但是构造规则词典需要积累大量错误样本,人工投入巨大。因而,本发明实施例采用规则词典和语言模型结合的方法。
64.具体地,本发明实施例基于大量无标注的语音识别后的语料训练word2vec模型构建规则词典。通过将专业词输入至训练好的word2vec模型,模型输出最有可能的错误词。对可能的错误词采用拼音相似度计算的方法筛选出可能的错误词对,之后基于专业词和筛选出的错误词对构建规则词典。
65.也就是说,使用大量语音识别后的语料训练word2vec模型,得到word2vec模型后,对业务专业词语输入word2vec模型得到相近的词语,例如,将“etc”输入word2vec模型,得到距离“etc”最近的10词语,包含错误的“异地非”、“亦非”、“一起飞”和“一起非”等,如下所示:
66.('异地非',0.8128223419189453)
67.('牡丹卡',0.7696257829666138)
68.('亦非',0.7594119906425476)
69.('车贷',0.7453207645225525)
70.('一起非',0.7332978844642639)
71.('车辆',0.7260703444480896)
72.('pos机',0.7176908254623413)
73.('一起飞',0.7103822019432068)
74.('速通卡',0.7018517851829529)
75.('公积金',0.6822041604995728)
76.得到与专业词语相近的10个相近词后,就得到了可能的纠错对,比如

异地非’——》

etc’。然后,使用拼音相似度进行筛选。本发明实施例采用共有音节数除以字个数的方法,比如

异地非’的音节

yi di fei’,

etc’的音节

yi ti ci’,那么两者之间的相似度为1/3,而车贷和etc的音节相似度为0。这样,就将

车贷’——》

etc’这个纠错对进行筛除掉。
77.最后进行人工确认,构建出规则词库。采用此方法,可以减少人工构建规则词典的成本。
78.对步骤2中可能的错误词检索规则词库,如果匹配到规则词典,则直接输出对应的纠错后的词。若没有匹配到规则词库,则进入下一步,通过语言模型进行候选词召回。
79.通常语言模型多采用神经网络语言模型,但是传统神经网络语言模型一般采用上下文预测当前字或者词。预测词的搜索空间为整个词表,而语音识别往往是同音,音近错误。本发明实施例采用将当前错误词的拼音及上下文的拼音也作为特征输入,这样可以减少搜索空间,提升准确率。本发明实施例采用的神经网络语言模型为双向rnn模型,模型架构如图3所示。
80.在传统的rnn语言模型的基础上,本发明采用拼音作为特征和字一起做编码层输入,特别的将拼音左移一位,这样就将上下文和当前字的音节作为特征输入网络,预测当前字,极大的提升了准确率。
81.步骤4:对步骤3中候选词召回的结果进行打分,按照倒序排序,输出最小值,同样的在专业领域语料相对较少的情况下,本发明实施例的打分采用候选词召回的词计算拼音相似度,字符串编辑距离进行加权平均。具体的计算公式为:
[0082][0083]
其中,sim()为拼音相似度函数,s
1pinyin
、s
2pinyin
为字符串s1、s2的拼音,ld()为编辑距离函数,max()为最大值函数,len()为字符串长度。
[0084]
步骤5:根据步骤3中命中规则词库的词语直接输出,根据步骤4的加权平均结果s若低于阈值则表示为正确词语,此时输出正确词语,若高于阈值则不进行纠错输出。
[0085]
纠正后的结果如表1所示:
[0086][0087]
表1
[0088]
由以上描述可知,本发明实施例采用规则词典和语言模型结合的方法,针对专业领域的专有名词,基于word2vec模型构建规则词典,人工输入专业词,word2vec模型输出最有可能的错误词,从而可以提高专业领域纠错词典的效率。针对纠错中候选词召回部分,采用将语音信息特征加入的方法,可以有效地降低模型搜索空间,提升模型准确率,从而可以提高语音识别的准确率。
[0089]
基于相似的发明构思,本发明实施例还提供了一种语音识别文本的处理装置,该装置优选地可用于实现上述方法实施例的流程。
[0090]
图4是该语音识别文本处理装置的结构框图,如图4所示,该装置包括:错误检测单元1、初级纠错处理单元2、二次纠错处理单元3和语音识别文本纠错单元4,其中:
[0091]
错误检测单元1,用于获取语音识别文本,并基于预先设置的检错规则对所述语音识别文本进行错误检测,以得到错误词组,所述检错规则基于分词词典和统计学语言模型设置。
[0092]
优选地,统计学语言模型为n-gram语言模型,错误检测单元1具体用于:
[0093]
基于所述分词词典对所述语音识别文本进行分词处理;
[0094]
基于所述n-gram语言模型对分词处理后的每个字在上下文中出现的概率进行错误检测。
[0095]
初级纠错处理单元2,用于根据预先设置的纠错规则对所述错误词组进行初级纠错处理,所述纠错规则基于预定语言模型构建而成。
[0096]
优选地,预定语言模型为word2vec模型。
[0097]
在一个实施例中,基于预定语言模型构建所述纠错规则包括:将预定专业词语输入至所述word2vec模型,以输出拼音相似的多个候选词;根据所述预定专业词语和相应的多个候选词构建所述纠错规则。
[0098]
初级纠错处理单元2具体地可以将所述错误词组与所述纠错规则中的候选词进行匹配操作,当匹配操作成功时,根据与匹配到的候选词相应的预定专业词语对错误词组进行纠错处理。
[0099]
二次纠错处理单元3,用于响应于部分错误词组的初级纠错处理执行失败,将所述部分错误词组输入至预先训练的神经网络语言模型进行二次纠错处理。
[0100]
优选地,神经网络语言模型为双向rnn模型,可以通过如下方式来训练该模型:获取历史语音识别文本,所述历史语音识别文本包括:历史准确文本和历史错误文本;并根据所述历史准确文本和所述历史错误文本的文字及拼音对所述双向rnn模型进行训练。
[0101]
在一个实施例中,二次纠错处理单元3将所述部分错误词组中的错误词组拼音、错误词组的上下文及该上下文的拼音输入至所述双向rnn模型进行二次纠错处理,以生成与该错误词组相应的多个候选词;之后,根据所述与该错误词组相应的多个候选词与该错误词组之间的拼音相似度进行二次纠错处理。
[0102]
语音识别文本纠错单元4,用于根据所述初级纠错处理和所述二次纠错处理的结果对所述错误词组进行纠错处理,以生成纠错后的语音识别文本。
[0103]
通过错误检测单元1基于预先设置的检错规则对获取的语音识别文本进行错误检测,得到错误词组,随后初级纠错处理单元2根据纠错规则对错误词组进行初级纠错处理,当部分错误词组的初级纠错处理执行失败时,二次纠错处理单元3将部分错误词组输入至神经网络语言模型进行二次纠错处理,之后,语音识别文本纠错单元4根据所述初级纠错处理和所述二次纠错处理的结果对所述错误词组进行纠错处理,生成纠错后的语音识别文本,如此,可以提高语音识别的准确率。
[0104]
上述各单元的具体执行过程,可以参见上述方法实施例中的描述,此处不再赘述。
[0105]
在实际操作中,上述各单元可以组合设置、也可以单一设置,本发明不限于此。
[0106]
图5是根据本发明实施例的针对语音识别后的文本纠错装置的示例结构图,如图5所示,该装置包括:语音识别模块201、错误检测模块202、规则词典检索模块203、专业领域专有名词存储模块204、规则词典挖掘模块205、候选词召回模块206、候选词排序模块207、纠错结果输出模块208,其中:
[0107]
语音识别模块201,用户语音输入后,语音识别模块将语音转换成文本。
[0108]
错误检测模块202,错误检测模块采用词典结合模型判断文本中的错误词组,并将检测出的错误词组发送至规则词典检索模块203。
[0109]
规则词典检索模块203,规则词典检索模块203根据规则词典挖掘后的错误词对进
行检索,提供规则词库查询匹配功能。
[0110]
专业领域专有名词存储模块204,该模块主要负责专业领域专有名词用户输入和存储管理功能,用户可以按照专业领域进行分类管理,并提供专业领域专有名词增删改查。
[0111]
规则词典挖掘模块205,该模块基于专业领域语料训练的word2vec模型构建规则词典,将模块204中专业领域的专有名词输入word2vec模型,输出最相近的k个词组,然后将专有名词和k个词组转成拼音计算拼音之间的编辑距离,过滤掉编辑距离过大的词组,然后人工进行确认,构建出规则词典。
[0112]
候选词召回模块206,该模块将当前错误词的上下文、上下文的拼音、错误词拼音作为特征输入到神经网络语言模型进行候选词召回。
[0113]
候选词排序模块207,该模块采用计算候选词和错误词之间拼音的编辑距离,字符串编辑距离进行加权求平均。
[0114]
纠错结果输出模块208,根据模块207的加权求平均结果,若低于阈值则表示为正确词语,此时输出正确词语,若高于阈值则不进行纠错输出。
[0115]
由以上描述可知,通过word2vec模型构建规则词典,可以提高专业领域纠错词典的效率,通过候选词召回部分,采用将语音信息特征加入的方法,可以有效降低模型搜索空间,提升模型准确率。
[0116]
本实施例还提供一种电子设备,该电子设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该电子设备可以参照上述方法实施例进行实施及语音识别文本处理装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
[0117]
图6为本发明实施例的电子设备600的系统构成的示意框图。如图6所示,该电子设备600可以包括中央处理器100和存储器140;存储器140耦合到中央处理器100。值得注意的是,该图是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
[0118]
一实施例中,语音识别文本处理功能可以被集成到中央处理器100中。其中,中央处理器100可以被配置为进行如下控制:
[0119]
获取语音识别文本,并基于预先设置的检错规则对所述语音识别文本进行错误检测,以得到错误词组,所述检错规则基于分词词典和统计学语言模型设置;
[0120]
根据预先设置的纠错规则对所述错误词组进行初级纠错处理,所述纠错规则基于预定语言模型构建而成;
[0121]
响应于部分错误词组的初级纠错处理执行失败,将所述部分错误词组输入至预先训练的神经网络语言模型进行二次纠错处理;
[0122]
根据所述初级纠错处理和所述二次纠错处理的结果对所述错误词组进行纠错处理,以生成纠错后的语音识别文本。
[0123]
从上述描述可知,本技术实施例提供的电子设备,通过基于预先设置的检错规则对获取的语音识别文本进行错误检测,得到错误词组,随后根据纠错规则对错误词组进行初级纠错处理,当部分错误词组的初级纠错处理执行失败时,将部分错误词组输入至神经网络语言模型进行二次纠错处理,之后,根据所述初级纠错处理和所述二次纠错处理的结果对所述错误词组进行纠错处理,生成纠错后的语音识别文本,如此,可以提高语音识别的准确率。
[0124]
在另一个实施方式中,语音识别文本处理装置可以与中央处理器100分开配置,例如可以将语音识别文本处理装置配置为与中央处理器100连接的芯片,通过中央处理器的控制来实现语音识别文本处理功能。
[0125]
如图6所示,该电子设备600还可以包括:通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是,电子设备600也并不是必须要包括图6中所示的所有部件;此外,电子设备600还可以包括图6中没有示出的部件,可以参考现有技术。
[0126]
如图6所示,中央处理器100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器100接收输入并控制电子设备600的各个部件的操作。
[0127]
其中,存储器140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序,以实现信息存储或处理等。
[0128]
输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为lcd显示器,但并不限于此。
[0129]
该存储器140可以是固态存储器,例如,只读存储器(rom)、随机存取存储器(ram)、sim卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为eprom等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142,该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。
[0130]
存储器140还可以包括数据存储部143,该数据存储部143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
[0131]
通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
[0132]
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132,以经由扬声器131提供音频输出,并接收来自麦克风132的音频输入,从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器130还耦合到中央处理器100,从而使得可以通过麦克风132能够在本机上录音,且使得可以通过扬声器131来播放本机上存储的声音。
[0133]
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现上述语音识别文本处理方法的步骤。
[0134]
综上所述,本发明实施例通过基于预先设置的检错规则对获取的语音识别文本进行错误检测,得到错误词组,随后根据纠错规则对错误词组进行初级纠错处理,当部分错误
词组的初级纠错处理执行失败时,将部分错误词组输入至神经网络语言模型进行二次纠错处理,之后,根据所述初级纠错处理和所述二次纠错处理的结果对所述错误词组进行纠错处理,生成纠错后的语音识别文本,如此,可以提高语音识别的准确率。
[0135]
以上参照附图描述了本发明的优选实施方式。这些实施方式的许多特征和优点根据该详细的说明书是清楚的,因此权利要求旨在覆盖这些实施方式的落入其真实精神和范围内的所有这些特征和优点。此外,由于本领域的技术人员容易想到很多修改和改变,因此不是要将本发明的实施方式限于所例示和描述的精确结构和操作,而是可以涵盖落入其范围内的所有合适修改和等同物。
[0136]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0137]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0138]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0139]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0140]
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献