语音识别的方法、装置、设备和计算机可读介质与流程

2021-06-29 22:13:00 来源：中国专利 TAG：人工智能介质装置可读语音识别

1.本发明涉及人工智能技术领域，尤其涉及一种语音识别的方法、装置、设备和计算机可读介质。

背景技术：

2.通过语音识别输出文本，已成为一种逐渐流行的人机交互方式。但由于目前语音识别系统缺少说话人的语言背景或上下文环境，在识别多音词组时容易产生错误。如“龙信“识别为”农信“，进而会降低总体识别准确率影响功能正常使用。
3.在实现本发明过程中，发明人发现现有技术中至少存在如下问题：语音识别的准确率较低。

技术实现要素：

4.有鉴于此，本发明实施例提供一种语音识别的方法、装置、设备和计算机可读介质，能够提高语音识别的准确率。
5.为实现上述目的，根据本发明实施例的一个方面，提供了一种语音识别的方法，包括：
6.将用户语音输入至声学模型中；
7.所述声学模型输出用户音素至语言模型中，所述语言模型输出用户文字序列；
8.通过词典替换所述用户文字序列中的文字，得到多个语音近似词；
9.输出所述多个语音近似词，并基于接收到的指令和所述多个语音近似词，确定所述用户语音的输出文字序列。
10.所述将用户语音输入至声学模型中之前，还包括：
11.对用户原始语音进行滤波和分帧处理，得到所述用户语音。
12.所述用户原始语音是通过移动终端或语音采集设备获取的。
13.所述将用户语音输入至声学模型中，包括：
14.将预设时间段内的用户语音输入至声学模型中。
15.所述预设时间段是由用户预先设置的。
16.所述通过词典替换所述用户文字序列中的文字，得到多个语音近似词，包括：
17.通过词典替换所述用户文字序列中的同音字和/或近音字，得到多个语音近似词。
18.所述通过词典替换所述用户文字序列中的同音字和/或近音字，得到多个语音近似词，包括：
19.通过词典替换所述用户文字序列中的同音字和/或近音字；
20.在替换后的用户文字序列中词语中，剔除非常用词语，得到多个语音近似词。
21.所述在替换后的用户文字序列中词语中，剔除非常用词语，得到多个语音近似词，包括：
22.遍历替换后的用户文字序列中词语，采用常用词语词典剔除非常用词语，得到多
个语音近似词。
23.所述输出所述多个语音近似词，并基于接收到的指令和所述多个语音近似词，确定所述用户语音的输出文字序列，包括：
24.输出所述多个语音近似词，并接收指令，所述指令包括所述多个语音近似词中的一个或多个语音近似词；
25.基于所述多个语音近似词中的一个或多个语音近似词和所述用户文字序列，确定所述用户语音的输出文字序列。
26.所述输出所述多个语音近似词，包括：
27.按照所述语音近似词的使用频率，输出所述多个语音近似词。
28.所述接收的指令是用户通过移动终端发送的。
29.所述多个语音近似词中的一个或多个近似词是默认语音近似词，所述默认语音近似词是所述多个语音近似词中采用预设规则确定的。
30.所述预设规则包括应用场景和/或使用频率。
31.所述基于所述多个语音近似词中的一个或多个语音近似词和所述用户文字序列，确定所述用户语音的输出文字序列，包括：
32.基于所述多个语音近似词中的一个或多个语音近似词，确定文字序列所使用的语音近似词；
33.所述所使用的语音近似词和所述用户文字序列相结合，确定所述用户语音的输出文字序列。
34.所述基于所述多个语音近似词中的一个或多个近似词，确定文字序列所使用的语音近似词，包括：
35.将所述多个语音近似词中的一个或多个近似词，作为所述文字序列所使用的语音近似词。
36.所述所使用的语音近似词和所述用户文字序列相结合，确定所述用户语音的输出文字序列，包括：
37.在所述用户文字序列中，以所述所使用的语音近似词替换所述多个语音近似词，确定所述用户语音的输出文字序列。
38.所述语音近似词的数量小于预设近似词阈值。
39.根据本发明实施例的第二方面，提供了一种语音识别的装置，包括：
40.输入模块，用于将用户语音输入至声学模型中；
41.识别模块，用于控制所述声学模型输出用户音素至语言模型中，所述语言模型输出用户文字序列；
42.替换模块，用于通过词典替换所述用户文字序列中的文字，得到多个语音近似词；
43.确定模块，用于输出所述多个语音近似词，并基于接收到的指令和所述多个语音近似词，确定所述用户语音的输出文字序列。
44.根据本发明实施例的第三方面，提供了一种语音识别的电子设备，包括：
45.一个或多个处理器；
46.存储装置，用于存储一个或多个程序，
47.当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理
器实现如上述的方法。
48.根据本发明实施例的第四方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述的方法。
49.上述发明中的一个实施例具有如下优点或有益效果：将用户语音输入至声学模型中；所述声学模型输出用户音素至语言模型中，所述语言模型输出用户文字序列；通过词典替换所述用户文字序列中的文字，得到多个语音近似词；输出所述多个语音近似词，并基于接收到的指令和所述多个语音近似词，确定所述用户语音的输出文字序列。结合用户发送的指令确定近似词，进而能够提高语音识别的准确率。
50.上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
51.附图用于更好地理解本发明，不构成对本发明的不当限定。其中：
52.图1是根据本发明实施例的语音识别的方法的主要流程的示意图；
53.图2是根据本发明实施例的得到多个语音近似词的流程示意图；
54.图3是根据本发明实施例的确定用户语音的输出文字序列的流程示意图；
55.图4是根据本发明实施例的基于语音近似词和用户文字序列，确定用户语音的输出文字序列的流程示意图；
56.图5是根据本发明实施例的语音识别的装置的主要结构的示意图；
57.图6是本发明实施例可以应用于其中的示例性系统架构图；
58.图7是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
59.以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
60.目前，可以在限定场景下提高语音识别准确率，限定场景包括风控、信用卡或手机银行等。但无法在开放场景下取得好的效果。如，某一场景下会有“公私账户“和”公司账户“，两个词组都会出现，因此都需要识别。在这种情况下，通过热词方式只能优化其中一个词组，无法做到分开优化。热词的作用就是提高音素转换为某个词的权重。但仍然存在语音识别的准确率较低的技术问题。
61.为了解决语音识别的准确率较低的技术问题，可以采用以下本发明实施例中的技术方案。
62.参见图1，图1是根据本发明实施例的语音识别的方法主要流程的示意图，以用户发送的指令确定文字序列中的语音近似词。如图1所示，具体包括以下步骤：
63.s101、将用户语音输入至声学模型中。
64.在本发明实施例中，为了识别语音得到语音的文字序列，可以采用设备采集用户
是语音近似词。
79.在本发明的实施例中，为了避免语音近似词的数量过多，影响语音识别的效率，通过预设近似词阈值控制语音近似词的数量。即，语音近似词的数量小于预设近似词阈值。
80.参见图2，图2是根据本发明实施例的得到多个语音近似词的流程示意图，具体包括以下步骤：
81.s201、通过词典替换用户文字序列中的同音字和/或近音字。
82.在词典中包括词语和词语的音素，以用户文字序列中词语的音素为依据，在词典搜索得到用户文字序列中词语的同音字和/或近音字，进而替换用户文字序列中的同音字和/或近音字，得到替换后的用户文字序列。
83.需要说明的是，由于同音字和/或近音字的增加，上述同音字和/或近音字与原有词语组合，替换后的用户文字序列不止一个。
84.s202、在替换后的用户文字序列中词语中，剔除非常用词语，得到多个语音近似词。
85.考虑到替换后的用户文字序列不止一个，为了提高语音识别的效率，需要剔除非常用词语。其中，非常用词语是在词语使用中使用频率较低的词语。作为一个示例，在常用词语词典中记载使用频率较高的词语，相应地，未记载到常用词语词典中的词语即使用频率较低的词语。
86.具体地，遍历替换后的用户文字序列中词语，采用常用词语词典剔除非常用词语，得到多个语音近似词。
87.在图2的实施例中，通过剔除非常用词语，减少语音近似词的数量，进而提高语音识别的效率。
88.s104、输出多个语音近似词，并基于接收到的指令和多个语音近似词，确定用户语音的输出文字序列。
89.可以将多个语音近似词输出至用户处以供用户选择。用户在多个语音近似词中选择，并通过指令发送所选择的语音近似词。进而，基于上述指令和多个语音近似词，确定用户语音的输出文字序列。
90.参见图3，图3是根据本发明实施例的确定用户语音的输出文字序列的流程示意图，具体包括以下步骤：
91.s301、输出多个语音近似词，并接收指令，指令包括多个语音近似词中的一个或多个语音近似词。
92.通过屏幕输出多个语音近似词，屏幕可以位于移动终端和/或计算机中。输出多个语音近似词的目的在于，由用户在同一个音素的多个语音近似词中选择。
93.为了便于用户在多个语音近似词中选择，可以按照语音近似词的使用频率，输出多个语音近似词。也就是说，对于相同音素的语音近似词，使用频率越高，则排序越靠前，进而提示用户选择。作为另一个，还可以高亮显示相同音素，使用频率最高的语音近似词。
94.用户发送的指令即接收的指令是用户通过移动终端发送的。这样，用户能够通过移动终端选择语音近似词，提高了选择的便利性。
95.在本发明的一个实施例中，为了协助用户选择语音近似词，可以设置默认语音近似词，默认语音近似词是多个语音近似词中采用预设规则确定的。这样，多个语音近似词中
的一个或多个近似词是默认语音近似词。在用户不想一一做出选择时，可以选用默认语音近似词。
96.其中，预设规则包括应用场景和/或使用频率。应用场景是指用户语音的具体场景，可以由用户预先选择。使用频率是语音近似词在一定范围和时间段内的使用次数。
97.s302、基于多个语音近似词中的一个或多个语音近似词和用户文字序列，确定用户语音的输出文字序列。
98.基于用户所选择的语音近似词和用户文字序列，就能够确定用户语音的输出文字序列。用户所选择的语音近似词，即多个语音近似词中的一个或多个语音近似词。
99.参见图4，图4是根据本发明实施例的基于语音近似词和用户文字序列，确定用户语音的输出文字序列的流程示意图，具体包括以下步骤：
100.s401、基于多个语音近似词中的一个或多个语音近似词，确定文字序列所使用的语音近似词。
101.多个语音近似词中的一个或多个语音近似词是用户选择的语音近义词，则可以将多个语音近似词中的一个或多个近似词，作为文字序列所使用的语音近似词。
102.s402、所使用的语音近似词和用户文字序列相结合，确定用户语音的输出文字序列。
103.在用户文字序列中，以所使用的语音近似词替换多个语音近似词，确定用户语音的输出文字序列。具体地，在用户文字序列中对于同一音素有多个语音近似词，以上述所使用的语音近似词替换对应音素的多个语音近似词，所得到的文字序列是用户语音的输出文字序列。
104.在图4的实施例中，基于用户选择的语音近似词，进而确定用户语音的输出文字序列。
105.在上述实施例中，将用户语音输入至声学模型中；所述声学模型输出用户音素至语言模型中，所述语言模型输出用户文字序列；通过词典替换所述用户文字序列中的文字，得到多个语音近似词；输出所述多个语音近似词，并基于接收到的指令和所述多个语音近似词，确定所述用户语音的输出文字序列。结合用户发送的指令确定近似词，进而能够提高语音识别的准确率。
106.参见图5，图5是根据本发明实施例的语音识别的装置的主要结构的示意图，语音识别的装置可以实现语音识别的方法，如图5所示，语音识别的装置具体包括：
107.输入模块501，用于将用户语音输入至声学模型中；
108.识别模块502，用于控制所述声学模型输出用户音素至语言模型中，所述语言模型输出用户文字序列；
109.替换模块503，用于通过词典替换所述用户文字序列中的文字，得到多个语音近似词；
110.确定模块504，用于输出所述多个语音近似词，并基于接收到的指令和所述多个语音近似词，确定所述用户语音的输出文字序列。
111.在本发明的一个实施例中，输入模块501，还用于对用户原始语音进行滤波和分帧处理，得到所述用户语音。
112.在本发明的一个实施例中，所述用户原始语音是通过移动终端或语音采集设备获
取的。
113.在本发明的一个实施例中，输入模块501，具体用于将预设时间段内的用户语音输入至声学模型中。
114.在本发明的一个实施例中，所述预设时间段是由用户预先设置的。
115.在本发明的一个实施例中，替换模块503，具体用于通过词典替换所述用户文字序列中的同音字和/或近音字，得到多个语音近似词。
116.在本发明的一个实施例中，替换模块503，具体用于通过词典替换所述用户文字序列中的同音字和/或近音字；
117.在替换后的用户文字序列中词语中，剔除非常用词语，得到多个语音近似词。
118.在本发明的一个实施例中，替换模块503，具体用于遍历替换后的用户文字序列中词语，采用常用词语词典剔除非常用词语，得到多个语音近似词。
119.在本发明的一个实施例中，确定模块504，具体用于输出所述多个语音近似词，并接收指令，所述指令包括所述多个语音近似词中的一个或多个语音近似词；
120.基于所述多个语音近似词中的一个或多个语音近似词和所述用户文字序列，确定所述用户语音的输出文字序列。
121.在本发明的一个实施例中，确定模块504，具体用于按照所述语音近似词的使用频率，输出所述多个语音近似词。
122.在本发明的一个实施例中，所述接收的指令是用户通过移动终端发送的。
123.在本发明的一个实施例中，所述多个语音近似词中的一个或多个近似词是默认语音近似词，所述默认语音近似词是所述多个语音近似词中采用预设规则确定的。
124.在本发明的一个实施例中，所述预设规则包括应用场景和/或使用频率。
125.在本发明的一个实施例中，确定模块504，具体用于基于所述多个语音近似词中的一个或多个语音近似词，确定文字序列所使用的语音近似词；
126.所述所使用的语音近似词和所述用户文字序列相结合，确定所述用户语音的输出文字序列。
127.在本发明的一个实施例中，确定模块504，具体用于将所述多个语音近似词中的一个或多个近似词，作为所述文字序列所使用的语音近似词。
128.在本发明的一个实施例中，确定模块504，具体用于在所述用户文字序列中，以所述所使用的语音近似词替换所述多个语音近似词，确定所述用户语音的输出文字序列。
129.在本发明的一个实施例中，所述语音近似词的数量小于预设近似词阈值。
130.图6示出了可以应用本发明实施例的语音识别的方法或语音识别的装置的示例性系统架构600。
131.如图6所示，系统架构600可以包括终端设备601、602、603，网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
132.用户可以使用终端设备601、602、603通过网络604与服务器605交互，以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
133.终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备，包
括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
134.服务器605可以是提供各种服务的服务器，例如对用户利用终端设备601、602、603所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息
‑‑
仅为示例)反馈给终端设备。
135.需要说明的是，本发明实施例所提供的语音识别的方法一般由服务器605执行，相应地，语音识别的装置一般设置于服务器605中。
136.应该理解，图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。
137.下面参考图7，其示出了适于用来实现本发明实施例的终端设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。
138.如图7所示，计算机系统700包括中央处理单元(cpu)701，其可以根据存储在只读存储器(rom)702中的程序或者从存储部分708加载到随机访问存储器(ram)703中的程序而执行各种适当的动作和处理。在ram 703中，还存储有系统700操作所需的各种程序和数据。cpu 701、rom 702以及ram 703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。
139.以下部件连接至i/o接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至i/o接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。
140.特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(cpu)701执行时，执行本发明的系统中限定的上述功能。
141.需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd
‑
rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限
于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
142.附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
143.描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括输入模块、识别模块、替换模块和确定模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，输入模块还可以被描述为“用于将用户语音输入至声学模型中”。
144.作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：
145.将用户语音输入至声学模型中；
146.所述声学模型输出用户音素至语言模型中，所述语言模型输出用户文字序列；
147.通过词典替换所述用户文字序列中的文字，得到多个语音近似词；
148.输出所述多个语音近似词，并基于接收到的指令和所述多个语音近似词，确定所述用户语音的输出文字序列。
149.根据本发明实施例的技术方案，将用户语音输入至声学模型中；所述声学模型输出用户音素至语言模型中，所述语言模型输出用户文字序列；通过词典替换所述用户文字序列中的文字，得到多个语音近似词；输出所述多个语音近似词，并基于接收到的指令和所述多个语音近似词，确定所述用户语音的输出文字序列。结合用户发送的指令确定近似词，进而能够提高语音识别的准确率。
150.上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

再多了解一些

1/3 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

语音识别的方法、装置、设备和计算机可读介质与流程

相关文章

最热文献