农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

语音输入方法、装置、设备及计算机可读存储介质与流程

2021-06-11 21:44:00 来源：中国专利 TAG：语音装置可读语音识别输入

本发明涉及语音识别技术领域，尤其涉及一种语音输入方法、装置、设备及计算机可读存储介质。

背景技术：

目前在电视机等智能设备的文本框内输入文字时，常采用传统的输入方式，即通过智能设备生成的虚拟键盘，利用遥控器或触摸的方式进行输入，有些智能设备上设置有交互功能，用户可以通过手机等移动端与该智能设备建立通信，从而在手机等移动终端上完成文字输入操作，并同步到该智能设备上。但是该方式的输入效率太低，特别是在类似于电视机的设备上，用遥控器进行输入时，操作繁琐，且需要搜索节目时，大多是输入节目名称的全拼进行搜索，输入的信息具有一定的局限性，并且连续输入搜索内容时，需要手动清空上一次的搜索内容，导致输入效率低。

技术实现要素：

本发明的主要目的在于提供一种语音输入方法、装置、设备及计算机可读存储介质，旨在解决目前传统的信息输入方式输入效率较低的技术问题。

此外，为实现上述目的，本发明还提供一种语音输入方法，所述语音输入方法包括以下步骤：

当检测到信息输入功能启动时，启动语音输入功能并获取第一语音信息；

将所述第一语音信息转化为文本信息，并确定所述信息输入功能对应的焦点位置；

将所述文本信息输出至所述焦点位置。

可选地，所述当检测到信息输入功能启动时，启动语音输入功能的步骤，包括：

当检测到信息输入功能启动时，输出启动语音输入功能的提示信息并获取启动指令；

根据所述启动指令，启动语音输入功能。

可选地，所述将所述第一语音信息转化为文本信息的步骤，包括：

对所述第一语音信息进行解析，得到所述第一语音信息对应的转化指令；

根据所述转化指令将所述第一语音信息转化为文本信息。

可选地，所述对所述第一语音信息进行解析，得到所述第一语音信息对应的转化指令的步骤，包括：

从所述第一语音信息中提取关键词信息；

对所述关键词信息进行分析，以确定在将所述第一语音信息转化为文本信息时，是否需要对所述第一语音信息进行优化；

若不需要对所述第一语音信息进行优化，则生成将所述第一语音信息转化为对应的文本信息的转化指令。

可选地，所述对所述关键词信息进行分析，以确定在将所述第一语音信息转化为文本信息时，是否需要对所述第一语音信息进行优化的步骤之后，包括：

若需要对所述第一语音信息进行优化，则根据所述关键词信息生成对所述第一语音信息进行优化的信息优化指令；

基于所述信息优化指令，生成将所述第一语音信息转化为文本信息的转化指令。

可选地，所述将所述文本信息输出至所述焦点位置的步骤之后，包括：

获取所述文本信息的更改指令；

根据所述更改指令对所述文本信息进行更改，得到目标文本信息；

将所述目标文本信息输出至所述焦点位置。

可选地，所述更改指令包括重新输入指令和修改指令，所述根据所述更改指令对所述文本信息进行更改，得到目标文本信息的步骤，包括：

若所述更改指令为重新输入指令，则获取第二语音信息并对所述第二语音信息进行转化，得到目标文本信息；

若所述更改指令为修改指令，则根据所述修改指令对所述文本信息进行修改，得到目标文本信息。

此外，为实现上述目的，本发明还提供一种语音输入装置，所述语音输入装置包括：

语音输入模块，用于当检测到所述设备启动了信息输入功能时，启动语音输入功能并获取第一语音信息；

语音识别模块，用于将所述第一语音信息转化为文本信息，并确定所述信息输入功能对应的焦点位置；

文本输出模块，用于将所述文本信息输出至所述焦点位置。

此外，为实现上述目的，本发明还提供一种语音输入设备，所述语音输入设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音输入程序，所述语音输入程序被所述处理器执行时实现如上述的语音输入方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有语音输入程序，所述语音输入程序被处理器执行时实现如上述的语音输入方法的步骤。

本发明实施例提出的一种语音输入方法、装置、设备及计算机可读存储介质。现有技术中，利用遥控器或触摸等方式，通过虚拟键盘输入信息，信息输入效率较低，本发明实施例中，当检测到信息输入功能启动时，启动语音输入功能并获取第一语音信息；将所述第一语音信息转化为文本信息，并确定所述信息输入功能对应的焦点位置；将所述文本信息输出至所述焦点位置。即利用语音完成文本信息的快速输入，解决了传统输入方式信息输入慢的问题，提高了信息的输入效率。

附图说明

图1为本发明实施例提供的语音输入设备一种实施方式的硬件结构示意图；

图2为本发明语音输入方法第一实施例的流程示意图；

图3为本发明语音输入方法第一实施例中的提示信息示意图；

图4为本发明语音输入方法第一实施例中的另一提示信息意图；

图5为本发明语音输入装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

本发明实施例语音输入设备(又叫终端、设备或者终端设备)可以是pc，也可以是智能手机、智能电视机、平板电脑和便携计算机等具有显示和语音功能的可移动式终端设备。

如图1所示，该终端可以包括：处理器1001，例如cpu，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，终端还可以包括摄像头、rf(radiofrequency，射频)电路，传感器、音频电路、wifi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在移动终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音输入程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的语音输入程序，所述语音输入程序被处理器执行时实现下述实施例提供的语音输入方法中的操作。

基于上述设备硬件结构，提出了本发明语音输入方法的实施例。

参照图2，在本发明语音输入方法的第一实施例中，所述语音输入方法包括：

步骤s10，当检测到信息输入功能启动时，启动语音输入功能并获取第一语音信息；

本发明中的语音输入方法，应用于电视机等具有语音和显示功能的智能终端设备，以下以应用于智能电视机(简称电视机)为例进行说明。对电视机的输入功能进行监测，当检测到用户启动了信息输入功能时，启动语音输入功能并获取用户输入的语音信息。在本实施例中，用户在电视机上启动的信息输入功能，可以是电视机上预设的信息输入功能，也可以是电视机安装的应用程序中设置的信息输入功能，在此不作具体限定。

对电视机的输入功能进行检测，可以是对电视机的光标的落焦点进行跟踪和监控，当电视机的焦点落入到类似于输入文本框等具有输入功能的区域时，启动语音输入功能。在启动语音输入功能时，可以先在电视机后台启动，用户可以根据自身需要选择是否使用语音输入功能，当用户选择使用语音输入功能时，获取用户输入的语音信息。

步骤s10的细化步骤，包括步骤a1-a2：

步骤a1，当检测到信息输入功能启动时，输出启动语音输入功能的提示信息并获取启动指令；

步骤a2，根据所述启动指令，启动语音输入功能。

进一步地，当检测到电视机启动了信息输入功能时，在电视机后台启动语音输入功能，并输出并在电视机的显示屏上显示启动语音输入功能提示信息，该提示信息可以是以弹出对话框的形式显示类似于“语音输入功能已启动，是否使用？”的提示信息，如图3所示，图3为本实施例中提示信息对话框的示意图，该提示信息中可以包括选择按钮以供用户进行选择，例如，如图3所示将提示信息以对话框的形式弹出，并在提示内容的下方设置“使用/不使用”的提示按钮，然后获取用户输入的启动指令，根据启动指令在电视机前台启动语音输入功能，与用户进行交互以获取用户输入的语音信息。其中，获取的用户输入的启动指令，可以是用户通过遥控器控制，利用提示信息中“使用”的提示按钮触发的指令，也可以是用户的语音指令，例如，获取到用户输入了语音指令“使用/启动”等信息，则在电视机前台启动语音输入功能，并获取用户用户输入的语音信息。

若获取到用户输入的启动指令为不使用语音输入功能，则将语音输入功能在电视机后台启动，并对电视机焦点进行监测，当检测到电视机的焦点再次落入具有信息输入功能的区域时，再次输出并显示启动语音输入功能的提示信息。当检测到用户连续多次选择不使用语音输入功能时，在下一次的提示信息中可以增加类似于“本次开机不再提示该信息”的关闭提示信息的选项，如图4所示，当检测到用户连续多次在提示信息中，触发了不使用语音输入功能的指令，则在图3所示的提示信息中增加不再显示提示信息的选项，若获取到用户触发了该选项对应的指令，则可以继续对电视机的焦点进行监测，但是在后续电视机的焦点再次落入具有输入功能的区域时，不再输出和显示启动语音输入功能的提示信息，启动语音输入功能的提示信息在连续显示多少次之后显示关闭提示信息的选项，可以由用户进行自定义设置。

进一步地，在关闭启动语音输入功能的提示信息后，当检测到电视机的焦点落入具有信息输入功能的区域时，在输入区域内显示启动语音输入功能的按钮，例如在输入文本框上设置“语音输入”的启动按钮，当用户想要在电视机前台启动语音输入功能时，可以通过启动按钮或语音指令，触发语音输入功能的启动指令，唤起电视机后台运行的语音输入功能。需要说明的是，语音输入功能后台启动时，是通过对光标落焦点进行检测，当焦点落在具有信息输入功能的区域，例如输入文本框中时，语音输入功能后台启动，语音输入功能的前台启动是根据获取的用户触发的指令，在前台启动时，用户的语音启动指令可以是电视机预设的，也可以是用户自定义设置的启动指令。

步骤s20，将所述第一语音信息转化为文本信息，并确定所述信息输入功能对应的焦点位置；

当检测到用户启用了语音输入功能后，获取用户输入的语音信息，并将获取的语音信息转化为文本信息，同时，通过对电视机的焦点进行监测，确定电视机当前启动的信息输入功能对应的焦点位置，在本实施例中，焦点位置是指电视机的光标落焦的位置，例如，用户在电视机上进行搜索时，搜索功能设置有输入文本框，当用户将电视机的光标移动到输入文本框中时，即触发语音输入功能在后台启动，当将获取的用户输入的语音信息转化为文本信息后，再次确定光标落焦点的位置，以便确定文本信息的输出位置。

进一步地，在将用户输入的语音信息转化为文本信息时，可以是通过电视机预设的语音识别技术，对用户的语音信息进行识别，得到对应的文本信息。可知地，在电视机首次启动时，可以获取用户的语音信息，例如，收录用户诵读的电视机显示的特定关键词或语句，以对用户的声学特征进行提取，并建立用户的声学模型，从而提高语音识别的准确率，进而提高语音信息与文本信息转化的准确率。

步骤s30，将所述文本信息输出至所述焦点位置。

在确定了光标落焦点的位置，即焦点位置后，将转化的文本信息输出至焦点位置上，并向用户显示输出的文本信息，以便用户进行下一步操作。

步骤s30之后，包括步骤b1-b3：

步骤b1，获取所述文本信息的更改指令；

步骤b2，根据所述更改指令对所述文本信息进行更改，得到目标文本信息；

步骤b3，将所述目标文本信息输出至所述焦点位置。

进一步地，将文本信息输出至光标的焦点位置，并向用户显示后，获取用户对文本信息的更改指令，根据获取的更改指令对文本信息进行更改。由于汉字的复杂多样化，同音字和同音词的存在，以及节目名称常用的“谐音梗”，如“嘻游记”、“不可思异”等，都增加了语音识别的难度，在向用户显示从语音信息转化来的文本信息后，获取用户的更改指令，根据更改指令对文本信息进行更改，得到目标文本信息，将目标文本信息输出至电视机光标的焦点位置，并向用户显示。

步骤b2的细化步骤，包括步骤b21-b22：

步骤b21，若所述更改指令为重新输入指令，则获取第二语音信息并对所述第二语音信息进行转化，得到目标文本信息；

步骤b22，若所述更改指令为修改指令，则根据所述修改指令对所述文本信息进行修改，得到目标文本信息。

更进一步地，获取的用户对文本信息的修改指令包括重新输入指令和修改指令，当获取到用户触发的更改指令为重新输入指令时，再次获取用户的语音信息，并对该语音信息进行转化，得到目标文本信息。当获取的用户触发的更改指令为修改指令时，根据用户触发的修改指令，对输出的文本信息进行修改，得到目标文本信息。

在本实施例中，当检测到信息输入功能启动时，启动语音输入功能并获取第一语音信息；将所述第一语音信息转化为文本信息，并确定所述信息输入功能对应的焦点位置；将所述文本信息输出至所述焦点位置。即利用语音完成文本信息的快速输入，解决了传统输入方式信息输入慢的问题，提高了信息的输入效率。

进一步地，,在本发明上述实施例的基础上，提出了本发明语音输入方法的第二实施例。

本实施例是第一实施例中步骤s20细化的步骤，包括步骤c1-c2：

步骤c1，对所述第一语音信息进行解析，得到所述第一语音信息对应的转化指令；

步骤c2，根据所述转化指令将所述第一语音信息转化为文本信息。

本实施例中，以上述实施例中的电视机为例，在将用户输入的语音信息转化为文本信息时，首先对用户输入的语音信息进行解析，得到语音信息对应的转化指令，在本实施例中，转化指令中包含要转化的文本信息以及语音信息中的关键词信息，根据转化指令生成对应的文本信息。由于语言表达的多样性，生成的文本信息与用户输入的语音信息并不一定是完全对应的，在对晕信息进行解析的过程中，从用户输入的语音信息中，可以提取用户输入的语音信息对应的语句的句式和语法信息，从而预测用户的输入意图，因此。最终输出的文本信息与用户输入的语音信息并不一定是完全对应的。例如，获取到用户输入的语音信息为“输入123456”，则对该语句进行提取后，识别出该语音信息中的关键词“输入”为动作指令，不需要转化为文本信息，则生成的转化指令中，文本信息为“123456”，因此，最终生成并输出的文本信息为“123456”。

步骤c1的细化，包括步骤c11-c13：

步骤c11，从所述第一语音信息中提取关键词信息；

步骤c12，对所述关键词信息进行分析，以确定在将所述第一语音信息转化为文本信息时，是否需要对所述第一语音信息进行优化；

步骤c13，若不需要对所述第一语音信息进行优化，则生成将所述第一语音信息转化为对应的文本信息的转化指令。

具体地，在对用户输入的语音信息进行解析时，首先，从用户输入的语音信息中，提取关键词信息，以上述语音信息“输入123456”为例，提取的关键词信息例如“输入”、“文本信息123456”等，然后对提取的关键词信息进行分析，进而确定在将用户输入的语音信息转化为文本信息时，是否需要对用户输入的语音信息进行优化，若不需要优化，则直接生成用户输入的语音信息对应的转化指令。

步骤c12之后，还包括步骤c14-c15：

步骤c14，若需要对所述第一语音信息进行优化，则根据所述关键词信息生成对所述第一语音信息进行优化的信息优化指令；

步骤c15，基于所述信息优化指令，生成将所述第一语音信息转化为文本信息的转化指令。

进一步地，用户在输入语音信息时，可能会简化表达方式或使用意思相近的表达，例如，上述语音信息“输入123456”，用户输入的语音信息也可以是“输入1至6”，此时，对语音信息进行提取得到的关键词信息为“输入”，“文本信息1至6”，可知地，用户真正想要输入的内容为“123456”，这时候就需要对用户输入的语音信息进行优化。因此，需要先生成信息优化指令，根据信息优化指令，将用户的简化表达转化为对应的完整的文本内容，然后基于生成的信息优化指令，生成转化指令，生成的转化指令中包含的文本信息，为对用户输入的语音信息对应的文本信息进行优化后的文本信息，即用户想要输入的文本信息。可知地，对语音信息进行优化包括多语音信息对应的文本信息进行拓展、补充以及变更，当用户使用简化表达时，需要对用户的语音信息进行拓展和补充，当用户使用近似表达时，需要对用户的语音信息进行变更进而对用户实际想要输入的文本信息进行优化。

在本实施例中，通过对用户输入的第一语音信息进行解析，得到所述第一语音信息对应的转化指令，根据生成的转化指令对所述第一语音信息进行转化，得到对应的文本信息，即通过从用户输入的第一语音信息中提取关键词信息，并对提取的关键词信息进行分析，从而确定是否需要对所述第一语音信息中的文本信息进行优化，若需要对所述第一语音信息对应的文本信息进行优化，生成信息优化指令并基于所述信息优化指令生成转化指令，根据生成的信息优化指令和转化指令，对文本信息进行优化和转化，得到所述第一语音信息对应的文本信息，提高了语音信息与文本信息之间的转化准确率。

此外，参照图5，本发明实施例还提出一种语音输入装置，所述语音输入装置包括：

语音输入模块10，用于当检测到所述设备启动了信息输入功能时，启动语音输入功能并获取第一语音信息；

语音识别模块20，用于将所述第一语音信息转化为文本信息，并确定所述信息输入功能对应的焦点位置；

文本输出模块30，用于将所述文本信息输出至所述焦点位置。

可选地，所述语音输入模块10，包括：

检测单元，用于当检测到信息输入功能启动时，输出启动语音输入功能的提示信息并获取启动指令；

启动单元，用于根据所述启动指令，启动语音输入功能。

可选地，所述语音识别模块20，包括：

语音解析单元，用于对所述第一语音信息进行解析，得到所述第一语音信息对应的转化指令；

信息转化单元，用于根据所述转化指令将所述第一语音信息转化为文本信息。

可选地，所述语音解析单元，包括：

信息提取子单元，用于从所述第一语音信息中提取关键词信息；

分析子单元，用于对所述关键词信息进行分析，以确定在将所述第一语音信息转化为文本信息时，是否需要对所述第一语音信息进行优化；

第一指令子单元，用于若不需要对所述第一语音信息进行优化，则生成将所述第一语音信息转化为对应的文本信息的转化指令。

可选地，所述语音解析单元，还包括：

补充指令子单元，用于若需要对所述第一语音信息进行优化，则根据所述关键词信息生成对所述第一语音信息进行优化的信息优化指令；

第二指令子单元，用于基于所述信息优化指令，生成将所述第一语音信息转化为文本信息的转化指令。

可选地，所述语音输入装置，还包括：

更改指令单元，用于获取所述文本信息的更改指令；

信息更改单元，用于根据所述更改指令对所述文本信息进行更改，得到目标文本信息；

文本输出单元，用于将所述目标文本信息输出至所述焦点位置。

可选地，所述信息更改单元，包括：

第一更改子单元，用于若所述更改指令为重新输入指令，则获取第二语音信息并对所述第二语音信息进行转化，得到目标文本信息；

第二更改子单元，用于若所述更改指令为修改指令，则根据所述修改指令对所述文本信息进行修改，得到目标文本信息。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有语音输入程序，所述语音输入程序被处理器执行时实现上述实施例提供的语音输入方法中的操作。

上述各程序模块所执行的方法可参照本发明方法各个实施例，此处不再赘述。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体/操作/对象与另一个实体/操作/对象区分开来，而不一定要求或者暗示这些实体/操作/对象之间存在任何这种实际的关系或者顺序；术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的语音输入方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

语音输入方法、装置、设备及计算机可读存储介质与流程

相关文章

最热文献