一种语音识别方法及装置与流程

2022-03-14 04:32:03 来源：中国专利 TAG：

1.本技术涉及终端技术领域，尤其涉及一种语音识别方法及装置。

背景技术：

2.随着语音识别技术的日益成熟，语音助手这一应用程序(application，app)已成为电子设备的标配。通过语音助手，电子设备可以识别用户输入的语音，并执行对应的功能。具体的：电子设备安装的语音助手在启动之后，电子设备可以接收用户的语音输入，并根据预存的语音词库中的词语，采用自动语音识别(automatic speech recognition，asr)技术将语音转化为文本信息。之后，电子设备根据该文本信息执行对应的功能。上述过程中，电子设备执行的功能是否正确与语音转化的文本信息的正确率有关，语音转化的文本信息的正确率与语音词库中的词语有关。
3.目前，上述语音词库中的词语是语音助手的开发者在语音助手上线前根据试验得到的。当然，开发者也可以根据语音助手的实际使用情况在语音词库中添加词语，该情况下语音助手启动后便需要更新语音词库。综上所述，现有技术中语音词库中的词语是开发者根据经验得到的。
4.但是，在电子设备显示页面，用户通过语音控制点击该页面的内容的情况下，如果电子设备根据现有的语音词库中的词语将用户的语音转化为文本信息，则可能会出现语音中的词语和文本信息中的词语是同音不同字的词语的情况，使得语音转化的文本信息出错，从而使得电子设备执行的功能出错，这样导致语音识别的准确率较低。

技术实现要素：

5.本技术提供一种语音识别方法及装置，解决了用户通过语音控制点击页面的内容时，电子设备无法正确识别同音不同字词语，导致语音识别的准确率较低的问题。
6.为达到上述目的，本技术采用如下技术方案：
7.第一方面，提供一种语音识别方法，语音识别装置在当前显示的页面获取语音，并获取该页面的词库，且根据该页面的词库，识别语音。其中，页面的词库是根据该页面的内容生成的。
8.本技术实施例提供的语音识别方法，在语音识别装置为手机，用户通过语音控制点击页面的内容的场景下，手机可以采用该页面的词库中的词语进行语音识别，由于该页面的词库是根据该页面的内容生成的，因此采用该页面的词库中的词语转化后的文本信息，与采用现有的通用语音词库中的词语转化后的文本信息相比，能够降低文本信息中的词语与语音中的词语为同音不同字词语的可能性，提高了语音转化的文本信息的正确率，从而提高了语音识别的准确率。
9.可选的，在本技术的一种可能的实现方式中，本技术提供的语音识别方法还可以包括：语音识别装置获取当前显示的页面包括的至少一个视图中每个视图的视图信息，并确定每个视图的视图信息对应的词语集合。之后，语音识别装置生成该页面的词库，该页面
的词库包括确定出的词语集合中的词语。
10.由于页面显示的内容包括该页面的视图，因此语音识别装置通过解析该页面的视图，能够生成该页面的词库。
11.可选的，在本技术的一种可能的实现方式中，本技术提供的语音识别方法还可以包括：语音识别装置截取页面，得到截屏图像，并采用光学字符识别(optical character recognition，ocr)技术，确定得到的截屏图像是否包括第一文本信息。语音识别装置在确定截屏图像包括第一文本信息的情况下，采用分词算法对第一文本信息分词，得到至少一个第一词语。在该情况下，上述“生成页面的词库”的方法可以包括：语音识别装置根据确定出的词语集合，以及至少一个第一词语，生成页面的词库。
12.这样，由于手机通过解析页面的至少一个视图得到的词语集合，仅能表征该页面的部分内容，是不全面的。本技术实施例通过对截屏图像的文本信息进行分词，并将分词得到的词语与解析页面得到的词语进行合并、去重处理，这样得到的该页面的词库中的词语能够更加全面的表征页面的内容，使得语音转化的文本信息更加准确，进而提高语音识别的准确率。
13.可选的，在本技术的另一种可能的实现方式中，上述视图可以为文本视图或图像视图。视图为文本视图时，文本视图的视图信息为第二文本信息。此时，上述“确定每个视图的视图信息对应的词语集合”的方法可以包括：语音识别装置采用分词算法对第二文本信息分词，得到至少一个第二词语。视图为图像视图时，图像视图的视图信息为图像信息，此时，上述“确定每个视图的视图信息对应的词语集合”的方法可以包括：语音识别装置采用分类算法，确定图像信息对应的目标图像类型，并根据图像类型和词语集合的对应关系，获取目标图像类型对应的图像词语集合。
14.不同的视图，采用不同的方式确定视图的视图信息对应的词语集合，使得确定出的词语集合的准确性较高。其中，对于文本视图的文本信息，通过分词来得到对应的词语集合，对于图像视图的图像信息，通过确定图像信息的图像类型，来得到该图像类型对应的词语集合。
15.可选的，在本技术的另一种可能的实现方式中，上述“获取页面包括的至少一个视图中每个视图的视图信息”的方法可以包括：语音识别装置获取该页面对应的包括有多个视图的视图结构，之后，从多个视图中确定至少一个视图，并确定至少一个视图中每个视图的视图信息。其中，至少一个视图为多个视图中在该页面上显示的视图。
16.由于用户通过语音控制点击页面的内容时，用户输入的语音是与页面的内容相关的。因此，生成的页面的词库中的词语仅需与页面的内容相关即可，对于该页面对应的视图结构中未在页面上显示的视图，语音识别装置不做处理，达到了减小语音识别装置的处理压力的目的。
17.第二方面，提供一种语音识别装置，该语音识别装置包括用于执行上述第一方面或上述第一方面的任一种可能的实现方式的语音识别方法的各个模块。
18.第三方面，提供一种语音识别装置，该语音识别装置包括存储器和处理器。存储器和处理器耦合。存储器用于存储计算机程序代码，计算机程序代码包括计算机指令。当处理器执行计算机指令时，语音识别装置执行如第一方面及其任一种可能的实现方式的语音识别方法。
19.第四方面，提供一种芯片系统，该芯片系统应用于语音识别装置；芯片系统包括一个或多个接口电路，以及一个或多个处理器。接口电路和处理器通过线路互联；接口电路用于从语音识别装置的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令。当处理器执行计算机指令时，语音识别装置执行如第一方面及其任一种可能的实现方式的语音识别方法。
20.第五方面，提供一种计算机可读存储介质，该计算机可读存储介质包括计算机指令，当计算机指令在语音识别装置上运行时，使得语音识别装置执行如第一方面及其任一种可能的实现方式的语音识别方法。
21.第六方面，本技术提供一种计算机程序产品，该计算机程序产品包括计算机指令，当计算机指令在语音识别装置上运行时，使得语音识别装置执行如第一方面及其任一种可能的实现方式的语音识别方法。
22.本技术中第二方面到第六方面及其各种实现方式的具体描述，可以参考第一方面及其各种实现方式中的详细描述；并且，第二方面到第六方面及其各种实现方式的有益效果，可以参考第一方面及其各种实现方式中的有益效果分析，此处不再赘述。
23.本技术的这些方面或其他方面在以下的描述中会更加简明易懂。
附图说明
24.图1为本技术实施例提供的手机的一种结构示意图；
25.图2为本技术实施例提供的语音识别方法的流程示意图之一；
26.图3为本技术实施例提供的语音识别方法的流程示意图之二；
27.图4为本技术实施例提供的语音识别方法的流程示意图之三；
28.图5为本技术实施例提供的语音识别方法的执行场景示意图；
29.图6为本技术实施例提供的词库生成方法的应用场景示意图；
30.图7为本技术实施例提供的一种语音识别的场景示意图之一；
31.图8为本技术实施例提供的一种语音识别的场景示意图之二；
32.图9为本技术实施例提供的语音识别装置的结构示意图之一；
33.图10为本技术实施例提供的语音识别装置的结构示意图之二。
具体实施方式
34.在本技术实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本技术实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
35.以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本技术实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。
36.本技术实施例提供的语音识别方法的执行主体为语音识别装置。该语音识别装置可以是电子设备，也可以是电子设备中的处理器(central processing units，cpu)，还可
以是电子设备中用于生成词库的控制模块，还可以是电子设备中用于生成词库的客户端。本技术实施例以电子设备执行语音识别方法为例，对本技术实施例提供的语音识别方法进行说明。需要说明的是，本技术实施例中的电子设备具有语音识别功能，能够识别用户输入的语音，并执行对应的功能。具体的实现中，可以通过在电子设备上安装语音助手这一app，来实现电子设备的语音识别功能。
37.在一些实施例中，电子设备可以为手机(mobile phone)、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，umpc)、上网本、个人数字助理(personal digital assistant，pda)、可穿戴设备，虚拟现实(virtual reality，vr)设备、增强现实(augmented reality，ar)设备等。本技术实施例以电子设备为手机为例，对本技术实施例提供的语音识别方法进行介绍。
38.如图1所示，手机100具体可以包括：处理器101、射频(radio frequency，rf)电路102、存储器103、触摸屏104、蓝牙装置105、一个或多个传感器106、无线保真(wireless fidelity，wi-fi)装置107、定位装置108、音频电路109、外设接口110以及电源装置111等部件。这些部件可通过一根或多根通信总线或信号线(图1中未示出)进行通信。本领域技术人员可以理解，图1中示出的硬件结构并不构成对手机100的限定，手机100可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
39.下面结合图1对手机100的各个部件进行具体的介绍：
40.处理器101是手机100的控制中心，利用各种接口和线路连接手机100的各个部分，通过运行或执行存储在存储器103内的应用程序，以及调用存储在存储器103内的数据，执行手机100的各种功能和处理数据。在一些实施例中，处理器101可包括一个或多个处理单元。
41.射频电路102可用于在收发信息或通话过程中，无线信号的接收和发送。通常，射频电路102包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频电路102还可以通过无线通信和其他设备通信。无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统、通用分组无线服务、码分多址、宽带码分多址、长期演进、电子邮件、短消息服务等。
42.存储器103用于存储应用程序以及数据，处理器101通过运行存储在存储器103的应用程序以及数据，执行手机100的各种功能以及数据处理。存储器103主要包括存储程序区以及存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如语音识别功能、图像处理功能等)；存储数据区可以存储根据使用手机100时所创建的数据(比如音频数据、文本信息等)。此外，存储器103可以包括高速随机存取存储器(ram)，还可以包括非易失存储器，例如磁盘存储器件、闪存器件或其他易失性固态存储器件等。存储器103可以存储各种操作系统，例如，ios操作系统，android操作系统等。上述存储器103可以是独立的，通过上述通信总线与处理器101相连接；存储器103也可以和处理器101集成在一起。
43.触摸屏104具体可以包括触控板104-1和显示器104-2。
44.其中，触控板104-1可采集手机100的用户在其上或附近的触摸事件(比如用户使用手指、触控笔等任何适合的物体在触控板104-1上或在触控板104-1附近的操作)，并将采集到的触摸信息发送至其他器件(例如处理器101)。
45.显示器(也称为显示屏)104-2可用于显示由用户输入的信息或提供给用户的信息以及手机100的各种菜单。可以采用液晶显示器、有机发光二极管等形式来配置显示器104-2。
46.手机100还可以包括蓝牙装置105，用于实现手机100与其他短距离的设备(例如手机、智能手表等)之间的数据交换。本技术实施例中的蓝牙装置105可以是集成电路或者蓝牙芯片等。
47.手机100还可以包括至少一种传感器106，比如光传感器、运动传感器以及其他传感器。具体的，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节触摸屏104的显示器的亮度，接近传感器可在手机100移动到耳边时，关闭显示器的电源。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机100还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。
48.wi-fi装置107，用于为手机100提供遵循wi-fi相关标准协议的网络接入，手机100可以通过wi-fi装置107接入到wi-fi接入点，进而帮助用户收发电子邮件、浏览网页和访问流媒体等，它为用户提供了无线的宽带互联网访问。在其他一些实施例中，该wi-fi装置107也可以作为wi-fi无线接入点，可以为其他设备提供wi-fi网络接入。
49.定位装置108，用于为手机100提供地理位置。可以理解的是，该定位装置108具体可以是全球定位系统(global positioning system，gps)或北斗卫星导航系统、俄罗斯glonass等定位系统的接收器。定位装置108在接收到上述定位系统发送的地理位置后，将该信息发送至处理器101进行处理，或者发送至存储器103进行保存。
50.音频电路109、扬声器112、麦克风113可提供用户与手机100之间的音频接口。音频电路109可将接收到的音频数据转换后的电信号，传输到扬声器112，由扬声器112转换为声音信号输出；另一方面，麦克风113将收集的声音信号转换为电信号，由音频电路109接收后转换为音频数据，再将音频数据输出至rf电路102以发送至比如另一手机，或者将音频数据输出至存储器103以便进一步处理。
51.外设接口110，用于为外部的输入/输出设备(例如键盘、鼠标、外接显示器、外部存储器、用户识别模块卡等)提供各种接口。例如通过通用串行总线(universal serial bus，usb)接口与鼠标连接，通过用户识别模块卡卡槽上的金属触点与电信运营商提供的用户识别模块卡(subscriber identification module，sim)卡进行连接。外设接口110可以被用来将上述外部的输入/输出外围设备耦接到处理器101和存储器103。
52.在本技术实施例中，手机100可通过外设接口110与设备组内的其他设备进行通信，例如，通过外设接口110可接收其他设备发送的显示数据进行显示等，本技术实施例对此不作任何限制。
53.手机100还可以包括给各个部件供电的电源装置111(比如电池和电源管理芯片)，电池可以通过电源管理芯片与处理器101逻辑相连，从而通过电源装置111实现管理充电、放电、以及功耗管理等功能。
54.尽管图1未示出，手机100还可以包括摄像头(前置摄像头和/或后置摄像头)、闪光
灯、微型投影装置、近场通信(near field communication，nfc)装置等，在此不再赘述。
55.基于上述手机的硬件结构，手机在实现语音识别功能时，需要根据语音词库中的词语，将语音转化为文本信息。但是，现有技术中在用户通过语音控制点击页面的内容的场景下，存在电子设备无法正确识别同音不同字词语，导致语音识别的准确率较低的问题。
56.本技术实施例提供的语音识别方法，手机在启动语音识别功能后，能够根据当前显示的页面的词库识别语音，提高了语音识别的准确率。
57.下面结合附图对本技术实施例提供的语音识别方法进行描述。
58.如图2所示，手机生成词库的方法可以包括以下步骤201-步骤203。
59.201、手机在当前显示的页面获取语音。
60.可选的，在本技术实施例中，手机可以在启动语音识别功能之后，在当前显示的页面获取语音。在一些实施例中，手机可以在其上安装的语音助手启动时，启动语音识别功能，并在当前显示的页面上显示提示信息，以提示用户语音识别功能启动。
61.语音助手启动的实现方式多种多样。例如，手机可以根据用户对电源按钮的预设操作来启动语音助手。或者，手机可以在确定用户语音输入的唤醒词与预存的唤醒词相同时启动语音助手。或者，手机可以根据用户在当前显示的页面上的预设操作来启动语音助手。本技术实施例在此对语音助手启动的实现方式不做限定。
62.202、手机获取页面的词库。
63.其中，页面的词库是根据该页面的内容生成的。
64.203、手机根据页面的词库中的词语，识别语音。
65.在具体的实现中，手机可以先将语音输入预存的声学模型中，输出对应的音素。然后手机根据语音词库中的通用词库，将音素转化为文本信息。之后，手机可以在确定文本信息中的词语与语音词库中的页面的词库的词语存在同音不同字词语的情况下，将文本信息中的词语用页面的词库中的词语替换，得到替换了词语后的文本信息。最后，手机便可以根据替换了词语后的文本信息执行对应的功能。
66.本技术实施例提供的语音识别方法，在语音识别装置为手机，用户通过语音控制点击页面的内容的场景下，手机可以采用该页面的词库中的词语进行语音识别，由于该页面的词库是根据该页面的内容生成的，因此采用该页面的词库中的词语转化后的文本信息，与采用现有的通用语音词库中的词语转化后的文本信息相比，能够降低文本信息中的词语与语音中的词语为同音不同字词语的可能性，提高了语音转化的文本信息的正确率，从而提高了语音识别的准确率。
67.可选的，在本技术实施例中，由于手机在识别语音时需要依据当前显示的页面的词库中的词语，因此本技术实施例提供的语音识别方法还可以包括生成页面的词库。具体的，基于图2，如图3所示，在执行上述步骤202之前，语音识别方法还可以包括以下步骤204-步骤206。
68.需要说明的是，在本技术实施例中，手机可以在语音识别功能启动后，实时生成当前显示的页面的词库。当然，手机也可以在显示页面时便执行页面词库的生成。本技术实施例在此对生成页面词库的触发条件不做限制。
69.204、手机获取页面包括的至少一个视图中每个视图的视图信息。
70.可选的，在本技术实施例中，手机可以先启动页面解析功能。具体的，手机可以先
获取当前显示的页面对应的视图结构，该视图结构包括多个视图。之后，手机可以从多个视图中确定至少一个视图，并确定该至少一个视图中每个视图的视图信息。其中，至少一个视图为多个视图中在当前显示的页面上显示的视图。
71.可以理解，上述手机获取当前显示的页面对应的视图结构的具体实现为：手机通过其上安装的操作系统的标准接口，获取当前显示的页面对应的页面对象(该页面对象为activity对象)，并获取该页面对象对应的视图结构。
72.可以理解，上述视图结构为一种树型结构，是由页面的多个视图组成的拓扑结构。该树型结构可以包括根节点和至少一层子树，每层子树包括至少一个子树。其中，根节点表示页面对象，代表所有视图的根。每个子树为该页面对象下的一个视图。且，该树型结构中存储有每个视图的属性信息。需要说明的是，视图结构包括的多个视图中，除了有在当前页面上显示的视图外，还有在该页面上未显示的视图，例如，该页面上隐藏的水印信息等。
73.这样，手机获取页面对象对应的视图结构具体可以为手机获取根节点为该页面对象的视图结构。且手机从视图结构包括的多个视图中确定至少一个视图的具体过程为：手机遍历视图结构中的每个视图，对于每个视图，手机可以解析该视图的属性信息来确定该视图是否在页面上显示。若该视图的属性信息指示该视图在页面上显示，手机可以确定该视图为显示的视图，若该视图的属性信息指示该视图未在页面上显示，手机可以继续解析下一个视图的属性信息。手机遍历完视图结构的所有视图后，便可以从视图结构的多个视图中确定出至少一个显示的视图，并从视图结构中获取至少一个显示的视图中每个视图的视图信息。
74.其中，至少一个视图中的每个视图可以是文本视图或图像视图。当视图为文本视图时，文本视图的视图信息为第二文本信息，该第二文本信息的数据格式为字符串(string)格式，该第二文本信息可以为文本视图的描述信息，也可以为文本视图中包括的文字信息。当视图为图像视图时，图像视图的视图信息为图像信息。例如，该图像信息可以为位图文件(bitmap)，该情况下图像信息的扩展名可以是.jpg或者.png。
75.可以理解，由于用户通过语音控制点击页面的内容时，用户输入的语音是与页面的内容相关的。因此，生成的页面的词库中的词语仅需与页面的内容相关即可，对于该页面对应的视图结构中未在页面上显示的视图，手机不做处理，达到了减小语音识别装置的处理压力的目的。
76.可选的，在本技术实施例中，上述至少一个视图可以都为文本视图，也可以都为图像视图，还可以一部分为文本视图，另一部分为图像视图。
77.205、手机确定每个视图的视图信息对应的词语集合。
78.手机在获取到当前显示的页面包括的至少一个视图中每个视图的视图信息之后，可以确定每个视图的视图信息对应的词语集合。本技术实施例在此以手机确定一个视图的视图信息对应的词语集合为例进行说明。
79.当该视图为文本视图，文本视图的视图信息为第二文本信息时，手机可以采用分词算法对该第二文本信息进行分词，得到至少一个第二词语。
80.具体实现中，分词算法可以为手机中预存的分词模型，这样手机可以将第二文本信息输入预存的分词模型中，得到输出的分词结果，该分词结果为至少一个第二词语。
81.当该视图为图像视图，图像视图的视图信息为图像信息时，手机可以采用分类算
法，确定该图像信息对应的目标图像类型。之后，根据预存的图像类型和词语集合的对应关系，确定目标图像类型对应的图像词语集合。
82.具体实现中，分类算法可以为手机中预存的分类模型，这样手机可以将图像信息输入该分类模型，以从该图像信息中提取图像特征，并根据提取的图像特征确定最大概率的目标图像类型。其中，图像特征可以为图像视图中每个像素点的三原色(rgb)，以及该图像视图的透明度等特征。
83.然后，手机可以确定目标图像类型对应的图像词语集合。示例性的，该目标图像类型可以为图标类型，例如，可以为扫一扫、拍照、收藏等图标。当目标图像类型为扫一扫图标时，对应的图像词语集合可以包括：扫一扫、扫一下等。当目标图像类型为拍照图标时，对应的图像词语集合可以包括：拍照、拍摄等。当目标图像类型为收藏图标时，对应的图像词语集合可以包括：收藏、喜欢等。
84.需要说明的是，在本技术实施例中，分类模型支持的图像信息的格式可能与手机获取的图像视图的图像信息的格式不同，因此在将图像信息输入分类模型之前，需要对图像信息进行处理。例如，在分类模型支持的bitmap的尺寸小于手机获取的bitmap的尺寸的情况下，手机可以对获取的bitmap，按照分类模型支持的bitmap的尺寸大小进行缩放处理。
85.由上可知，不同的视图，采用不同的方法确定视图的视图信息对应的词语集合，使得确定出的词语集合的准确性较高。其中，对于文本视图的文本信息，通过分词来得到对应的词语集合，对于图像视图的图像信息，通过确定图像信息的图像类型，来得到该图像类型对应的词语集合。
86.可选的，在本技术实施例中，上述预存的分词模型、分类模型可以是预先训练得到，并存储在手机中的。其中，分词模型的训练过程可以为：获取多个样本文本，并将样本文本输入条件随机场(conditional random fieldalgorithm，crf)模型中，以训练得到分词模型。分类模型的训练过程为：获取多个样本图像，并确定每个样本图像对应的图像类型，将样本图像，以及每个样本图像对应的图像类型输入卷积神经网络(convolutional neural networks，cnn)模型中，以训练得到分类模型。
87.在本技术实施例中，对于至少一个视图中的每个视图，语音识别装置可以根据视图的类型，按照对应的方式来生成该视图的视图信息对应的词语集合。最后，语音识别装置可以得到至少一个视图中，所有视图的视图信息对应的词语集合。
88.206、手机生成页面的词库，页面的词库包括确定出的词语集合中的词语。
89.可选的，手机可以将确定出的所有视图信息对应的词语集合进行合并，并删除合并后的词语集合中，重复的词语，之后根据去重后的词语生成当前显示的页面的词库。
90.手机在生成当前显示的页面的词库之后，可以根据该页面的词库更新语音词库。在一些实施例中，手机可以调用语音识别功能的更新接口，将该页面的词库上传至语音词库中，并预先设置手机根据最新上传的页面的词库进行语音识别。当然，为了节省存储资源，手机也可以调用更新接口，将该页面的词库上传至语音词库，同时删除语音词库中之前上传的该页面的词库。
91.这样，由于页面显示的内容包括该页面的视图，因此语音识别装置通过解析该页面的视图，能够生成该页面的词库。
92.可选的，在本技术实施例中，手机在生成当前显示的页面的词库时，除了依据上述
步骤204-步骤205中解析该页面得到的词语外，还可以依据解析该页面的截屏图像得到的词语。具体的，基于图3，如图4所示，本技术实施例提供的语音识别方法还可以包括以下步骤207-步骤209。
93.207、手机截取页面，得到截屏图像。
94.可选的，在本技术实施例中，手机可以对当前显示的页面进行截屏操作，以得到截屏图像。
95.需要说明的是，在本技术实施例中，手机在首次启动语音识别功能时，可以获取截屏所需要的权限。在具体的实现中，手机可以显示一提示框，该提示框用于指示是否允许截屏。手机可以在接收到用户对用于指示允许截屏的控件的触发操作时，获得截屏所需要的权限。手机在获得截屏所需要的权限之后，便可以对当前显示的页面进行截屏操作。
96.208、手机采用ocr技术，确定截屏图像是否包括第一文本信息。
97.手机在得到截屏图像之后，可以采用ocr技术，确定截屏图像是否包括第一文本信息。在具体的实现中，手机可以将截屏图像输入ocr模型，以对该截屏图像中的文字信息进行识别。若该ocr模型输出第一文本信息，则手机可以确定截屏图像包括第一文本信息。若该ocr模型没有输出，则手机可以确定该截屏图像未包括第一文本信息。
98.209、手机在确定截屏图像包括第一文本信息的情况下，采用分词算法对第一文本信息分词，得到至少一个第一词语。
99.可选的，在本技术实施例中，手机采用分词算法对第一文本信息进行分词的过程与上述步骤205中手机采用分词算法对第二文本信息进行分词的过程相同，因此对于手机对第一文本信息进行分词的具体描述可以参考步骤205中手机对第二文本信息进行分词的相关描述，在此不再赘述。
100.可选的，在本技术实施例中，手机在执行上述步骤207-步骤209之后，上述步骤206中的手机生成页面的词库，具体可以包括：手机根据上述步骤205确定出的词语集合，以及上述步骤209得到的至少一个第一词语，生成页面的词库。
101.在具体的实现中，手机可以将所有视图信息对应的词语集合，以及至少一个第一词语进行合并，之后对合并后的词语进行去重处理，便可以得到该页面的词库。
102.需要说明的是，在本技术实施例中，上述步骤204-步骤205，与步骤207-步骤209的执行没有先后关系。即可以先执行步骤204-步骤205，然后再执行步骤207-步骤209，或者，也可以先执行步骤207-步骤209，然后再执行步骤204-步骤205，或者，也可以同时执行步骤204和步骤207，本技术实施例在此对步骤204-步骤205，与步骤207-步骤209的执行顺序不做具体限制。
103.这样，由于手机通过解析页面，仅能得到将文本视图的文本信息分词后的词语，以及图像视图的图像信息中，图标信息对应的图像类型对应的词语，也就是说，通过执行上述步骤204-步骤205得到的当前显示的页面的词库中的词语，仅能表征该页面的部分内容，是不全面的。本技术实施例通过对截屏图像的文本信息进行分词，并将分词得到的词语与解析页面得到的词语进行合并、去重处理，这样得到的该页面的词库中的词语能够更加全面的表征页面的内容，使得语音转化的文本信息更加准确，进而提高语音识别的准确率。
104.为了便于本领域技术人员的理解，本技术实施例在此结合语音识别方法的应用场景对本技术实施例提供的语音识别方法进行介绍。
105.首先介绍本技术实施例的语音识别方法的执行场景。
106.假设语音识别装置为手机，该手机中安装有语音助手。且假设手机在语音助手启动后实时生成当前显示的页面的词库。那么如图5所示，该语音助手启动后，手机可以生成手机当前显示的页面的词库，并根据该页面的词库更新语音词库。之后，手机在识别当前显示的页面获取的语音时，可以根据语音词库中该页面的词库中的词语进行asr识别，以将语音转化为文本信息，并根据转化后的文本信息执行对应的功能。
107.其次介绍本技术实施例的词库生成方法的应用场景。
108.假设手机当前显示的页面为某app的商品首页，用户在该商品首页上启动语音助手。那么如图6所示，手机可以在语音助手启动之后，获取商品首页的页面对象，并对该商品首页进行截屏操作，以得到商品首页的截屏图像。对于商品首页的页面对象，手机可以获取该页面对象对应的视图结构，该视图结构是由该商品首页的多个视图组成的拓扑结构。手机通过遍历该页面对象对应的视图结构，从多个视图中获取能够在商品首页上显示的至少一个视图。假设该商品首页显示有文本视图和图像视图，那么从视图结构的多个视图中确定出的视图既有图像视图，又有文本视图。对于图像视图，手机将图像视图的图像信息输入分类模型，输出该图像信息对应的目标图像类型，根据该目标图像类型，手机获取对应的图像词语集合。若有多个图像视图，则手机可以确定出多个图像词语集合，图6中以一个图像词语集合为例示出。对于文本视图，手机将文本视图的第二文本信息输入分词模型，输出至少一个第二词语。若有多个文本视图，则手机可以确定出多组至少一个第二词语，图6中以一组至少一个第二词语为例示出。对于商品首页的截屏图像，手机采用ocr技术进行图像识别，在确定该截屏图像包括第一文本信息时，得到第一文本信息。手机将该第一文本信息输入分词模型，输出至少一个第一词语。最后，手机可以将图像词语集合、至少一个第二词语、至少一个第一词语进行合并、去重处理，得到该商品首页的词库。之后，手机可以将该商品首页的词库存储至语音词库中。
109.假设用户在该商品首页上通过语音控制点击页面的内容，那么手机在该商品首页获取到用户的语音后，可以获取语音词库中该商品首页的词库，并根据该商品首页的词库中的词语，将语音转化为文本信息，并执行对应的操作。
110.例如，图7为一种语音识别的场景示意图。如图7所示，用户在商品首页上启动语音助手后，手机可以在该商品首页的预设位置显示提示框，该提示框中包括文字“语音助手已启动”。且手机可以生成该商品首页的词库，并将该商品首页的词库更新至语音词库中。假设商品首页显示的内容中有文本“包涵”，用户在该商品首页上进行语音控制时的语音为“baohan”，那么手机可以利用声学模型、以及语音词库中的通用词库和该商品首页的词库中的词语，将语音“baohan”转化为文本信息，该文本信息为“包涵”。手机可以在商品首页上显示另一提示框，该提示框中的文字为“识别结果为包涵”。
111.再例如，假设用户在图7中的商品首页上通过语音控制成功打开某商品的购买页面，如图8所示。那么手机可以在该购买页面的预设位置显示提示框，该提示框中包括文字“语音助手已启动”。且手机可以实时生成该购买页面的词库，并将其更新至语音词库中。假设该购买页面显示的内容中有文本“包含”，用户在该购买页面上进行语音控制时的语音为“baohan”，那么手机可以利用声学模型，以及语音词库中的通用词库和购买页面的词库中的词语，将语音“baohan”转化为“包含”。手机可以在购买页面上显示另一提示框，该提示框
中的文字为“识别结果为包含”。
112.在两个不同的页面中有同音不同字词语，用户在这两个页面上对同音不同字的词语进行语音控制的情况下，如果手机按照现有的通用语音词库中的词语进行语音识别，则会在语音词库中查找该语音的高频词语，导致对于两个不同的页面，语音转化后的文本是相同的，从而导致语音识别的准确率较低。但是，本技术实施例通过根据页面的内容生成相应的该页面的词库，使得手机能够正确识别不同页面上的同音不同字的词语，提高了语音识别的准确率。
113.上述主要从方法的角度对本技术实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的算法步骤，本技术能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
114.本技术实施例还提供一种语音识别装置。该语音识别装置可以是电子设备，也可以是电子设备中的cpu，还可以是电子设备中用于生成词库的控制模块，还可以是电子设备中用于生成词库的客户端。
115.如图9所示，为本技术实施例提供的一种语音识别装置70的结构示意图。语音识别装置70用于执行图2、图3、图4中任一附图所示的语音识别方法。语音识别装置70可以包括获取单元71和识别单元72。
116.获取单元71，用于在当前显示的页面获取语音，还用于获取页面的词库，页面的词库是根据页面的内容生成的。例如，结合图2，获取单元71可以用于执行步骤201、步骤202。识别单元72，用于根据获取单元71获取的页面的词库中的词语，识别语音。例如，结合图2，识别单元72可以用于执行步骤203。
117.可选的，获取单元71，还用于获取页面包括的至少一个视图中每个视图的视图信息。例如，结合图3，获取单元71可以用于执行步骤204。
118.如图10所示，语音识别装置70还可以包括：确定单元73和生成单元74。确定单元73，用于确定获取单元71获取的每个视图的视图信息对应的词语集合。例如，结合图3，确定单元73可以用于执行步骤205。生成单元74，用于生成页面的词库。例如，结合图3，生成单元74可以用于执行步骤206。
119.可选的，如图10所示，语音识别装置70还包括截屏单元75。截屏单元75，用于截取页面，得到截屏图像。例如，结合图4，截屏单元75可以用于执行步骤207。相应的，确定单元73，还用于采用ocr技术，确定截屏单元75截取的截屏图像是否包括第一文本信息；以及还用于在确定截屏图像包括第一文本信息的情况下，采用分词算法对第一文本信息分词，得到至少一个第一词语。例如，结合图4，确定单元73可以用于执行步骤208、步骤209。生成单元74，具体用于根据确定出的词语集合，以及至少一个第一词语，生成页面的词库。
120.可选的，视图为文本视图或图像视图，视图为文本视图时，文本视图的视图信息为第二文本信息。确定单元73，具体用于采用分词算法对第二文本信息分词，得到至少一个第二词语。视图为图像视图时，图像视图的视图信息为图像信息，确定单元73，具体用于采用分类算法，确定图像信息对应的目标图像类型，以及根据图像类型和词语集合的对应关系，
获取目标图像类型对应的图像词语集合。
121.可选的，获取单元71，具体用于：获取页面对应的视图结构，视图结构包括多个视图；以及从多个视图中确定至少一个视图，并确定至少一个视图中每个视图的视图信息，至少一个视图为多个视图中在页面显示的视图。
122.当然，本技术实施例提供的语音识别装置70包括但不限于上述模块。
123.在实际实现时，获取单元71、识别单元72、确定单元73、生成单元74和截屏单元75可以由图1所示的处理器101调用存储器103中的程序代码来实现。其具体的执行过程可参考图2、图3或图4所示的语音识别方法部分的描述，这里不再赘述。
124.本技术另一实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当计算机指令在语音识别装置上运行时，使得语音识别装置执行上述方法实施例所示的方法流程中语音识别装置执行的各个步骤。
125.本技术另一实施例还提供一种芯片系统，该芯片系统应用于语音识别装置。芯片系统包括一个或多个接口电路，以及一个或多个处理器。接口电路和处理器通过线路互联。接口电路用于从语音识别装置的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令。当处理器执行计算机指令时，语音识别装置执行上述方法实施例所示的方法流程中语音识别装置执行的各个步骤。
126.在本技术另一实施例中，还提供一种计算机程序产品，该计算机程序产品包括计算机指令，当计算机指令在语音识别装置上运行时，使得语音识别装置执行上述方法实施例所示的方法流程中语音识别装置执行的各个步骤。
127.在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时，全部或部分地产生按照本技术实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，dvd)、或者半导体介质(例如固态硬盘(solid state disk，ssd))等。
128.以上所述，仅为本技术的具体实施方式。熟悉本技术领域的技术人员根据本技术提供的具体实施方式，可想到变化或替换，都应涵盖在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：自适应日志模型和用户界面的制作方法

一种语音识别方法及装置与流程

相关文献

最热文献