一种语音识别组件、可插拔的语音识别装置及电子设备的制作方法

2022-02-25 18:48:43 来源：中国专利 TAG：

1.本发明涉及语音识别领域，特别是涉及一种语音识别组件、可插拔的语音识别装置及电子设备。

背景技术：

2.随着语音识别技术的不断发展，智能语音控制越来越多的应用在家电设备上，通过对用户语音指令的识别，可以快速的执行相应的操作，提升用户交互体验。
3.为了能够在不同的家电设备上接入语音识别功能，降低开发难度，提高通用性，现有技术中，语音识别模块一般独立于家电设备，采用可插拔的方式，嵌入到家电设备中。因为是嵌入在家电设备进行使用，受限于硬件条件，语音识别结果一般为固定指令，以方便指令在家电设备的执行。
4.同时，现有的语音识别模块，一般是由各个厂家针对各自的产品进行独立设计的。因为各家产品使用的语音识别模式、语音识别引擎是固定的，所以现有的语音识别模块，一般采用单一的服务，仅能使用单一识别模式，调用单一的语音识别引擎，识别结果也是对应自家产品的固定指令。
5.而且，现有的语音识别模块，没有设置单独的音频采集服务，需要使用语音识别引擎的音频采集服务，与语音识别引擎深度捆绑，不能独立运行以提供服务。
6.综上所述，现有的语音识别模块，与产品、语音识别引擎深度耦合在一起，语音识别解析内容单一，不能按照不同的产品扩充语音识别的语料，不能自主选择识别模式和语音识别引擎，不能独立运行提供服务，灵活性、扩展性较差。

技术实现要素：

7.基于此，有必要针对现有语音识别模块不能自由选择识别模式、语音识别引擎，不能独立运行提供服务，存在灵活性和扩展性较差的问题，提供一种语音识别组件、可插拔的语音识别装置及电子设备。
8.本技术一实施例提供了一种语音识别组件，可嵌入到电子设备中，包括音频采集服务层、语音识别服务层、应用接口服务层及实例工厂单元，所述音频采集服务层，至少包括音频采集单元，所述音频采集单元用于提供音频数据采集服务；所述语音识别服务层，用于提供语音识别服务，对音频采集服务层采集的音频数据进行语音识别，得到语音识别结果；所述语音识别服务具有多种识别模式，不同的识别模式的语音识别服务，调用不同的语音识别引擎；所述应用接口服务层包括接口管理模块和解析模块，其中，所述解析模块，用于提供解析服务，对语音识别结果进行解析，得到解析结果；所述接口管理模块，用于管理语音识别组件对外进行数据交互的接口；所述接口管理模块，将所述解析结果发送给外部的电子设备；
所述应用接口服务层，还用于获取外部的电子设备的设备信息，并根据设备信息，配置应用配置项，所述应用配置项包括语音识别组件应用在外部的电子设备上时，需要实现的服务名称；所述实例工厂单元，包括服务配置文件以及实例工厂模块，所述实例工厂模块，至少根据所述服务配置文件和应用配置项，创建对应识别模式的语音识别服务。
9.在一些实施例中，所述实例工厂单元根据所述服务配置文件和应用配置项，创建对应识别模式的语音识别服务，具体包括：所述实例工厂单元获取应用配置项，从中提取出需要实现的服务名称；所述实例工厂单元，根据服务名称，从服务配置文件中找到对应服务的实现信息，根据对应服务的实现信息，创建出对应的服务。
10.在一些实施例中，所述音频采集单元具有采集模式和非采集模式两种工作模式，不同的工作模式下，音频采集单元提供不同的音频数据采集服务；所述音频采集单元的音频数据采集服务，由实例工厂单元根据所述服务配置文件和应用配置项来进行创建。
11.在一些实施例中，所述音频采集服务层，还包括环境噪声监控单元，用于获取环境噪声，根据所述环境噪声，设置音量阈值；所述音频采集单元，在音频数据采集服务中，根据所述音量阈值，对音频数据进行语音端点检测。
12.在一些实施例中，所述音频采集服务层，还包括人员检测单元，用于接收人员感应数据，并根据人员感应数据，判断预设感应范围内是否有用户；当判断预设感应范围内有用户时，触发音频数据采集服务开始工作。
13.在一些实施例中，所述解析模块包括多种解析模式，不同解析模式对应不同的解析服务；所述应用接口服务层，根据所述设备信息，在应用配置项中配置解析模块的解析模式，确定对应解析模式的解析服务名称；所述实例工厂单元，根据所述服务配置文件和应用配置项，创建对应解析模式的解析服务。
14.本技术另一实施例提供了一种可插拔的语音识别装置，可插拔的接入到电子设备中，包括处理器、存储器和可插拔接口模块，所述存储器中存储有前述任一项实施例所述的语音识别组件，所述处理器运行语音识别组件提供的语音识别服务，所述可插拔接口模块用于将所述语音识别装置可插拔的接入到电子设备上。
15.在一些实施例中，还包括拾音单元，用于获取原始的音频数据。
16.在一些实施例中，还包括噪声传感器，用于获取环境噪声；所述语音识别组件，用于根据环境噪声，设置音量阈值，并利用音量阈值，对音频数据进行语音端点检测。
17.本技术另一实施例还提供了一种电子设备，包括前述任一项实施例所述的语音识别装置，所述语音识别装置可插拔的设置在电子设备上。
18.本技术实施例提供的语音识别组件，集成了音频数据采集服务，不再需要使用语音识别引擎的音频采集服务，音频数据的采集不再与语音识别引擎捆绑在一起，可以独立运行提供服务；根据外部电子设备的设备信息，自动识别支持的语音识别引擎，利用实例工厂，创建对应识别模式的语音识别服务，实现了识别模式的自主选择，可以支持对其他语音识别引擎的快速接入。本技术实施例提供的语音识别组件，可以独立运行提供服务，可以兼容多种识别模式和语音识别引擎，在灵活性和扩展性方面得到了极大的提升。
19.附图说明
20.图1为本技术一实施例的语音识别组件的框架示意图；图2为本技术一实施例的语音识别装置的结构示意图。
21.具体实施方式
22.为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行详细描述。需要说明的是，在不冲突的情况下，本技术的实施方式及实施方式中的特征可以相互组合。
23.除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是旨在于限制本发明。
24.如图1所示，本技术一实施例公开了一种语音识别组件10，可嵌入到电子设备20中，包括音频采集服务层100、语音识别服务层200、应用接口服务层300及实例工厂单元400，所述音频采集服务层100，至少包括音频采集单元110，所述音频采集单元110用于提供音频数据采集服务；所述语音识别服务层200，用于提供语音识别服务，对音频采集服务层采集的音频数据进行语音识别，得到语音识别结果；所述语音识别服务具有多种识别模式，不同的识别模式的语音识别服务，可以调用不同的语音识别引擎；所述应用接口服务层300包括接口管理模块310和解析模块320，其中，所述解析模块310，用于提供解析服务，对语音识别结果进行解析，得到解析结果；所述接口管理模块320，用于管理语音识别组件10对外进行数据交互的接口；所述接口管理模块320，将所述解析结果发送给外部的电子设备20；所述应用接口服务层300，还用于获取外部的电子设备20的设备信息，并根据设备信息，配置应用配置项，所述应用配置项包括语音识别组件10应用在外部的电子设备20上时，需要实现的服务名称；所述实例工厂单元400，包括服务配置文件以及实例工厂模块410，所述实例工厂模块410，至少根据服务配置文件和应用配置项，创建对应识别模式的语音识别服务。
25.音频采集单元110提供的音频数据采集服务，可以将模拟数据形态的原始的音频数据，采集、加工成标准pcm音频数据流，或者语音识别引擎可以使用的其他形式的音频数据。在音频数据采集服务中，会包括语音端点检测。
26.通过在语音识别组件10中集成音频数据采集服务层，从而可以将音频数据采集服务从语音识别引擎中分离出来，避免音频采集方法与语音识别引擎的捆绑，可以增加语音识别组件的扩展性，方便切换、引入不同的语音识别引擎。
27.服务配置文件，可以包括有语音识别组件10可以实现的所有服务的实现信息，每个服务的实现信息包括服务实现的接口名、服务类型、服务的命名空间、服务的别名。
28.语音识别组件10会嵌入到电子设备20中进行使用。语音识别服务需要调用语音识别引擎。语音识别引擎，可以设置在本地，也可以设置在服务器、云端。语音识别组件10，可以通过电子设备20，来调用这些语音识别引擎。不同的语音识别引擎，对应不同识别模式的语音识别服务。示例的，语音识别服务，可以具有如下几种识别模式——本地组件服务模式、在线识别模式、私有云识别模式、离线命令词识别模式等。
29.语音识别引擎的具体设置方式，可以体现在电子设备20的设备信息——即硬件配置、软件配置。应用接口服务层300，可以通过接口，从电子设备20处获取其设备信息，根据设备信息，可以判断出语音识别引擎的设置方式，从而确定语音识别组件10需要提供的语音识别服务的识别模式——即语音识别组件10应用在外部的电子设备20上时，需要实现的服务名称，完成应用配置项的配置。
30.实例工厂单元400，可以获取应用配置项，从中提取出需要实现的服务名称；再根据服务名称，从服务配置文件中找到对应服务的实现信息，根据服务的实现信息，即可自动创建出对应的服务。在本实施例中，实例工厂单元400，根据应用配置项和服务配置文件，创建对应识别模式的语音识别服务。如此，语音识别组件10，可以根据电子设备20的实际情况，创建对应不同语音识别引擎的语音识别，支持语音识别引擎的自主选择与切换，提升灵活性和扩展性。
31.在一些实施例中，实例工厂单元400，根据服务配置文件和应用配置项，创建对应识别模式的语音识别服务的步骤，还可以采用其他细化的步骤。当启动语音识别组件10时，实例工厂单元400即可加载服务配置文件中的所有服务的实现信息，配置好所有服务的实现，形成服务列表；然后，获取应用配置项，从应用配置项提取服务名称，在服务列表中匹配得对应用的服务及其所在位置，创建一个应用实体，该应用实体即为实例化的对应识别模式的语音识别服务。
32.本技术实施例提供的语音识别组件，集成了音频数据采集服务，不再需要使用语音识别引擎的音频采集服务，音频数据的采集不再与语音识别引擎捆绑在一起，可以独立运行提供服务；根据外部电子设备的设备信息，自动识别支持的语音识别引擎，利用实例工厂，创建对应识别模式的语音识别服务，实现了识别模式的自主选择，可以支持对其他语音识别引擎的快速接入。本技术实施例提供的语音识别组件，可以独立运行提供服务，可以兼容多种识别模式和语音识别引擎，在灵活性和扩展性方面得到了极大的提升。
33.在一些实施例中，音频采集单元110具有两种工作模式——采集模式和非采集模式，其中，对应不同的工作模式，音频采集单元1110提供对应工作模式的音频数据采集服务。示例的，采集模式下的音频数据采集服务，需要将模拟的音频数据转换为标准pcm音频数据流，可能需要包括采样、量化、编码等采集过程。非采集模式下的音频数据采集服务，可能就不需要将模拟的音频数据转换为标准pcm音频数据流，可能只包括采样、量化、编码等采集过程中的一个或者部分。
34.音频采集单元110提供的音频数据采集服务，包括采集模式下的音频数据采集服务和非采集模式下的音频数据采集服务，也可以由实例工厂单元400根据服务配置文件和应用配置项来进行创建。示例的，根据电子设备20的设备信息，比如连接的语音识别引擎，应用接口服务层300，可以在应用配置项中配置音频采集单元110的工作模式，确定对应工作模式的音频数据采集服务名称。
35.在一些实施例中，音频采集服务层100，还可以包括环境噪声监控单元120，用于获取环境噪声，根据环境噪声，设置音量阈值；所述音频采集单元110，在音频数据采集服务中，还根据所述音量阈值，对音频数据进行语音端点检测，以降低语音识别过程中传输的数据量。
36.环境噪声监控单元120，还用于根据采集的环境噪声，进行噪声提示，提示用户提高说话的音量，或者对准拾音设备。
37.在一些实施例中，音频采集服务层100，还可以包括人员检测单元130，用于接收人员感应数据，并根据人员感应数据，判断预设感应范围内是否有用户；当判断预设感应范围内有用户时，触发音频数据采集服务开始工作。
38.在一些实施例中，解析模块310，也可以包括多种解析模式，示例的，解析模式可以包括本地解析服务模式、在线解析服务模式、私有云解析服务模式、不解析模式。不同解析模式对应不同的解析服务，采用的接口、服务类型等可能存在差异。示例的，本地解析服务模式下，解析规则存放在语音识别组件10的本地数据库中，解析服务直接调用本地数据库中的解析规则即可进行解析。在线解析服务模式下，解析规则存放在网络上的服务器中，解析服务需要与服务器建立链接，上传语音识别结果、下载解析结果。
39.应用接口服务层300，根据电子设备20的设备信息，在应用配置项中配置解析模块310的解析模式，确定对应解析模式的解析服务名称；实例工厂单元400根据服务配置文件和应用配置项，来进行创建对应解析模式的解析服务。
40.本技术实施例提供的语音识别组件，集成了音频数据采集服务，不再需要使用语音识别引擎的音频采集服务，音频数据的采集不再与语音识别引擎捆绑在一起，可以独立运行提供服务；根据外部电子设备的设备信息，自动识别支持的语音识别引擎，利用实例工厂，创建对应识别模式的语音识别服务，实现了识别模式的自主选择，可以支持对其他语音识别引擎的快速接入。本技术实施例提供的语音识别组件，可以独立运行提供服务，可以兼容多种识别模式和语音识别引擎，在灵活性和扩展性方面得到了极大的提升。
41.如图2所示，本技术一实施例公开了一种可插拔的语音识别装置，可插拔的接入到电子设备中，包括处理器1100、存储器1200和可插拔接口模块1300，所述存储器1200中存储有前面实施例所述的语音识别组件，所述处理器1100可以运行语音识别组件提供的语音识别服务，所述可插拔接口模块1300用于将语音识别装置可插拔的接入到电子设备上。
42.本技术实施例提供的语音识别装置，可插拔的接入到不同的电子设备上，可以独立运行提供服务，可以兼容多种识别模式和语音识别引擎，具有极大的灵活性和扩展性。
43.在一些实施例中，可插拔的语音识别装置，还可以包括拾音单元1400，用于获取原始的音频数据。拾音单元1400，可以是麦克风、咪头、麦克风阵列等常见的音频拾取模块。
44.在一些实施例中，可插拔的语音识别装置，还可以包括噪声传感器1500，用于获取环境噪声；语音识别组件，用于根据环境噪声，设置音量阈值，并利用音量阈值，对音频数据进行语音端点检测，以降低语音识别过程中传输的数据量。当判断环境噪声高于预设噪声阈值时，可以提示用户提高语音的音量，或者对准拾音单元1400。
45.在一些实施例中，可插拔的语音识别装置，还可以包括红外传感器1600，用于采集人员感应数据；语音识别组件，用于根据人员感应数据，判断预设感应范围内是否有用户；当判断预设感应范围内有用户时，触发音频数据采集服务。
46.在一些实施例中，可插拔的语音识别装置，还可以包括通信模块，用于实现语音识别装置与电子设备之间的数据通信。通信模块，可以是无线通信模块，比如nfc、zig-bee、uwb、蓝牙等，以提供无线通信方式；也可以是有线通信模块，比如串口通信模块或者usb通信模块等。
47.可以理解的是，可插拔接口模块1300可以采用usb接口，通信模块可以采用usb通信模块，从而将通信模块的接口与可插拔接口复用在一起。
48.下面对可插拔的语音识别装置的工作方式进行举例说明。在下面的示例中，可插拔的语音识别装置可以包括处理器1100、存储器1200、可插拔接口模块1300、拾音单元1400、噪声传感器1500、红外传感器1600及usb通信模块，可插拔接口模块1300的接口复用usb通信模块的usb接口，储存储器1200中存储有语音识别组件。
49.使用时，可插拔的语音识别装置通过usb接口，可插拔的插接在的电子设备上，由电子设备提供电能。语音识别组件中的应用接口服务层300，可以与电子设备进行通信，获取电子设备的设备信息，比如硬件信息、软件信息、连接的语音识别引擎；根据电子设备的设备信息，可以配置应用配置项，包括对应匹配的识别模式的语音识别服务名称、对应匹配的工作模式的音频数据采集服务名称、对应匹配的解析模式的解析服务名称。语音识别组件的实例工厂单元400，根据预先设置的服务配置文件和应用配置项，自动在音频采集服务层100、语音识别服务层200、应用接口服务层300中创建对应的音频数据采集服务、语音识别服务以及解析服务。如此，可以让语音识别组件自动适配连接的不同电子设备、不同的语音识别引擎，具有良好的灵活性和扩展性。
50.红外传感器1600，实时的采集人员感应数据，当判断预设感应范围内有用户时，触发语音识别组件中的音频采集服务层100的音频数据采集服务。
51.拾音单元1400可以实时拾取用户的语音，得到原始的音频数据，然后缓存在存储器1200中。缓存的原始的音频数据，可以仅保存一段时间，如果没有被音频数据采集服务所读取，即可被后续存入的数据所覆盖掉。当然，也可以由红外传感器1600，在判断有用户时，触发拾音单元1400开始拾取用户的语音，得到原始的音频数据。
52.音频采集服务层100的音频数据采集服务，可以将原始的音频数据，采集、加工成标准的pcm音频数据流，或者语音识别引擎可以使用的其他形式的音频数据。在音频数据采集服务中，包括语音端点检测。
53.语音识别服务层200提供的语音识别服务，调用连接的语音识别引擎，对采集的音频数据进行语音识别，得到语音识别结果。
54.应用接口服务层300提供的解析服务，对语音识别结果进行解析，并将解析结果，通过usb接口，反馈给电子设备，由电子设备执行对应的操作。
55.在进行语音识别的同时，噪声传感器1500，也可以实时采集当前环境噪声，并根据环境噪声，设置音频数据采集服务中所需的音量阈值。利用音量阈值，在音频数据采集服务中，可以对音频数据进行语音端点检测。当判断环境噪声高于预设噪声阈值时，提示用户提高音量或者对准拾音单元。
56.本技术一实施例还提供一种电子设备，可以包括有前述可插拔的语音识别装置。
57.所述系统/计算机装置集成的部件/模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理
解，本发明实现上述实施方式方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，所述计算机程序在被处理器执行时，可实现上述各个方法实施方式的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器 (rom，read-only memory)、随机存取存储器(ram，random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。
58.在本发明所提供的几个具体实施方式中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施方式仅仅是示意性的，例如，所述部件的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。
59.另外，在本发明各个实施例中的各功能模块/部件可以集成在相同处理模块/部件中，也可以是各个模块/部件单独物理存在，也可以两个或两个以上模块/部件集成在相同模块/部件中。上述集成的模块/部件既可以采用硬件的形式实现，也可以采用硬件加软件功能模块/部件的形式实现。
60.对于本领域技术人员而言，显然本发明实施例不限于上述示范性实施例的细节，而且在不背离本发明实施例的精神或基本特征的情况下，能够以其他的具体形式实现本发明实施例。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明实施例的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明实施例内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统、装置或终端权利要求中陈述的多个单元、模块或装置也可以由同一个单元、模块或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。
61.以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：呼叫方法、装置、电子设备及存储介质与流程

一种语音识别组件、可插拔的语音识别装置及电子设备的制作方法

相关文献

最热文献