一种基于智能耳机的移动语音交互方法及装置与流程

2021-09-10 22:02:00 来源：中国专利 TAG：交互语音耳机装置智能

1.本发明涉及语音交互技术领域，具体而言，涉及一种基于智能耳机的移动语音交互方法及装置。

背景技术：

2.目前的智能耳机都是手机的配件产品，需要连接手机后才能使用手机语音交互功能。
3.同时，当前用户使用tws耳机需要携带充电盒以及耳机头，实际使用时候需要取出耳机头同手机配对，耳机头配对完成后做为手机的外置音频输入输出设备使用。此方案设计让耳机成为了手机的附件产品。用耳机时候必须要同时携带手机并建立蓝牙连接。现在的技术中没有一种智能耳机能够单独使用，无法实现功能的集中化，其使用效果较差和使用局限性也较高，不利于智能化发展。

技术实现要素：

4.本发明的目的在于提供一种基于智能耳机的移动语音交互方法及装置，具有使得耳机独立化，无需借助手机或者平板则可以单独使用，提高了其语音交互的便捷性。
5.本发明的实施例是这样实现的：
6.本发明实施例之一提供一种基于智能耳机的移动语音交互方法，包括：
7.采集语音指令；
8.将上述语音指令传递到本地端，并通过上述本地端进行语音指令的预处理，得到相匹配的处理信号；
9.判断上述处理信号是否为直接反馈响应信号或间接反馈响应信号；
10.若是直接反馈响应信号，则通过上述本地端进行二级语音反馈；
11.若是间接反馈响应信号，则将上述语音指令进行打包处理，传输到云端服务器，并通过上述云端服务器得到应用反馈结果，再将上述应用反馈结果传输到本地端，由上述本地端进行语音转化，输出播放结果。
12.使用本方法进行语音交互前，先采集语音指令，再将上述语音指令传递到本地端，并通过上述本地端进行语音指令的预处理，得到相匹配的处理信号；判断上述处理信号是否为直接反馈响应信号或间接反馈响应信号。使用本方法对信号处理时若是直接反馈响应信号，则通过上述本地端进行二级语音反馈。若是间接反馈响应信号，则将上述语音指令进行打包处理，传输到云端服务器，并通过上述云端服务器得到应用反馈结果，再将上述应用反馈结果传输到本地端，由上述本地端进行语音转化，输出播放结果。该方法能够使得语音指令的采集和预处理均在本地端中进行，减少了外接手机或者平板的加入，使得耳机及充电盒能单独使用。
13.在本发明的一些实施例中，在将上述语音指令传递到本地端的步骤中，包括：
14.按照时序对上述语音指令分别进行打包处理，并通过蓝牙协议发送到上述本地端
中。
15.在本发明的一些实施例中，通过上述本地端进行语音指令的预处理，得到相匹配的处理信号的步骤中，包括：
16.建立预设语义指令库及和上述预设语义指令库相匹配的处理信号库；
17.对上述语音指令进行本地解析，并得到本地语义结果，判断上述本地语义结果和上述预设语义指令库中的语义资源是否匹配；
18.若具有匹配的语义资源，则输出相应的处理信号；
19.若不具有匹配的语义资源，则输出上述间接反馈响应信号。
20.在本发明的一些实施例中，在将上述语音指令进行打包处理，传输到云端服务器，并通过上述云端服务器得到应用反馈结果的步骤中，包括：
21.在上述本地端中将上述数据包进行转码，并将转码后的数据包通过无线协议转发至云端服务器，上述云端服务器进行数据包组包后，进行云业务处理得到处理结果，再将上述处理结果转换为应用反馈结果。
22.在本发明的一些实施例中，在将上述应用反馈结果传输到本地端，由上述本地端进行语音转化，输出播放结果的步骤中，包括：
23.将上述应用反馈结果按照时序进行分别打包得到反馈语音结果数据包，再将上述反馈语音结果数据包通过无线协议转发至上述本地端，在上述本地端内进行数据包组包后，进行语音数据转码，最终实现语音转化和播放。
24.本发明实施例之一提供一种基于智能耳机的移动语音交互的装置，包括：
25.语音采集模块，上述语音采集模块被设置用于采集语音指令；
26.本地模块，上述本地模块被设置用于接收上述语音指令，并对上述语音指令进行预处理，得到相匹配的处理信号；
27.匹配模块，上述匹配模块被设置用于将上述语音指令和上述处理信号相互匹配，并判断上述处理信号是否为直接反馈响应信号或间接反馈响应信号，若是上述直接反馈响应信号，则通过上述本地模块进行二级语音反馈；若是上述间接反馈响应信号，则将上述语音指令进行打包处理，传输到云端服务器，并通过上述云端服务器得到应用反馈结果，再将上述应用反馈结果传输到本地模块，由上述本地模块进行语音转化，输出播放结果。
28.使用本装置进行语音交互前，语音采集模块采集语音指令，本地模块接收上述语音指令，并对上述语音指令进行预处理，得到相匹配的处理信号，匹配模块将上述语音指令和上述处理信号相互匹配，并判断上述处理信号是否为直接反馈响应信号或间接反馈响应信号，若是上述直接反馈响应信号，则通过上述本地模块进行二级语音反馈；若是上述间接反馈响应信号，则将上述语音指令进行打包处理，传输到云端服务器，并通过上述云端服务器得到应用反馈结果，再将上述应用反馈结果传输到本地模块，由上述本地模块进行语音转化，输出播放结果。
29.在本发明的一些实施例中，上述语音采集模块包括语音采集单元、传感器单元、供电单元和功放单元，上述供电单元和充电仓本体单元电性连接。
30.在本发明的一些实施例中，上述本地模块包括：
31.充电仓本体单元，上述充电仓本体单元被设置用于容纳上述语音采集模块，并对上述语音采集模块进行充电；
32.充电仓蓝牙语音接收单元，上述充电仓蓝牙语音接收单元被设置用于接收上述语音指令；
33.充电仓通信单元，上述充电仓通信单元被设置用于和上述云端服务器信息传输；
34.处理器单元，上述处理器单元被设置用于上述语音指令进行预处理，得到相匹配的处理信号。
35.本发明实施例之一提供一种电子设备，包括：
36.存储器，用于存储一个或多个程序；
37.处理器；
38.当上述一个或多个程序被上述处理器执行时，实现如上述的方法。
39.本发明实施例之一提供一种计算机可读存储介质，上述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机运行上述的一种基于智能耳机的移动语音交互方法。
40.相对于现有技术，本发明的实施例至少具有如下优点或有益效果：
41.1)耳机充电仓(本地端)具有应用处理能力以及网路连接能力，耳机从充电盒拿出后即蓝牙连接上充电盒，用户就可以通过耳机进行语音控制来命令充电仓进行相应应用操作，同时，由于充电仓具有联网能力，因此耳机同充电仓一起具有了独立的移动的能力。
42.2)该装置满足了部分用户不使用手机的情况下只使用耳机就能享受互联网语音交互功能，完成打车，点外卖，语音交流、新闻咨询等一系列功能。
附图说明
43.为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
44.图1为本发明的一些实施例提供的一种基于智能耳机的移动语音交互装置的示意框图；
45.图2为本发明的一些实施例提供的一种基于智能耳机的移动语音交互方法的流程示意图；
46.图3为本发明的一些实施例提供的一种电子设备的示意框图；
47.图中，100
‑
基于智能耳机的移动语音交互装置；110
‑
语音采集模块；120
‑
本地模块；130
‑
匹配模块；600
‑
电子设备；610
‑
存储器；620
‑
处理器；630
‑
通信接口。
具体实施方式
48.为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。
49.应当理解，本文使用的“装置”、“装置”、“单元”和/或“模块”是用于区分不同级别
的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换词语。
50.如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。
51.上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
52.同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
53.此外，除非权利要求中明确说明，本说明书处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的装置组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的装置。
54.同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。
55.最后，应当理解的是，本说明书中实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
56.实施例
57.图1为本发明的一些实施例提供的一种基于智能耳机的移动语音交互装置100的示意框图。
58.如图1所示，在一些实施例中，一种基于智能耳机的移动语音交互装置100的示意框图可以包括语音采集模块110、本地模块120及匹配模块130。
59.语音采集模块110，语音采集模块110被设置用于采集语音指令；
60.本地模块120，本地模块120被设置用于接收语音指令，并对语音指令进行预处理，得到相匹配的处理信号；
61.匹配模块130，匹配模块130被设置用于将语音指令和处理信号相互匹配，并判断
处理信号是否为直接反馈响应信号或间接反馈响应信号，若是直接反馈响应信号，则通过本地模块120进行二级语音反馈；若是间接反馈响应信号，则将语音指令进行打包处理，传输到云端服务器，并通过云端服务器得到应用反馈结果，再将应用反馈结果传输到本地模块120，由本地模块120进行语音转化，输出播放结果。
62.需要注意的是，以上对于一种基于智能耳机的移动语音交互装置100及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该装置的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子装置与其他模块连接。在一些实施例中，图1中披露的语音采集模块110、本地模块120及匹配模块130可以是一个装置中的不同模块，也可以是一个模块实现上述的两个或两个以上模块的功能。例如，各个模块可以共用一个存储模块，各个模块也可以分别具有各自的存储模块。诸如此类的变形，均在本说明书的保护范围之内。
63.图2为本发明的一些实施例提供的一种基于智能耳机的移动语音交互方法的流程示意图。
64.在一些实施例中，一种基于智能耳机的移动语音交互方法可以由一种基于智能耳机的移动语音交互装置100执行。例如，一种基于智能耳机的移动语音交互方法可以以程序或指令的形式存储在存储装置中，当一种基于智能耳机的移动语音交互装置100行该程序或指令时，可以实现一种基于智能耳机的移动语音交互方法。下面呈现的一种基于智能耳机的移动语音交互方法的操作示意图是说明性的。在一些实施例中，可以利用一个或以上未描述的附加操作和/或未讨论的一个或以上操作来完成该过程。另外，图2中示出的和下面描述的流程的操作的顺序不旨在是限制性的。
65.s210，采集语音指令；
66.在一些实施例中，语音采集可以基于耳机，耳机作为语音采集模块110其可以包括耳机充电电路，以用于耳机的电量保持，提高耳机的使用时长和使用寿命；也可以包括耳机传感器电路，以用于监测耳机是否处于播放状态或是充电状态，以便于对耳机的功能的调节；也可以包括耳机电源供电电路，以和上述的耳机充电电路相互配合，实现耳机充电作业；也可以包括数字处理器和音频处理器，以实现语音的收集；也可以包括蓝牙无线接口，以实现和耳机仓的信号连接；也可以包括功放模块，以实现播放，实现最终的语音交互。
67.s220，将语音指令传递到本地端，并通过本地端进行语音指令的预处理，得到相匹配的处理信号；
68.其中，在将语音指令传递到本地端的步骤中，可以按照时序对语音指令分别进行打包处理，并通过蓝牙协议发送到本地端中。
69.本实施例中的序，就是次序，时序就是按照时间的次序，前面的操作和状态对于后位的操作和状态有影响，而后位的操作和状态对于前面的操作结果没有影响，以时序的方式对语音指令分别进行打包处理，可以让打包后的数据之间更为精确，避免乱序之后影响云端处理结果。例如，用户发出语音指令按照时序执行天气状况播报，确定“天气状况后”已执行完毕然后状态回调再执行“播放音频”，即遭遇到流媒体播报间的时序冲突处理时，通过前一条播报结束后状态回调后继续播报下一条音频。
70.在一些实施例中，通过本地端进行语音指令的预处理，得到相匹配的处理信号的步骤中，包括：
71.建立预设语义指令库及和预设语义指令库相匹配的处理信号库；
72.对语音指令进行本地解析，并得到本地语义结果，判断本地语义结果和预设语义指令库中的语义资源是否匹配；
73.若具有匹配的语义资源，则输出相应的处理信号；
74.若不具有匹配的语义资源，则输出间接反馈响应信号。
75.该预设语义指令库及和该预设语义指令库相匹配的处理信号库，包括例如，用户发出指令“现在是几点”，本地端进行预处理本地解析后，得到本地语义结果“时间查询”，此时判断“时间查询”和本地端中的实时时间相互匹配，再发出相应的处理信号，例如，播放现在的时间。
76.同时，若不具有匹配的语义资源，例如用户从充电仓(本地模块120)中拿出耳机(语音采集模块110)，耳机自动通过蓝牙连接充电仓，使用耳机唤醒语音助手并开始语音命令，通过耳机对语音助手下指令说：“今天天气怎么样”，耳机收到指令传送到充电仓通信模块，通信模块将指令发送给云端语音处理平台，云端平台处理语音后将结果发回给充电仓通信模块，充电仓接受到结果再蓝牙传输到耳机端。耳机端将听到：“你好，今天深圳的天气晴32度。”77.在一些实施例中，在将语音指令进行打包处理，传输到云端服务器，并通过云端服务器得到应用反馈结果的步骤中，包括：
78.在本地端中将数据包进行转码，并将转码后的数据包通过无线协议转发至云端服务器，云端服务器进行数据包组包后，进行云业务处理得到处理结果，再将处理结果转换为应用反馈结果。
79.该反馈操作模块可以使得，耳机和耳机仓，不需要复杂的处理能力，可以大大节约边缘计算所需要的计算和功耗。利用无线通信，耳机仓把耳机扩展到了丰富的互联网，再通过云业务服务器，让耳机具备了丰富的互联网应用扩展能力，比如包括各类内容生态、互联网人工智能等计算能力。用户数据完全实现了云化，方便用户的数据迁移、终端切换等操作。
80.s230，判断处理信号是否为直接反馈响应信号或间接反馈响应信号；
81.s231,若是直接反馈响应信号，则通过本地端进行二级语音反馈；
82.例如，用户发出指令“现在是几点”，本地端进行预处理本地解析后，得到本地语义结果“时间查询”，此时判断“时间查询”和本地端中的实时时间相互匹配，再发出相应的处理信号，例如，播放现在的时间。
83.s232,若是间接反馈响应信号，则将语音指令进行打包处理，传输到云端服务器，并通过云端服务器得到应用反馈结果，再将应用反馈结果传输到本地端，由本地端进行语音转化，输出播放结果。
84.例如用户从充电仓(本地模块120)中拿出耳机(语音采集模块110)，耳机自动通过蓝牙连接充电仓，使用耳机唤醒语音助手并开始语音命令，通过耳机对语音助手下指令说：“今天天气怎么样”，耳机收到指令传送到充电仓通信模块，通信模块将指令发送给云端语音处理平台，云端平台处理语音后将结果发回给充电仓通信模块，充电仓接受到结果再蓝牙传输到耳机端。耳机端将听到：“你好，今天深圳的天气晴32度。”85.在一些实施例中，本地模块120包括充电仓本体单元、充电仓蓝牙语音接收单元、
充电仓通信单元和处理器单元。充电仓本体单元被设置用于容纳语音采集模块110，并对语音采集模块110进行充电。充电仓蓝牙语音接收单元被设置用于接收语音指令。充电仓通信单元被设置用于和云端服务器信息传输。处理器单元被设置用于语音指令进行预处理，得到相匹配的处理信号。
86.图3为本发明的一些实施例提供的一种电子设备600的示意框图。
87.电子设备600包括存储器610、处理器620和通信接口630，该存储器610、处理器620和通信接口630相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器610可用于存储软件程序及模块，如本技术实施例所提供的一种基于智能耳机的移动语音交互方法100对应的程序指令/模块，处理器620通过执行存储在存储器610内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口630可用于与其他节点设备进行信令或数据的通信。
88.其中，存储器610可以是但不限于，随机存取存储器(random access memory，ram)，只读存储器(read only memory，rom)，可编程只读存储器(programmable read
‑
onlymemory，prom)，可擦除只读存储器(erasable programmable read
‑
only memory，eprom)，电可擦除只读存储器(electric erasable programmable read
‑
only memory，eeprom)等。
89.处理器620可以是一种集成电路芯片，具有信号处理能力。该处理器620可以是通用处理器，包括中央处理器(central processing unit，cpu)、网络处理器(networkprocessor，np)等；还可以是数字信号处理器(digital signal processing，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field－programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
90.可以理解，图3所示的结构仅为示意，电子设备600还可包括比图3中所示更多或者更少的组件，或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。
91.在本技术所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的装置来实现，或者可以用专用硬件与计算机指令的组合来实现。
92.另外，在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。
93.功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现
有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read
‑
only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
94.综上，本技术实施例提供的一种基于智能耳机的移动语音交互方法及装置，包括以下步骤：采集语音指令，将语音指令传递到本地端，并通过本地端进行语音指令的预处理，得到相匹配的处理信号，判断处理信号是否为直接反馈响应信号或间接反馈响应信号，若是直接反馈响应信号，则通过本地端进行二级语音反馈，若是间接反馈响应信号，则将语音指令进行打包处理，传输到云端服务器，并通过云端服务器得到应用反馈结果，再将应用反馈结果传输到本地端，由本地端进行语音转化，输出播放结果。该方法能够使得语音指令的采集和预处理均在本地端中进行，减少了外接手机或者平板的加入，使得耳机及充电盒能单独使用。
95.以上仅为本技术的优选实施例而已，并不用于限制本技术，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。
96.对于本领域技术人员而言，显然本技术不限于上述示范性实施例的细节，而且在不背离本技术的精神或基本特征的情况下，能够以其它的具体形式实现本技术。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本技术的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：处理音频信号的方法、模型训练方法、装置、设备和介质与流程

一种基于智能耳机的移动语音交互方法及装置与流程

相关文章

最热文献