语音助手的唤醒方法、系统、设备及存储介质与流程

2022-02-22 03:29:06 来源：中国专利 TAG：

1.本公开涉及语音技术领域，尤其涉及一种语音助手的唤醒方法、系统、设备及存储介质。

背景技术：

2.随着语音技术的发展，与终端设备的语音功能已经普遍应用。然而语音功能时常会被误触发，例如用户在看电视时电视的声音或者用户与其他人的对话容易触发终端设备的语音功能，这会打断用户正在做的事情，给用户的使用带来不便，还会让用户有被监听的错觉，使得用户体验很不好。现有的解决方式一般是通过权限控制打开或关闭语音功能，但是如果关闭语音功能则语音功能完全无法使用，如果打开语音功能，则存在语音功能长期采集所处环境的声音信息，容易误唤醒语音功能。所以，现有技术中的语音功能存在容易被误触发，以及语音功能长期采集用户的声音数据所带来终端设备的安全性降低等的技术问题。

技术实现要素：

3.有鉴于此，本公开的目的在于提出一种语音助手的唤醒方法、系统、设备及存储介质，以解决现有技术中的语音功能存在容易被误触发，以及语音功能长期采集用户的声音数据所带来终端设备的安全性降低等的技术问题。
4.第一方面，本公开提供了一种语音助手的唤醒方法，包括：
5.屏蔽所述语音助手；
6.获取当前环境中的声音数据，并判断所述声音数据中是否包含预设唤醒词语；
7.响应于所述声音数据中包含所述预设唤醒词语，唤醒所述语音助手。
8.可选地，所述方法还包括：
9.判断所述声音数据是否满足预设结束条件；
10.响应于所述声音数据满足所述预设结束条件，屏蔽所述语音助手。
11.可选地，所述预设结束条件包括：无声音时长达到预设时长或出现预设结束词语。
12.可选地，所述方法还包括：
13.响应于所述声音数据不满足所述预设结束条件，将所述声音数据发送至所述语音助手。
14.可选地，所述方法还包括：
15.响应于所述声音数据中不包含所述预设唤醒词语，继续屏蔽所述语音助手。
16.可选地，所述屏蔽所述语音助手包括：屏蔽所述语音助手的声音采集功能。
17.第二方面，本公开提供了一种语音助手的唤醒系统，其特征在于，包括声音采集模块、语音防火墙模块和语音助手，其中，
18.所述声音采集模块用于采集当前环境中的声音数据；
19.所述语音防火墙模块用于采用第一方面所述的语音助手的唤醒方法唤醒所述语
等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。
35.越来越多的终端设备中部署有语音助手的功能，从而帮助用户解放双手，给用户的生活和工作带来便利。在实际应用中，因为语音助手经常会被误触发，即在用户本意不想唤醒语音助手但语音助手却被触发，例如，自己在和其他人聊天，或者看电视等情况下，并没有喊出语音助手的唤醒词，去唤醒语音助手，语音助手却开始说话，这将给用户造成困扰。此外，由于语音助手通常是基于特定的唤醒词语来触发，有些语音助手可能基于提高唤醒活跃度等方面的考虑，在没有唤醒词的情况下，根据一些策略进行自我活跃，并发出声音进行对话。这些情况的唤醒并不是处于用户的本意，使得语音助手在用户没有唤醒的时候不合适地被触发，给用户的生活造成极大不便。同时，由于语音助手的一些信息处理需要通过网络来获取信息以及在云端对数据进行处理等等，这也会让用户认为语音助手在不断采集用户的声音数据对用户进行监听，并上传至网络泄露了隐私，导致用户对终端设备的系统安全认可度和信赖度降低。因此，如何控制语音助手准确地被唤醒，避免语音助手长时间采集用户的声音数据成为了亟需解决的技术问题。
36.基于上述考虑，本公开实施例提供了一种语音助手的唤醒方法、装置、设备及存储介质，通过屏蔽语音助手，对当前环境的声音数据进行过滤，只要当出现预设唤醒词时才将声音数据发送至语音助手，建立用户和语音助手的对话，实现了语音防火墙的功能，减少了对语音助手的误触发以及误触发对用户造成的打扰，还避免了语音助手长时间采集用户的声音数据，提升用户使用终端设备的安全性，有助于提高用户对终端设备系统的安全认可和信赖。
37.参见图1，图1示出了根据本公开实施例的语音助手的唤醒系统的示意性原理图。如图1所示，语音助手的唤醒系统100可以包括：
38.声音采集模块110，用于采集当前环境中的声音数据；
39.语音防火墙模块120，用于屏蔽语音助手130；
40.可选的，语音防火墙模块120还用于基于所述声音数据唤醒语音助手130；
41.语音助手130，用于在被所述语音防火墙模块120唤醒时，基于所述声音数据与用户进行语音交互。
42.在一些实施例中，声音采集模块110可以包括麦克风。进一步地，可以是终端设备中内置的麦克风。这样，通过终端设备中内置的麦克风低功率地采集所在环境中的声音数据，本公开实施例的语音助手的唤醒系统可以无需增加额外的硬件，在不增加成本的同时即可实现对语音助手的语音防火墙的功能。
43.在一些实施例中，语音防火墙模块120可以包括：
44.判断模块121，用于获取当前环境中的声音数据，并判断所述声音数据中是否包含预设唤醒词语；
45.音频模块123，用于屏蔽所述语音助手，并且还用于响应于所述声音数据中包含所述预设唤醒词语，唤醒所述语音助手。具体实施中，当所述判断模块121确定所述声音数据中包含预设唤醒词语时，将所述声音数据发送至所述语音助手130。
46.在一些实施例中，所述音频模块123还用于当所述判断模块121确定所述声音数据
中不包含预设唤醒词语时，不向语音助手130发送所述声音数据。
47.在一些实施例中，语音防火墙模块120可以设置于本地。这样，本地的语音防火墙模块120从声音采集模块110获取用户的声音数据，无需上传至服务器进行处理，进一步保证了使用的安全性。而语音防火墙模块120还可以根据环境中的声音数据是否包含预设唤醒词语，选择性地唤醒语音助手130，对当前环境的声音数据进行过滤，只要当出现预设唤醒词语时才将声音数据发送至语音助手，保证语音助手只在与用户交互期间对用户的声音数据信息采集，不仅减少语音助手的误触发，还减少了语音助手上传至服务器进行处理的用户数据等，避免了语音助手长时间采集用户的声音数据，提升用户使用终端设备的安全性。
48.在一些实施例中，语音防火墙模块120还可以包括：唤醒数据库122，用于存储所述预设唤醒词语。
49.其中，唤醒数据库122可以包括预先设置的唤醒数据，可以直接从语音助手130获取语音助手130的预设唤醒词语，也可以由用户进行设置，在此不做限制。当判断模块121需要判断所述声音数据中是否包含预设唤醒词语时，可以将声音数据与唤醒数据库122中的预设唤醒词语进行对比，如果声音数据中包括任意一个预设唤醒词语，音频模块123则可以唤醒语音助手130。
50.在一些实施例中，语音防火墙模块120还可以包括：结束词语数据库124，用于存储预设结束词语。
51.其中，结束词语数据库124可以包括预先设置的结束词语，该预设结束词语可以直接从语音助手130获取，也可以由用户进行设置，在此不做限制。
52.在一些实施例中，判断模块121还用于：用于基于结束词语数据库124中的预设结束词语判断所述声音数据中是否包含预设结束词语。进一步地，在一些实施例中，所述音频模块123还用于当判断模块121确定所述声音数据中包含预设结束词语时，不向语音助手130发送所述声音数据。
53.在一些实施例中，语音防火墙模块120还可以包括：计时模块125，用于对所述声音数据中出现无声音的时长进行计时，得到无声音时长。在一些实施例中，计时模块125是倒计时模块，当检测到声音数据中出现无声音时开始从预设时长进行倒计时。
54.在一些实施例中，判断模块121还用于：接收来自计时模块125的计时指示信号，所述计时指示信号用于指示无声音时长达到预设时长。可选的，计时模块125还可以为倒计时模块，当根据预设时长进行倒计时，倒计时结束则生成并向判断模块121发送该计时指示信号。
55.进一步地，在一些实施例中，所述音频模块123还用于当判断模块121确定所述声音数据中包含预设结束词语时，不向语音助手130发送所述声音数据。
56.在一些实施例中，语音助手130可以包括终端设备中的语音助手应用程序。
57.在一些实施例中，语音助手的唤醒系统100可以包括：声音输出模块140，用于输出所述语音助手130的输出数据，以实现与用户的语音交互。
58.在一些实施例，声音输出模块140可以包括扬声器。进一步地，以是终端设备中内置的扬声器。
59.在一些实施例中，语音防火墙模块120也可以基于终端设备中内置的系统控制模
块实现。例如，可以基于处理器实现判断模块121和音频模块123，基于存储器实现唤醒数据库122和结束词语数据库124，基于计时器来实现计时模块125等。
60.可见，在不新增硬件的情况下，利用终端设备内置的麦克风和系统控制模块，本公开实施例的语音助手的唤醒系统100根据用户的声音数据控制语音助手130是否与用户进行语音交互，从而实现了语音防火墙功能，杜绝语音助手应用程序长时间监听、偷听用户对话，确保用户使用手机的安全性，有助于提高用户对手机系统的安全认可和信赖，减少对用户的打扰。
61.应了解，判断模块121可以基于语音识别技术识别声音数据中的词语，并与预设唤醒词语进行比较，从而判断声音数据中是否包含预设唤醒词语或预设结束词语，在此不再赘述。
62.参见图2，图2示出了根据本公开实施例的语音助手的唤醒方法的示意性流程图。根据本公开实施例的语音助手的唤醒方法可以由图1中语音防火墙模块120执行。如图2所示，语音助手的唤醒方法200包括：
63.步骤s210，屏蔽所述语音助手；
64.步骤s220，获取当前环境中的声音数据，并判断所述声音数据中是否包含预设唤醒词语；
65.步骤s230，响应于所述声音数据中包含所述预设唤醒词语，唤醒所述语音助手。
66.其中，通过屏蔽语音助手以切断语音助手获取环境中的声音数据，避免了语音助手长时间采集用户的声音数据，只有在确定环境中的声音数据出现了预设唤醒词语，才唤醒语音助手与用户进行对话，减少了对语音助手的误触发及误触发对用户造成的打扰，提升用户使用终端设备的安全性，有助于提高用户对终端设备系统的安全认可和信赖。
67.根据本公开实施例，在步骤s210中，屏蔽所述语音助手可以包括：关闭所述语音助手。此时，即使音频模块123将声音数据发送至语音助手130，语音助手130也不会与用户进行交互。相应地，在一些实施例中，通过关闭语音助手的方式来屏蔽语音助手130时，可以通过开启语音助手的方式来唤醒语音助手130。
68.在一些实施例中，在步骤s210中，屏蔽所述语音助手可以包括：屏蔽所述语音助手的声音采集功能。具体来说，如图1所述，语音防火墙模块120中的判断模块121从声音采集模块110获取声音数据，而此时拦截该声音数据，阻止该声音数据经由音频模块123发送至语音助手130。相比于通过关闭语音助手130的屏蔽方式，仅屏蔽语音助手130的声音采集功能具有更快地响应速度。
69.根据本公开实施例，在步骤s220中，获取当前环境中的声音数据可以包括：从声音采集模块110获取所述声音数据。
70.其中，当前环境中的声音数据可以包括当前终端数设备所在环境中的任何声音数据，包括用户的对话声以及其他声源发出的声音等。
71.根据本公开实施例，在步骤s220中，判断所述声音数据中是否包含预设唤醒词语。其中，预设唤醒词语可以是语音助手的生产方设置的默认词语，例如“小爱同学”、“小度小度”等等；也可以是用户自己设定的唤醒词语。如图1所示，预设唤醒词语可以存储在唤醒数据库122中，判断模块121接收到声音数据后，判断该声音数据是否包含唤醒数据库122中存储的预设唤醒词语，如果存在则可以对语音助手进行唤醒，如果不存在则继续接收声音数
据。
72.根据本公开实施例，在步骤s230中，响应于所述声音数据中包含所述预设唤醒词语，唤醒所述语音助手。具体来说，如图1所示，判断模块121接收到声音数据后确定该声音数据中存在唤醒数据库122中存储的任意一个预设唤醒词语，可以向音频模块123发送对应的控制信号；音频模块123接收到该控制信号后，将声音数据发送至语音助手130，此时，语音助手130接收到该声音数据，语音助手130被唤醒，可以与用户建立对话，实现语音交互过程。
73.根据本公开实施例，方法200还包括：
74.判断所述声音数据是否满足预设结束条件；
75.响应于所述声音数据满足所述预设结束条件，屏蔽所述语音助手的声音采集功能。
76.其中，当用户与语音助手130完成语音交互过程后，可以通过预设结束词语或不发声来结束与语音助手130的对话。
77.在一些实施例中，所述预设结束条件包括：无声音时长达到预设时长或出现预设结束词语。
78.例如，如图1所示，当判断模块121检测到声音数据中出现无声音时，可以发送计时开始信号至计时模块125，计时模块125接收到该计时开始信号后开始计时或倒计时，直至达到预设时长，计时模块125可以发送计时指示信号至判断模块121，判断模块121接收到该计时指示信号后，确定声音数据满足预设结束条件，则可以向音频模块123发送第一控制信号，音频模块123接收到该第一控制信号后，不再将声音数据发送至语音助手130，即切断语音助手130获取用户的声音数据的途径。
79.再例如，如图1所示，判断模块121确定声音数据中出现结束词语数据库124中的任意一个预设结束词语时，可以确定声音数据满足预设结束条件，则可以向音频模块123发送第二控制信号，音频模块123接收到该第二控制信号后，不再将声音数据发送至语音助手130，即切断语音助手130获取用户的声音数据的途径。
80.根据本公开实施例，方法200还包括：响应于所述声音数据中不包含所述预设唤醒词语，继续屏蔽所述语音助手的声音采集功能。
81.具体来说，如图1所示，判断模块121接收到声音数据后，确定该声音数据不存在唤醒数据库122中存储的任意预设唤醒词语，则音频模块123继续处于不将声音数据发送至语音助手130，以继续屏蔽语音助手130的声音采集功能。
82.在一些实施例中，方法200还包括：响应于所述声音数据不满足所述预设结束条件，将所述声音数据发送至所述语音助手。具体来说，如图1所示，判断模块121没有识别到声音数据中出现结束词语数据库124中的任意一个预设结束词语，也没有检测到无声音，则确定声音数据不满足所述预设结束条件，此时音频模块123维持之前的状态，可以将声音数据继续发送至语音助手130。
83.需要说明的是，本公开实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。
84.需要说明的是，上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
85.基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种语音助手的唤醒装置。
86.参考图3，所述语音助手的唤醒装置，包括：
87.音频模块，用于屏蔽所述语音助手；
88.判断模块，用于获取当前环境中的声音数据，并判断所述声音数据中是否包含预设唤醒词语；
89.所述音频模块还用于响应于所述声音数据中包含所述预设唤醒词语，唤醒所述语音助手。
90.为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
91.上述实施例的装置用于实现前述任一实施例中相应的语音助手的唤醒方法，并且具有相应的方法实施例的有益效果，在此不再赘述。
92.基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的语音助手的唤醒方法。
93.图4示出了根据本公开实施例的电子设备的示意性框图，该设备可以包括：处理器410、存储器420、输入/输出接口430、通信接口440和总线450。其中处理器410、存储器420、输入/输出接口430和通信接口440通过总线450实现彼此之间在设备内部的通信连接。
94.处理器410可以采用通用的cpu(central processing unit，中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit，asic)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。
95.存储器420可以采用rom(read only memory，只读存储器)、ram(random access memory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器420可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器420中，并由处理器410来调用执行。
96.输入/输出接口430用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。
97.通信接口440用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信，也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
98.总线450包括一通路，在设备的各个组件(例如处理器410、存储器420、输入/输出接口430和通信接口440)之间传输信息。
99.需要说明的是，尽管上述设备仅示出了处理器410、存储器420、输入/输出接口430、通信接口440以及总线450，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。
100.上述实施例的电子设备用于实现前述任一实施例中相应的语音助手的唤醒方法，并且具有相应的方法实施例的有益效果，在此不再赘述。
101.基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的语音助手的唤醒方法。
102.本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。
103.上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的语音助手的唤醒方法，并且具有相应的方法实施例的有益效果，在此不再赘述。
104.所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本公开实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。
105.另外，为简化说明和讨论，并且为了不会使本公开实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本公开实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此，这些描述应被认为是说明性的而不是限制性的。
106.尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态ram(dram))可以使用所讨论的实施例。
107.本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本公开实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音声学模型的训练方法、后处理方法和相关设备与流程

语音助手的唤醒方法、系统、设备及存储介质与流程

相关文献

最热文献