一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音处理方法及装置与流程

2022-08-17 09:18:05 来源:中国专利 TAG:


1.本技术涉及人工智能技术领域,尤其涉及一种语音处理方法及装置。


背景技术:

2.用户在使用手机等电子设备进行语音通话或者人机语音交互时,如果用户发出的声音过大,则一些隐私内容会被第三方采集,进而造成隐私泄露;另外在某些公共场合,如果用户发出的声音过大,则会干扰他人。因此,为了避免隐私泄露和/或对他人造成干扰,目前用户在进行语音通过或者人机语音交互时,经常会用手遮掩嘴部。具体地,如图1所示,用户a在发出声音时,可以使用左手12持手机11,并用右手13遮掩嘴部,由此即可以降低其说话内容被第三方采集的概率或者减少对他人的干扰。但在用户用手遮掩嘴部时,往往伴随着用户发出的声音的音量降低,这就使得当用户通话时容易导致与用户进行通话的一方听不清楚用户所说的内容,影响通话体验;而在用户进行人机语音交互中,则会导致语音识别错误率高、自动终止语音交互等问题。
3.目前,业界中已开发出低声语音模式,但在判断是否开启低声语音模式时,如图2所示,目前往往是利用用户a所使用的手机11等电子设备,接收用户的语音输入,然后,根据输入语音的时频域特征判断是否开启低声语音模式。而这种判断方式往往受外部因素(例如环境因素等)的影响较大,这就使得判断的准确率较低,经常会出现误判的情况。


技术实现要素:

4.本技术实施例提供了一种语音处理方法及装置,能够在用户进行语音对话时,基于用户佩戴的电子设备的运动状态和位置,确定出用户是否做出靠近面部且遮掩嘴部的手臂动作,进而确定是否激活用户所使用的通话设备上的低声语音模式,提升了判断是否需要激活低声语音模式的准确率,降低了误判的概率。
5.第一方面,本技术实施例提供了一种语音处理方法,该方法包括:第一电子设备接收用户的第一语音,以实现语音对话;当第一电子设备接收第一语音时,确定用户佩戴的第二电子设备的运动状态和位置是否满足预设低声语音条件;若满足,则激活目标电子设备上的低声语音模式,该目标电子设备包括第一电子设备或与第一电子设备配合以实现语音对话的第三电子设备。
6.由此,本方案中,在第一电子设备接收到用户发出的语音后,基于用户佩戴的第二电子设备的运动状态和位置,可以确定出用户是否做出靠近面部且遮掩嘴部的手臂动作,进而确定是否激活目标电子设备上的低声语音模式。通过在用户进行语音对话时,结合用户手臂的动作,提升了判断是否需要激活低声语音模式的准确率,降低了误判的概率。
7.在一种可能的实现方式中,确定用户佩戴的第二电子设备的运动状态和位置是否满足预设低声语音条件,具体包括:确定第二电子设备是否先运动后静止,且确定第二电子设备静止时是否位于用户嘴部的预设位置空间内。由此,实现由第二电子设备的状态数据确定出第二电子设备的运动状态和位置是否满足预设低声语音条件。
8.在一种可能的实现方式中,确定第二电子设备是否先运动后静止,具体包括:接收第二电子设备发送的第二电子设备的第一运动数据,第一运动数据包括加速度数据和角速度数据中的至少一项;基于第一运动数据,确定第二电子设备是否先运动后静止。由此,基于第二电子设备的运动数据,确定第二电子设备是否先运动后静止。
9.在一种可能的实现方式中,确定第二电子设备是否先运动后静止,具体包括:接收第二电子设备发送的第二电子设备的第一状态数据,第一状态数据用于表征第二电子设备是否先运动后静止;基于第一状态数据,确定第二电子设备是否先运动后静止。由此,基于第二电子设备自行确定的用于表征其先运动后静止的状态数据,确定第二电子设备是否先运动后静止。
10.在一种可能的实现方式中,确定第二电子设备静止时是否位于用户嘴部的预设位置空间内之前,还包括:确定第一时间段内第一电子设备和第二电子设备间的第一通信信号强度具有增大趋势,且确定第二时间段内第一电子设备和第二电子设备间的第二通信信号强度处于平稳状态,第一时间段为第二电子设备运动时占用的时间段,第二时间段为第二电子设备静止时占用的时间段。由此,确定出第二电子设备是否朝向用户的面部运动。
11.在一种可能的实现方式中,确定第一时间段内第一电子设备和第二电子设备间的第一通信信号强度具有增大趋势,具体包括:从第一时间段内选取n个时间点,确定n个时间点中各个相邻的时间点对应的第一通信信号强度之间的第一偏差值,其中,n为大于1的正整数;将确定出的各个第一偏差值相加求和,得到第一和值;若第一和值大于第一阈值,则确定第一时间段内第一通信信号强度具有增大趋势。由此,确定出在第一时间段内第一通信信号强度是否具有增大趋势。
12.在一种可能的实现方式中,确定第二时间段内第一电子设备和第二电子设备间的第二通信信号强度处于平稳状态,具体包括:从第二时间段内选取m个时间点,确定m个时间点中各个相邻的时间点对应的第二通信信号强度之间的第二偏差值,其中,m为大于1的正整数;基于各个第二偏差值与预设门限值之间的大小,确定各个第二偏差值对应的标定值;将确定出的各个标定值相加求和,得到第二和值;若第二和值小于第二阈值,则确定第二时间段内第二通信信号强度处于平稳状态。由此,确定出在第二时间段内第二通信信号强度是否处于平稳状态。
13.在一种可能的实现方式中,预设门限值由与m相关的函数确定。
14.在一种可能的实现方式中,确定第二时间段内第一电子设备和第二电子设备间的第二通信信号强度处于平稳状态,具体包括:从第二时间段内选取多个时间点,确定多个时间点中各个时间点对应的第二通信信号强度之间的方差值;若方差值小于预设方差阈值,则确定第二时间段内第二通信信号强度处于平稳状态。由此,确定出在第二时间段内第二通信信号强度是否处于平稳状态。
15.在一种可能的实现方式中,确定第二电子设备静止时是否位于用户嘴部的预设位置空间内,具体包括:接收第二电子设备发送的第二电子设备确定的第一语音的音频信号的第一方向;根据第一方向,第一电子设备与第二电子设备间的第一距离和第一电子设备的第一位置,确定第二电子设备静止时的第二位置;若第二位置处于预设位置空间内,确定第二电子设备静止时位于用户嘴部的预设位置空间内。
16.在一种可能的实现方式中,根据第一方向,第一电子设备与第二电子设备间的第
一距离和第一电子设备的第一位置,确定第二电子设备静止时的第二位置之后,还包括:接收第二电子设备发送的第二电子设备重新确定的第一语音的音频信号的方向,得到第二方向;根据第二方向,第一距离和第一位置,对第二位置进行修正。由此,提升确定出的第二位置的准确率。
17.在一种可能的实现方式中,确定第二电子设备静止时是否位于用户嘴部的预设位置空间内,具体包括:接收第二电子设备发送的第二电子设备处于静止时的第三位置;若第三位置位于预设位置空间内,则确定第二电子设备静止时位于用户嘴部的预设位置空间内。
18.在一种可能的实现方式中,激活目标电子设备上的低声语音模式之后,还包括:对第一语音进行第一处理,第一处理用于调节目标电子设备进行语音对话的质量,或使目标电子设备以低于预设音量的音量响应用户。
19.第二方面,本技术实施例提供了一种语音处理方法,该方法包括:当第一电子设备接收用户的第一语音时,确定第二电子设备的运动状态和位置是否满足预设低声语音条件,其中,第一电子设备用于接收第一语音,以实现语音对话;若满足,则向目标电子设备发送第一指令,第一指令用于指示激活目标电子设备上的低声语音模式,目标电子设备包括第一电子设备或与第一电子设备配合以实现语音对话的第三电子设备。
20.由此,本方案中,在第一电子设备接收到用户发出的语音后,基于用户佩戴的第二电子设备的运动状态和位置,可以确定出用户是否做出靠近面部且遮掩嘴部的手臂动作,进而确定是否向目标电子设备发送第一指令,以激活目标电子设备上的低声语音模式。通过在用户进行语音对话时,结合用户手臂的动作,提升了判断是否需要激活低声语音模式的准确率,降低了误判的概率。
21.在一种可能的实现方式中,确定第二电子设备的运动状态和位置是否满足预设低声语音条件,具体包括:确定第二电子设备是否先运动后静止,且确定第二电子设备静止时是否位于用户嘴部的预设位置空间内。
22.在一种可能的实现方式中,确定第二电子设备是否先运动后静止,具体包括:
23.确定第二电子设备的第一运动数据,第一运动数据包括加速度数据和角速度数据中的至少一项;基于第一运动数据,确定第二电子设备是否先运动后静止。
24.在一种可能的实现方式中,确定第二电子设备静止时是否位于用户嘴部的预设位置空间内之前,还包括:确定第一时间段内第二电子设备和第一电子设备间的第一通信信号强度具有增大趋势,且确定第二时间段内第一电子设备和第二电子设备间的第二通信信号强度处于平稳状态,第一时间段为第二电子设备运动时占用的时间段,第二时间段为第二电子设备静止时占用的时间段。
25.在一种可能的实现方式中,确定第一时间段内第二电子设备和第一电子设备间的第一通信信号强度具有增大趋势,具体包括:从第一时间段内选取n个时间点,确定n个时间点中各个相邻的时间点对应的第一通信信号强度之间的第一偏差值,其中,n为大于1的正整数;将确定出的各个第一偏差值相加求和,得到第一和值;若第一和值大于第一阈值,则确定第一时间段内第一通信信号强度具有增大趋势。
26.在一种可能的实现方式中,确定第二时间段内第二电子设备和第一电子设备间的第二通信信号强度处于平稳状态,具体包括:从第二时间段内选取m个时间点,确定m个时间
点中各个相邻的时间点对应的第二通信信号强度之间的第二偏差值,其中,m为大于1的正整数;基于各个第二偏差值与预设门限值之间的大小,确定各个第二偏差值对应的标定值;将确定出的各个标定值相加求和,得到第二和值;若第二和值小于第二阈值,则确定第二时间段内第二通信信号强度处于平稳状态。
27.在一种可能的实现方式中,预设门限值由与m相关的函数确定。
28.在一种可能的实现方式中,确定第二时间段内第二电子设备和第一电子设备间的第二通信信号强度处于平稳状态,具体包括:从第二时间段内选取多个时间点,确定多个时间点中各个时间点对应的第二通信信号强度之间的方差值;若方差值小于预设方差阈值,则确定第二时间段内第二通信信号强度处于平稳状态。
29.在一种可能的实现方式中,确定第二电子设备静止时是否位于用户嘴部的预设位置空间内,具体包括:接收第一语音,确定第一语音的音频信号的第一方向;根据第一方向,第二电子设备与第一电子设备间的第一距离和第一电子设备的第一位置,确定第二电子设备静止时的第二位置;若第二位置处于预设位置空间内,则确定第二电子设备静止时位于用户嘴部的预设位置空间内。
30.在一种可能的实现方式中,根据第一方向,第二电子设备与第一电子设备间的第一距离和第一电子设备的第一位置,确定第二电子设备静止时的第二位置之后,还包括:重新确定第一语音的音频信号的方向,得到第二方向;根据第二方向,第一距离和第一位置,对第二位置进行修正。
31.第三方面,本技术实施例提供了一种语音处理装置,包括:至少一个存储器,用于存储程序;至少一个处理器,用于执行存储器存储的程序,当存储器存储的程序被执行时,处理器用于执行第一方面中提供的方法,或者,用于执行第二方面中提供的方法。
32.第四方面,本技术实施例提供了一种计算机存储介质,计算机存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行第一方面中提供的方法,或者,用于执行第二方面中提供的方法。
33.第五方面,本技术实施例提供了一种包含指令的计算机程序产品,当指令在计算机上运行时,使得计算机执行第一方面中提供的方法,或者,用于执行第二方面中提供的方法。
34.第六方面,本技术实施例提供了一种芯片,包括至少一个处理器和接口;
35.接口,用于为至少一个处理器提供程序指令或者数据;
36.至少一个处理器用于执行程序行指令,以实现第一方面中提供的方法,或者,实现第二方面中提供的方法的方法。
37.第七方面,本技术实施例提供了一种语音处理装置,该装置运行计算机程序指令,以执行如第一方面中所提供的方法。示例性的,该装置可以为芯片,或处理器。在一个例子中,该装置可以包括处理器,该处理器可以与存储器耦合,读取存储器中的指令并根据该指令执行如第一方面中所提供的方法。其中,该存储器可以集成在芯片或处理器中,也可以独立于芯片或处理器之外。
附图说明
38.图1是本技术实施例提供的一种场景示意图;
39.图2是本技术实施例提供的一种判断开启低声语音模式的示意图;
40.图3a是本技术实施例提供的一种应用场景示意图;
41.图3b是本技术实施例提供的一种应用场景示意图;
42.图4是本技术实施例提供的一种电子设备的硬件结构示意图;
43.图5a是本技术实施例提供的一种应用场景示意图;
44.图5b是本技术实施例提供的一种应用场景示意图;
45.图5c是本技术实施例提供的一种应用场景示意图;
46.图6是本技术实施例提供的一种智能手表确定其相对手机的运动方向的步骤示意图;
47.图7是本技术实施例提供的一种手机确定智能手表相对手机的运动方向的步骤示意图;
48.图8是本技术实施例提供的一种智能手表确定其静止时的位置的步骤示意图;
49.图9是本技术实施例提供的一种手机确定智能手表静止时的位置的步骤示意图;
50.图10a是本技术实施例提供的一种应用场景示意图;
51.图10b是本技术实施例提供的一种应用场景示意图;
52.图11a是本技术实施例提供的一种应用场景示意图;
53.图11b是本技术实施例提供的一种应用场景示意图;
54.图12是本技术实施例提供的一种电子设备的显示界面示意图;
55.图13是本技术实施例提供的一种语音处理方法的流程示意图;
56.图14是本技术实施例提供的一种确定第二电子设备是否先运动后静止的步骤示意图;
57.图15是本技术实施例提供的一种确定第一时间段内第一电子设备和第二电子设备间的第一通信信号强度具有增大趋势的步骤示意图;
58.图16是本技术实施例提供的一种确定第二时间段内第一电子设备和第二电子设备间的第二通信信号强度处于平稳状态的步骤示意图;
59.图17是本技术实施例提供的另一种确定第二时间段内第一电子设备和第二电子设备间的第二通信信号强度处于平稳状态的步骤示意图;
60.图18是本技术实施例提供的一种确定第二电子设备静止时是否位于用户嘴部的预设位置空间内的步骤示意图;
61.图19是本技术实施例提供的另一种语音处理方法的流程示意图;
62.图20是本技术实施例提供的一种芯片的结构示意图。
具体实施方式
63.为了使本技术实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本技术实施例中的技术方案进行描述。
64.图3a是本技术实施例提供的一种应用场景示意图。如图3a所示,用户a携带有手机11、智能手表14等电子设备。用户a可以使用右手12携带手机11,以及可以将智能手表14配置在左手13的手腕上。其中,手机11与智能手表14之间可以建立无线连接。在一个例子中,用户a也可以将手机11放置在其他位置,例如用户a的衣服口袋里等,而当用户a需要使用手
机11时,用户a则用右手12或左手13携带手机;用户a也可以将智能手表佩戴于其他位置,例如,用户a的右手12的手腕上。
65.需说明的是,在该场景下,用户a在使用手机11进行通话或者语音交互时,手机11和智能手表14需要在用户a的不同肢体上,例如:用户a可以使用右手12携带手机11,而用左手12的手臂携带智能手表14。
66.可以理解的是,手机11也可以替换为其他可接收语音输入的电子设备,例如:具有通话功能的电子设备,或者可进行人机语音交互的电子设备等;智能手表14也可以替换为其他可穿戴设备,例如:智能手环等。
67.图3b是本技术实施例提供的另一种应用场景示意图。如图3b所示,用户a携带有耳机15、智能手表14等电子设备。用户a可以将耳机15佩戴在耳朵上,以及可以将智能手表14配置在右手12的手腕上。其中,耳机15与智能手表14之间可以建立无线连接。在一个例子中,用户a也可以将耳机15放置在其他位置,例如用户a的衣服口袋里等,而在需要使用耳机15时再将耳机15佩戴在耳朵上;用户a也可以将智能手表佩戴于其他位置,例如,用户a的左手的手腕上。
68.可以理解的是,在图3b所示的场景中,耳机15可以与手机等电子设备(图中未示出)配合以实现语音对话,例如语音通话或人机交互等。以手机为例,在该场景下,耳机15可以与手机建立无线连接,例如通过蓝牙建立连接;之后,耳机15可以将其接收的用户发出的语音传输至手机处。手机接收到耳机15传输的语音后,即可以对该语音进行处理,以完成语音对话。也即是说,在该场景下,可以包括耳机15,智能手表14,和手机(图中未示出)三个电子设备。其中,耳机15和手机相配合可以使得用户能够进行语音对话,例如语音通话或人机交互等。
69.在一个例子中,在未来发展中,若耳机15其自身可以具备语音对话的功能,则在图3b所示的场景中,可以包括耳机15和智能手表14两个电子设备。
70.可以理解的是,耳机15也可以替换为其他可接收语音输入且可佩戴于用户头部的电子设备,或者可进行人机语音交互且可佩戴于用户头部的电子设备等;智能手表14也可以替换为其他可穿戴设备,例如:智能手环等。
71.在一个例子中,手机11、智能手表14等电子设备的示例性实施例包括但不限于搭载ios、android、windows、鸿蒙系统(harmony os)或者其他操作系统的电子设备。
72.在一个例子中,手机11和智能手表14之间可以进行短距通信。示例性的,手机11和智能手表14之间可以进行蓝牙交互,使得手机11或者智能手表14可以获取蓝牙的接收信号强度(received signal strength indication,rssi),从而可以基于蓝牙的接收信号强度计算手机11和智能手表14之间的距离,或者计算智能手表14是否朝向用户面部运动等。可选的,手机11和智能手表也可以通过移动网络进行通信。
73.耳机15和智能手表14也可以进行短距通信。例如,耳机15和智能手表14可以进行蓝牙交互,从而得到两者之间的蓝牙的接收信号强度rssi,进而可以基于该蓝牙的接收信号强度rssi计算耳机15和智能手表14的距离,或者计算智能手表14是否朝向用户面部运动等。
74.下面以手机为例,对本方案中涉及的电子设备的硬件结构进行介绍。
75.可以理解的是,本方案中的手机是一种示例,其也可以是其他能够实现语音对话
的电子设备,如平板电脑等。
76.图4是本技术实施例提供的一种手机的硬件结构示意图。如图4所示,手机100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serialbus,usb)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170a,受话器170b,麦克风170c,耳机接口170d,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,sim)卡接口195等。其中传感器模块180可以包括压力传感器180a,陀螺仪传感器180b,气压传感器180c,磁传感器180d,加速度传感器180e,距离传感器180f,接近光传感器180g,指纹传感器180h,温度传感器180j,触摸传感器180k,环境光传感器180l,骨传导传感器180m等。
77.可以理解的是,本技术实施例示意的结构并不构成对手机100的具体限定。在本技术另一些实施例中,手机100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
78.处理器110可以包括一个或多个处理单元,例如,处理器110可以包括应用处理器(applicationprocessor,ap)、调制解调器(modem)、图形处理器(graphics processingunit,gpu)、图像信号处理器(image signal processor,isp)、控制器、视频编解码器、数字信号处理器(digital signal processor,dsp)、基带处理器、和/或神经网络处理器(neural-network processingunit,npu)等中的一项或多项。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。在一些示例中,处理器110可以根据检测到的可穿戴设备的运动数据等信息,确定可穿戴设备是否朝向用户面部运动,以及可以确定可穿戴设备静止时所处的位置等。
79.控制器可以根据指令操作码和时序信号,产生操作控制信号,完成指令和执行指令的控制。
80.处理器110中还可以设置存储器,用于存储指令和数据。在一些示例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用,以避免重复存取,减少处理器110的等待时间,提高系统的效率。
81.在一些示例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integratedcircuit,i2c)接口,集成电路内置音频(inter-integratedcircuit sound,i2s)接口,脉冲编码调制(pulsecodemodulation,pcm)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,uart)接口,移动产业处理器接口(mobileindustryprocessorinterface,mipi),通用输入输出(generalpurposei/0ports,gpio),用户标识模块(subscriber identity module,sim)接口,和/或通用串行总线(universalserialbus,usb)接口等。
82.可以理解的是,本技术实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对手机100的结构限定。在本技术另一些实施例中,手机100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
83.充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,
也可以是有线充电器。在一些有线充电的示例中,充电管理模块140可以通过usb接口130接收有线充电器的充电输入。在一些无线充电的示例中,充电管理模块140可以通过手机100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为其他手机供电。
84.电源管理模块141用于连接电池142、充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110、内部存储器121、外部存储器、显示屏194、摄像头193和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量、电池循环次数、电池健康状态(漏电,阻抗)等参数。在其他一些示例中,电源管理模块141也可以设置于处理器110中。在另一些示例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
85.手机100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调器以及基带处理器等实现。
86.天线1和天线2用于发射和接收电磁波信号。手机100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些示例中,天线可以和调谐开关结合使用。
87.移动通信模块150可以提供应用在手机100上的包括2g/3g/4g/5g等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(lownoise amplifier,lna)等。移动通信模块150可以由包括天线1的至少两根天线接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调器进行解调。移动通信模块150还可以对经调制解调器调制后的信号放大,经天线1转为电磁波辐射出去。在一些示例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些示例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
88.调制解调器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170a,受话器170b等)输出声音信号,或通过显示屏194显示图像或视频。在一些示例中,调制解调器可以是独立的器件。在另一些示例中,调制解调器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。在另一些示例中,移动通信模块150可以是调制解调器中的模块。
89.无线通信模块160可以提供应用在手机100上的包括无线局域网(wireless local area networks,wlan)(如无线保真(wireless fidelity,wi-fi)网络),蓝牙(bluetooth,bt),全球导航卫星系统(global navigation satellite system,gnss),调频(frequency modulation,fm),近距离无线通信技术(near field communication,nfc),红外技术(infrared,ir)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
90.在一些示例中,手机100的天线1和移动通信模块150耦合,天线2和无线通信模块
160耦合,使得手机100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,gsm),通用分组无线服务(general packet radio service,gprs),码分多址接入(code division multiple access,cdma),宽带码分多址(wideband code division multiple access,wcdma),时分码分多址(time-division codedivisionmultiple access,td-scdma),长期演进(longterm evolution,lte),第五代,新空口(new radio,nr),bt,gnss,wlan,nfc,fm,和/或ir技术等。所述gnss可以包括全球卫星定位系统(global positioning system,gps),全球导航卫星系统(global navigation satellite system,glonass),北斗卫星导航系统(beidou navigation satellite system,bds),准天顶卫星系统(quasi-zenith satellite system,qzss)和/或星基增强系统(satellite based augmentation systems,sbas)。
91.手机100通过gpu,显示屏194,以及应用处理器等实现显示功能。gpu为图像处理的微处理器,连接显示屏194和应用处理器。gpu用于执行数学和几何计算,用于图形渲染。处理器110可以包括一个或多个gpu,其执行程序指令以生成或改变显示信息。
92.显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquidcrystal display,lcd),有机发光二极管(organic light-emittingdiode,oled),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode,amoled),柔性发光二极管(flexlight-emitting diode,fled),miniled,microled,micro-oled,量子点发光二极管(quantum dot light emitting diodes,qled)等。在一些示例中,手机100可以包括一个或多个显示屏194。在一个例子中,显示屏194可以用于显示应用程序的界面,显示应用程序的界面中的可视控件,以及显示分屏后的应用界面等。
93.手机100可以通过isp,摄像头193,视频编解码器,gpu,显示屏194以及应用处理器等实现拍摄功能。
94.isp用于处理摄像头193反馈的数据。例如,拍摄时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给isp处理,转化为肉眼可见的图像。isp还可以对图像的噪点,亮度,肤色进行算法优化。isp还可以对拍摄场景的曝光,色温等参数优化。在一些示例中,isp可以设置在摄像头193中。
95.摄像头193用于捕获静态图像或视频,例如,捕获人物的面部特征信息、姿态特征信息等。物体通镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,ccd)或互补金属氧化物半导体(complementarymetaloxidesemiconductor,cmos)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给isp转换成数字图像信号。isp将数字图像信号输出到dsp加工处理。dsp将数字图像信号转换成标准的rgb,yuv等格式的图像信号。在一些示例中,手机100可以包括一个或多个摄像头193。
96.数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当手机100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
97.视频编解码器用于对数字视频压缩或解压缩。手机100可以支持一种或多种视频编解码器。这样,手机100可以播放或录制多种编码格式的视频,例如:动态图像专家组
(moving picture experts group,mpeg)1,mpeg2,mpeg3,mpeg4等。
98.外部存储器接口120可以用于连接外部存储卡,例如micro sd卡,实现扩展手机100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
99.内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行手机100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储手机100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,ufs)等。
100.手机100可以通过音频模块170,扬声器170a,受话器170b,麦克风170c,耳机接口170d,以及应用处理器等实现音频功能。例如音乐播放,录音等。
101.音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些示例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
102.扬声器170a,也称“喇叭”,用于将音频电信号转换为声音信号。手机100可以通过扬声器170a收听音乐,或收听免提通话。
103.受话器170b,也称“听筒”,用于将音频电信号转换成声音信号。当手机100接听电话或语音信息时,可以通过将受话器170b靠近人耳接听语音。
104.麦克风170c,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170c发声,将声音信号输入到麦克风170c。手机100可以设置至少一个麦克风170c。在另一些示例中,手机100可以设置两个麦克风170c,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,手机100还可以设置三个,四个或更多麦克风170c,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
105.耳机接口170d用于连接有线耳机。耳机接口170d可以是usb接口130,也可以是3.5mm的开放移动手机平台(open mobile terminal platform,omtp)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the usa,ctia)标准接口。
106.传感器模块180可以包括压力传感器180a,陀螺仪传感器180b,气压传感器180c,磁传感器180d,加速度传感器180e,距离传感器180f,接近光传感器180g,指纹传感器180h,温度传感器180j,触摸传感器180k,环境光传感器180l,骨传导传感器180m等。
107.其中,压力传感器180a用于感受压力信号,可以将压力信号转换成电信号。在一些示例中,压力传感器180a可以设置于显示屏194。压力传感器180a的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180a,电极之间的电容改变。手机100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,手机100根据压力传感
器180a检测所述触摸操作强度。手机100也可以根据压力传感器180a的检测信号计算触摸的位置。在一些示例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
108.陀螺仪传感器180b可以用于确定手机100的运动姿态。在一些示例中,可以通过陀螺仪传感器180b确定手机100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器180b可以用于拍摄防抖。示例性的,当使用手机100采集环境中的用户特征信息时,陀螺仪传感器180b检测手机100抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消手机100的抖动,实现防抖。
109.气压传感器180c用于测量气压。在一些示例中,手机100通过气压传感器180c测得的气压值计算海拔高度,辅助定位和导航。
110.加速度传感器180e可检测手机100在各个方向上(一般为三轴)加速度的大小。当手机100静止时可检测出重力的大小及方向。还可以用于识别手机的姿态,应用于横竖屏切换,计步器等应用。
111.距离传感器180f,用于测量距离。手机100可以通过红外或激光测量距离。在一些示例中,当利用手机采集环境中用户的用户特征信息时,手机100可以利用距离传感器180f测距以实现快速对焦。
112.环境光传感器180l用于感知环境光亮度。手机100可以根据感知的环境光亮度自适应调节显示屏194亮度。
113.指纹传感器180h用于采集指纹。手机100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
114.温度传感器180j用于检测温度。在一些示例中,手机100利用温度传感器180j检测的温度,执行温度处理策略。例如,当温度传感器180j上报的温度超过阈值,手机100执行降低位于温度传感器180j附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,手机100对电池142加热,以避免低温导致手机100异常关机。在其他一些实施例中,当温度低于又一阈值时,手机100对电池142的输出电压执行升压,以避免低温导致的异常关机。
115.触摸传感器180k,也称“触控器件”。触摸传感器180k可以设置于显示屏194,由触摸传感器180k与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180k用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180k也可以设置于手机100的表面,与显示屏194所处的位置不同。
116.按键190包括开机键,音量键,输入键盘等。按键190可以是机械按键。也可以是触摸式按键。手机100可以接收按键输入,产生与手机100的用户设置以及功能控制有关的键信号输入。
117.马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如视频播放,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈
效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
118.指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
119.sim卡接口195用于连接sim卡。sim卡可以通过插入sim卡接口195,或从sim卡接口195拔出,实现和手机100的接触和分离。手机100可以支持1个或n个sim卡接口,n为大于1的正整数。sim卡接口195可以支持nano sim卡,micro sim卡,sim卡等。同一个sim卡接口195可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。sim卡接口195也可以兼容不同类型的sim卡。sim卡接口195也可以兼容外部存储卡。手机100通过sim卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,手机100采用esim,即:嵌入式sim卡。esim卡可以嵌在手机100中,不能和手机100分离。
120.在本方案的一种实现方式中,可穿戴设备(如智能手表,手环等)也可以具有与图4中所示的手机100类似的硬件结构。可以理解,可穿戴设备也可以具有与图4中所示的手机100不同的硬件结构。
121.可选地,可穿戴设备至少具有:处理器,该处理器可以用于基于可穿戴设备的运动数据,计算可穿戴设备的运动状态,也可以基于可穿戴设备与手机或耳机等通话设备间的蓝牙的接收信号强度,计算可穿戴设备的位置等。
122.传感器模块,例如加速度传感器,角速度传感器等。该传感器模块可以用于获取可穿戴设备的运动数据。
123.无线通信模块,用于与手机或耳机等通话设备进行短距通信,并获取通信信号强度。例如,当无线通信模块为蓝牙模块时,则可以获取蓝牙的接收信号强度。
124.在一个例子中,可穿戴设备还可以具有移动通信模块,该移动通信模块可以用于进行移动通信。
125.在本方案的一种实现方式中,本方案中提供的耳机,例如图3b中所示的耳机15,至少具有音频模块和无线通信模块。其中,音频模块可以用于实现语音的接收和播放;无线通信模块可以用于与智能手表或手机等进行短距通信。示例性的,耳机15可以通过音频模块接收用户发出的语音,并通过无线通信模块将该语音传输至手机。此外,耳机15还可以通过无线通信模块接收可穿戴设备(如智能手表,手环等)发送的信号或者发送信号至可穿戴设备(如智能手表,手环等)。可以理解的是,本方案中的耳机可以为头戴耳机,也可以为真正无线立体声(true wireless stereo,tws)耳机。
126.应理解,本方案中,智能手表14和耳机15中也可以具有更多的部件,它们能够实现本方案的功能即可,在此不做限定。
127.接下来,对本技术提供的技术方案进行介绍。其中以下实施例中所涉及的技术方案可以在上述图3a和/或3b所描述的应用场景,和/或具有上述图4所提供的硬件架构的电子设备100中实现。
128.首先,对本技术实施例提供的语音处理方法的整体方案进行简单介绍。在本方中,在用户使用手机等电子设备进行语音输入时,可以结合用户佩戴的可穿戴设备等电子设备,检测用户是否有做出靠近面部且遮掩嘴部的手臂动作,并在检测到用户做出靠近面部且遮掩嘴部的手臂动作后,在用户所使用的进行语音输入的电子设备上激活低声语音模
式,从而将用户发出的音量较低的声音转换为正常音量的声音,进而提升语音通话的质量或者人机语音交互时语音识别的准确率。
129.当用户使用电子设备进行语音通话时,若电子设备响应低声语音模式,则电子设备可以对用户发出的音量较低的声音进行语音处理,使得与该用户通话的一方可以清晰的获知到该用户发出的语音内容,从而提升语音通话的质量。或者,当用户使用电子设备进行人机语音交互时,若电子设备响应低声语音模式,则电子设备可以以较低的音量响应用户,避免隐私泄露,或,对用户发出的音量较低的声音进行语音处理,使得电子设备可以准确的识别出用户发出的语音内容,从而提升人机语音交互时语音识别的准确率。
130.可以理解的是,本方案中,低声语音模式也可以称之为私语模式,耳语模式等,在此不做限定。
131.接着,以图3a所示场景和图3b所示场景为例,分别结合附图对本技术提供的技术方案进行详细说明。
132.第一、对于图3a所示场景
133.需说明的是,在该场景下用户进行语音输入的电子设备可以是手机,用户佩戴的可穿戴设备可以是智能手表。
134.继续参阅图3a,用户a使用右手12携带手机11,以及在左手13的手腕上佩戴于智能手表14。在图3a所示的状态下,当用户a使用手机11与其他人通话时,用户a的左手12将抬起,并将手机11移动至用户a的耳朵处,即图5a所示的状态。
135.在图5a所示的状态下,当用户a谈论一些隐私内容,或者不希望干扰他人时,用户a的讲话的音量将降低,同时,用户a的左手13将抬起,以遮掩其嘴部,从而进一步地避免隐私内容泄露或者避免干扰他人。如图5b所示,用户a抬起左手13时,其左手13所属的手臂也将抬起,以及由图5a中左手13所在的初始位置(图5b中虚线所标示的位置),沿图5b中箭头所指方向移动,并达到图5b中左手13所在的位置。
136.在图5b所示的状态下,随着用户a继续抬起左手13,用户a的左手13将到达用户a的嘴部附近,进而遮掩用户a的嘴部,即图5c所示的状态。在图5c所示的状态下,则可以避免用户a的隐私内容泄露或者避免用户a干扰他人。
137.用户a的状态从图5a变换至图5c的过程,即是用户a左手13所属手臂的运动过程,也即用户a佩戴有可穿戴设备的手臂的运动过程;在该运动过程中,智能手表14朝向手机11运动。用户a在图5c所示的状态下,其左手13所属的手臂将处于静止状态,也即此时用户a佩戴有可穿戴设备的手臂处于静止状态,同时,智能手表14也将处于一个固定或近似固定的位置,该位置与用户a面部的距离较近;在该静止状态,智能手表14相对手机11静止,且智能手表14所处的位置固定或近似固定,并接近用户a的面部。可以理解的是,本方案中所描述的静止状态可以为完全静止,也可以为近似静止。
138.由此可知,在用户通话过程中,当检测到可穿戴设备朝向用户所使用的通话设备运动,且可穿戴设备由运动状态切换为静止状态后,可穿戴设备的位置处于预设位置范围内,即可以确定出用户有做出靠近面部且遮掩嘴部的手臂动作,也即此时可以在用户所使用的进行语音输入的电子设备上激活低声语音模式。
139.接下来介绍如何检测可穿戴设备(如智能手表)相对用户所使用的通话设备(如手机)的运动方向。
140.以智能手表为例,继续参阅图5a至5c,智能手表14中的运动传感器,如加速度传感器、角速度传感器、陀螺仪等,可以实时或周期性采集智能手表14所在手臂的运动数据,其中,运动数据包括加速度、角速度等。智能手表14采集到其所在手臂的运动数据后,其可以对这些运动数据进行分析处理,以确定出其所在手臂是否处于运动状态,以及确定出其所在手臂处于运动状态的时间段和处于静止状态的时间段。示例性的,当加速度在某个时间段内持续大于或等于某一阈值时,则可以确定在该时间段内智能手表14所在的手臂处于运动状态;当加速度在某个时间段内持续小于某一阈值时,则可以确定在该时间段内智能手表14所在的手臂处于静止状态。
141.智能手表14确定出其所在手臂所处的运动时间段和静止时间段后,可以确定其相对手机11的运动方向,进而确定其是否有朝向手机11运动。示例性的,智能手表14可以通过其与手机11之间的通信信号数据,确定其相对手机11的运动方向。其中,通信信号数据可以包括蓝牙接收的信号强度指示(received signal strength indication,rssi),即蓝牙信号强度,也可称之为蓝牙rssi。
142.下面以通信信号数据为蓝牙rssi为例,对智能手表14确定其相对手机11的运动方向分步进行说明。具体地,如图6所示,包括以下步骤:
143.步骤s102、智能手表针对蓝牙rssi进行滤波。
144.一般地,智能手表14可以对蓝牙rssi进行滤波,以减少蓝牙rssi的异常波动。其中,滤波方式可以采用卡尔曼滤波、平滑滤波等等。
145.步骤s104、智能手表在运动时间段确定蓝牙rssi是否具有增大趋势。
146.一般地,为了防止异常值造成的蓝牙rssi波动,可以从蓝牙rssi的变化曲线上,选取n个采样点数据计算一阶导数,然后在将计算出导数的累加求和。当和值大于零时,即可以确定在运动时间段内蓝牙rssi具有增大趋势。当和值小于或等于零时,即可以确定在运动时间段内蓝牙rssi不具有增大趋势。
147.此外,也可以根据相邻各个采样点之间的偏差值(如差值等)进行判断,判断方式与上述方式类型,在此就不再一一赘述。
148.步骤s106、智能手表在静止时间段确定蓝牙rssi是否处于平稳状态。
149.一般地,在静止阶段,蓝牙rssi的波动也应该在一定范围内。因此,可以从蓝牙rssi的变化曲线上,选取n个采样点数据计算波动是否超过阈值threshold,如果在阈值内则可以记为1,否则则记为0,最后再计算累计和记为d(p)。其中,计算公式可以为:
[0150][0151]
式中,p(ti)为第i个采样点的采样数据,p(ti)-p(t
i-δt)即为相邻两个采样点的波动。可以理解的是,计算相邻两个采样点之间的波动,也可以采用其他方式,在此不做限定。在得到累计和d(p)后,可以将d(p)与threshold(n)进行比较,当d(p)小于threshold(n)时,则确定在静止时间段内蓝牙rssi处于平稳状态,当d(p)大于或等于threshold(n)时,则确定在静止时间段内蓝牙rssi未处于平稳状态。其中,threshold(n)可以为跟采样点数据个数n相关函数,例如,threshold(n)=0.9
×
n。
[0152]
此外,也可以采用先统计平稳状态的标准差,作为一个基准阈值,该阈值可以为实验场景下对平稳态的计算结果。然后对区间内数据的方差进行计算,如果结果小于该阈值
则认为进入了平稳状态,反之则认为未进入平稳状态。其中,方差公式为:
[0153][0154]
式中,p(ti)为第i个采样点的采样数据。
[0155]
步骤s108、智能手表确定其朝向手机运动。
[0156]
一般地,智能手表14在确定出在运动时间段内蓝牙rssi具有增大趋势,且在静止时间段内蓝牙rssi处于平稳状态,即可以确定出其是朝向手机11运动。
[0157]
步骤s110、智能手表确定其未朝向手机运动。
[0158]
一般地,智能手表14在确定出在运动时间段内蓝牙rssi不具有增大趋势,和/或在静止时间段内蓝牙rssi未处于平稳状态,即可以确定出其未朝向手机11运动。
[0159]
可以理解的是,本方案中,步骤s102并不是必须的,可以根据实际情况进行增减,在此不做限定。此外,步骤s104和步骤s106之间的执行顺序也无先后之分,两个步骤可以同时进行,可以先后进行,具体可根据实际情况而定,在此不做限定。
[0160]
本方案中,对于检测可穿戴设备(如智能手表)相对用户所使用的通话设备(如手机)的运动方向,除了可以通过可穿戴设备(如智能手表)实现外,也可以通过用户所使用的通话设备(如手机)实现。具体地,以手机为例,继续参阅图5a至5c,智能手表14中的运动传感器,如加速度传感器、角速度传感器、陀螺仪等,可以实时或周期性采集智能手表14所在手臂的运动数据,其中,运动数据包括加速度、角速度等。智能手表14采集到其所在手臂的运动数据后,其可以对这些运动数据进行分析处理,以确定出其所在手臂是否处于运动状态,以及确定出其所在手臂处于运动状态的时间段和处于静止状态的时间段。示例性的,当加速度在某个时间段内持续大于或等于某一阈值时,则可以确定在该时间段内智能手表14所在的手臂处于运动状态;当加速度在某个时间段内持续小于某一阈值时,则可以确定在该时间段内智能手表14所在的手臂处于静止状态。
[0161]
在智能手表14确定出其所在手臂处于运动状态的时间段和处于静止状态的时间段后,智能手表14可以向手机11发送消息,该消息中可以携带有能手表14所在手臂处于运动状态的时间段和处于静止状态的时间段的信息。手机11在接收到智能手表14发送的消息后,即可以获知到智能手表14所在手臂处于运动状态的时间段和处于静止状态的时间段。
[0162]
此外,智能手表14在采集到运动数据后,也可以将将这些运动数据发送至手机11。手机11在接收到这些运动数据后,可以对这些运动数据进行分析处理,以确定出其所在手臂是否处于运动状态,以及确定出其所在手臂处于运动状态的时间段和处于静止状态的时间段。手机11处理运动数据的方式,可以参见有关智能手表14处理运动数据的方式,在此不再赘述。
[0163]
手机11确定出智能手表14所在手臂所处的运动时间段和静止时间段后,可以确定智能手表14相对手机11的运动方向,进而确定出智能手表14是否有朝向手机11运动。示例性的,手机11可以通过其与智能手表14之间的通信信号数据,确定智能手表14相对手机11的运动方向。其中,通信信号数据可以包括蓝牙接收的信号强度指示(received signal strength indication,rssi),即蓝牙信号强度,也可称之为蓝牙rssi。
[0164]
下面以通信信号数据为蓝牙rssi为例,对手机11确定智能手表14相对手机11的运
动方向分步进行说明。具体地,如图7所示,包括以下步骤:
[0165]
步骤s202、手机针对蓝牙rssi进行滤波。
[0166]
步骤s204、手机在运动时间段确定蓝牙rssi是否具有增大趋势。
[0167]
步骤s206、手机在静止时间段确定蓝牙rssi是否处于平稳状态。
[0168]
步骤s208、手机确定智能手朝向其运动。
[0169]
步骤s210、手机确定智能手未朝向其运动。
[0170]
可以理解的是,本方案中,步骤s202至步骤s210的详细执行过程可以参见上述有关步骤s102至步骤s110的描述,两者主要是执行主体的不同,在此就不再一一赘述。此外,本方案中,步骤s202并不是必须的,可以根据实际情况进行增减,在此不做限定。此外,步骤s204和步骤s206之间的执行顺序也无先后之分,两个步骤可以同时进行,可以先后进行,具体可根据实际情况而定,在此不做限定。
[0171]
需说明的是,本方案中,检测可穿戴设备(如智能手表)相对用户所使用的通话设备(如手机)的运动方向的过程,也可以由其他设备执行,例如服务器等,在本方案中不做限定。此外,检测可穿戴设备(如智能手表)相对用户所使用的通话设备(如手机)的运动方向的过程中所涉及到的检测步骤,可以全部由单一的设备执行,也可以由多个设备共同执行,例如:一部分步骤由智能手表执行,另一部分步骤由手机执行等等,在此不做限定。
[0172]
本方案中,在检测到可穿戴设备(如智能手表)相对用户所使用的通话设备(如手机)的运动,且可穿戴设备(如智能手表)处于静止状态后,则可以确定可穿戴设备(如智能手表)处于静止状态的位置。具体地,以智能手表为例,继续参阅图5a至5c,智能手表14处于静止状态后,智能手表14可以基于其收音方向和其与手机11之间的通信信号数据,确定其静止时的位置。其中,通信信号数据可以包括蓝牙接收的信号强度指示(received signal strength indication,rssi),即蓝牙信号强度,也可称之为蓝牙rssi。
[0173]
下面以通信信号数据为蓝牙rssi为例,对智能手表14确定其静止时的位置分步进行说明。具体地,如图8所示,包括以下步骤:
[0174]
步骤s302、智能手表基于蓝牙rssi确定其与手机之间的距离。
[0175]
一般地,智能手表14可以通过蓝牙rssi确定出其与手机之间的距离。示例性的,可以通过下述公式进行确定。
[0176][0177]
其中,abs为绝对值函数;rssi可以为智能手表14处于静止状态时的rssi的平均值;a为智能手表与手机相隔一米时的信号强度;n为环境衰减因子,其可以为经验值。
[0178]
步骤s304、智能手表确定用户发出声音的音频信号的方向。
[0179]
一般地,智能手表上可以配置有麦克风等收音装置,该收音装置具备收音功能。利用智能手表上的收音装置拾取用户嘴部发音,可以估计音频信号的大致方向在一个例子中,智能手表上的麦克风可以采用阵列式排布,以进行全向性收音,或者通过波束程序技术朝特定方向进行指向性收音等。
[0180]
步骤s306、智能手表基于其与手机之间的距离和用户发出声音的音频信号的方向,确定其静止时的位置。
[0181]
本方案中,智能手表可以先确定其与用户嘴部的距离r。之后,再通过极坐标转换,
确定出智能手表在空间坐标系中的位置坐标。在一个例子中,可以预先采集用户的面部特征信息,并基于用户的面部特征信息,以用户头部上的某一位置(如嘴部)为原点建立空间坐标系。在空间坐标系建立后,即可以得到用户的两只耳朵的空间坐标(xi,yi,zi),i=l,r,其中,l代表左耳,r代表右耳。当用户使用手机通话时,基于手机上的传感器(如霍尔传感器、角度传感器等)即可以确定出手机位于左耳还是右耳,进而得到手机的空间坐标。
[0182]
一般地,智能手表在确定其与用户嘴部的距离r时,可以将根据优化问题得到的满足距离误差约束函数所取得的最小值作为r。其中,距离误差约束函数的表达式为:
[0183][0184]
式中,式中,即为上述确定的θ即为上述确定的θ0,(xi,yi,zi)为手机的空间坐标,di即为步骤s302中得到的智能手表与手机之间的距离。
[0185]
进一步地,智能手表在确定出其与用户嘴部的距离r后,通过极坐标转换,确定出智能手表在空间坐标系中的位置坐标。其中,智能手表在空间坐标系中的坐标为智能手表在空间坐标系中的位置坐标。其中,智能手表在空间坐标系中的坐标为
[0186]
在一个例子中,智能手表在确定出其与用户嘴部的距离r后,还可以对距离r进行修正,以提升位置确定的准确度。示例性的,可穿戴设备具有指向性收音功能,可以基于距离r快速的在计算得到不同方位角度的音频信号强度,并选取使其信号强度最大的用户人声方向作为新的之后,再将新的代入至上述距离误差约束函数的表达式中,确定出新的距离r。可以理解的是,可以预先设定对距离r的修正次数,例如两次、三次等,当达到预设的修正次数时,即停止修正,并将最后得到的修正结果作为最终的距离r,并该距离r,以及相应的确定出智能手表在静止时的位置。
[0187]
在确定出智能手表在静止时的位置后,将该位置与预先标定的位置范围进行对比,若该位置处于预先标定的位置范围内,即最终得到的在一定范围内,则可以认为用户正使用手部遮掩嘴部;若该位置处于预先标定的位置范围外,则认为用户未使用手部遮掩嘴部。
[0188]
可以理解的是,智能手表朝向手机运动可以包括用户捂嘴动作、挠头动作等等,因此,通过对智能手表处于静止状态时的位置进行确定,即可以排出掉除用户捂嘴动作之外的其他动作。
[0189]
本方案中,对于确定可穿戴设备(如智能手表)处于静止状态的位置,除了可以通过可穿戴设备(如智能手表)实现外,也可以通过用户所使用的通话设备(如手机)实现。具体地,以手机为例,继续参阅图5a至5c,智能手表14处于静止状态后,手机11可以基于智能手表14的收音方向和智能手表14与其之间的通信信号数据,确定智能手表14静止时的位置。其中,通信信号数据可以包括蓝牙接收的信号强度指示(received signal strength indication,rssi),即蓝牙信号强度,也可称之为蓝牙rssi。
[0190]
下面以通信信号数据为蓝牙rssi为例,对手机11确定智能手表14处于静止状态的位置分步进行说明。具体地,如图9所示,包括以下步骤:
[0191]
步骤s402、手机基于蓝牙rssi确定其与智能手表之间的距离。
[0192]
步骤s404、手机接收智能手表发送的消息,该消息中携带有智能手表确定出的用
户发出声音的音频信号的方向。
[0193]
步骤s406、手机基于其与智能手表之间的距离和用户发出声音的音频信号的方向确定智能手表处于静止状态时的位置。
[0194]
可以理解的是,本方案中,步骤s402至步骤s406的详细执行过程可以参见上述有关步骤s302至步骤s306的描述,两者主要是执行主体的不同,在此就不再一一赘述。此外,步骤s402至步骤s406之间的执行顺序也无先后之分,两个步骤可以同时进行,可以先后进行,具体可根据实际情况而定,在此不做限定。
[0195]
需说明的是,本方案中,确定可穿戴设备(如智能手表)处于静止状态的位置的过程,也可以由其他设备执行,例如服务器等,在本方案中不做限定。此外,确定可穿戴设备(如智能手表)处于静止状态的位置的过程中所涉及到的步骤,可以全部由单一的设备执行,也可以由多个设备共同执行,例如:一部分步骤由智能手表执行,另一部分步骤由手机执行等等,在此不做限定。
[0196]
本方案中,在检测到可穿戴设备(如智能手表)朝向用户所使用的通话设备(如手机)运动,且确定出可穿戴设备(如智能手表)处于静止状态的位置后,即可以确定是否需要激活用户所使用的通话设备(如手机)上的低声语音模式。具体地,以智能手表为例,继续参阅图5a至5c,若智能手表14确定出其朝向手机11运动,且其静止时的位置位于预先标定的位置范围,智能手表14则可以确定此时需要激活手机11上的低声语音模式。此时,智能手表14可以向手机11发送消息,该消息中可以携带有指示手机11开启低声语音模式的指令。手机11在接收到智能手表14发送的消息后,即可以开启低声语音模式。此外,若智能手表14确定出其未朝向手机11运动,和/或其静止时的位置未位于预先标定的位置范围,智能手表14则确定出此时不需要激活手机11上的低声语音模式。这时智能手表14则可以不向手机11发送消息,亦可以向手机11发送禁止开启低声语音模式的指令。
[0197]
可以理解的是,本方案中,对于确定是否需要激活用户所使用的通话设备(如手机)上的低声语音模式,除了可以通过可穿戴设备(如智能手表)实现外,也可以通过用户所使用的通话设备(如手机)实现。具体地,以手机为例,继续参阅图5a至5c,若手机11确定出智能手表14朝向其运动,且智能手表14静止时的位置位于预先标定的位置范围,手机11则可以确定此时需要激活其上的低声语音模式,以及开启低声语音模式。此外,若手机11确定出智能手表14未朝向其运动,且智能手表14静止时的位置未位于预先标定的位置范围,手机11则确定出此时不需要激活其上的低声语音模式。这时手机11则可以保持现状。
[0198]
第二、对于图3b所示场景
[0199]
需说明的是,在该场景下用户进行语音输入的电子设备是耳机,用户佩戴的可穿戴设备是智能手表。
[0200]
继续参阅图3b,用户a在右手12的手腕上佩戴有智能手表14。在图3b所示的状态下,用户a可以使用耳机15与其他人通话,当用户a谈论一些隐私内容,或者不希望干扰他人时,用户a的讲话的音量将降低,同时,用户a的右手12将抬起,以遮掩其嘴部,从而进一步地避免隐私内容泄露或者避免干扰他人。如图10a所示,用户a抬起右手12时,其右手12所属的手臂也将抬起,以及由图3b中右手12所在的初始位置(图10a中虚线所标示的位置),沿图10a中箭头所指方向移动,并达到图10a中右手12所在的位置。
[0201]
在图10a所示的状态下,随着用户a继续抬起右手12,用户a的右手12将到达用户a
的嘴部附近,进而遮掩用户a的嘴部,即图10b所示的状态。在图10b所示的状态下,则可以避免用户a的隐私内容泄露或者避免用户a干扰他人。
[0202]
用户a的状态从图3b变换至图10b的过程,即是用户a右手12所属手臂的运动过程,也即用户a佩戴有可穿戴设备的手臂的运动过程;在该运动过程中,智能手表14朝向耳机15运动。用户a在图10b所示的状态下,其右手12所属的手臂将处于静止状态,也即此时用户a佩戴有可穿戴设备的手臂处于静止状态,同时,智能手表14也将处于一个固定或近似固定的位置,该位置与用户a面部的距离较近;在该静止状态,智能手表14相对耳机15静止,且智能手表14所处的位置固定或近似固定,并接近用户a的面部。可以理解的是,本方案中所描述的静止状态可以为完全静止,也可以为近似静止。
[0203]
由此可知,在用户通话过程中,当检测到可穿戴设备朝向用户所使用的通话设备运动,且可穿戴设备由运动状态切换为静止状态后,可穿戴设备的位置处于预设位置范围内,即可以确定出用户有做出靠近面部且遮掩嘴部的手臂动作,也即此时可以在用户所使用的进行语音输入的电子设备上激活低声语音模式。
[0204]
可以理解的是,在该场景下,检测可穿戴设备相对用户所使用的通话设备的运动方向,确定可穿戴设备处于静止状态的位置,以及确定是否需要激活用户所使用的通话设备上的低声语音模式,可以参考上文有关用户所使用的通话设备为手机的描述,在此就不再一一赘述。在一个例子中,耳机可以由左耳耳机(即耳机上与左耳适配的部分)和右耳耳机(即耳机上与右耳适配的部分)构成,此时,若左耳耳机和右耳耳机上均配置有蓝牙等通信模块,则在后续的计算过程中,将会出现两种通信信号数据,此时可以从中选取最优的一种通信信号数据进行计算;例如,智能手表与左耳耳机之间的通信信号数据能够明显的表达出用户的手臂朝向用户面部移动,而智能手表与右耳耳机之间的通信信号数据不能明显表达出用户的手臂朝向用户面部移动,此时则选用智能手表与左耳耳机之间的通信信号数据进行后续计算。在一个例子中,在确定穿戴设备在静止时的位置时,距离误差约束函数的表达式中所需的耳机的空间坐标,可以为左耳的空间坐标,也可以为右耳的空间坐标,亦可以同时选用两个耳朵的空间坐标。其中,当同时选用两个耳朵的空间坐标时,可以分别以左耳和右耳的空间坐标,确定距离r,并选取较小的一个距离r作为当次计算的最终结果。
[0205]
在一个例子中,在图3b所示的场景中,耳机15可以具有数据处理功能,即耳机15可以自行处理数据,例如,耳机15可以获取智能手表14的运动数据,并基于该运动数据计算智能手表14的运动状态,或者,耳机15可以基于其与智能手表14之间的蓝牙的接收信号强度,计算用户的手臂是否朝向用户面部运动,以及计算其与智能手表14之间的距离,或者,耳机15可以计算智能手表14处于静止状态时的位置等等。应理解,耳机15的处理方式可以与上文所描述的手机的处理方式相同,具体可参见上文描述,在此就不再一一赘述。
[0206]
当图3b中的耳机15不具有数据处理功能时,则可以由与该耳机15相配合的其他设备(如手机等)进行数据处理,例如,当耳机15与手机配合时,则可以由手机计算智能手表14的运动状态,确定用户的手臂是否朝向用户面部运动,以及计算智能手表14处于静止状态时的位置等等。应理解的是,当图3b中的耳机15不具有数据处理功能时,与该耳机15相配合的其他设备(如手机等)在后续进行数据处理过程中,可以使用耳机15的位置数据,以及耳机15与智能手表14之间的通信信号强度的数据进行计算。应理解的是,耳机15相配合的其他设备(如手机等)进行数据处理时,至少部分数据的来源可以从智能手表等可穿戴设备处
获取,例如,智能手表与耳机之间的蓝牙的通信信号强度等。
[0207]
在一个例子中,在图3b所示的场景中,当耳机15具备语音对话的功能时,则可以在耳机15上激活耳机15的低声语音模式。当耳机15需要与其他设备(如手机等)结合才能实现语音对话的功能时,则可以在该其他设备(如手机等)上激活该其他设备(如手机等)的低声语音模式。
[0208]
可以理解的是,在图3b所示的场景中,当耳机15不具备数据处理功能时,即耳机15需要与手机等电子设备配合以实现语音对话时,则此时低声语音模式是在手机等电子设备上激活。在这种场景下,若是由智能手表14确定是否激活低声语音模式,则在智能手表14确定需要激活低声语音模式时,智能手表14可以向手机等电子设备发送指令,该指令可以是指示手机等电子设备激活低声语音模式。
[0209]
需说明的是,上述对相关技术方案的描述主要是以用户使用手机、耳机等电子设备进行语音通话的场景为例进行的说明。而上述方案,对于用户使用手机、耳机等电子设备进行人机语音交互的场景依然适用。下面以用户使用手机进行人机语音交互的场景为例进行说明。
[0210]
以上即为对用户进行语音通话时的两种场景进行的介绍。接下来介绍用户使用人机语音交互设备(如手机等)进行人机语音交互的场景。具体地,以手机为例,继续参阅图3a,用户a的右手12上携带有手机11,左手13的手腕上佩戴于智能手表14。当用户a需要使用手机11进行人机语音交互时,用户a将抬起右手12,并达到适宜进行人机语音交互的状态,即图11a中所示的状态。
[0211]
在图11a所示的状态下,当用户a说出一些隐私内容,或者不希望干扰他人时,用户a的讲话的音量将降低,同时,用户a的左手13将沿着图11a中箭头所示的方向抬起,以遮掩其嘴部,从而进一步地避免隐私内容泄露或者避免干扰他人。用户a使用左手13遮掩其嘴部后,即达到图11b所示的状态。在图11b所示的状态下,则可以避免用户a的隐私内容泄露或者避免用户a干扰他人。
[0212]
用户a的状态从图11a变换至图11b的过程,即是用户a左手13所属手臂的运动过程,也即用户a佩戴有可穿戴设备的手臂的运动过程;在该运动过程中,智能手表14朝向手机11运动。用户a在图11b所示的状态下,其左手13所属的手臂将处于静止状态,也即此时用户a佩戴有可穿戴设备的手臂处于静止状态,同时,智能手表14也将处于一个固定或近似固定的位置,该位置与用户a面部的距离较近;在该静止状态,智能手表14相对手机11静止,且智能手表14所处的位置固定或近似固定,并接近用户a的面部。可以理解的是,本方案中所描述的静止状态可以为完全静止,也可以为近似静止。
[0213]
由此可知,在用户人机语音交互过程中,当检测到可穿戴设备朝向用户所使用的人机语音交互设备运动,且可穿戴设备由运动状态切换为静止状态后,可穿戴设备的位置处于预设位置范围内,即可以确定出用户有做出靠近面部且遮掩嘴部的手臂动作,也即此时可以在用户所使用的进行语音输入的电子设备上激活低声语音模式。
[0214]
可以理解的是,在该场景下,检测可穿戴设备相对用户所使用的人机语音交互设备的运动方向,确定可穿戴设备处于静止状态的位置,以及确定是否需要激活用户所使用的人机语音交互设备上的低声语音模式,可以参考上文有关用户所使用的通话设备为手机的描述,在此就不再一一赘述。
[0215]
此外,在图11a和图11b所示的场景下,在需要确定手机11的位置时,除了基于上文所描述的方式确定外,还可以由手机11拍摄用户的面部图像,然后通过对面部图像进行识别确定出手机11相对用户面部的位置。在一个例子中,当手机11中拍摄的图像包含用户的左手或右手时,也可以通过对该图像进行识别,确定用户是否有遮掩嘴部等动作。以上即是对本技术提供的技术方案进行的一些介绍。但在一些情况下,基于检测用户是否有做出靠近面部且遮掩嘴部的手臂动作,判定是否在用户所使用的进行语音输入的电子设备上激活低声语音模式,可能存在一些误判的情况。例如,用户遮掩嘴部打喷嚏的场景,用户遮掩嘴部打哈欠的场景,用户用手支撑面部的场景等等,在这些场景下,则容易出现误判。因此,为了降低误判的概率,在本方案中,还可以结合其他条件进一步判断是否在用户所使用的进行语音输入的电子设备上激活低声语音模式。详见下文描述。
[0216]
在一个例子中,在用户所使用的进行语音输入的电子设备开启低声语音模式之前,可以检测用户发出的声音,当用户发出的声音的音量处于预设的音量区间时,则可以在用户所使用的进行语音输入的电子设备上激活低声语音模式;而当用户发出的声音的音量未处于预设的音量区间时,则可以不(或禁止)在用户所使用的进行语音输入的电子设备上激活低声语音模式,即此时控制用户所使用的的语义输入的电子设备不进入低声语音模式,从而达到降低误判的概率的目的。
[0217]
在一个例子中,在用户所使用的进行语音输入的电子设备开启低声语音模式之后,可以检测用户发出的声音,当用户发出的声音的音量处于预设的音量区间时,则可以控制用户所使用的进行语音输入的电子设备上继续以低声语音模式运行;而当用户发出的声音的音量未处于预设的音量区间时,则可以控制用户所使用的进行语音输入的电子设备上退出低声语音模式,从而达到降低误判的概率的目的。
[0218]
在一个例子中,在用户所使用的进行语音输入的电子设备开启低声语音模式之前,还可以基于用户发出的声音的声音特征,判断是否开启低声语音模式,以降低误开启低声语音模式的概率。此外,在用户所使用的进行语音输入的电子设备开启低声语音模式之后,也可以基于用户发出的声音的声音特征,判断是否退出低声语音模式,以降低误退出低声语音模式的概率。示例性的,本方案中的声音特征可以为频域特征,也可以为时域特征。
[0219]
在一个例子中,用户所使用的进行语音输入的电子设备在开启低声语音模式之前,也可以对该电子设备的状态进行检测,并根据检测结果,确定是否开启低声语音模式。示例性的,若检测到该电子设备处于通话模式或者人机语音交互模式,则可以控制其开启低声语音模式;否则,则可以不允许其开启低声语音模式。
[0220]
可以理解的是,在检测用户发出的声音或者检测用户所使用的进行语音输入的电子设备的状态时,可以由用户所使用的进行语音输入的电子设备(如手机、耳机等)进行检测,也可以由用户佩戴的可穿戴设备等电子设备(如智能手表、智能手环等)进行检测,在此不做限定。示例性的,当由用户佩戴的可穿戴设备等电子设备(如智能手表、智能手环等)进行检测时,用户佩戴的可穿戴设备等电子设备可以基于检测结果,向用户所使用的进行语音输入的电子设备发送消息,该消息中可以携带有是否在用户所使用的进行语音输入的电子设备开启低声语音模式的指令,或者携带有是否在用户所使用的进行语音输入的电子设备退出低声语音模式的指令。在一个例子中,用户所使用的进行语音输入的电子设备与用户佩戴的可穿戴设备等电子设备之间可以实时或周期性的进行数据通信,这样用户佩戴的
可穿戴设备等电子设备即可以实时或周期性的获知到用户所使用的进行语音输入的电子设备的状态信息。
[0221]
在一些实施例中,为了便于用户了解其所使用的进行语音输入的电子设备的状态或运行情况,当用户所使用的进行语音输入的电子设备开启低声语音模式后,该电子设备可以对用户进行提示。例如,图形提示、文字提示、用户界面(user interface,ui)提示、声音提示等等。示例性的,在电子设备开启低声语音模式后,电子设备可以发出一次“滴”的声音,也可以振动一下,等等,以对用户进行提示。
[0222]
此外,当用户所使用的进行语音输入的电子设备退出低声语音模式后,该电子设备也可以对用户进行提示。例如,图形提示、文字提示、用户界面(user interface,ui)提示、声音提示等等。
[0223]
在一些实施例中,用户也可以主动选择是否在其所使用的进行语音输入的电子设备激活低声语音模式。示例性的,在用户所使用的进行语音输入的电子设备上,可以设置有开启或关闭低声语音模式的按键,用户可以对该按键进行操作,以决定开启或关闭低声语音模式。例如,如图12所示,在电子设备b的通知栏中设置有用于开启或关闭低声语音模式的按键21,用户通过该按键21自主决定在电子设备b上开启或关闭低声语音模式。
[0224]
以上即为对用户进行语音通话时的多种场景进行的介绍。接下来,基于上文所描述的用户进行语音通话时的多种场景的部分或全部内容,对本技术实施例提供的一种语音处理方法进行介绍。可以理解的是,该方法是基于上文所描述的用户进行语音通话时的多种场景提出,该方法中的部分或全部内容可以参见上文中的有关描述。
[0225]
请参阅图13,图13是本技术实施例提供的一种语音处理方法的流程示意图。可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图13所示,该语音处理方法可以包括:
[0226]
步骤s501、第一电子设备接收用户的第一语音,以实现语音对话。
[0227]
本方案中,用户可以使用第一电子设备进行语音对话,例如打电话,或人机交互等。当用户使用第一电子设备进行语音对话时,第一电子设备即可以接收到用户发出的语音(即第一语音)。在一个例子中,本方案中的语音对话可以为语音通话,例如打电话,也可以为人机间的对话,例如人机交互。示例性的,第一电子设备可以为语音通话设备,例如,第一电子设备可以为图3a中所示的手机11,也可以为图3b中所示的耳机15。在另外一种示例中,第一电子设备也可以为其他能够实现语音对话的电子设备,如平板电脑等。
[0228]
步骤s502、当第一电子设备接收第一语音时,确定用户佩戴的第二电子设备的运动状态和位置是否满足预设低声语音条件。
[0229]
本方案中,当第一电子设备接收到第一语音时,第一电子设备或与该第一电子设备相配合的电子设备则可以确定用户佩戴的第二电子设备的运动状态和位置是否满足预设低声语音条件。示例性的,第二电子设备可以为可穿戴设备,例如,第二电子设备可以为图3a中所示的智能手表14。
[0230]
在一个例子中,预设低声语音条件可以为上文所描述的用户做出靠近面部且遮掩嘴部的手臂动作,即第二电子设备朝向用户的面部运动,在运动后处于静止状态,且静止在用户嘴部的预设位置空间内。此时,该步骤可以具体为:确定第二电子设备是否先运动后静止,且确定第二电子设备静止时是否位于用户嘴部的预设位置空间内。
[0231]
可以理解的是,当第一电子设备不具备数据处理功能,则该步骤可以理解为是由与该耳机相配合的以实现语音对话的手机等电子设备执行。例如,当第一电子设备为耳机,且该耳机不具有数据处理功能,此时该耳机是与手机配合使用的,这时则该步骤可以由手机执行。
[0232]
步骤s503、若满足,则激活目标电子设备上的低声语音模式,其中,该目标电子设备包括第一电子设备或与第一电子设备配合以实现语音对话的第三电子设备。
[0233]
本方案中,若确定出用户佩戴的第二电子设备的运动状态和位置满足预设低声语音条件,则可以激活第一电子设备或与第一电子设备配合以实现语音对话的第三电子设备上的低声语音模式。
[0234]
在一个例子中,继续参阅图3a所示的场景,在该场景下第一电子设备为手机,则此时激活的为第一电子设备上的低声语音模式。
[0235]
继续参阅图3b所示的场景,在该场景下第一电子设备为耳机,若耳机能够自行实现语音对话的功能,则此时激活的为第一电子设备上的低声语音模式。若耳机需要与手机配合才能够实现语音对话的功能,则此时激活的为第三电子设备(即与耳机配合使用的手机)上的低声语音模式。
[0236]
步骤s504、若不满足,则不激活目标电子设备上的低声语音模式。
[0237]
本方案中,若确定出用户佩戴的第二电子设备的运动状态和位置不满足预设低声语音条件,则可以不激活目标电子设备上的低声语音模式,例如,不触发激活目标电子设备上的低声语音模式的指令等。
[0238]
由此,本方案中,在第一电子设备接收到用户发出的语音后,基于用户佩戴的第二电子设备的运动状态和位置,可以确定出用户是否做出靠近面部且遮掩嘴部的手臂动作,进而确定是否激活目标电子设备上的低声语音模式。通过在用户进行语音对话时,结合用户手臂的动作,提升了判断是否需要激活低声语音模式的准确率,降低了误判的概率。
[0239]
在一个例子中,在步骤s502中,在确定第二电子设备的运动状态时,可以确定第二电子设备是否先运动后静止,以确定用户是否有做出手臂靠近面部的动作。其中,如图14所示,在确定第二电子设备是否先运动后静止可以具体包括以下步骤:
[0240]
步骤s5021,接收第二电子设备发送的第二电子设备的第一运动数据,第一运动数据包括加速度数据和角速度数据中的至少一项。
[0241]
本方案中,第一电子设备或与该第一电子设备相配合的电子设备可以从第二电子设备处获取到第二电子设备的运动数据。该运动数据可以包括加速度数据和角速度数据中的至少一项。在一个例子中,继续参阅图3b,当第一电子设备为耳机时,与该第一电子设备相配合的电子设备可以为手机。在一个例子中,第二电子设备可以利用其自身的运动传感器检测器自身的运动数据,并将该运动数据发送至第一电子设备。示例性的,运动传感器可以为如图4中描述的加速度传感器,角速度传感器等。
[0242]
可以理解的是,在图3b所示的场景中,若耳机需要与手机配合才能够实现语音对话的功能,则此时可以是手机接收第二电子设备的运动数据。若耳机能够自行实现语音对话的功能,则此时可以是耳机自行接收第二电子设备的运动数据。
[0243]
步骤s5022,基于第一运动数据,确定第二电子设备是否先运动后静止。
[0244]
本方案中,第一电子设备或与该第一电子设备相配合的电子设备接收到第二电子
设备的运动数据后,则可以基于该第一运动数据,确定第二电子设备是否先运动后静止。示例性的,当加速度在某个时间段内持续大于或等于某一阈值时,则可以确定在该时间段内第二电子设备所在的手臂处于运动状态,即第二电子设备处于运动状态;当加速度在某个时间段内持续小于某一阈值时,则可以确定在该时间段内第二电子设备所在的手臂处于静止状态,即第二电子设备处于静止状态。
[0245]
在一个例子中,如图3a所示,第一电子设备为手机,第二电子设备为智能手表,此时则手机可以接收智能手表的运动数据,并基于该运动数据确定智能手表是否先运动后静止。
[0246]
如图3b所示,第一电子设备为耳机,第二电子设备为智能手表,此时若耳机具备数据处理能力,则耳机可以接收智能手表的运动数据,并基于该运动数据确定智能手表是否先运动后静止。若耳机需要与手机配合才能够实现语音对话的功能,则此时可以是手机接收智能手表的运动数据,并基于该运动数据确定智能手表是否先运动后静止。
[0247]
可以理解的是,第二电子设备也可以自行确定其是否是先运动后静止,以及将确定出的状态数据发送至第一电子设备或与该第一电子设备相配合的电子设备;其中,该状态数据可以表征第二电子设备是否先运动后静止。之后,第一电子设备或与该第一电子设备相配合的电子设备即可以基于该状态数据,确定第二电子设备是否先运动后静止。示例性的,第二电子设备可以基于上文所描述的确定方式,确定其自身是否先运动后静止。
[0248]
在一个例子中,在确定第二电子设备静止时是否位于用户嘴部的预设位置空间内之前,还可以先确定第一时间段内第一电子设备和第二电子设备间的第一通信信号强度具有增大趋势,且确定第二时间段内第一电子设备和第二电子设备间的第二通信信号强度处于平稳状态,第一时间段为第二电子设备运动时占用的时间段,第二时间段为第二电子设备静止时占用的时间段。通过该判断,即可以确定出第二电子设备是否朝向用户的面部运动。其中,当在第一时间段内第一通信信号强度呈增大趋势时,则表明第二电子设备在靠近第一电子设备,而在第二时间段内第二通信信号强度处于平稳状态,则表明第二电子设备处于静止状态。示例性的,第一通信信号强度和第二通信信号强度均可以为上文所描述的rssi。
[0249]
进一步的,如图15所示,确定第一时间段内第一电子设备和第二电子设备间的第一通信信号强度具有增大趋势,可以具体包括以下步骤:
[0250]
步骤s601、从第一时间段内选取n个时间点,确定n个时间点中各个相邻的时间点对应的第一通信信号强度之间的第一偏差值,其中,n为大于1的正整数。
[0251]
步骤s602、将确定出的各个第一偏差值相加求和,得到第一和值。
[0252]
步骤s603、若第一和值大于第一阈值,则确定第一时间段内第一通信信号强度具有增大趋势。
[0253]
可以理解的是,步骤s601-s603的详细内容,可参见上文图6中的有关描述,在此就不再一一赘述。
[0254]
此外,如图16所示,确定第二时间段内第一电子设备和第二电子设备间的第二通信信号强度处于平稳状态,可以具体包括以下步骤:
[0255]
步骤s701、从第二时间段内选取m个时间点,确定m个时间点中各个相邻的时间点对应的第二通信信号强度之间的第二偏差值,其中,m为大于1的正整数。
[0256]
步骤s702、基于各个第二偏差值与预设门限值之间的大小,确定各个第二偏差值对应的标定值。其中,预设门限值由与m相关的函数确定。
[0257]
步骤s703、将确定出的各个标定值相加求和,得到第二和值。
[0258]
步骤s704、若第二和值小于第二阈值,则确定第二时间段内第二通信信号强度处于平稳状态。
[0259]
可以理解的是,步骤s701-s704的详细内容,可参见上文图6中的有关描述,在此就不再一一赘述。
[0260]
作为另一种可能的实现方式,如图17所示,确定第二时间段内第一电子设备和第二电子设备间的第二通信信号强度处于平稳状态,可以具体包括以下步骤:
[0261]
步骤s801、从第二时间段内选取多个时间点,确定多个时间点中各个时间点对应的第二通信信号强度之间的方差值。
[0262]
步骤s802、若方差值小于预设方差阈值,则确定第二时间段内第二通信信号强度处于平稳状态。
[0263]
可以理解的是,步骤s801-s802的详细内容,可参见上文图6中的有关采用标准差计算的描述,在此就不再一一赘述。
[0264]
在一个例子中,如图18所示,确定第二电子设备静止时是否位于用户嘴部的预设位置空间内,可以具体包括以下步骤:
[0265]
步骤s901、接收第二电子设备发送的第二电子设备确定的第一语音的音频信号的第一方向。
[0266]
步骤s902、根据第一方向,第一电子设备与第二电子设备间的第一距离和第一电子设备的第一位置,确定第二电子设备静止时的第二位置。
[0267]
步骤s903、若第二位置处于预设位置空间内,确定第二电子设备静止时位于用户嘴部的预设位置空间内。
[0268]
进一步的,在确定第二电子设备静止时的第二位置之后,还可以接收第二电子设备发送的第二电子设备重新确定的第一语音的音频信号的方向,得到第二方向。然后,再根据第二方向,第一距离和第一位置,对第二位置进行修正。
[0269]
可以理解的是,步骤s901-s902的详细内容,可参见上文图8中的有关的描述,在此就不再一一赘述。
[0270]
在一个例子中,第一电子设备或与该第一电子设备相配合的电子设备可以从第二电子设备处直接获取到第二电子设备可以自行确定其自身所在的第三位置。然后,第一电子设备或与该第一电子设备相配合的电子设备可以将该第三位置与预设位置空间进行比对;若第三位置位于预设位置空间内,则确定第二电子设备静止时位于用户嘴部的预设位置空间内。
[0271]
应理解的,第二电子设备自行确定其自身所在的位置时,可以参见上文图8中的有关的描述,在此就不再一一赘述。
[0272]
在一个例子中,在激活目标电子设备上的低声语音模式之后,可以对第一语音进行第一处理,以提升目标电子设备的语音对话指令,或者使得目标电子设备以低于预设音量的音量响应用户。其中,第一处理用于调节目标电子设备进行语音对话的质量,或使目标电子设备以低于预设音量的音量响应用户。
[0273]
接下来,基于上文所描述的用户进行语音通话时的多种场景的部分或全部内容,对本技术实施例提供的另一种语音处理方法进行介绍。可以理解的是,该方法是基于上文所描述的用户进行语音通话时的多种场景提出,该方法中的部分或全部内容可以参见上文中的有关描述。
[0274]
请参阅图19,图19是本技术实施例提供的一种语音处理方法的流程示意图。可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图19所示,该语音处理方法可以包括:
[0275]
步骤s1001、当第一电子设备接收用户的第一语音时,确定该第二电子设备的运动状态和位置是否满足预设低声语音条件,其中,第一电子设备用于接收第一语音,以实现语音对话。
[0276]
步骤s1002、若满足,则向目标电子设备发送第一指令,第一指令用于指示激活目标电子设备上的低声语音模式,目标电子设备包括第一电子设备或与第一电子设备配合以实现语音对话的第三电子设备。示例性的,如图3a所示,在该场景下第一电子设备可以为手机,第二电子设备可以为智能手表,此时目标设备可以为手机;如图3b所示,在该场景下第一电子设备可以为耳机,第二电子设备可以为智能手表,此时目标设备可以为与耳机配合使用的手机。
[0277]
步骤s1003、若不满足,则不向目标电子设备发送第一指令。
[0278]
可以理解的是,步骤s1001的详细内容,可参见上文图6和图8中的有关的描述,在此就不再一一赘述。
[0279]
由此,本方案中,在第一电子设备接收到用户发出的语音后,基于用户佩戴的第二电子设备的运动状态和位置,可以确定出用户是否做出靠近面部且遮掩嘴部的手臂动作,进而确定是否向第一电子设备发送第一指令,以激活第一电子设备上的低声语音模式。通过在用户进行语音对话时,结合用户手臂的动作,提升了判断是否需要激活低声语音模式的准确率,降低了误判的概率。
[0280]
在一个例子中,在步骤s1001中确定第二电子设备的运动状态和位置是否满足预设低声语音条件,可以具体为:确定第二电子设备是否先运动后静止,且确定第二电子设备静止时是否位于用户嘴部的预设位置空间内。
[0281]
在一个例子中,确定第二电子设备是否先运动后静止,可以具体为确定第二电子设备的第一运动数据,第一运动数据包括加速度数据和角速度数据中的至少一项;基于第一运动数据,确定第二电子设备是否先运动后静止。应理解的是,第二电子设备确定其是否先运动后静止的方式,与上述第一电子设备基于第二电子设备的运动数据的确定方式相同或相似,具体可参见上文描述,在此就不再一一赘述。
[0282]
在一个例子中,确定第二电子设备静止时是否位于用户嘴部的预设位置空间内之前,还可以:确定第一时间段内第二电子设备和第一电子设备间的第一通信信号强度具有增大趋势,且确定第二时间段内第一电子设备和第二电子设备间的第二通信信号强度处于平稳状态,第一时间段为第二电子设备运动时占用的时间段,第二时间段为第二电子设备静止时占用的时间段。应理解的是,第二电子设备确定在第一时间段内第一通信信号是否具有增大趋势,以及在第二时间段内第二通信信号是否处于平稳状态,与上述第一电子设备的确定方式相同或相似,具体可参见上文描述,在此就不再一一赘述。
[0283]
在一个例子中,确定第一时间段内第二电子设备和第一电子设备间的第一通信信号强度具有增大趋势,可以具体为:先从第一时间段内选取n个时间点,确定n个时间点中各个相邻的时间点对应的第一通信信号强度之间的第一偏差值,其中,n为大于1的正整数;再将确定出的各个第一偏差值相加求和,得到第一和值;最后,若第一和值大于第一阈值,则确定第一时间段内第一通信信号强度具有增大趋势。应理解的是,该确定方式与上述第一电子设备的确定方式相同或相似,具体可参见上文描述,在此就不再一一赘述。
[0284]
在一个例子中,确定第二时间段内第二电子设备和第一电子设备间的第二通信信号强度处于平稳状态,可以具体为:先从第二时间段内选取m个时间点,确定m个时间点中各个相邻的时间点对应的第二通信信号强度之间的第二偏差值,其中,m为大于1的正整数;再基于各个第二偏差值与预设门限值之间的大小,确定各个第二偏差值对应的标定值,其中,预设门限值由与m相关的函数确定;然后,将确定出的各个标定值相加求和,得到第二和值;最后,若第二和值小于第二阈值,则确定第二时间段内第二通信信号强度处于平稳状态。应理解的是,该确定方式与上述第一电子设备的确定方式相同或相似,具体可参见上文描述,在此就不再一一赘述。
[0285]
作为另一种可能的实现方式,确定第二时间段内第二电子设备和第一电子设备间的第二通信信号强度处于平稳状态,可以具体为:从第二时间段内选取多个时间点,确定多个时间点中各个时间点对应的第二通信信号强度之间的方差值;然后,若方差值小于预设方差阈值,则确定第二时间段内第二通信信号强度处于平稳状态。应理解的是,该确定方式与上述第一电子设备的确定方式相同或相似,具体可参见上文描述,在此就不再一一赘述。
[0286]
在一个例子中,确定第二电子设备静止时是否位于用户嘴部的预设位置空间内,可以具体为:先接收第一语音,确定第一语音的音频信号的第一方向;再根据第一方向,第二电子设备与第一电子设备间的第一距离和第一电子设备的第一位置,确定第二电子设备静止时的第二位置;最后,若第二位置处于预设位置空间内,则确定第二电子设备静止时位于用户嘴部的预设位置空间内。应理解的是,该确定方式与上述第一电子设备的确定方式相同或相似,具体可参见上文描述,在此就不再一一赘述。
[0287]
进一步地,确定第二电子设备静止时的第二位置之后,还可以再重新确定第一语音的音频信号的方向,得到第二方向;然后根据第二方向,第一距离和第一位置,对第二位置进行修正。应理解的是,该修正方式与上述第一电子设备的修正方式相同或相似,具体可参见上文描述,在此就不再一一赘述。
[0288]
基于上述实施例中的方法,本技术实施例还提供了一种语音处理装置。该语音处理装置可以为上文图4所示的电子设备。在一个例子中,该语音处理装置可以包括:至少一个用于存储程序存储器,以及至少一个用于执行存储器存储的程序处理器。其中,当存储器存储的程序被执行时,处理器实现本方案中所提供的方法。
[0289]
关于语音处理装置在上述各种可能的设计中执行的操作的详细描述可以参照上文本方案提供的方法的实施例中的描述,在此就不再一一赘述。
[0290]
基于上述实施例中的方法,本技术实施例还提供了一种语音处理装置,该装置可以运行计算机程序指令,以执行上述所描述的方法。示例性的,该装置可以为芯片,或处理器。在一个例子中,该装置可以包括处理器,该处理器可以与存储器耦合,读取存储器中的指令并根据该指令执行上述所描述的方法。其中,该存储器可以集成在芯片或处理器中,也
可以独立于芯片或处理器之外。
[0291]
基于上述实施例中的方法,本技术实施例还提供了一种芯片。请参阅图20,图20为本技术实施例提供的一种芯片的结构示意图。如图20所示,芯片2000包括一个或多个处理器2001以及接口电路2002。可选的,芯片2000还可以包含总线2003。其中:
[0292]
处理器2001可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器2001中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2001可以是通用处理器、神经网络处理器(neural network processing unit,npu)、数字通信器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。示例性的,当该芯片2000应用于图4所示的手机中时,处理器2001可以执行上述各个实施例中手机所执行的部分或全部步骤。当芯片2000应用于上文所描述的智能手表中时,处理器2001可以执行上述各个实施例中智能手表所执行的部分或全部步骤。
[0293]
接口电路2002可以用于数据、指令或者信息的发送或者接收,处理器2001可以利用接口电路2002接收的数据、指令或者其它信息,进行加工,可以将加工完成信息通过接口电路2002发送出去。示例性的,当该芯片2000应用于图4所示的手机中时,接口电路2002可以用于接收智能手表发送的运动数据等。当该芯片2000应用于上文所描述的智能手表中时,接口电路2002可以用于向手机发送用于激活手机上低声语音模式的指令等。
[0294]
可选的,芯片2000还包括存储器,存储器可以包括只读存储器和随机存取存储器,并向处理器提供操作指令和数据。存储器的一部分还可以包括非易失性随机存取存储器(nvram)。其中,该存储器可以与处理器2001耦合。
[0295]
可选的,存储器存储了可执行软件模块或者数据结构,处理器2001可以通过调用存储器存储的操作指令(该操作指令可存储在操作系统中),执行相应的操作。
[0296]
可选的,接口电路2002可用于输出处理器2001的执行结果。
[0297]
需要说明的,处理器2001、接口电路2002各自对应的功能既可以通过硬件设计实现,也可以通过软件设计来实现,还可以通过软硬件结合的方式来实现,这里不作限制。
[0298]
应理解,上述方法实施例的各步骤可以通过处理器中的硬件形式的逻辑电路或者软件形式的指令完成。
[0299]
可以理解的是,在本技术实施例的描述中,“示例性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本技术实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
[0300]
在本技术实施例的描述中,术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,单独存在b,同时存在a和b这三种情况。另外,除非另有说明,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个终端是指两个或两个以上的终端。
[0301]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地
包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
[0302]
可以理解的是,本技术的实施例中的处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field programmablegate array,fpga)或者其他可编程逻辑器件、晶体管逻辑器件,硬件部件或者其任意组合。通用处理器可以是微处理器,也可以是任何常规的处理器。
[0303]
本技术的实施例中的方法步骤可以通过硬件的方式来实现,也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(random access memory,ram)、闪存、只读存储器(read-only memory,rom)、可编程只读存储器(programmablerom,prom)、可擦除可编程只读存储器(erasableprom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)、寄存器、硬盘、移动硬盘、cd-rom或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于asic中。
[0304]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘(solid state disk,ssd))等。
[0305]
可以理解的是,在本技术的实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本技术的实施例的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献