一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音端点的检测方法、装置、电子设备、存储介质及产品与流程

2022-09-07 21:49:52 来源:中国专利 TAG:


1.本技术涉及音频信号处理技术领域,特别涉及一种语音端点的检测方法、装置、电子设备、存储介质及产品。


背景技术:

2.目前,电子设备一般具有语音交互功能;电子设备通过识别音频信号中的唤醒词,唤醒电子设备,进而对唤醒词之后的音频信号进行语音检测,执行检测到的指令,从而实现与用户的语音交互。因此,为了对唤醒词之后的音频信号进行语音检测,需要确定音频信号中唤醒词的尾端点。
3.相关技术中,唤醒词之后的音频信号中往往存在唤醒词的尾音信号,因此电子设备识别到音频信号中的唤醒词后,一般会往后推迟固定的信号帧数,将推迟的信号帧数对应的终点作为唤醒词的尾端点。
4.然而尾音信号的长度并不是固定的,这样在唤醒词的尾音信号过长时,由于推迟的信号帧数是固定的,使得确定的尾端点之后的音频信号中仍然存在唤醒词的尾音信号,进而降低了确定的尾端点的准确性。


技术实现要素:

5.本技术实施例提供了一种语音端点的检测方法、装置、电子设备、存储介质及产品,能够提高确定的尾端点的准确性。所述技术方案如下:
6.一方面,提供了一种语音端点的检测方法,所述方法包括:
7.确定第一音频信号,所述第一音频信号为音频信号中唤醒词之后的音频信号;
8.将所述第一音频信号划分为多个第一子信号;
9.确定所述多个第一子信号分别对应的第一振幅值;
10.基于所述多个第一子信号分别对应的第一振幅值,确认所述多个第一子信号的第一振幅变化信息,所述第一振幅变化信息用于表示所述多个第一子信号分别对应的第一振幅值的变化趋势;
11.基于所述第一振幅变化信息,确定所述音频信号中所述唤醒词对应的尾端点。
12.在一些实施例中,所述基于所述第一振幅变化信息,确定所述音频信号中所述唤醒词对应的尾端点,包括:
13.若所述第一振幅变化信息表示所述多个第一子信号分别对应的第一振幅值呈减小趋势,将所述第一音频信号的终点,作为所述尾端点。
14.在一些实施例中,所述方法还包括以下任一实现方式:
15.所述第一振幅变化信息包括基于所述多个第一子信号分别对应的第一振幅值确定出的方差,若所述方差小于或等于第一阈值,则确定所述第一振幅变化信息表示所述多个第一子信号分别对应的第一振幅值呈减小趋势;
16.所述第一振幅变化信息包括所述多个第一子信号分别对应的第一振幅值的拟合
参数,若所述拟合参数小于第二阈值,则确定所述第一振幅变化信息表示所述多个第一子信号分别对应的第一振幅值呈减小趋势,所述拟合参数用于表示所述多个第一子信号分别对应的第一振幅值的变化率。
17.在一些实施例中,所述第一振幅变化信息包括基于所述多个第一子信号分别对应的第一振幅值确定出的方差;所述基于所述多个第一子信号分别对应的第一振幅值,确认所述多个第一子信号的第一振幅变化信息,包括:
18.确定所述多个第一子信号中任意相邻两个第一子信号对应的第一振幅值之间的差值,得到多个差值;
19.基于所述多个差值,确定所述方差。
20.在一些实施例中,所述第一振幅变化信息包括所述多个第一子信号分别对应的第一振幅值的拟合参数,所述拟合参数用于表示所述多个第一子信号分别对应的第一振幅值的变化率,所述基于所述多个第一子信号分别对应的第一振幅值,确认所述多个第一子信号的第一振幅变化信息,包括:
21.对所述多个第一子信号分别对应的第一振幅值进行线性拟合,得到所述拟合参数。
22.在一些实施例中,所述基于所述第一振幅变化信息,确定所述音频信号中所述唤醒词对应的尾端点,包括:
23.若所述第一振幅变化信息表示所述多个第一子信号分别对应的第一振幅值呈非减小趋势,则确定第二音频信号,所述第二音频信号为所述第一音频信号之后的音频信号;
24.将所述第二音频信号划分为多个第二子信号;
25.确定所述多个第二子信号分别对应的第二振幅值;
26.基于所述多个第二子信号分别对应的第二振幅值,获取所述多个第二子信号的第二振幅变化信息,所述第二振幅变化信息用于表示所述多个第二子信号分别对应的第二振幅值的变化趋势;
27.若所述第二振幅变化信息表示所述多个第二子信号分别对应的第二振幅值呈减小趋势,将所述第二音频信号的终点,作为所述尾端点;
28.若所述第二振幅变化信息表示所述多个第二子信号分别对应的第二振幅值呈非减小趋势,则重新确定所述第二音频信号,直到确定出所述尾端点为止。
29.在一些实施例中,所述第一振幅变化信息包括至少一个子振幅变化信息,所述子振幅变化信息用于表示基于相邻的多个第一子信号对应的第一振幅值确定出的变化趋势;
30.所述基于所述第一振幅变化信息,确定所述音频信号中所述唤醒词对应的尾端点,包括:
31.基于所述至少一个子振幅变化信息,确定目标子振幅变化信息,所述目标子振幅变化信息表示其对应的多个第一子信号分别对应的第一振幅值呈减小趋势;
32.将所述目标子振幅变化信息对应的第一子信号的终点,作为所述尾端点。
33.在一些实施例中,所述多个第一子信号分别包括多个采样点,所述确定所述多个第一子信号分别对应的第一振幅值,包括:
34.基于所述多个第一子信号分别包括的多个采样点的第二振幅值的绝对值,确定所述多个第一子信号分别包括的多个采样点的第二振幅值的绝对值的均值;
35.将所述均值作为所述多个第一子信号分别对应的第一振幅值。
36.另一方面,提供了一种语音端点的检测装置,所述装置包括:
37.第一确定模块,用于确定第一音频信号,所述第一音频信号为音频信号中唤醒词之后的音频信号;
38.划分模块,用于将所述第一音频信号划分为多个第一子信号;
39.第二确定模块,用于确定所述多个第一子信号分别对应的第一振幅值;
40.确认模块,用于基于所述多个第一子信号分别对应的第一振幅值,确认所述多个第一子信号的第一振幅变化信息,所述第一振幅变化信息用于表示所述多个第一子信号分别对应的第一振幅值的变化趋势;
41.第三确定模块,用于基于所述第一振幅变化信息,确定所述音频信号中所述唤醒词对应的尾端点。
42.在一些实施例中,所述第三确定模块,用于若所述第一振幅变化信息表示所述多个第一子信号分别对应的第一振幅值呈减小趋势,将所述第一音频信号的终点,作为所述尾端点。
43.在一些实施例中,所述装置还包括:
44.第四确定模块,用于所述第一振幅变化信息包括基于所述多个第一子信号分别对应的第一振幅值确定出的方差,若所述方差小于或等于第一阈值,则确定所述第一振幅变化信息表示所述多个第一子信号分别对应的第一振幅值呈减小趋势;
45.第五确定模块,用于所述第一振幅变化信息包括所述多个第一子信号分别对应的第一振幅值的拟合参数,若所述拟合参数小于第二阈值,则确定所述第一振幅变化信息表示所述多个第一子信号分别对应的第一振幅值呈减小趋势,所述拟合参数用于表示所述多个第一子信号分别对应的第一振幅值的变化率。
46.在一些实施例中,所述第一振幅变化信息包括基于所述多个第一子信号分别对应的第一振幅值确定出的方差;所述确认模块,用于确定所述多个第一子信号中任意相邻两个第一子信号对应的第一振幅值之间的差值,得到多个差值;基于所述多个差值,确定所述方差。
47.在一些实施例中,所述第一振幅变化信息包括所述多个第一子信号分别对应的第一振幅值的拟合参数,所述拟合参数用于表示所述多个第一子信号分别对应的第一振幅值的变化率,所述确认模块,用于对所述多个第一子信号分别对应的第一振幅值进行线性拟合,得到所述拟合参数。
48.在一些实施例中,所述第三确定模块,用于若所述第一振幅变化信息表示所述多个第一子信号分别对应的第一振幅值呈非减小趋势,则确定第二音频信号,所述第二音频信号为所述第一音频信号之后的音频信号;将所述第二音频信号划分为多个第二子信号;确定所述多个第二子信号分别对应的第二振幅值;基于所述多个第二子信号分别对应的第二振幅值,获取所述多个第二子信号的第二振幅变化信息,所述第二振幅变化信息用于表示所述多个第二子信号分别对应的第二振幅值的变化趋势;若所述第二振幅变化信息表示所述多个第二子信号分别对应的第二振幅值呈减小趋势,将所述第二音频信号的终点,作为所述尾端点;若所述第二振幅变化信息表示所述多个第二子信号分别对应的第二振幅值呈非减小趋势,则重新确定所述第二音频信号,直到确定出所述尾端点为止。
49.在一些实施例中,所述第一振幅变化信息包括至少一个子振幅变化信息,所述子振幅变化信息用于表示基于相邻的多个第一子信号对应的第一振幅值确定出的变化趋势;
50.所述第三确定模块,用于基于所述至少一个子振幅变化信息,确定目标子振幅变化信息,所述目标子振幅变化信息表示其对应的多个第一子信号分别对应的第一振幅值呈减小趋势;将所述目标子振幅变化信息对应的第一子信号的终点,作为所述尾端点。
51.在一些实施例中,所述多个第一子信号分别包括多个采样点,所述第二确定模块,用于基于所述多个第一子信号分别包括的多个采样点的第二振幅值的绝对值,确定所述多个第一子信号分别包括的多个采样点的第二振幅值的绝对值的均值;将所述均值作为所述多个第一子信号分别对应的第一振幅值。
52.另一方面,提供了一种电子设备,所述电子设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行,以实现上述任一实现方式所述的语音端点的检测方法。
53.另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现上述任一实现方式所述的语音端点的检测方法。
54.另一方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序代码,所述计算机程序代码存储在计算机可读存储介质中,电子设备的处理器从所述计算机可读存储介质读取所述计算机程序代码,所述处理器执行所述计算机程序代码,使得所述电子设备执行上述任一实现方式所述的语音端点的检测方法。
55.本技术实施例提供了一种语音端点的检测方法,该方法是通过确定唤醒词之后的音频信号的振幅变化信息,进而基于该振幅变化信息来确定唤醒词对应的尾端点的;由于唤醒词的尾音信号的振幅值是逐渐减小的,而振幅变化信息表示的是第一音频信号中的多个第一子信号的第一振幅值的变化趋势,这样基于振幅变化信息确定的尾端点是符合唤醒词的尾音信号的变化规律的,进而提高了确定的尾端点的准确性。
附图说明
56.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
57.图1是本技术实施例提供的一种实施环境的示意图;
58.图2是本技术实施例提供的一种语音端点的检测方法的流程图;
59.图3是本技术实施例提供的另一种语音端点的检测方法的流程图;
60.图4是本技术实施例提供的另一种语音端点的检测方法的流程图;
61.图5是本技术实施例提供的一种语音端点的检测装置的框图;
62.图6是本技术实施例提供的一种终端的框图。
具体实施方式
63.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
64.本技术的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们的任意变形,意图在于覆盖不排他的包括。例如包括了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
65.需要说明的是,本技术所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本技术中涉及到的音频信号都是在充分授权的情况下获取的。
66.本技术实施例提供的语音端点的检测方法,能够由电子设备执行,在一些实施例中,电子设备是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、人机交互设备、车载终端等,但并不局限于此。其中,电子设备为具有语音交互功能的设备。本领域技术人员可以知晓,上述电子设备的数量可以更多或更少。比如上述电子设备可以为一个,或者上述电子设备为几十个或几百个,或者更多数量。本技术实施例对电子设备的数量和设备类型不加以限定。
67.在一些实施例中,该语音端点的检测方法应用在人机交互的场景中,相应地,该语音端点的检测方法的实施环境涉及的电子设备为人机交互设备10,例如智能手机、平板电脑,智能机器人等;相应地,人机交互设备10通过识别音频信号中的唤醒词,唤醒人机交互设备10,然后确定音频信号中唤醒词的尾端点后,对尾端点之后的音频信号进行语音检测,执行检测到的指令,从而实现与用户的语音交互。
68.在一些实施例中,该语音端点的检测方法应用在车载场景中,相应地,该电子设备为车载终端,车载终端通过识别音频信号中的唤醒词,唤醒车载终端,然后确定音频信号中唤醒词的尾端点后,对尾端点之后的音频信号进行语音检测,执行检测的到指令,如打开导航、打开音乐等,从而实现与用户的语音交互。
69.在一些实施例中,该语音端点的检测方法应用在电梯场景中,相应地,该电子设备为电梯内的呼梯设备,呼梯设备通过识别音频信号中的唤醒词,唤醒呼梯设备,然后确定音频信号中唤醒词的尾端点,对尾端点之后的音频信号进行语音检测,执行检测到的指令,如上行到几楼或下行到几楼等,从而实现与用户的语音交互。
70.本技术实施例提供了一种语音端点的检测方法,执行主体为电子设备,参见图2,方法包括:
71.201、确定第一音频信号,第一音频信号为音频信号中唤醒词之后的音频信号。
72.202、将第一音频信号划分为多个第一子信号。
73.203、确定多个第一子信号分别对应的第一振幅值。
74.204、基于多个第一子信号分别对应的第一振幅值,确认多个第一子信号的第一振幅变化信息,第一振幅变化信息用于表示多个第一子信号分别对应的第一振幅值的变化趋
势。
75.205、基于第一振幅变化信息,确定音频信号中唤醒词对应的尾端点。
76.在一些实施例中,基于第一振幅变化信息,确定音频信号中唤醒词对应的尾端点,包括:
77.若第一振幅变化信息表示多个第一子信号分别对应的第一振幅值呈减小趋势,将第一音频信号的终点,作为尾端点。
78.在一些实施例中,方法还包括以下任一实现方式:
79.第一振幅变化信息包括基于多个第一子信号分别对应的第一振幅值确定出的方差,若方差小于或等于第一阈值,则确定第一振幅变化信息表示多个第一子信号分别对应的第一振幅值呈减小趋势;
80.第一振幅变化信息包括多个第一子信号分别对应的第一振幅值的拟合参数,若拟合参数小于第二阈值,则确定第一振幅变化信息表示多个第一子信号分别对应的第一振幅值呈减小趋势,拟合参数用于表示多个第一子信号分别对应的第一振幅值的变化率。
81.在一些实施例中,第一振幅变化信息包括基于多个第一子信号分别对应的第一振幅值确定出的方差;基于多个第一子信号分别对应的第一振幅值,确认多个第一子信号的第一振幅变化信息,包括:
82.确定多个第一子信号中任意相邻两个第一子信号对应的第一振幅值之间的差值,得到多个差值;
83.基于多个差值,确定方差。
84.在一些实施例中,第一振幅变化信息包括多个第一子信号分别对应的第一振幅值的拟合参数,拟合参数用于表示多个第一子信号分别对应的第一振幅值的变化率,基于多个第一子信号分别对应的第一振幅值,确认多个第一子信号的第一振幅变化信息,包括:
85.对多个第一子信号分别对应的第一振幅值进行线性拟合,得到拟合参数。
86.在一些实施例中,基于第一振幅变化信息,确定音频信号中唤醒词对应的尾端点,包括:
87.若第一振幅变化信息表示多个第一子信号分别对应的第一振幅值呈非减小趋势,则确定第二音频信号,第二音频信号为第一音频信号之后的音频信号;
88.将第二音频信号划分为多个第二子信号;
89.确定多个第二子信号分别对应的第二振幅值;
90.基于多个第二子信号分别对应的第二振幅值,获取多个第二子信号的第二振幅变化信息,第二振幅变化信息用于表示多个第二子信号分别对应的第二振幅值的变化趋势;
91.若第二振幅变化信息表示多个第二子信号分别对应的第二振幅值呈减小趋势,将第二音频信号的终点,作为尾端点;
92.若第二振幅变化信息表示多个第二子信号分别对应的第二振幅值呈非减小趋势,则重新确定第二音频信号,直到确定出尾端点为止。
93.在一些实施例中,第一振幅变化信息包括至少一个子振幅变化信息,子振幅变化信息用于表示基于相邻的多个第一子信号对应的第一振幅值确定出的变化趋势;
94.基于第一振幅变化信息,确定音频信号中唤醒词对应的尾端点,包括:
95.基于至少一个子振幅变化信息,确定目标子振幅变化信息,目标子振幅变化信息
表示其对应的多个第一子信号分别对应的第一振幅值呈减小趋势;
96.将目标子振幅变化信息对应的第一子信号的终点,作为尾端点。
97.在一些实施例中,多个第一子信号分别包括多个采样点,确定多个第一子信号分别对应的第一振幅值,包括:
98.基于多个第一子信号分别包括的多个采样点的第二振幅值的绝对值,确定多个第一子信号分别包括的多个采样点的第二振幅值的绝对值的均值;
99.将均值作为多个第一子信号分别对应的第一振幅值。
100.本技术实施例提供了一种语音端点的检测方法,该方法是通过确定唤醒词之后的音频信号的振幅变化信息,进而基于该振幅变化信息来确定唤醒词对应的尾端点的;由于唤醒词的尾音信号的振幅值是逐渐减小的,而振幅变化信息表示的是第一音频信号中的多个第一子信号的第一振幅值的变化趋势,这样基于振幅变化信息确定的尾端点是符合唤醒词的尾音信号的变化规律的,进而提高了确定的尾端点的准确性。
101.本技术实施例提供了另一种语音端点的检测方法,参见图3,方法包括:
102.301、电子设备确定第一音频信号。
103.其中,第一音频信号为音频信号中唤醒词之后的音频信号。音频信号包括多个采样点的振幅值,该振幅值用于表示该采样点音频信号的强度。可选地,该音频信号为目标对象输出的,用于与电子设备进行语音交互的音频信号。电子设备具有音频采集部件,如麦克风等,用于获取该音频信号。
104.在一些实施例中,电子设备上部署有唤醒模型,该唤醒模型为基于深度学习算法已经训练好的、且用于识别音频信号中的唤醒词的模型;相应地,电子设备将音频信号输入唤醒模型,通过唤醒模型识别该音频信号中的唤醒词,将该唤醒词之后的音频信号作为第一音频信号。其中,音频信号中包括多帧信号,第一音频信号可以为音频信号中的一帧或多帧信号,其具体长度可以根据需要进行设定并更改,在此不作具体限定。
105.需要说明的是,电子设备在将音频信号输入唤醒模型之前,还基于唤醒模型的配置信息,确定每次输入唤醒模型的音频信号的长度,进而向该唤醒模型中依次输入该长度的音频信号来进行唤醒词识别;该长度为一帧或多帧,在此不作具体限定。其中,若每次输入唤醒模型的音频信号的长度为一帧,则唤醒模型将多次输入的多帧信号分别进行音素识别,然后组合该多帧信号分别对应的音素,以得到该多帧信号对应的文本信息,进行基于该文本信息进行唤醒词识别。
106.需要说明的是,唤醒模型是基于音频信号的音频特征进行唤醒词识别的。在一种实现方式中,电子设备在将音频信号输入唤醒模型之前,确定该音频信号的音频特征,将该音频特征输入唤醒模型,电子设备再基于该音频特征,通过唤醒模型,进行唤醒词识别。在另一种实现方式中,电子设备将音频信号输入唤醒模型后,通过唤醒模型确定该音频信号的音频特征,电子设备再基于该音频特征,通过唤醒模型,进行唤醒词识别。其中,音频特征可以根据需要进行设定并更改;可选地,该音频特征为mfcc(mel frequency cepstrum coefficient,mel频率倒谱系数)特征,在此不作具体限定。
107.在一些实施例中,电子设备对该音频信号进行语音识别,在识别到音频信号中的唤醒词后,对该唤醒词对应的音频信号进行缓存,然后基于唤醒模型对该缓存的音频信号进行唤醒词识别,若基于唤醒模型识别到的唤醒词为电子设备的唤醒词,才确认识别到唤
醒词,进而电子设备将唤醒词之后的音频信号作为第一音频信号;这样进一步提高了对唤醒词识别的准确率,从而提高了确定的第一音频信号的准确率。
108.在一些实施例中,电子设备获取音频信号后,对该音频信号进行预处理,然后电子设备从预处理后的音频信号中确定第一音频信号。
109.其中,电子设备对音频信号进行预处理的过程包括预加重过程和分帧过程中的至少一项。预加重主要用于提高音频信号中的高频分量,以弥补音频信号中高频段信号能量小的问题,进而能够提高后续对音频信号进行唤醒词识别或语音识别的效果。分帧主要用于将连续的音频信号分为多个较短的信号,进而便于后续基于分帧得到的多帧信号,确定音频信号中唤醒词的尾端点。其中,分帧的过程包括:电子设备确定分帧的帧长和帧移,基于该帧长和帧移对音频信号进行分帧,得到多帧信号;帧长和帧移可以根据需要进行设定并更改,在此不作具体限定。可选地,帧长为256,帧移为160,在此不作具体限定。其中,帧长256指256个采样点的长度,帧移160指每帧移动160个采样点。例如,音频信号的采样频率为16k,即1秒采集16000个采样点的信号值,则每256个采样点的信号值作为一帧信号,然后每次更新该256个采样点中的160个采样点的信号值,得到下一帧信号,即若第1个采样点至第256个采样点的信号值对应第一帧信号,则第161个采样点至第256 160个采样点的信号值对应第二帧信号,依次处理,实现对音频信号的分帧,得到音频信号的多帧信号。需要说明的是,若预处理的过程包括预加重过程和分帧过程,则电子设备对音频信号进行预加重后,再对预加重后的音频信号进行分帧。
110.在该实施例中,通过对音频信号进行预处理,能够消除由于采集音频信号的设备所带来的混叠、高次谐波失真、高频等因素对音频信号质量的影响,尽可能保证了预处理得到的信号更均匀、平滑,进而能够提高后续对音频信号进行唤醒词识别和语音识别的效果。
111.302、电子设备将第一音频信号划分为多个第一子信号。
112.其中,第一子信号的数量可以根据需要进行设定并更改;可选地,多个第一子信号的长度相同,即包括的采样点的数量相同。在一些实施例中,电子设备基于第一音频信号中采样点的数量确定第一子信号的数量;可选地,电子设备将采样点的数量能够被整除的倍数,作为第一子信号的数量,以便第一音频信号包括的多个采样点在多个第一子信号中均匀分布,且使多个第一子信号中采样点的数量为整数。如第一音频信号中包括256个采样点,则可以将256能够被整除的倍数8作为第一子信号的数量,使得多个第一子信号中采样点的数量均为32个。
113.可选地,若第一音频信号的长度为l,电子设备将第一音频信号平均划分为k段,则多个第一子信号的长度分别为n=l/k;其中,若l表示采样点的数量,则n表示多个第一子信号中分别包括的采样点的数量。
114.在一些实施例中,电子设备基于多个第一子信号距离唤醒词的距离分别确定多个第一子信号的长度;可选地,第一子信号的长度与第一子信号距离唤醒词的长度成正比,即距离唤醒词越近,第一子信号的长度越长,进而保证了距离唤醒词近的第一子信号对唤醒词的影响力,使得划分的多个第一子信号与唤醒词的尾音信号的振幅值实际变化情况更加匹配。
115.303、电子设备确定多个第一子信号分别对应的第一振幅值。
116.多个第一子信号分别包括多个采样点,多个采样点分别对应一个第二振幅值。
117.在一些实施例中,电子设备确定多个第一子信号分别对应的第一振幅值,包括以下步骤:电子设备基于多个第一子信号分别包括的多个采样点的第二振幅值的绝对值,确定多个第一子信号分别包括的多个采样点的第二振幅值的绝对值的均值;电子设备将该均值作为多个第一子信号分别对应的第一振幅值。其中,对于任一第一子信号,电子设备将该第一子信号包括的多个采样点的第二振幅值的绝对值的均值,作为该第一子信号对应的第一振幅值。
118.需要说明的是,电子设备可以在执行步骤302之前获取多个采样点的第二振幅值的绝对值,也可以在步骤303中获取多个采样点的第二振幅值的绝对值,在此不作具体限定。
119.在该实施例中,电子设备通过将第一子信号包括的多个采样点的振幅值的绝对值的均值,作为该第一子信号对应的第一振幅值,使得该第一振幅值能够代表该第一子信号中多个采样点的振幅值的整体变化情况,进而提高了确定的第一振幅值的准确性。
120.在一些实施例中,电子设备对于多个第一子信号中的任一子信号,对该第一子信号包括的多个采样点的第二振幅值的绝对值加权求和,得到该第一子信号对应的第一振幅值。可选地,电子设备基于多个采样点与唤醒词的距离为多个采样点赋予不同的权重,即距离唤醒词越近,权重越大,进而保证了距离唤醒词近的采样点对唤醒词的影响力,使得后续确定的第一振幅值准确性更高。
121.在一些实施例中,电子设备对于多个第一子信号中的任一子信号,对该第一子信号包括的多个采样点进行预筛选,将预筛选后的多个采样点的第二振幅值的绝对值的均值,作为该第一子信号对应的第一振幅值。
122.其中,电子设备对多个采样点进行预筛选包括以下至少一种实现方式;在一种实现方式中,电子设备对多个采样点进行等间隔取样,以降低采样点的数量,提高确定第一子信号对应的第一振幅值的效率。在另一种实现方式中,电子设备基于多个采样点的第二振幅值的绝对值,对多个采样点进行预筛选;其中,电子设备将第二振幅值的绝对值小于预设阈值和大于预设阈值的采样点筛除掉,这样,将由于误差导致振幅值过大或过小的采样点去除,保证了剩余的采样点的振幅值的准确性,进而保证了后续确定的第一振幅值的准确性。
123.304、电子设备基于多个第一子信号分别对应的第一振幅值,确认多个第一子信号的第一振幅变化信息。
124.其中,第一振幅变化信息用于表示多个第一子信号分别对应的第一振幅值的变化趋势。
125.在一些实施例中,第一振幅变化信息包括基于多个第一子信号分别对应的第一振幅值确定出的方差;则相应地,电子设备基于多个第一子信号分别对应的第一振幅值,确认多个第一子信号的第一振幅变化信息,包括以下步骤:电子设备确定多个第一子信号中任意相邻两个第一子信号对应的第一振幅值之间的差值,得到多个差值;电子设备基于多个差值,确定方差。
126.需要说明的是,方差越大,多个差值的波动越大;方差越小,多个差值的波动就越小;由于该多个差值为任意相邻的两个第一子信号对应的第一振幅值之间的差值,则相应地,方差越小,则说明多个相邻第一子信号之间的差值是越均衡,即多个第一子信号分别对
应的第一振幅值是逐渐减小的,进而将方差作为第一振幅变化信息,便于后续基于方差准确确定多个第一子信号分别对应的第一振幅值的变化趋势。
127.可选地,若多个第一子信号的数量为k,则多个第一子信号的第一振幅值分别表示为m1、m2、...、mk,多个差值分别表示为dm0、dm1、...、dmk。例如k为10,多个差值的数量为9,则第1个差值dm0=m1-m2,第2个差值dm1=m2-m3,一直到第9个差值dm9=m10-m9。
128.在一些实施例中,第一振幅变化信息包括多个第一子信号分别对应的第一振幅值的拟合参数,拟合参数用于表示多个第一子信号分别对应的第一振幅值的变化率;则相应地,电子设备基于多个第一子信号分别对应的第一振幅值,确认多个第一子信号的第一振幅变化信息,包括以下步骤:电子设备对多个第一子信号分别对应的第一振幅值进行线性拟合,得到拟合参数。
129.需要说明的是,由于唤醒词的尾音信号的振幅值是逐渐减小的,而在该实施例中,通过对多个第一子信号分别对应的第一振幅值进行线性拟合,来得到拟合参数,由于拟合参数能够表示多个第一子信号分别对应的第一振幅值的变化率,进而将拟合参数作为第一振幅变化信息,便于后续基于拟合参数准确确定多个第一子信号分别对应的第一振幅值的变化趋势。
130.可选地,若多个第一子信号的数量为k,则多个第一子信号的第一振幅值分别表示为m1、m2、...、mk,进而电子设备对m1、m2、...、mk进行线性拟合,将拟合得到的斜率作为拟合参数。
131.305、若第一振幅变化信息表示多个第一子信号分别对应的第一振幅值呈减小趋势,电子设备将第一音频信号的终点,作为尾端点。
132.需要说明的是,唤醒词的尾音信号中振幅值的整体变化趋势是呈减小趋势的,而在本技术实施例中,通过确定第一音频信号中的多个第一子信号分别对应的第一振幅值的变化趋势,进而在第一振幅变化信息表示多个第一子信号分别对应的第一振幅值呈减小趋势时,说明第一音频信号为唤醒词的尾音信号,进而将第一音频信号的终点,作为唤醒词的尾端点,能够提高确定的该尾端点的准确性。
133.在一些实施例中,电子设备确定第一振幅变化信息表示多个第一子信号分别对应的第一振幅值呈减小趋势,包括以下任一实现方式:
134.在一种实现方式中,第一振幅变化信息包括基于多个第一子信号分别对应的第一振幅值确定出的方差,若方差小于或等于第一阈值,则电子设备确定第一振幅变化信息表示多个第一子信号分别对应的第一振幅值呈减小趋势。
135.其中,方差越趋近于0,说明多个差值之间的波动越小,进而说明多个第一子信号分别对应的第一振幅值是逐渐减小的;因此,设置第一阈值为0附近的数值,第一阈值的具体数值可以根据需要进行设定;可选地,第一阈值为1。
136.需要说明的是,若方差大于第一阈值,则电子设备确定第一振幅变化信息表示多个第一子信号分别对应的第一振幅值呈非减小趋势。
137.在该实现方式中,由于方差代表的是多个差值之间的波动,方差越小,多个差值之间的波动就越小,则说明多个第一子信号之间的差值越均衡,即基于方差能够准确确定多个第一子信号分别对应的第一振幅值的变化趋势,进而在方差小于或等于第一阈值时,确定第一振幅变化信息表示多个第一子信号分别对应的第一振幅值呈减小趋势的结果准确
度高。
138.在另一种实现方式中,第一振幅变化信息包括多个第一子信号分别对应的第一振幅值的拟合参数,若拟合参数小于第二阈值,则电子设备确定第一振幅变化信息表示多个第一子信号分别对应的第一振幅值呈减小趋势。
139.其中,拟合参数为对多个第一子信号分别对应的第一振幅值进行线性拟合,得到的斜率。则相应地,若多个第一子信号分别对应的第一振幅值呈减小趋势,则斜率为负数;因此设置第二阈值为负数,第二阈值的具体数值可以根据需要进行设定;可选地,第二阈值为-0.58,即倾斜角-30度对应的正切值。
140.需要说明的是,若拟合参数大于第二阈值,则电子设备确定第一振幅变化信息表示多个第一子信号分别对应的第一振幅值呈非减小趋势。
141.在该实现方式中,由于唤醒词的尾音信号的振幅值是逐渐减小的,而拟合参数代表的是多个第一子信号分别对应的第一振幅值的变化率,即基于拟合参数能够准确确定多个第一子信号分别对应的第一振幅值的变化趋势,进而在拟合参数小于第二阈值时,确定第一振幅变化信息表示多个第一子信号分别对应的第一振幅值呈减小趋势的结果准确度高。
142.在一些实施例中,若第一振幅变化信息表示多个第一子信号分别对应的第一振幅值呈非减小趋势,则电子设备还通过以下步骤(1)-(5)来确定尾端点。
143.(1)电子设备确定第二音频信号,第二音频信号为第一音频信号之后的音频信号。(2)电子设备将第二音频信号划分为多个第二子信号。(3)电子设备确定多个第二子信号分别对应的第二振幅值。(4)电子设备基于多个第二子信号分别对应的第二振幅值,获取多个第二子信号的第二振幅变化信息,第二振幅变化信息用于表示多个第二子信号分别对应的第二振幅值的变化趋势。(5)若第二振幅变化信息表示多个第二子信号分别对应的第二振幅值呈减小趋势,电子设备将第二音频信号的终点,作为尾端点;电子设备若第二振幅变化信息表示多个第二子信号分别对应的第二振幅值呈非减小趋势,则重新确定第二音频信号,直到确定出尾端点为止。步骤(1)-(5)的具体实现方式与步骤301-305同理,在此不再赘述。
144.需要说明的是,电子设备重新确定的第二音频信号为前一个第二音频信号之后的音频信号;在本技术实施例中,通过对唤醒词之后的音频信号依次进行尾端点检测,直到确定出尾端点,这样使得唤醒词的尾音信号包括在尾端点之前的音频信号中,进而提高了确定出的尾端点的准确性。
145.在一些实施例中,第一振幅变化信息包括多个采样点分别对应的第一振幅值的方差和拟合参数,若方差小于或等于第一阈值,且拟合参数小于第二阈值,电子设备才确定第一振幅变化信息表示多个第一子信号分别对应的第一振幅值呈减小趋势,进而保证了后续确定尾端点的准确性。若方差大于第一阈值且拟合参数小于第二阈值,或者,方差小于或等于第一阈值且拟合参数大于第二阈值,则电子设备重新执行步骤301-304,通过更新第一音频信号的长度、更新多个第一子信号的划分方式或者更新确定多个第一子信号分别对应的第一振幅值的方式,重新确定第一振幅变化信息,若更新后得到的第一振幅变化信息包括的方差和拟合参数仍不满足方差小于或等于第一阈值,且拟合参数小于第二阈值,则电子设备执行上述步骤(1)-(5),确定第二音频信号,直到确定出尾端点为止。
146.在该实施例中,通过方差和拟合参数这两个维度的参数来共同确定多个第一子信号分别对应的第一振幅值的变化趋势,进而保证了确定的第一振幅变化信息表示多个第一子信号分别对应的第一振幅值的变化趋势是准确的,从而保证了确定出的尾端点的准确性。
147.在一些实施例中,电子设备在通过唤醒模型识别音频信号中的唤醒词后,将唤醒词对应的第三音频信号进行缓存,暂不执行唤醒;在电子设备确定出唤醒词的尾端点之后,将位于第三音频信号和该尾端点之间的音频信号与缓存的第三音频信号进行组合,得到唤醒词对应的目标音频信号;然后电子设备将音频信号中的目标音频信号去除,得到剩余的音频信号,进而基于唤醒词唤醒电子设备,且基于剩余的音频信号进行其他语音检测活动,如语音识别。
148.在本技术实施例中,电子设备先通过唤醒模型对音频信号进行唤醒词识别,在识别到唤醒词后,电子设备不会立刻对该音频信号进行分割,而是通过唤醒词之后的音频信号的振幅值的变化趋势来准确确定唤醒词的尾端点,进而基于该尾端点分割音频信号,这样就能够将唤醒词的尾音信号划分到尾端点之前,从而实现了对音频信号的准确分割,减少了唤醒词的尾音信号划分到尾端点之后的音频信号中造成的问题,如可以减少在后续的语音识别中vad(voice activity detection,语音活动检测)的误触发或语音的误识别等。
149.本技术实施例提供了一种语音端点的检测方法,该方法是通过确定唤醒词之后的音频信号的振幅变化信息,进而基于该振幅变化信息来确定唤醒词对应的尾端点的;由于唤醒词的尾音信号的振幅值是逐渐减小的,而振幅变化信息表示的是第一音频信号中的多个第一子信号的第一振幅值的变化趋势,这样基于振幅变化信息确定的尾端点是符合唤醒词的尾音信号的变化规律的,进而提高了确定的尾端点的准确性。
150.本技术实施例提供了另一种语音端点的检测方法,参见图4,方法包括:
151.401、电子设备确定第一音频信号。
152.该步骤与步骤301同理,在此不再赘述。
153.402、电子设备将第一音频信号划分为多个第一子信号。
154.该步骤与步骤302同理,在此不再赘述。
155.403、电子设备确定多个第一子信号分别对应的第一振幅值。
156.该步骤与步骤303同理,在此不再赘述。
157.404、电子设备基于多个第一子信号分别对应的第一振幅值,确认多个第一子信号的第一振幅变化信息。
158.其中,第一振幅变化信息包括至少一个子振幅变化信息,子振幅变化信息用于表示基于相邻的多个第一子信号对应的第一振幅值确定出的变化趋势。
159.需要说明的是,至少一个子振幅变化信息分别对应的多个第一子信号的数量小于第一音频信号包括的多个第一子信号的数量;至少一个子振幅变化信息分别对应的多个第一子信号为对第一音频信号中的多个第一子信号依次进行迭代得到的;其中,电子设备每次迭代一个第一子信号,以得到下一个子振幅变化信息对应的多个第一子信号。
160.例如,子振幅变化信息对应的多个第一子信号的数量为预设数量,则第一个子振幅变化信息对应第一音频信号中前预设数量的第一子信号;电子设备在迭代时,将前预设数量的第一子信号中的第一个子信号去除,再加上前预设数量的第一子信号之后的第一子
信号,即得第二个子振幅变化信息对应的预设数量的第一子信号,与此同理,依次迭代,即可得到至少一个子振幅变化信息分别对应的多个第一子信号;进而再基于至少一个子振幅变化信息分别对应的多个第一子信号的第一振幅值,得到至少一个子振幅变化信息。其中,电子设备确定子振幅变化信息的具体实现方式与步骤304中电子设备确定第一振幅变化信息的实现方式同理,在此不再赘述。
161.405、电子设备基于至少一个子振幅变化信息,确定目标子振幅变化信息。
162.其中,目标子振幅变化信息表示其对应的多个第一子信号分别对应的第一振幅值呈减小趋势。电子设备确定子振幅变化信息表示其对应的多个第一子信号对应的第一振幅值是否呈减小趋势的实现方式与步骤305中电子设备确定第一振幅变化信息表示多个第一子信号分别对应的第一振幅值是否呈减小趋势的实现方式相同,在此不再赘述。
163.在一种实现方式中,电子设备通过对第一音频信号中的多个第一子信号依次进行迭代,来得到至少一个子振幅变化信息,则电子设备在得到的任一子振幅变化信息表示其对应的多个第一子信号分别对应的第一振幅值呈减小趋势时,则将该子振幅变化信息确定为目标子振幅变化信息,不再确定后续的其他子振幅变化信息,进而节省了时间,且避免了计算资源的浪费。
164.需要说明的是,若至少一个子振幅变化信息不包括目标子振幅变化信息,即唤醒词的尾端点并存在于该第一音频信号中,则电子设备依次确定该第一音频信号中的至少一个子振幅变化信息会造成计算资源和时间的浪费;而为了避免这种浪费,在一些实施例中,电子设备基于多个第一子信号分别对应的第一振幅值,确认多个第一子信号的第一振幅变化信息,若第一振幅变化信息表示该多个第一子信号分别对应的第一振幅值呈减小趋势,才确定该至少一个子振幅变化信息。由于第一振幅变化信息表示该多个第一子信号分别对应的第一振幅值呈减小趋势时,说明唤醒词的尾端点是存在于该第一音频信号中的,进而再基于至少一个子振幅变化信息,能够进一步精准的确定尾端点在第一音频信号中的位置,从而避免了计算资源和时间的浪费。
165.需要说明的是,若第一振幅变化信息表示该多个第一子信号分别对应的第一振幅值呈非减小趋势,则电子设备获取第一音频信号之后的第二音频信号,直到第一振幅变化信息表示该多个第一子信号分别对应的第一振幅值呈减小趋势,才执行确定至少一个子振幅变化信息的步骤。其中,电子设备确定第一振幅变化信息表示多个第一子信号分别对应的第一振幅值是否呈减小趋势的实现方式与步骤305中电子设备确定第一振幅变化信息表示多个第一子信号分别对应的第一振幅值是否呈减小趋势的实现方式相同,在此不再赘述。
166.406、电子设备将目标子振幅变化信息对应的第一子信号的终点,作为尾端点。
167.其中,目标子振幅变化信息对应的第一子信号的终点为该目标子振幅变化信息对应的多个第一子信号中最后一个子信号的终点。
168.在一些实施例中,子振幅变化信息包括多个采样点分别对应的第一振幅值的方差和拟合参数,电子设备分别基于方差和拟合参数,确定目标子振幅变化信息;若电子设备分别基于方差和拟合参数,分别确定的目标子振幅变化信息对应的第一子信号相同,则电子设备将任一目标子振幅变化信息对应的第一子信号的终点,作为尾端点。若电子设备分别基于方差和拟合参数,分别确定的目标子振幅变化信息对应的第一子信号不相同,则电子
设备将分别基于方差和拟合参数,确定的两个目标子振幅变化信息分别对应的多个第一子信号中,排序在后的第一子信号的终点作为尾端点;如两个目标子振幅变化信息分别对应的多个第一子信号中,第一个目标子振幅变化信息对应的多个第一子信号为第1个第一子信号到第5个第一子信号,第二个目标子振幅变化信息对应的多个第一子信号为第2个第一子信号到第6个第一子信号,则电子设备将第6个第一子信号的终点作为尾端点。
169.在该实施例中,通过方差和拟合参数这两个维度的参数来共同确定目标子振幅变化信息,进而保证了确定的目标子振幅变化信息的准确性,从而保证了确定出的尾端点的准确性;且将分别基于方差和拟合参数确定的两个目标子振幅变化信息分别对应的多个第一子信号中,排序在后的第一子信号的终点作为尾端点,使得唤醒词的尾音信号尽可能的包括在了尾端点之前的语音信号后,即进一步提高了确定的尾端点的准确性。
170.在本技术实施例中,通过对第一音频信号中的多个第一子信号依次进行迭代,来得到至少一个子振幅变化信息,由于子振幅变化信息表示相邻的多个第一子信号对应的第一振幅值的变化趋势,进而就能够基于子振幅变化信息确定唤醒词在第一音频信号中的准确位置,从而进一步提高了确定的尾端点的准确性。
171.本技术实施例还提供了一种语音端点的检测装置,参见图5,装置包括:
172.第一确定模块501,用于确定第一音频信号,第一音频信号为音频信号中唤醒词之后的音频信号;
173.划分模块502,用于将第一音频信号划分为多个第一子信号;
174.第二确定模块503,用于确定多个第一子信号分别对应的第一振幅值;
175.确认模块504,用于基于多个第一子信号分别对应的第一振幅值,确认多个第一子信号的第一振幅变化信息,第一振幅变化信息用于表示多个第一子信号分别对应的第一振幅值的变化趋势;
176.第三确定模块505,用于基于第一振幅变化信息,确定音频信号中唤醒词对应的尾端点。
177.在一些实施例中,第三确定模块505,用于若第一振幅变化信息表示多个第一子信号分别对应的第一振幅值呈减小趋势,将第一音频信号的终点,作为尾端点。
178.在一些实施例中,装置还包括:
179.第四确定模块,用于第一振幅变化信息包括基于多个第一子信号分别对应的第一振幅值确定出的方差,若方差小于或等于第一阈值,则确定第一振幅变化信息表示多个第一子信号分别对应的第一振幅值呈减小趋势;
180.第五确定模块,用于第一振幅变化信息包括多个第一子信号分别对应的第一振幅值的拟合参数,若拟合参数小于第二阈值,则确定第一振幅变化信息表示多个第一子信号分别对应的第一振幅值呈减小趋势,拟合参数用于表示多个第一子信号分别对应的第一振幅值的变化率。
181.在一些实施例中,第一振幅变化信息包括基于多个第一子信号分别对应的第一振幅值确定出的方差;确认模块504,用于确定多个第一子信号中任意相邻两个第一子信号对应的第一振幅值之间的差值,得到多个差值;基于多个差值,确定方差。
182.在一些实施例中,第一振幅变化信息包括多个第一子信号分别对应的第一振幅值的拟合参数,拟合参数用于表示多个第一子信号分别对应的第一振幅值的变化率,确认模
块504,用于对多个第一子信号分别对应的第一振幅值进行线性拟合,得到拟合参数。
183.在一些实施例中,第三确定模块505,用于若第一振幅变化信息表示多个第一子信号分别对应的第一振幅值呈非减小趋势,则确定第二音频信号,第二音频信号为第一音频信号之后的音频信号;将第二音频信号划分为多个第二子信号;确定多个第二子信号分别对应的第二振幅值;基于多个第二子信号分别对应的第二振幅值,获取多个第二子信号的第二振幅变化信息,第二振幅变化信息用于表示多个第二子信号分别对应的第二振幅值的变化趋势;若第二振幅变化信息表示多个第二子信号分别对应的第二振幅值呈减小趋势,将第二音频信号的终点,作为尾端点;若第二振幅变化信息表示多个第二子信号分别对应的第二振幅值呈非减小趋势,则重新确定第二音频信号,直到确定出尾端点为止。
184.在一些实施例中,第一振幅变化信息包括至少一个子振幅变化信息,子振幅变化信息用于表示基于相邻的多个第一子信号对应的第一振幅值确定出的变化趋势;
185.第三确定模块505,用于基于至少一个子振幅变化信息,确定目标子振幅变化信息,目标子振幅变化信息表示其对应的多个第一子信号分别对应的第一振幅值呈减小趋势;将目标子振幅变化信息对应的第一子信号的终点,作为尾端点。
186.在一些实施例中,多个第一子信号分别包括多个采样点,第二确定模块503,用于基于多个第一子信号分别包括的多个采样点的第二振幅值的绝对值,确定多个第一子信号分别包括的多个采样点的第二振幅值的绝对值的均值;将均值作为多个第一子信号分别对应的第一振幅值。
187.本技术实施例提供了一种语音端点的检测装置,通过确定唤醒词之后的音频信号的振幅变化信息,进而基于该振幅变化信息来确定唤醒词对应的尾端点的;由于唤醒词的尾音信号的振幅值是逐渐减小的,而振幅变化信息表示的是第一音频信号中的多个第一子信号的第一振幅值的变化趋势,这样基于振幅变化信息确定的尾端点是符合唤醒词的尾音信号的变化规律的,进而提高了确定的尾端点的准确性。
188.在一些实施例中,电子设备提供为终端。图6示出了本技术一个示例性实施例提供的终端600的结构框图。该终端600可以是便携式移动终端,比如:智能手机、平板电脑、mp3播放器(moving picture experts group audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
189.通常,终端600包括有:处理器601和存储器602。
190.处理器601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器601可以采用dsp(digital signal processing,数字信号处理)、fpga(field-programmable gate array,现场可编程门阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processing unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以集成有gpu(graphics processing unit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括ai(artificial intelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算
操作。
191.存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器601所执行以实现本技术中方法实施例提供的语音端点的检测方法。
192.在一些实施例中,终端600还可选包括有:外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地,外围设备包括:射频电路604、显示屏605、摄像头组件606、音频电路607、定位组件608和电源609中的至少一种。
193.外围设备接口603可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中,处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上;在一些其他实施例中,处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
194.射频电路604用于接收和发射rf(radio frequency,射频)信号,也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路604包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wireless fidelity,无线保真)网络。在一些实施例中,射频电路604还可以包括nfc(near field communication,近距离无线通信)有关的电路,本技术对此不加以限定。
195.显示屏605用于显示ui(user interface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时,显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时,显示屏605还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏605可以为一个,设置在终端600的前面板;在另一些实施例中,显示屏605可以为至少两个,分别设置在终端600的不同表面或呈折叠设计;在另一些实施例中,显示屏605可以是柔性显示屏,设置在终端600的弯曲表面上或折叠面上。甚至,显示屏605还可以设置成非矩形的不规则图形,也即异形屏。显示屏605可以采用lcd(liquid crystal display,液晶显示屏)、oled(organic light-emitting diode,有机发光二极管)等材质制备。
196.摄像头组件606用于采集图像或视频。可选地,摄像头组件606包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality,虚拟现实)拍摄功能或者其它融合拍
摄功能。在一些实施例中,摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
197.音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器601进行处理,或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路607还可以包括耳机插孔。
198.定位组件608用于定位终端600的当前地理位置,以实现导航或lbs(location based service,基于位置的服务)。定位组件608可以是基于美国的gps(global positioning system,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
199.电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
200.在一些实施例中,终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于:加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。
201.加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号,控制显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。
202.陀螺仪传感器612可以检测终端600的机体方向及转动角度,陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3d动作。处理器601根据陀螺仪传感器612采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。
203.压力传感器613可以设置在终端600的侧边框和/或显示屏605的下层。当压力传感器613设置在终端600的侧边框时,可以检测用户对终端600的握持信号,由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在显示屏605的下层时,由处理器601根据用户对显示屏605的压力操作,实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
204.指纹传感器614用于采集用户的指纹,由处理器601根据指纹传感器614采集到的指纹识别用户的身份,或者,由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器601授权该用户执行相关的敏感操作,该敏感操作包
括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置在终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商logo时,指纹传感器614可以与物理按键或厂商logo集成在一起。
205.光学传感器615用于采集环境光强度。在一个实施例中,处理器601可以根据光学传感器615采集的环境光强度,控制显示屏605的显示亮度。具体地,当环境光强度较高时,调高显示屏605的显示亮度;当环境光强度较低时,调低显示屏605的显示亮度。在另一个实施例中,处理器601还可以根据光学传感器615采集的环境光强度,动态调整摄像头组件606的拍摄参数。
206.接近传感器616,也称距离传感器,通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中,当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时,由处理器601控制显示屏605从亮屏状态切换为息屏状态;当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时,由处理器601控制显示屏605从息屏状态切换为亮屏状态。
207.本领域技术人员可以理解,图6中示出的结构并不构成对终端600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
208.本技术实施例还提供了一种计算机可读存储介质,计算机可读存储介质中存储有至少一条程序代码,至少一条程序代码由处理器加载并执行,以实现上述任一实现方式的语音端点的检测方法。
209.本技术实施例还提供了一种计算机程序产品,计算机程序产品包括计算机程序代码,计算机程序代码存储在计算机可读存储介质中,电子设备的处理器从计算机可读存储介质读取计算机程序代码,处理器执行计算机程序代码,使得电子设备执行上述任一实现方式的语音端点的检测方法。
210.在一些实施例中,本技术实施例所涉及的计算机程序产品可被部署在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行,分布在多个地点且通过通信网络互连的多个电子设备可以组成区块链系统。
211.以上仅为本技术的可选实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献