一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

电子设备及其语音识别方法和介质与流程

2022-03-04 22:07:02 来源:中国专利 TAG:


1.本技术涉及智能设备领域,尤其涉及一种电子设备及其语音识别方法和介质。


背景技术:

2.在车载环境中,语音交互以便利性和安全性上的极大优势,逐渐取代物理按键和多点触控成为车内主流人机交互方式的趋势。车内的语音交互工会给用户带来的较佳的体验,例如安全(解放双手、避免实现分散);便利(提高效率、减少学习、及时反馈);乐趣(情感化互动、精神享受)。
3.在语音交互带来诸多便利的同时,也存在着一些问题。随着车载环境变化,语音交互的效果会降低。例如:车辆所处的环境噪音会随着车速、路段、路况、空调、车窗、乘客及音响等各种因素不断改变,该环境噪音会影响语音交互的准确率。在行车途中若是车机对用户发出的语音识别错误,可能会导致导航错误,影响用户驾车情绪,增大行车风险。因此,需要一种在行车途中,能够克服环境因素提高语音识别的准确率的方法。


技术实现要素:

4.本技术实施例提供一种电子设备及其语音识别方法和介质,能够提高语音识别的准确率。
5.本技术的第一方面提供了一种电子设备的语音识别方法,包括:获取用户的面部深度图像和待识别语音,其中,面部深度图像是通过深度相机采集的图像;从面部深度图像中识别出口型特征,并从待识别音频中识别出语音特征;将语音特征和口型特征融合成音视频特征,并根据音视频特征识别出用户发出的语音。
6.在该方法中,由于从面部深度图像中提取的口型特征不受环境光线的影响,能够更加准确地反映出用户发出语音时的口型变化,通过将从面部深度图像中提取的口型特征和语音特征相融合,能够提高语音识别的准确率。
7.户的面部发射红外光脉冲并获取经用户的面部反射后的红外光脉冲;通过发出以及反射的红外光脉冲的相位的变化计算出时间差;结合红外光脉冲的传播速度计算以及时间差计算出用户的面部的深度信息;将深度信息保存为用户的面部深度图像。
8.在上述第一方面的一种可能的实现中,深度信息是用户的面部到电子设备之间最大深度距离和最小深度距离之间进行均匀量化形成的数值。
9.在上述第一方面的一种可能的实现中,从面部深度图像中识别出口型特征,包括:对面部深度图像进行去噪处理,基于去噪后的面部深度图像中各像素的深度信息,对面部深度图像进行二值化处理,得到二值化图像;确定二值化图像中的嘴唇的轮廓,从嘴唇的轮廓分割出嘴唇。
10.在该方法中,通过将面部深度图像中的每个像素点的深度信息转换为单通道黑白图,并做归一化处理,最后将得到的黑白图像进行二值化处理,得到二值化图像。在上述二值化图像中可以更准确地获取用户的嘴唇。
11.在上述第一方面的一种可能的实现中,通过卷积神经网络获取嘴唇对应的口型特征。
12.在上述第一方面的一种可能的实现中,从所述面部深度图像中识别出口型特征,包括:
13.从所述面部深度图像中分离出嘴唇区域子图像;
14.将所述嘴唇区域子图像输入卷积神经网络获取所述嘴唇区域子图像对应的口型特征。
15.在该方法中,在从面部深度图像中提取出用户的嘴唇区域子图像后,对嘴唇区域子图像可以不进行二值化,直接把嘴唇区域子图像输入视频神经网络模型计算出口型特征。
16.在上述第一方面的一种可能的实现中,对待识别语音进行语音识别,获取待识别语音中的语音特征,包括:通过线性预测器从待识别语音中分离出第一频段范围部分和第二频段范围部分,其中,第一频段范围部分包含的频段的频率低于第二频段范围部分包含的频段的频率;将从第一频段范围部分中提取的第一语音特征和从第二频段范围部分中提取的第二语音特征中的至少一种,作为待识别语音的语音特征。
17.在该方法中,将待识别语音中表示声道特征的低频部分或者说声道信号(第一频段范围部分)和表示声源特征的高频谐波部分或者说声源信号(第二频段范围部分)分离开来,分别提取语音特征。
18.在上述第一方面的一种可能的实现中,将第一语音特征和第二语音特征进行融合得到语音特征在上述第一方面的一种可能的实现中,通过模拟人耳耳蜗感知能力的语音特征提取算法从第一频段范围部分中提取第一语音特征;模拟人耳耳蜗感知能力的语音特征提取算法为梅尔频率倒谱系数mfcc提取法,并且第一语音特征为梅尔频率倒谱系数mfcc。
19.在该方法中,将待识别语音分离成第一频段范围部分和第二频段范围部分可以避免高频谐波部分对例如梅尔频率倒谱系数mfcc这种模拟人耳耳蜗感知能力的特征提取算法的干扰,以提高音频识别的准确度。
20.在上述第一方面的一种可能的实现中,通过小波变换从第二频段范围部分中提取第二语音特征,其中第二语音特征为通过小波变换得到的时频特征。
21.通过小波变换对该待识别语音中通过线性预测器分离出来的声源信号进行时频特征参数提取,可以有效表征发出该待识别语音的用户的声源特性。
22.在上述第一方面的一种可能的实现中,第一频段范围部分表征发出音频的发声物体的声道的特征,第二频段范围部分表征发声物体的声源的特征。
23.在上述第一方面的一种可能的实现中,通过线性预测器从音频中分离出第一频段范围部分和第二频段范围部分,包括:通过线性预测器从音频中分离出第一频段范围部分,并将分离出第一频段范围部分后音频的剩余部分,作为第二频段范围部分。
24.在上述第一方面的一种可能的实现中,将语音特征和口型特征融合成音视频特征,包括:
25.获取语音特征和口型特征对应的语音特征矩阵和口型特征矩阵,语音特征矩阵和口型特征矩阵的维度是相同的;通过串连的方式计算出语音特征矩阵和口型特征矩阵对应的音视频特征。
26.在上述第一方面的一种可能的实现中,将语音特征矩阵的值和口型特征矩阵的值通过进行加权计算获得音视频特征。
27.在该方法中,通过融合的方式,同时采用语音特征和口型特征进行语音识别。例如,可以将两者进行线性融合,通过串连的方式,组合成音视频特征。或者将二者进行归一化处理后再进行线性融合,还可以将二者进行加权后再进行线性融合,组合成音视频特征。
28.在上述第一方面的一种可能的实现中,根据音视频特征识别出用户的语音,包括:通过卷积神经网络获取音视频特征对应的语音特征值,语音特征值用于表示语音所表示的信息的概率;基于信息的概率识别出用户发出的语音。
29.在该方法中,通过卷积神经网络对音视频特征计算其对应的特征值,在计算出的特征值与语音所表示的信息的概率进行判断;基于特征值与概率之间的差异识别出用户发出的语音。
30.在上述第一方面的一种可能的实现中,通过时序分类算法对语音特征值进行去重复计算,去除语音特征值中包含的重复信息。
31.本技术的第二方面提供了一种电子设备,包括:
32.深度相机,深度相机用于获取用户的面部深度图像;
33.音频采集设备,音频采集设备用于获取用户的待识别语音;
34.处理器和存储器,处理器和存储器耦合,存储器存储有程序指令,当存储器存储的程序指令被处理器执行时使得电子设备控制深度相机和音频采集设备执行前述第一方面提供的语音识别方法。
35.本技术的第三方面提供了一种计算机可读介质,计算机可读介质上存储有指令,该指令在计算机上执行时使计算机执行前述第一方面提供的语音识别方法。
附图说明
36.图1根据本技术的一些实施例,示出了一种通过本技术提供的方法进行语音识别的场景;
37.图2根据本技术的一些实施例,示出了本技术涉及的车机的硬件结构图;
38.图3根据本技术的一些实施例,示出了一种车机与服务器实现语音识别的流程图;
39.图4a根据本技术的一些实施例,示出了服务器对面部深度图像进行口型特征视提取的过程;
40.图4b根据本技术的一些实施例,示出了图4a描述的服务器对面部深度图像进行口型特征视提取的过程;
41.图5a根据本技术的一些实施例,示出了通过深度相机采集的深度信息来表示的深度图片;
42.图5b根据本技术的一些实施例,示出了通过人脸检测从图5a中获得的人脸区域;
43.图5c根据本技术的一些实施例,示出了通过从图5b的人脸区域上截取得到的唇部区域;
44.图5d根据本技术的一些实施例,示出了通过二值化方法从图5c的唇部区域得到的口型区域;
45.图6a根据本技术的一些实施例,示出了服务器对语音进行语音特征提取的过程;
46.图6b根据本技术的一些实施例,示出了图6a描述的服务器对语音进行语音特征提取的流程图;
47.图7a根据本技术的一些实施例,示出了通过端对端的语音特征深度神经网络模型进行语音特征提取的过程;
48.图7b根据本技术的一些实施例,示出了图7a描述的通过端对端的语音特征深度神经网络模型进行语音特征提取的流程图;
49.图8根据本技术的一些实施例,示出了一种通过融合的方式获得口型特征和语音特征的音视频特征的的流程图;
50.图9根据本技术的一些实施例,示出了一种电子设备的结构示意图。
具体实施方式
51.下面结合具体实施例和附图对本技术做进一步说明。可以理解的是,此处描述的具体实施例仅仅是为了解释本技术,而非对本技术的限定。此外,为了便于描述,附图中仅示出了与本技术相关的部分而非全部的结构或过程。应注意的是,在本说明书中,相似的标号和字母在下面的附图中表示类似项。
52.本技术的实施例包括但不限于一种融合音频视频的语音识别方法、装置和介质。为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术的实施方式作进一步地详细描述。
53.图1根据本技术的一些实施例,示出了一种电子设备的语音识别场景图。如图1所示,该语音识别场景包括:电子设备100采集用户发出的语音,同时电子设备100使用深度相机拍摄用户发出语音时的面部深度图像。接着,电子设备100将语音和面部深度图像发送给服务器200,服务器200从语音和面部深度图像中分别提取出用户的语音特征和口型特征,然后将用户的语音特征和口型特征融合成音视频特征,根据音视频特征识别出用户所发出的语音所表示的信息。由于从面部深度图像中提取的口型特征不受环境光线的影响,能够更加准确地反映出用户发出语音时的口型变化,通过将从面部深度图像中提取的口型特征和语音特征相融合,能够提高语音识别的准确率。
54.可以理解,在本技术的实施例中,电子设备100拍摄用户的面部深度图像所用的相机可以是各种深度相机,例如,基于结构光的深度摄像头、基于飞行时间测距法(time of flight,tof)的深度摄像头以及有红外补光灯的双目深度摄像头。例如,在图1所示的场景中,面部深度图像是通过深度相机向用户的面部发射红外光,通过接收经过面部反射后的红外光形成的,不受用户所处的环境光线的影响。
55.可以理解,电子设备100可以是膝上型计算机、台式计算机、平板计算机、手机、服务器、可穿戴设备、头戴式显示器、移动电子邮件设备、便携式游戏机、便携式音乐播放器、阅读器设备、车机或能够访问网络的其他电子设备。在一些实施方式中,本技术的实施例也可以应用于由用户穿戴的可穿戴设备。例如,智能手表、手环、首饰(例如,做成诸如耳环、手镯等装饰性物品的设备)或眼镜等,或者作为手表、手环、首饰或眼镜等的一部分。为了便于描述,下文以车机100为例进行说明。
56.服务器200可以是硬件服务器,也可以植入虚拟化环境中,例如,根据本技术的一些实施例,服务器200可以是在包括一个或多个其他虚拟机的硬件服务器上执行的虚拟机。
根据本技术的一些实施例,服务器200可以通过网络与电子设备100进行交互,例如向电子设备100发送数据和/或从电子设备100接收数据。
57.图2示出了适用于本技术的一种车机100的结构示意图。
58.如图2所示,车机100可以包括:音频模块110,扬声器110a,受话器110b,麦克风110c,耳机接口110d,深度相机120,处理器130,内部存储器140,外部存储器接口150,通用串行总线(universal serial bus,usb)接口160,充电管理模块170,传感器模块180,按键190,指示器191,显示屏192,以及用户标识模块(subscriber identification module,sim)卡接口193,天线1,天线2,移动通信模块194,无线通信模块195等。
59.车机100可以通过音频模块110,扬声器110a,受话器110b,麦克风110c,耳机接口110d,以及应用处理器等实现音频功能。例如音乐播放,录音等。
60.音频模块110用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块110还可以用于对音频信号编码和解码。在一些实施例中,音频模块110可以设置于处理器130中,或将音频模块110的部分功能模块设置于处理器130中。
61.扬声器110a,也称“喇叭”,用于将音频电信号转换为声音信号。
62.受话器110b,也称“听筒”,用于将音频电信号转换成声音信号。
63.麦克风110c,也称“话筒”,“传声器”,用于将声音信号转换为电信号。车机100可以设置至少一个麦克风110c。在本发明的实施例中,麦克风110c用于采集用户发出的语音。
64.耳机接口110d用于连接有线耳机。耳机接口110d可以是usb接口160,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,omtp)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the usa,ctia)标准接口。
65.车机100可以通过isp,深度相机120,视频编解码器,gpu,显示屏192以及应用处理器,拍摄采集用户发出的语音时的面部深度图像。
66.处理器130可以包括一个或多个处理单元,例如:处理器130可以包括应用处理器(application processor,ap),调制解调处理器,图形处理器(graphics processing unit,gpu),图像信号处理器(image signal processor,isp),控制器,视频编解码器,数字信号处理器(digital signal processor,dsp),基带处理器,和/或神经网络处理器(neural-network processing unit,npu)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
67.内部存储器140可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器140可以包括存储程序区和存储数据区。处理器130通过运行存储在内部存储器140的指令,和/或存储在设置于处理器中的存储器的指令,执行车机100的各种功能应用以及数据处理。在本发明的实施例中,内部存储器140可以用于存储本技术实施例中的各个神经网络模型。
68.外部存储器接口150可以用于连接外部存储卡,例如micro sd卡,实现扩展车机100的存储能力。外部存储卡通过外部存储器接口150与处理器130通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
69.电源管理模块170用于从车辆的供电设备对车机进行电源输入。
70.车机100的无线通信功能可以通过天线1,天线2,移动通信模块194,无线通信模块195,调制解调处理器以及基带处理器等实现。天线1和天线2用于发射和接收电磁波信号。
71.移动通信模块194可以提供应用在车机100上的包括2g/3g/4g/5g等无线通信的解决方案。
72.无线通信模块195可以提供应用在车机100上的包括无线局域网(wireless local area networks,wlan)(如无线保真(wireless fidelity,wi-fi)网络),蓝牙(bluetooth,bt),全球导航卫星系统(global navigation satellite system,gnss),调频(frequency modulation,fm),近距离无线通信技术(near field communication,nfc),红外技术(infrared,ir)等的无线通信的解决方案。无线通信模块195经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器130。
73.按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。车机100可以接收按键输入,产生与车机100的用户设置以及功能控制有关的键信号输入。
74.指示器191可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
75.sim卡接口195用于连接sim卡。sim卡可以通过插入sim卡接口195,或从sim卡接口195拔出,实现和车机100的接触和分离。车机100通过sim卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,车机100采用esim,即:嵌入式sim卡。esim卡可以嵌在车机100中,不能和车机100分离。
76.下面结合图3来详细说明基于融合音频视频的语音识别方法。
77.当用户正在驾驶汽车时,用户向车机100说出语音指令,例如,用户发出“打开导航”的声音,车机100通过麦克风110c以及深度相机120采集用户的语音以及面部深度图像,并将语音和面部深度图像发送给服务器200。服务器200从语音以及面部深度图像中识别出用户发出的语音指令为“打开导航”后,车机100启动安装的导航app。具体的,上述语音识别方法包括:
78.s301:车机100进入语音识别模式。
79.用户可以通过设置在车辆中的具有语音识别触发功能的按键,向车机100发送语音识别触发指令,使车机100进入语音识别模式。该按键可以是设置在车辆方向盘上的硬按键,也可以是车机100上的按键190。
80.在本技术的另一实施例中,用户也可以通过与车机100交互,使车机100进入语音识别模式。例如,用户对着车机100说出“开启语音识别功能”,或是,车机100的显示屏192的人机交互界面上设置有具有语音识别触发功能的按钮,用户通过点击或滑动等方式触控该按钮以触发语音识别功能,使车机100进入语音识别模式。
81.s302:车机100通过麦克风110c以及深度相机120分别采集用户发出的语音以及用户发出该语音时的面部深度图像。
82.在语音识别模式的状态下,车机100监听用户向车机100发出的语音,例如:用户对车机100发出“打开导航”的语音,车机100可以通过麦克风110c对用户发出的语音进行采集并保存,同时,车机100通过深度相机120采集用户发出该语音时的面部深度图像,车机100将采集的面部深度图像保存。这里的面部深度图像是车机100通过深度感知技术使用深度相机120采集的用户发出语音时的面部深度图像。此外,在一些实施例中,车机100还可以把
语音和面部深度图像一起编码保存为一个文件。
83.可以理解,在其他实施例中,车机100还可以通过一个包括麦克风的音频采集装置采集用户发出的语音,该音频采集装置可以是车机100的一部分,或者是独立的装置。在音频采集装置是车机100外部独立的装置时,可以通过与车机100进行通信连接,将采集到的音频信号发送至车机100,例如:该音频采集装置可以是拾音器、录音话筒等。
84.此外,可以理解,在其他实施例中,车机100还可以通过一个包括深度相机的视频采集装置采集用户发出该语音时的面部深度图像,该视频采集装置可以是车机100的一部分,还可以是独立的装置。视频采集装置是独立于车机10之外的装置时,可以通过与车机100进行通信连接,将采集到的面部深度图像发送至车机100,例如:该视频采集装置可以是外接深度相机等。
85.接着,执行s303和s304。
86.s303:车机100将语音和面部深度图像发送给服务器200,服务器200对面部深度图像进行用户的口型特征提取,获取口型特征。
87.例如,在一些实施例中,服务器200先从面部深度图像中提取嘴唇区域子图像,再按照时间顺序将嘴唇区域子图像排列后输入视频特征神经网络中,通过该神经网络输出口型特征。这里的口型特征可以是一个n维数组。详细的提取过程将在下文进行介绍。
88.s304:服务器200对语音对应的语音进行语音特征提取。
89.例如,在一些实施例中,服务器200将可以通过将语音转换为数组形式的音频数据后进行短时傅里叶变换,获取音频数据对应的短时傅里叶变换系数(short-time fourier transform,stft),再按照时间顺序将音频数据输入语音特征神经网络中,通过该神经网络输出语音特征。这里的语音特征也可以是一个n维数组。详细的提取过程将在下文进行介绍。
90.然后,执行s305:服务器200将口型特征和语音特征进行融合计算后,获得口型特征和语音特征的融合后的音视频特征。
91.例如,在一些实施例中,可以通过串连或者加权的融合算法对口型特征和语音特征进行计算,获得音视频特征。上述融合算法通过对同一时段提取的用户的口型特征和语音特征进行融合获得音视频特征,之后,服务器200可以基于该音视频特征识别出用户的语音。详细的融合过程和识别过程将在下文进行介绍
92.对于上述步骤303,在一些实施例中,图4a示出了服务器200对面部深度图像进行用户的口型特征视提取,获取口型对应的特征的方式的过程。如图4b所示,其具体的步骤包括:
93.s303a:从面部深度图像中提取出用户嘴唇区域的嘴唇区域子图像。
94.在本技术的实施例中,车机100可以基于如上文s302中描述的采集时长采集用户的面部深度图像。该采集时长也就是用户从开始向车机100发出语音到语音结束的时长。例如,车机100的深度相机采集了一段帧数为每秒24帧时长为3秒的视频,则该视频包含72张面部深度图像。在该面部深度图像中,用户的面部是通过深度相机120采集的深度信息来表示的。如图5a和图5b所示,深度信息按照用户的面部到深度相机120之间最大深度距离和最小深度距离之间进行均匀量化成0-255范围内的数值,就可以得到上述的面部深度图像,其中颜色越浅代表离摄像头近,颜色越深代表离摄像头远。从图5b可以看出,在用户发出语音
时,用户的嘴唇区域的深度信息区别于嘴唇周围的区域的深度信息。
95.在本技术的实施例中,服务器200可以先对面部深度图像中的嘴唇进行初步的感兴趣区域(region of interest,roi)定位,得出嘴唇区域。例如,如图5c所示,可以定义感兴趣区域为检测到的面部矩形框高度的三分之一和中间宽度的一半处。
96.s303b:对提取出的用户的嘴唇区域子图像除去干扰信息从而获得的口型样本。具体地,该过程包括:
97.a)服务器200对嘴唇区域子图像进行去噪、平滑、直方图均衡化的处理。
98.服务器200可以采用去噪,平滑,直方图均衡化中的一种或几种方式对嘴唇区域子图像进行处理,使得助于提高后继的人脸信息提取。下面以对嘴唇区域子图像进行去噪为例进行说明,去噪是指减少嘴唇区域子图像中噪声的过程,服务器200可以采用高斯滤波的技术对嘴唇区域子图像进行去噪减噪过程。高斯滤波就是对嘴唇区域子图像进行加权,通过扫描嘴唇区域子图像中的每一个像素点,用该像素点的邻近区域的其他像素点的加权平均深度信息去替代该像素点的值,实现对嘴唇区域子图像的去噪处理。
99.此外,可以理解,虽然上述实施例以高斯滤波的技术为例进行图像去噪,但是,在一些实施例中,也可以根据中值滤波,均值滤波等去噪方法对嘴唇区域子图像进行去噪。
100.在本发明的另一些实施例中,服务器200还可以对嘴唇区域子图像进行平滑、直方图均衡化的处理。对进行平滑、直方图均衡化的处理也是为了去除嘴唇区域子图像内的噪声,服务器200可以通过低通滤波的方式对嘴唇区域子图像进行平滑处理,低通滤波可以过滤掉嘴唇区域子图像中高频的干扰噪声。而直方图均衡化可以使得嘴唇区域子图像的深度信息分布均匀,可以增强嘴唇区域子图像的对比度。
101.b)将嘴唇区域子图像中的每个像素点的深度信息转换为单通道黑白图,并做归一化处理。再将得到的黑白图像进行二值化处理,如图5d所示,得到二值化图像,其中,进行二值化处理所采用的二值化阈值,可以根据实际情况进行设置。在进行二值化处理时,若像素点的深度信息大于二值化阈值则将该像素点的深度信息设置成255(或者其他最大灰度值),此时对应的颜色为白色,反之,如果像素点的深度信息小于二值化阈值,则将该像素点的深度信息设置为0,此时对应的颜色为黑色。不同阈值下,可以得到不同的二值化后的口型样本。在上述二值为0和255的情况下,口型样本可以通过0和255的数值序列来表示。例如,对于用户发出的语音“打开导航”中的“打”字,其对应的数值序列可以是(0,255,

,255)。
102.c)将每一个口型样本,按照时间顺序排列,得到上述采集时长内的表示用户口型变化的口型样本的集合。例如,对于用户发出的语音“打开导航”对应的口型样本的集合可以是“打开导航”中每一个字组成的4维数值序列,该4维数值序列可以是[(0,255,

,255),(0,0,

,255),(0,255,

,0),(255,0,

,255)]。
[0103]
s303c:将用户口型变化对应的口型样本输入视频神经网络模型计算出口型特征。
[0104]
这里的视频神经网络模型,可以是一种卷积神经网络,该模型的输入值可以是从图像中获取的口型样本,计算出输入口型样本对应的口型特征。该模型的输出层可以包含n个卷积核,从该模型输出的口型特征可以通过一个n维的数组的表示。这里的n是可以配置的。例如,对于“打”字的口型样本,其通过该模型输出的口型特征可以是tv(v1,...,vn)。这里的v是一个浮点数。
[0105]
可以理解,在一些实施例中,该视频神经网络模型是通过训练获得的,训练的过程包括:服务器200可以将用户发出的语音对应的用户口型变化的口型样本按时间顺序先后排列,输入视频神经网络模型对视频神经网络模型进行训练。例如,服务器200将车机100采集到的用户发出的语音“打开导航”对应的用户口型变化的口型样本输入视频神经网络模型,然后将模型的输出(即采用语音“打开导航”对应的用户口型变化的口型样本对模型进行训练的训练结果)和表征语音“打开导航”的口型特征进行比较,求出误差(即二者之间的差值),根据该误差来更新视频神经网络模型的权重。直至最后模型的输出表征语音“打开导航”的口型特征时,认为模型训练完成。可以理解,还可以输入其他语音对应的用户口型变化的口型样本对模型进行训练,从而在大量的样本场景的训练中,通过不断的调整权重,在输出的误差达到一个很小的值时(例如,满足预定误差阈值),认为神经网络模型收敛,训练出了视频神经网络模型。
[0106]
可以理解,上述s303b中通过二值化处理方法将嘴部区域子图像转化为二值化图像只是一种实施例。在本技术的另一个实施例中,在从面部深度图像中提取出用户的嘴唇区域子图像后,如图5c所示,对嘴唇区域子图像可以不进行二值化,直接把嘴唇区域子图像输入视频神经网络模型计算出口型特征。
[0107]
对于上述步骤304,在一些实施例中,图6a示出了服务器200对语音进行语音特征提取,获取语音对应的语音特征的过程。如图6b所示,其具体的步骤包括:
[0108]
s304a:将语音转换为音频数据。
[0109]
服务器200可以基于如上文s302中描述的采集时长采集语音。采集语音的采集时长与s303中车机100采集的视频的采集时长是相同的。服务器200将采集的语音转化为音频数据。这里的音频数据是从语音中读取出来的,音频数据的格式是一个一维数组,长度是由采集时长和采样率决定。例如,采样率是8khz的情况下,表示车机100在一秒钟内采样8000个数据值,如果用户发出的语音“打开导航”的采集时长是2秒,那么音频数据中就包括16000个数据值,这里的数据值可以表示音频的振幅。
[0110]
接下来对采集到的音频数据进行分帧处理,服务器200可以基于上文s302中的采集面部深度图像数据的帧数该对2秒时长的音频数据进行分帧处理,也就是基于一个分帧阈值把音频数据等分,例如,在每秒24帧的情况下,2秒时长的音频数据,也可等分为48帧。
[0111]
s304b:通过音频系数提取算法将音频数据转换为与该算法对应的系数。
[0112]
对每一帧的音频数据,通过语音特征提取算法分别生成描述用户语音的系数t1。服务器200通过对音频数据进行短时傅里叶变换)系数转换,生成语音的短时傅里叶系数t1。这里的短时傅里叶系数t1可以是一个维度大小为(h1*h2)的数组(h1,h2),h1可以是音频数据的帧数,h2可以是短时傅里叶变换的参数。
[0113]
在本技术的另一实施例中,服务器200还可以通过线性预测编码(linear predictive coding,lpc)特征、线性预测倒谱系数(linear predictive cepstral coefficients,lpcc)特征和线性预测梅尔频率倒谱系数(linear prediction based mel frequency cepstral coefficient,lbpmfcc)特征等特征提取算法对音频数据进行系数提取。
[0114]
s304c:将音频数据对应的系数输入语音神经网络模型计算出音频数据对应的语音特征。
[0115]
这里的语音神经网络模型可以为卷积神经网络(convolutional neural network,cnn)、深度神经网络(deep neural networks,dnn)、循环神经网络(recurrent neural network,rnn)和时间递归神经网络(long short-term memory,lstm)等。在语音神经网络模型为卷积神经网络的情况下,该神经网络可以包括多个卷积层、池化层以及输出层,该神经网络的输入数据为采用s304b中任一种系数提取算法提取stft系数后的音频数据。用户语音的音频数据的系数在输入该该神经网络后,获得对应的语音特征。在本技术的实施例中,该模型的输出层可以包含n个卷积核,从该模型输出stft系数对应一个n维的数组。这里的n也是可以配置的。例如,用户发出时长2秒的语音“打开导航”,其中,“打”字对应时长0.5秒的音频数据,对该音频数据提取stft系数后,其通过该模型输出的语音特征可以是ta(a1,...,an)。这里的a也可以是一个浮点数。
[0116]
在一些实施例中,语音神经网络模型可以是已经训练好的神经网络模型,该语音神经网络模型的训练的过程可以与上述步骤s303c中对视频神经网络模型的训练过程相似,包括:服务器200可以将用户发出的语音对应的stft系数按时间顺序先后排列,输入语音神经网络模型对视频神经网络模型进行训练。例如,服务器200将车机100采集到的用户发出的语音“打开导航”对应的stft系数输入语音神经网络模型,然后将模型的输出和表征语音“打开导航”的语音特征进行比较,求出误差,根据该误差来更新语音神经网络模型的权重。直至最后模型的输出表征语音“打开导航”的语音特征时,认为模型训练完成。
[0117]
对于上述步骤304,在另一些实施例中,图7a示出了服务器200对用户发出的语音进行语音特征提取的另一种方法。与步骤304中描述的语音特征提取方法的不同之处在于,该方法通过使用端对端的语音特征深度神经网络模型直接对用户发出的语音进行语音特征提取。其具体步骤如图7b所示,包括:
[0118]
s304e:将用户发出的语音转换为音频数据
[0119]
车机100可以采用s304a中的采集时长和采样率将采集的用户发出的语音转化为音频数据,之后,车机100将音频数据发送给服务器200。
[0120]
s304f:将音频数据输入语音特征深度神经网络模型计算出语音特征。
[0121]
这里的语音特征深度神经网络模型可以为深度神经网络(deep neural networks,dnn),神经网络可以包括多个卷积层、池化层以及输出层。与s304c中的语音神经网络模型的不同之处在于,语音特征深度神经网络模型的输入数据是用户发出的语音对应的音频数据,不需要对音频数据提取对应的stft系数。
[0122]
服务器200将音频数据输入训练好的语音特征深度神经网络模型,利用模型计算出音频数据对应的语音特征值ta。该模型的输出层可以包含n个卷积核,从该模型输出的每一音频数据对应一个n维的数组。这里的n是可以配置的语音特征。这里的ta的格式和内容可以与步骤s304c中的相同。每一个音频数据对应的语音特征ta也可以通过一个n维数组来表示,
[0123]
在一些实施例中,语音特征深度神经网络模型可以是已经训练好的神经网络模型。其训练过程可以与s304c中对语音神经网络模型的训练过程类似,包括:服务器200将车机100采集到的用户发出的语音“打开导航”的音频数据输入语音特征深度神经网络模型,然后将模型的输出和表征语音“打开导航”的语音特征进行比较,求出误差,根据该误差来更新语音特征深度神经网络模型的权重。直至最后模型的输出表征语音“打开导航”的语音
特征时,认为模型训练完成。
[0124]
在本技术的另一实施例中,服务器200可以仅基于一个采集时长采集语音以及面部深度图像数据而无需通过同一个分帧阈值对语音以及面部深度图像数据进行分帧。例如,服务器200可以将采集时长为2秒的面部深度图像数据以及对应的语音分别输入视频神经网络和语音神经网络,获取对应的视频特征和语音特征。
[0125]
同时,语音神经网络和视频神经网络的输出层可以包含不同数量的卷积,例如,语音神经网络的输出层包含n个卷积核而视频神经网络的输出层包含m个卷积核,在这种情况下,语音神经网络输出的语音特征是一个n维数组,而视频神经网络输出的视频特征是一个m维数组。
[0126]
对于上述步骤305,在一些实施例中,服务器200将口型特征和语音特征进行融合计算后,输入音视频融合模型,获得口型特征和语音特征的音视频特征的方式如图8所示。具体包括:
[0127]
s305a:获取口型特征和语音特征对应的矩阵。
[0128]
例如,这里的口型特征和语音特征,是通过同一个采集时长采集并且按照同一个分帧阈值进行采集、分帧后获取的。在视频神经网络和语音神经网络的输出层相同的情况下,口型特征和语音特征对应的特征ta和tv所组成的矩阵的维度也是相同的,例如,上述语音神经网络以及视频神经网络生成的每个特征ta和tv都是n维的,特征ta和tv所组成的矩阵的大小是n维的。通过将ta和tv所组成的向量的矩阵进行融合计算,得到音视频特征。
[0129]
语音特征的矩阵:
[0130][0131]
口型特征的矩阵:
[0132][0133]
s305b:将语音特征和口型特征进行串连后,计算出音视频特征。
[0134]
音视频特征的计算的算法如下,分别对音频和口型特征对应的矩阵提取列向量,将两个矩阵对应的列的值进行串连计算。语音特征的矩阵与口型特征的矩形进行串连后,获得音视频特征
[0135][0136]
在一些实施例中,如上述描述的维度不同语音特征的矩阵与口型特征的矩形,对这类语音特征和口型特征也可以通过串连的方法进行融合计算,例如,对n维的语音特征的矩阵:
[0137][0138]
m维的口型特征的矩阵:
[0139][0140]
进行融合后,获得的音视频特征可以如下所示
[0141][0142]
在本技术的另一个实施例中,可以将语音特征和口型特征的矩阵进行加权计算后获得音视频特征。例如,可以通过如下公式获得这里的α是权重值。
[0143]
s305c:获取音视频特征对应的语音特征值。
[0144]
将音视频特征输入一个语音特征神经网络模型。该模型的输出层包括至少一个全连接层,每一个全连接层可以包含m个节点,从该模型输出的音视频特征对应一个m维的数组。这里的m是可以配置的。之后,语音特征神经网络模型将音视频特征对应的m维的数组输入softmax层,该softmax层用于对音视频特征进行归一化处理,也就是计算获取的音视频特征对应的m维的数组中每一个元素在上述语音特征神经网络模型中的保存的语音所表示的信息,也就是文字对应的数值总和中所占的比例,得到的是一个音视频特征的概率,其中,m维的数组中每个元素的比例都在(0,1)之间,也就是音视频特征经过softmax层后获得音视频特征对应的文字的概率,即,语音特征值。例如,对于音视频特征(2,4,12,15)语音特征神经网络模型中的保存的文字对应的数值总和为100的情况下,该音视频特征经过softmax层后获得的语音特征值为(0.02,0.04,0.12,0.15)。
[0145]
在本技术的另一些实施例中,服务器200还可以通过线性预测的方法将用户发出的语音中的低频部分(表征发出该语音的发声物体,也就是用户的声道的特征)和高频谐波部分(表征发出该语音的发声物体,也就是用户的声源的特征)进行分离,再对分离出来的低频部分和高频谐波部分分别采用对应的特征提取算法进行特征提取,得到对应于该音频低频部分(以下简称为声道信号)的低音频特征和对应于高频谐波部分(以下简称为声源信号)的高音频特征。最后将声道信号的低音频特征和声源信号的高音频特征进行融合得到用户的语音特征。
[0146]
例如,以服务器200对用户发出的语音的特征参数提取为例,在一些实施例中,服务器200利用阶线性预测器来分离出用户发出的语音中的声道信号。通过求出用户发出的语音与声道信号的差值,即可得到用户发出的语音中的声源信号。
[0147]
之后,服务器200对从用户发出的语音中分离出来的声道信号和声源信号分别进行特征提取。例如,采用如s304b中描述的特征提取方式,对用户发出的语音中分离出来的
声道信号进行短时傅里叶变换提取,获取声道信号对应的短时傅里叶变换系数。对用户发出的语音中分离出来的声源信号,服务器200采用多尺度小波变换对其进行时频特征向量提取。
[0148]
可以理解,也可以通过其他模拟人耳耳蜗感知能力的音频特征提取算法来提取上述声道信号的声道特征,例如线性预测倒谱系数(linear prediction cepstrum coefficien,lpcc)提取算法。除了小波变换,也可以采用其他算法提取声源信号中的时频特征向量,在此不做限制,例如,基音周期的提取方法。
[0149]
最后,服务器200将声道信号中提取的短时傅里叶变换系数和声源信号中提取的时频特征向量进行融合,得到语音的语音特征。例如,在一些实施例中,可以将短时傅里叶变换系数与时频特征向量进行线性融合,组合成特征向量,或者将二者进行归一化处理后再进行线性融合,还可以将二者进行加权后再进行线性融合。在其他实施例中,也可以将二者进行非线性融合,例如将二者进行相乘运算。在具体实现过程中,可以根据需要预先设定融合规则,本方案对此不做限定。
[0150]
此外,在另一些实施例中,在服务器200对从用户发出的语音中分离出来的声道信号和声源信号后,可以仅对声道信号进行短时傅里叶变换提取,获取声道信号对应的短时傅里叶变换系数。将该短时傅里叶变换系数作为语音的语音特征。也可以仅对声源信号采用多尺度小波变换对其进行时频特征向量提取,将声源信号的时频特征向量作为语音的语音特征。
[0151]
在从融合后的音视频特征中获取语音特征值后,s306:服务器200从语音特征值中识别出用户发出的语音。
[0152]
在语音特征神经网络模型获取了语音特征值后,可以通过语音识别的神经网络模型识别出语音特征值对应的语音,该神经网络采用时序分类算法(connectionist temporal classification,ctc)对语音特征值,也就是文字的概率进行去重复计算。语音特征值对应的语音都是按照时间顺序排列的,通过时序分类算法可以去除语音特征值中相邻的并且重复的文字。最后,通过从通过时序分类算法计算后的语音特征值中识别出用户发出的语音对应的文字。在一些实施例中,在识别出用户发出的语音对应的文字后,服务器200将文字返回给车机100,车机100可以执行与语音对应的指令,例如,在服务器200识别出用户发出的语音对应的文字是“打开导航”后,车机100启动自身安装的导航app,并将导航app的界面显示在车机100的屏幕中。
[0153]
在本发明的另一实施例中,车机100可以通过麦克风110c以及深度相机120采集用户的语音以及面部深度图像后,车机100通过自身处理器130执行存储在内部存储器140中的深度神经网络,从语音以及面部深度图像中识别出“打开导航”的语音后,车机100启动安装的导航app。
[0154]
除了100车机以外,在车辆中还可以直接通过手机的麦克风采集用户发出的语音以及通过手机的深度摄像头拍摄用户发出语音时的面部深度图像。之后,手机从语音和面部深度图像中分别提取出用户的语音特征和口型特征,然后将用户的语音特征和口型特征融合成音视频特征,根据音视频特征识别出用户的语音。例如,用户在驾驶过程中,对手机发出“打开导航”的语音,手机通过将“打开导航”的语音以及用户发出的语音时的面部深度图像相融合,识别出“打开导航”的文字后,手机启动导航app。
[0155]
可以理解,本发明的语音识别方法除了应用在上述车机100中,本发明的方案还可以应用在另一些环境光变化较大的场景下进行语音识别,例如,商场内的导购机器人,再如,医院中的导诊机器人。下面以商场内的导购机器人通过用户的语音以及用户发出语音的面部深度图像为例,对本发明的语音识别过程进行介绍。
[0156]
a:进入商场的用户可以通过设置在导购机器人的具有语音识别触发功能的按键,向导购机器人发送语音识别触发指令,使导购机器人进入语音识别模式。该按键可以是设置在导购机器人上的硬按键,也可以是导购机器人的显示屏的人机交互界面上设置有具有语音识别触发功能的按钮。
[0157]
例如,用户按下导购机器人的语音识别按键后,对着导购机器人说出“开启语音识别功能”使导购机器人进入语音识别模式。
[0158]
b:导购机器人通过麦克风以及深度相机分别采集用户发出的语音以及用户发出该语音时的面部深度图像。
[0159]
例如:用户对导购机器人发出“运功用品在几楼”的语音,导购机器人可以通过麦克风对用户发出的语音进行采集并保存,同时,导购机器人通过深度感知技术的深度相机采集用户发出该语音时的面部深度图像。
[0160]
c:导购机器人对语音和面部深度图像进行用户的口型特征和语音特征提取。
[0161]
例如,导购机器人通过存储在自身的存储器内的特征神经网络模型,对用户发出“运功用品在几楼”的语音和用户发出语音时的面部深度图像进行口型特征和语音特征提取,该神经网络模型可以是预先训练获得的。在另一实施例中,导购机器人还可以将语音和面部深度图像发送给与导购机器人通信的服务器,由服务器对用户发出“运功用品在几楼”的语音和用户发出语音时的面部深度图像进行口型特征和语音特征提取。
[0162]
d:导购机器人将提取的口型特征和语音特征进行融合计算后,获得口型特征和语音特征的融合后的音视频特征,并基于该音视频特征识别出用户发出的语音
[0163]
例如,可以通过串连或者加权的融合算法对口型特征和语音特征进行计算,获得音视频特征。然后通过存储在自身的存储器内的语音神经网络模型,识别出该音视频特征识对应的用户的语音。在识别出用户发出的语音对应的文字后,导购机器人可以执行与语音对应的指令,在导购机器人识别出用户发出的语音对应的文字是“运功用品在几楼”后,导购机器人通过扬声器,将“5楼”的应答语音发聩给用户。
[0164]
图9示出了可以实现上述车机100功能的另外一种电子设备100的结构示意图。
[0165]
电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,usb)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170a,受话器170b,麦克风170c,耳机接口170d,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,sim)卡接口195等。其中传感器模块180可以包括压力传感器180a,陀螺仪传感器180b,气压传感器180c,磁传感器180d,加速度传感器180e,距离传感器180f,接近光传感器180g,指纹传感器180h,温度传感器180j,触摸传感器180k,环境光传感器180l,骨传导传感器180m等。
[0166]
可以理解的是,本技术实施例示意的结构并不构成对电子设备100的具体限定。在本技术另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部
件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
[0167]
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,ap),调制解调处理器,图形处理器(graphics processing unit,gpu),图像信号处理器(image signal processor,isp),控制器,视频编解码器,数字信号处理器(digital signal processor,dsp),基带处理器,和/或神经网络处理器(neural-network processing unit,npu)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
[0168]
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
[0169]
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
[0170]
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,i2c)接口,集成电路内置音频(inter-integrated circuit sound,i2s)接口,脉冲编码调制(pulse code modulation,pcm)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,uart)接口,移动产业处理器接口(mobile industry processor interface,mipi),通用输入输出(general-purpose input/output,gpio)接口,用户标识模块(subscriber identity module,sim)接口,和/或通用串行总线(universal serial bus,usb)接口等。
[0171]
可以理解的是,本技术实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本技术另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
[0172]
充电管理模块140用于从充电器接收充电输入。电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
[0173]
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
[0174]
天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
[0175]
移动通信模块150可以提供应用在电子设备100上的包括2g/3g/4g/5g等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,lna)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对
经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
[0176]
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170a,受话器170b等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
[0177]
无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wireless local area networks,wlan)(如无线保真(wireless fidelity,wi-fi)网络),蓝牙(bluetooth,bt),全球导航卫星系统(global navigation satellite system,gnss),调频(frequency modulation,fm),近距离无线通信技术(near field communication,nfc),红外技术(infrared,ir)等的无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
[0178]
在一些实施例中,电子设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,gsm),通用分组无线服务(general packet radio service,gprs),码分多址接入(code division multiple access,cdma),宽带码分多址(wideband code division multiple access,wcdma),时分码分多址(time-division code division multiple access,td-scdma),长期演进(long term evolution,lte),bt,gnss,wlan,nfc,fm,和/或ir技术等。所述gnss可以包括全球卫星定位系统(global positioning system,gps),全球导航卫星系统(global navigation satellite system,glonass),北斗卫星导航系统(beidou navigation satellite system,bds),准天顶卫星系统(quasi-zenith satellite system,qzss)和/或星基增强系统(satellite based augmentation systems,sbas)。
[0179]
电子设备100通过gpu,显示屏194,以及应用处理器等实现显示功能。显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,lcd),有机发光二极管(organic light-emitting diode,oled),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的,amoled),柔性发光二极管(flex light-emitting diode,fled),miniled,microled,micro-oled,量子点发光二极管(quantum dot light emitting diodes,qled)等。在一些实施例中,电子设备100可以包括1个或n个显示屏194,n为大于1的正整数。
[0180]
电子设备100可以通过isp,摄像头193,视频编解码器,gpu,显示屏194以及应用处理器等实现拍摄功能。在一些实施例中,摄像头193可以是本技术实施例中的深度相机120,或者是结构光(structured light),亦或是激光发射器(time of flight,tof),用于采集
用户发出语音时的面部深度图像。
[0181]
外部存储器接口120可以用于连接外部存储卡,例如micro sd卡,实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
[0182]
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如语音数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,ufs)等。处理器110通过运行存储在内部存储器121的指令,和/或存储在设置于处理器中的存储器的指令,执行电子设备100的各种功能应用以及数据处理。在一些实施例中,内部存储器121可以用于存储本技术实施例中的音频以及视频特征的神经网络模型和语音识别的神经网络模型。
[0183]
电子设备100可以通过音频模块170,扬声器170a,受话器170b,麦克风170c,耳机接口170d,以及应用处理器等实现音频功能。例如音乐播放,录音等。
[0184]
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
[0185]
扬声器170a,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170a收听音乐,或收听免提通话。
[0186]
受话器170b,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时,可以通过将受话器170b靠近人耳接听语音。
[0187]
麦克风170c,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170c发声,将声音信号输入到麦克风170c。电子设备100可以设置至少一个麦克风170c。在另一些实施例中,电子设备100可以设置两个麦克风170c,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170c,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。在一些实施例中,麦克风170c可以是本技术实施例中的麦克风110c,用于采集用户发出语音。
[0188]
耳机接口170d用于连接有线耳机。耳机接口170d可以是usb接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,omtp)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the usa,ctia)标准接口。
[0189]
在一些实施例中,传感器模块180可以是本技术实施例中的传感器103,用于通过感知事件感应判断电子设备100所处的场景。
[0190]
指纹传感器180h用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
[0191]
触摸传感器180k,也称“触控器件”。触摸传感器180k可以设置于显示屏194,由触
摸传感器180k与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180k用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180k也可以设置于电子设备100的表面,与显示屏194所处的位置不同。
[0192]
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入,产生与电子设备100的用户设置以及功能控制有关的键信号输入。
[0193]
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
[0194]
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
[0195]
sim卡接口195用于连接sim卡。sim卡可以通过插入sim卡接口195,或从sim卡接口195拔出,实现和电子设备100的接触和分离。电子设备100可以支持1个或n个sim卡接口,n为大于1的正整数。sim卡接口195可以支持nano sim卡,micro sim卡,sim卡等。同一个sim卡接口195可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。sim卡接口195也可以兼容不同类型的sim卡。sim卡接口195也可以兼容外部存储卡。电子设备100通过sim卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,电子设备100采用esim,即:嵌入式sim卡。esim卡可以嵌在电子设备100中,不能和电子设备100分离。
[0196]
应当理解的是,虽然在本文中可能使用了术语“第一”、“第二”等等来描述各个特征,但是这些特征不应当受这些术语限制。使用这些术语仅仅是为了进行区分,而不能理解为指示或暗示相对重要性。举例来说,在不背离示例性实施例的范围的情况下,第一特征可以被称为第二特征,并且类似地第二特征可以被称为第一特征。
[0197]
此外,各种操作将以最有助于理解说明性实施例的方式被描述为多个彼此分离的操作;然而,描述的顺序不应被解释为暗示这些操作必须依赖描述的顺序,其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序也可以被重新安排。当所描述的操作完成时,所述处理可以被终止,但是还可以具有未包括在附图中的附加操作。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
[0198]
说明书中对“一个实施例”,“实施例”,“说明性实施例”等的引用表示所描述的实施例可以包括特定特征、结构或性质,但是每个实施例也可能或不是必需包括特定的特征、结构或性质。而且,这些短语不一定是针对同一实施例。此外,当结合具体实施例描述特定特征,本领域技术人员的知识能够影响到这些特征与其他实施例的结合,无论这些实施例是否被明确描述。
[0199]
除非上下文另有规定,否则术语“包含”、“具有”和“包括”是同义词。短语“a/b”表示“a或b”。短语“a和/或b”表示“(a)、(b)或(a和b)”。
[0200]
如本文所使用的,术语“模块”可以指代,作为其中的一部分,或者包括:用于运行一个或多个软件或固件程序的存储器(共享、专用或组),专用集成电路(asic),电子电路
和/或处理器(共享、专用或组),组合逻辑电路,和/或提供所述功能的其他合适组件。
[0201]
在附图中,可能以特定布置和/或顺序示出了一些结构或方法特征。然而,应当理解的是,这样的特定布置和/或排序不是必需的。而是,在一些实施例中,这些特征可以以不同于说明性附图中所示的方式和/或顺序来进行说明。另外,特定附图中所包含得结构或方法特征并不意味着所有实施例都需要包含这样的特征,在一些实施例中,可以不包含这些特征,或者可以将这些特征与其他特征进行组合。
[0202]
上面结合附图对本技术的实施例做了详细说明,但本技术技术方案的使用不仅仅局限于本专利实施例中提及的各种应用,各种结构和变型都可以参考本技术技术方案轻易地实施,以达到本文中提及的各种有益效果。在本领域普通技术人员所具备的知识范围内,在不脱离本技术宗旨的前提下做出的各种变化,均应归属于本技术专利涵盖范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献