一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

电子设备及用于电子设备的语音识别的方法与流程

2021-10-08 19:16:00 来源:中国专利 TAG:电子设备 韩国 专利申请 用于 引用

电子设备及用于电子设备的语音识别的方法
1.相关申请的交叉引用
2.本技术要求于2020年3月30日在韩国知识产权局提交的韩国专利申请no.10

2020

0038326的优先权,所述韩国专利申请的公开内容通过引用整体合并于此。
技术领域
3.本文描述的本发明构思的实施例涉及电子设备,并且更具体地,涉及包括用于在低功率模式下进行语音识别的数字麦克风接口电路的电子设备。


背景技术:

4.如今,随着人工智能相关技术的发展,出现了在诸如智能电话的电子设备中安装人工智能功能的趋势。例如,人工智能功能包括使用人工智能的语音识别、使用人工智能的图像处理等。在以上功能当中,可以以各种形式(例如,以触发电子设备的特定功能的命令、唤醒处于睡眠状态的电子设备的命令等的形式)利用语音识别。
5.在电子设备处于正常模式或高性能模式的情况下,通过使用语音信号的大部分数据来执行语音识别;然而,在电子设备处于低功率模式或睡眠模式的情况下,由于功耗问题,将要用在语音识别中的数据受到限制。因此,为了提高语音识别率,选择适当声压级(sound pressure level)的语音数据是很重要的。
6.然而,在通过麦克风从用户接收到语音信号之后,在稍后基于检查语音信号的增益的结果改变语音信号的增益时语音信号失真,从而导致在低功率模式下的语音识别率的降低。


技术实现要素:

7.本发明构思的实施例提供用于提高电子设备在低功率模式下的语音识别率的方法。
8.详细地,本发明构思的实施例提供了通过使用电子设备中的各种传感器来预先获取用户与电子设备之间的距离并且基于所获取的距离来调谐pcm信号的最大比例增益的方法。
9.根据示例性实施例,包括用于在低功率模式下进行语音识别的音频处理块的电子设备包括:数字麦克风以及数字麦克风(dmic)接口电路,所述数字麦克风从用户接收语音信号,并且将所接收到的语音信号转换为脉冲密度调制(pdm)信号。所述dmic接口电路包括:pdm

pcm转换块,所述pdm

pcm转换块将所述pdm信号转换为脉冲编码调制(pcm)信号;最大比例增益调谐块,所述最大比例增益调谐块基于在转换所述pdm信号之前获取的指示所述用户与所述电子设备之间的物理距离的距离信息,调谐从所述pdm

pcm转换块接收到的所述pcm信号的最大比例增益;以及抗混叠块,所述抗混叠块执行滤波以获取与从所述最大比例增益调谐块输出的pcm信号相关联的目标频带的语音数据。
10.根据示例性实施例,包括用于在低功率模式下进行语音识别的音频处理块的电子
设备包括:第一数字麦克风和第二数字麦克风,所述第一数字麦克风和所述第二数字麦克风被配置为从用户接收语音信号,并且将所接收到的语音信号分别转换为第一脉冲密度调制(pdm)信号和第二pdm信号;第一数字麦克风(dmic)接口电路,所述第一dmic接口电路接收所述第一pdm信号,将所述第一pdm信号转换为第一脉冲编码调制(pcm)信号,并且基于在接收到所述第一pdm信号之前获取的用户与所述电子设备之间的距离信息,调谐所述第一pcm信号的最大比例增益;以及第二dmic接口电路,所述第二dmic接口电路接收所述第二pdm信号,将所述第二pdm信号转换为第二pcm信号,并且基于与在接收到所述第一pdm信号之前获取的所述距离信息不同的另一距离信息,调谐所述第二pcm信号的最大比例增益。
11.根据示例性实施例,用于电子设备的语音识别的方法,所述电子设备包括数字麦克风(dmic)、dmic接口电路和传感器,所述方法包括:通过所述传感器获取用户与所述电子设备之间的距离信息;随后通过所述数字麦克风将来自所述用户的语音转换为脉冲密度调制(pdm)信号;随后通过所述dmic接口电路将所述pdm信号转换为脉冲编码调制(pcm)信号;通过所述dmic接口电路基于所获取的距离信息,对所转换的pcm信号的最大比例增益进行调谐;通过所述dmic接口电路执行滤波,以获取与所调谐的pcm信号相关联的目标频带的语音数据;以及通过语音识别模块基于所滤波的pcm信号执行语音识别。
附图说明
12.通过参照附图详细描述本发明构思的示例性实施例,本发明构思的上述以及其他目的和特征将变得容易理解。
13.图1示出根据本公开的实施例的电子设备的示例性配置。
14.图2概念性地示出由图1的电子设备处理的语音数据的各种示例。
15.图3详细示出图1的音频处理块的示例性配置。
16.图4和图5概念性地示出图3的最大比例增益调谐块的操作。
17.图6示出根据本发明构思的实施例的包括语音识别模块的电子设备的操作方法。
18.图7示出生成由图3的最大比例增益调谐块使用的距离相关信息的示例性配置。
19.图8示出生成由图3的最大比例增益调谐块使用的距离相关信息的示例性配置。
20.图9示出图7和图8的最大比例增益调谐块的示例性配置。
21.图10示出图7和图8的最大比例增益调谐块的示例性配置。
22.图11概念性地示出根据本公开的实施例的如何通过调谐最大比例增益改变动态范围和分辨率。
23.图12示出根据本公开的实施例的电子设备的示例性配置。
24.图13概念性地示出图12的音频处理块的最大比例增益调谐块的操作。
25.图14示出图12所示的电子设备的操作方法。
具体实施方式
26.以下,以使得本领域普通技术人员容易地实现本发明构思的程度来详细且清楚地描述本发明构思的实施例。
27.将利用软件、硬件或其组合来实现在具体实施方式中参照术语“单元”、“模块”、“块”、“引擎”、“~器或~机”等描述的组件以及附图中示出的功能块。例如,软件可以是机
器代码、固件、嵌入式代码或应用软件。例如,硬件可以包括电路、电子电路、处理器、计算机、集成电路、集成电路核、压力传感器、惯性传感器、微机电系统(mems)、无源元件或它们的组合。
28.图1示出根据本公开的实施例的电子设备的示例性配置。
29.电子设备1000可以包括各种电子电路。例如,电子设备1000的电子电路可以包括音频处理块1100、图像处理块1200、通信块1300、缓冲存储器1400、非易失性存储装置1500、用户接口1600、传感器1700、电源管理器1800和主处理器1900。例如,电子设备1000可以利用诸如智能手机、平板电脑或智能tv的个人电子设备来实现,但是实现语音识别的其他电子设备也可以构成电子设备1000。
30.音频处理块1100可以包括数字麦克风1110和数字麦克风(dmic)接口电路1120。音频处理块1100可以执行用于语音识别的处理。例如,音频处理块1100可以通过数字麦克风1110接收语音信号,并且可以通过使用dmic接口电路1120来处理数字麦克风1110的输出信号。
31.在电子设备1000的低功率模式下,dmic接口电路1120可以调谐具有有限位(limited bits)分辨率的脉冲编码调制(pcm)信号的最大比例增益(maxscale gain)。例如,调谐最大比例增益可以包括确定最大信号幅度,以及将增益设置为使得最大信号幅度在例如由dmic接口电路1120处理时处于刚好低于将发生语音识别的失真或失败的水平。最大比例增益将在下面详细描述。然而,在一些实施例中,为了防止语音识别率降低,dmic接口电路1120在语音识别处理期间不调谐最大比例增益。替代地,dmic接口电路1120可以基于由电子设备1000预先获取的关于电子设备1000与用户之间的距离(例如,物理距离)的信息,来调谐pcm信号的最大比例增益。例如,最大比例增益可以由主处理器1900或设置在音频处理块1100中的单独的音频专用处理器来计算。在一些实施例中,可以通过图像处理块1200、传感器1700等来获取电子设备1000与用户之间的距离值。
32.例如,在用户与电子设备1000之间的距离相对较近的情况下,dmic接口电路1120可以为了提高短距离识别率的目的而降低pcm信号的增益。相反,在用户与电子设备1000之间的距离相对较远的情况下,dmic接口电路1120可以为了提高远距离识别率的目的而增加pcm信号的增益。稍后将详细描述dmic接口电路1120的操作。
33.图像处理块1200可以包括透镜1210、图像传感器1220和图像信号处理器1230。图像处理块1200可以包括测量(或获取)用户与电子设备1000之间的距离的设备。例如,图像处理块1200可以利用飞行时间(tof)相机来实现。在这种情况下,图像传感器1220可以被称为“深度传感器”或“tof传感器”。由图像处理块1200获取的用户与电子设备1000之间的距离值可以存储在缓冲存储器1400中,并且dmic接口电路1120可以参考存储在缓冲存储器1400中的距离值来调谐pcm信号的最大比例增益。可选择地,图像处理块1200还可以包括cmos图像传感器(cis)、动态视觉传感器(dvs)等。距离可以被定期地或连续地测量和更新,和/或可以例如基于检测运动的运动传感器响应于距离的改变而被测量和更新。
34.在图1示出的示例中,图像信号处理器1230被包括在图像处理块1200中。然而,在另一实施例中,图像信号处理器1230可以被设置为图像传感器1220的一部分,可以被设置在不依赖于图像处理块1200的组件上,和/或可以设置为主处理器1900的一部分。例如,图像信号处理器1230执行的功能的至少一部分可以由主处理器1900来执行,或者图像信号处
理器1230执行的功能的至少一部分可以由主处理器1900中包括的另一图像信号处理器来执行。
35.通信块1300可以通过天线1310与外部设备/系统交换信号。通信块1300的收发器1320和modem(调制器/解调器)1330可以根据各种通信协议来处理交换的信号。例如,通信块1300的收发器1320和modem 1330可以根据诸如以下的无线通信协议来处理与外部设备/系统交换的信号:长期演进(lte)、全球互通微波接入(wimax)、全球移动通信系统(gsm)、码分多址(cdma)、蓝牙、近场通信(nfc)、无线保真(wi

fi)或射频识别(rfid)。然而,在另一实施例中,通信块1300可以被设置为主处理器1900的一部分。
36.缓冲存储器1400可以临时存储用于电子设备1000的操作的数据(例如,由主处理器1900处理或将要处理的数据)。例如,音频处理块1100和/或主处理器1900的语音识别处理结果、以及由图像处理块1200和/或传感器1700获取的用户与电子设备1000之间的距离值可以存储在缓冲存储器1400中。例如,缓冲存储器1400可以包括易失性/非易失性存储器,诸如,静态随机存取存储器(sram)、动态ram(dram)、同步dram(sdram)、相变ram(pram)、磁阻ram(mram)、电阻ram(reram)或铁电ram(fram)。
37.非易失性存储装置1500可以存储数据,而不管是否被持续供电。例如,非易失性存储装置1500可以包括非易失性存储器,诸如,闪存、pram、mram、reram或fram。例如,非易失性存储装置1500可以包括可移除存储器(诸如,硬盘驱动器(hdd)、固态驱动器(ssd)、安全数字(sd)卡或通用闪存(ufs)卡)、和/或嵌入式存储器(诸如,嵌入式多媒体卡(emmc))。图1的示例示出了非易失性存储装置1500包括嵌入式ufs 1510以及可通过嵌入式ufs 1510与主处理器1900连接的可移除ufs卡1520。然而,在实施例中,可移除ufs卡1520可以直接与主处理器1900连接。
38.用户接口1600使得用户与电子设备1000之间能够通信。例如,用户接口1600可以包括输入接口,例如,键区、按钮、触摸屏、触摸板、运动传感器或陀螺仪传感器。例如,用户接口1600还可以包括输出接口,诸如,有机led(oled)显示装置、有源矩阵oled(amoled)显示装置、液晶显示(lcd)装置、发光二极管(led)显示装置、led灯或电动机。
39.传感器1700可以感测在电子设备1000中或在电子设备1000周围发生的各种物理现象。例如,传感器1700可以包括能够测量用户与电子设备1000之间的距离的装置。例如,传感器1700可以包括:接近传感器,其通过使用电场或电磁波(例如,红外光)确定用户与电子设备1000之间的距离;超声传感器,其通过使用超声波确定用户与电子设备之间的距离等。同时,在图像处理块1200和传感器1700被用于测量用户与电子设备1000之间的距离的情况下,为了方便起见,图像处理块1200和传感器1700可以被称为“传感器”。
40.由传感器1700获取的用户与电子设备1000之间的距离值可以存储在缓冲存储器1400中,并且dmic接口电路1120可以参考存储在缓冲存储器1400中的距离值以调谐pcm信号的最大比例增益。传感器1700还可以包括用于测量电子设备1000的加速度的陀螺仪传感器、用于测量位置的位置传感器等。
41.电力管理器1800可以适当地转换从电池和/或外部电源接收的电力。电力管理器1800可以将转换后的电力提供给电子设备1000的组件。
42.主处理器1900可以执行各种操作,以控制电子设备1000的整体操作。主处理器1900可以基于从音频处理块1100输出的信号来执行语音识别。例如,主处理器1900可以驱
动语音触发引擎1910以执行语音识别。在实施例中,音频处理块1100和语音触发引擎1910可以被称为“语音识别模块”。在一些实施例中,主处理器1900可以利用应用处理器、通用处理器或专用处理器来实现,并且可以包括一个或更多个处理器核。
43.然而,提供图1中所示的示例性组件是为了更好地理解,而不旨在限制本公开。电子设备1000可以不包括图1中所示的一个或更多个组件,或者还可以包括图1中未示出的至少一个组件。此外,如上所述,图1的不同组件的一些功能可以由其他组件来执行,并且某些组件的功能可以被合并。
44.图2概念性地示出由图1的电子设备1000处理的语音数据的各种示例。
45.在电子设备1000处于正常模式或高性能模式(在下文中被称为“正常模式”)的情况下,电子设备1000可以对动态范围为146db的语音执行语音识别。例如,146db可以对应于从人类能够感知的最小的(例如,最安静的)声音到与他/她的耳朵感觉的疼痛的极限相对应的最大的(例如,最大声的)声音的范围。例如,动态范围为146db的语音可以通过dmic接口电路1120转换为24位数据,并且可以对应于由图2的(a)指示的语音区域。
46.在电子设备1000处于低功率模式或睡眠模式(在下文中被统称为“低功率模式”)的情况下,电子设备1000可以对动态范围为98db的语音执行语音识别。例如,在利用诸如智能电话或平板电脑的电子设备来实现电子设备1000的情况下,低功率模式可以包括用户不使用电子设备1000的状态(例如,待机状态)。例如,动态范围为98db的语音可以对应于主处理器1900在低功率模式下执行的语音识别的区域。
47.详细地,由(b)指示的语音区域示出了用户将其嘴唇放到电子设备1000的数字麦克风1110并发出声音(或词语)的情况,并且由(c)指示的语音区域示出了用户在与电子设备1000的数字麦克风1110相距1m的距离处发出声音(或词语)的情况。例如,由(b)指示的语音区域的上限与由(c)指示的语音区域的上限之间的差可以对应于由“d”指示的区域(大约21db),并且由(b)指示的语音区域的下限与由(c)指示的语音区域的下限之间的差可以对应于由“e”指示的区域(大约21db)。
48.在电子设备1000处于低功率模式的情况下,由于主处理器1900处理的语音区域的动态范围受到限制(例如,限制为16位),因此语音识别的成功率会根据用户的发声点与数字麦克风1110之间的距离而变化。例如,为了提高在距电子设备1000相对较近的距离处发出的语音的识别率,设置dmic接口电路1120以使得在由“d”指示的区域中的语音不丢失是很重要的。相反,为了提高在距电子设备1000相对较远的距离处发出的语音的识别率,设置dmic接口电路1120以使得在由“e”指示的区域中的语音不丢失是很重要的。
49.根据某些实施例,本公开的dmic接口电路1120不依靠预设的最大比例增益,于是在由主处理器1900识别出语音时或之后调谐pcm信号的最大比例增益。代替地,根据某些实施例,本公开的dmic接口电路1120依据预先获取的用户与电子设备1000之间的距离来确定最大比例增益,并且dmic接口电路1120在由主处理器1900执行语音识别之前调谐pcm信号的最大比例增益。于是,随后当语音识别开始并启动时,最大比例增益已经被设置,并且语音识别开始使用该增益,而无需在进行语音识别时调节增益。因此,因为在语音识别期间不改变增益,所以可以实现高语音识别率。
50.图3详细地示出图1的音频处理块1100的示例性配置。音频处理块1100可以包括数字麦克风1110和dmic接口电路1120。
51.数字麦克风1110可以从用户接收语音信号,并且可以将接收到的语音信号转换为数字信号。为此,数字麦克风1110可以包括模数转换块。例如,包括在数字麦克风1110中的模数转换块可以执行基于delta

sigma调制的模数转换,以获取高分辨率语音数据。
52.包括在数字麦克风1110中的模数转换块可以对通过数字麦克风1110输入的语音信号执行过采样。另外,数字麦克风1110可以对语音信号执行噪声整形。例如,包括在数字麦克风1110中的模数转换块可以包括:环路滤波器,其用于减少在将模拟语音信号转换为数字信号的过程中出现的量化误差。
53.数字麦克风1110可以输出通过上述过采样和噪声整形而被过采样的1位脉冲密度调制(pdm)信号。数字麦克风1110可以向dmic接口电路1120发送转换后的pdm信号。
54.dmic接口电路1120可以处理从数字麦克风1110接收的pdm信号,以便在低功率模式下由主处理器1900处理。为此,dmic接口电路1120可以包括pdm

pcm转换块1121、最大比例增益调谐块1122和抗混叠(anti

aliasing)块1123。
55.pdm

pcm转换块1121将从数字麦克风1110接收的pdm信号转换为特定位(例如,19位)的脉冲编码调制(pcm)信号。抗混叠块1123可以执行滤波以获取期望频带(或目标频带)的语音数据。例如,抗混叠块1123可以起到低通滤波器的作用。
56.然而,适合于主处理器1900在低功率模式下执行语音识别操作的pcm信号的位数(例如,16位)可以小于从dmic接口电路1120输出的pcm信号的位数(例如,19位)。因此,主处理器1900用于执行语音识别的pcm信号的区域会依据用户与电子设备1000之间的距离而变化。例如,当用户与电子设备1000之间的距离较近时,所关注的是构成pcm信号的位当中与最大声音相对应的最高有效位(msb)的丢失。相反,当用户与电子设备1000之间的距离较长时,所关注的是构成pcm信号的位当中的最低有效位(lsb)的丢失。
57.因此,在由主处理器1900执行语音识别之前,本公开的最大比例增益调谐块1122可以基于预先获取的用户与电子设备1000之间的距离值来调谐从pdm

pcm转换块1121输出的pcm信号的增益。例如,当用户与电子设备1000之间的距离较近时,最大比例增益调谐块1122可以减小pcm信号的最大比例增益。相反,当用户与电子设备1000之间的距离长时,最大比例增益调谐块1122可以增加pcm信号的最大比例增益。稍后将详细描述最大比例增益调谐块1122的操作。
58.图3中所示的功能块是示例性的,并且本发明构思不限于此。例如,与pdm

pcm转换块1121和抗混叠块1123由独立功能块实现的示例不同,dmic接口电路1120可以包括执行将pdm信号转换为pcm信号的操作和抗混叠操作的一个芯片或电路。
59.图4和图5概念性地示出图3的最大比例增益调谐块的操作。
60.在实施例中,图4与对应于用户与电子设备1000之间的距离相对较近的情况的处理相关联。例如,从pdm

pcm转换块1121输出的pcm信号可以是19位信号。pcm信号的lsb可以对应于从pdm

pcm转换块1121输出的信号的相对较低(例如,安静)的声音,而pcm信号的msb可以对应于从pdm

pcm转换块1121输出的信号的相对较高(例如,大声)的声音。
61.然而,pcm信号的位数不限于此。例如,pcm信号的位数可以小于电子设备1000在正常模式下执行语音识别时所使用的数据的位数(例如,24位)。pcm信号的位数可以小于电子设备1000在低功率模式下执行语音识别时所使用的数据的位数(例如16位)。
62.然而,因为将要由主处理器1900在低功率模式下处理的语音数据的位数被限制为

16”,因此并非从pdm

pcm转换块1121输出的所有数据都被主处理器1900处理。例如,当用户将他/她的嘴唇放到数字麦克风1110(参照图1)并发出声音(或词语)时,可以从pdm

pcm转换块1121输出与相对较高声音水平的区域相对应的数据,并且msb对于用户的语音识别会更为重要。
63.如图4所示,在用户与电子设备1000之间的距离相对较近的情况下,从pdm

pcm转换块1121输出的pcm信号的msb会在能够由主处理器1900处理的区域之外。因此,在不单独处理msb的情况下,主处理器1900可能通过使用由第2到第17位组成的数据来执行语音识别。在这种情况下,因为对应于较高声音水平的msb在语音识别中是相对重要的,因此语音识别率会降低。
64.本公开的最大比例增益调谐块1122可以基于在用户发声之前预先获取的关于用户与电子设备1000之间的距离的信息,减小从pdm

pcm转换块1121输出的pcm信号的增益。例如,最大比例增益调谐块1122可以以分贝(例如,0.25db)为单位而不是位(bit)为单位执行移位。因为要移位的值是在用户发声之前预先确定的,并且pcm信号的最大比例增益被调谐,因此在由主处理器1900执行语音识别的同时语音信号的增益不改变。因此,可以防止语音识别率降低。
65.在实施例中,图5可以与对应于用户与电子设备1000之间的距离相对较长的情况的处理相关联。例如,从pdm

pcm转换块1121输出的pcm信号可以是19位信号。pcm信号的lsb可以对应于从pdm

pcm转换块1121输出的信号的最安静的声音,并且pcm信号的msb可以对应于从pdm

pcm转换块1121输出的信号的最大声的声音。
66.如图5中所示,在用户与电子设备1000之间的距离相对较长的情况下,从pdm

pcm转换块1121输出的pcm信号的lsb会在能够由主处理器1900处理的区域之外。因此,在不单独处理lsb的情况下,主处理器1900可能通过使用由第1到第16位组成的数据来执行语音识别。在这种情况下,因为对应于较低声音水平的lsb在语音识别中是相对重要的,因此语音识别率会降低。
67.然而,本公开的最大比例增益调谐块1122可以基于在用户发声之前预先获取的关于用户与电子设备1000之间的距离的信息,增加从pdm

pcm转换块1121输出的pcm信号的增益。因为要移位的值是在用户发声之前预先确定的,因此在由主处理器1900执行语音识别的同时语音信号的增益不改变。因此,可以防止语音识别率降低。
68.图6示出根据本公开的实施例的包括语音识别模块的电子设备的操作方法。将参照图1和图3描述包括语音识别模块的电子设备的操作方法。
69.在操作s110中,可以获取用户与电子设备1000之间的距离值。详细地,获取的距离值可以是用户与数字麦克风1110之间的距离值。例如,该距离值可以通过例如利用tof相机实现的图像处理块1200和/或通过例如利用接近传感器或超声传感器实现的传感器1700预先获取。
70.在操作s120中,可以基于所获取的距离值来计算要调谐的最大比例增益。例如,可以由主处理器1900或音频处理块1100的音频专用处理器(未示出)来计算要调谐的最大比例增益。随着用户与电子设备1000之间的距离减小,确保pcm信号的对应于相对较高声音水平的msb是很重要的。因此,要由最大比例增益调谐块1122调谐的最大比例增益可以小于从pdm

pcm转换块1121输出的pcm信号的最大比例增益(例如,预设增益)。随着用户与电子设
备1000之间的距离增加,确保pcm信号的对应于相对较低声音水平的lsb是很重要的。因此,要由最大比例增益调谐块1122调谐的最大比例增益可以大于从pdm

pcm转换块1121输出的pcm信号的最大比例增益(例如,预设增益)。
71.在实施例中,可以通过使用单独的表来管理用户与电子设备1000之间的距离和最大比例增益之间的关系。例如,当用户与电子设备1000之间的距离属于第一范围时,最大比例增益可以被调谐为第一值。例如,当用户与电子设备1000之间的距离属于第二范围时,最大比例增益可以被调谐为第二值。如以上描述,当用户与电子设备1000之间的距离属于第n范围时,最大比例增益可以被调谐为第n值。例如,第一范围(或距离范围)和第二范围(或距离范围)可以彼此不重叠或者可以彼此部分地重叠。第三范围(或距离范围)至第n范围(或距离范围)可以彼此不重叠或者可以彼此部分地重叠。
72.在实施例中,定义用户与电子设备1000之间的距离和最大比例增益之间的关系的表可以由缓冲存储器1400来管理,可以由设置在音频处理块1100中的单独的存储器(未示出)来管理,或者可以由主处理器1900中的单独的存储器(未示出)来管理。
73.例如,可以在电子设备1000处于正常模式或低功率模式下时执行上述的操作s110和操作s120。
74.之后,可以通过数字麦克风1110接收来自用户的语音信号(s130)。可以在数字麦克风1110中通过对接收到的语音信号执行过采样和噪声整形来生成1位pdm信号(s140)。pdm信号被发送到dmic接口电路1120,并且dmic接口电路1120的pdm

pcm转换块1121将pdm信号转换为pcm信号(s150)。
75.在操作s160中,可以执行最大比例增益调谐。例如,dmic接口电路1120可以基于在操作s120中计算的最大比例增益来调谐pcm信号的增益。例如,最大比例增益调谐块1122可以被配置为基于对pcm信号进行移位的操作来获取预期的增益。稍后将详细描述最大比例增益调谐块1122的配置和操作。
76.之后,dmic接口电路1120向主处理器1900发送调谐的pcm信号(s170)。可以在电子设备1000处于低功率模式时执行上述操作s130至操作s170。另外,尽管在图5中未示出,但是,还可以对调谐的pcm信号执行诸如抗混叠的额外处理。
77.图7示出生成由图3的最大比例增益调谐块1122使用的距离相关信息的示例性配置。
78.dmic接口电路1120可以包括pdm

pcm转换块1121、最大比例增益调谐块1122和抗混叠块1123。例如,dmic接口电路1120还可以包括移位值计算器1124、符号位计算器1125和零填充器1126,它们构成用于生成由最大比例增益调谐块1122使用的距离相关信息的电路(或装置)。pdm

pcm转换块1121、最大比例增益调谐块1122和抗混叠块1123与图3基本相同,因此将省略额外描述以避免重复。
79.移位值计算器1124可以参考定义用户与电子设备1000之间的距离和最大比例增益之间的关系的表,来确定目标最大比例增益。移位值计算器1124可以基于将pcm信号的目标最大比例增益与最大比例增益进行比较的结果,来计算要增加或减小的增益值(即,要移位的位值(bit value))。
80.然而,由于最大比例增益调谐块1122的分辨率,由最大比例增益调谐块1122实现的移位值和实际要移位的移位值可能彼此不能准确地一致。因此,最大比例增益调谐块
1122可以基于适当地组合分别移位到各种值的pcm信号的结果,将pcm信号移位差不多实际要移位的移位值的近似值。
81.为此,移位值计算器1124可以生成用于将pcm信号不同地移位到各种值的移位值。例如,移位值可以是“0”或大于“0”,并且可以小于信号的长度。在实施例中,在低功率模式下pcm信号具有19位的长度的情况下,移位值可以是“0”与“18”之间的整数。可以通过组合移位了“0”与“18”之间的整数当中的各种值的pcm信号,来获取pcm信号的期望调谐值。
82.符号位计算器1125可以依据要对pcm信号执行的符号扩展来确定要重复的msb数据的数目(即,符号扩展值)。例如,在组合被移位到不同值的多个pcm信号时,符号扩展可以与被移位的pcm信号的符号相关联。例如,符号位计算器1125可以基于移位值计算器1124的计算结果来计算符号扩展的值。例如,可以对pcm信号的msb数据执行符号扩展或者可以对pcm信号的两个高数据位执行符号扩展。然而,为了说明的简洁和描述的方便,在本说明书中,假设符号位仅指pcm信号的msb。将参照图9详细描述与本发明构思的调谐最大比例增益相关联的符号扩展。
83.在增加pcm信号的最大比例增益的情况下,零填充器1126可以生成与要移位的位数一样多的零值。将参照图9对此进行详细描述。同时,上述符号扩展值和零值可以被称为“距离相关信息”。
84.之后,最大比例增益调谐块1122可以基于移位值、符号位和零值来调谐pcm信号的最大比例增益。将参照图9详细描述最大比例增益调谐块的操作。图7中所示的示例为移位值计算器1124、符号位计算器1125和零填充器1126是分开的功能块。然而,在另一实施例中,可以利用一个功能块(例如,专用电路)来实现移位值计算器1124、符号位计算器1125和零填充器1126。可选择地,移位值计算器1124、符号位计算器1125和零填充器1126可以利用用于处理与dmic接口电路1120相关联的信号的专用音频处理器来实现。
85.图8示出生成由图3的最大比例增益调谐块1122使用的距离相关信息的示例性配置。图8中所示的功能块的操作可以与图7中所示的功能块的操作大致相同或相似。因此,将省略额外描述以避免重复。
86.然而,不同于图7的实施例,可以由主处理器1900执行计算移位值的操作、计算符号扩展值的操作、计算零值的操作。例如,除了用于语音识别的语音触发引擎1910之外,主处理器1900还可以包括移位值计算器1920、符号位计算器1930和零填充器1940。例如,移位值计算器1920、符号位计算器1930和零填充器1940可以是由主处理器1900执行的功能块(例如,软件或固件)。
87.图9示出图7和图8的最大比例增益调谐块1122的示例性配置。
88.最大比例增益调谐块1122可以包括多个移位器1122_1至1122_5和加法器1122_6。尽管未在附图中示出,但是最大比例增益调谐块1122还可以包括用于对具有负符号位的pcm信号的值进行反相的组件(例如,反相器)。然而,为了说明的简洁和描述的方便,未单独示出用于对具有负符号位的pcm信号的值进行反相的组件(例如,反相器),并且假设加法器1122_6包括用于执行加法运算和减法运算二者的组件。
89.将参照图7和图9描述在将pcm信号的最大比例增益增加2.9位的情况下最大比例增益调谐块1122的操作。pcm信号的最大比例增益增加2.9位导致pcm信号的增益增加到2
2.9
倍(即,7.46倍)。然而,由于最大比例增益调谐块1122的配置(例如,移位器的数目的限制),
可能难以将pcm信号的增益精确地增加到7.46倍。因此,移位值计算器1124可以执行例如以0.25db为单位推断出接近7.46的数字的计算。例如,移位值计算器1124可以执行下面的式1表示的计算,并且可以推断出7.336作为接近7.46的数字。
90.[式1]
[0091][0092]
在此,上面的式1可以指pcm信号的最大比例增益增加到23倍(即,8倍),然后减少到(1/20‑
1/24‑
1/26‑
1/28)倍(即,0.917倍)。换言之,最大比例增益调谐块1122可以将pcm信号的最大比例增益增加到8倍,并且可以将增加到8倍的pcm信号的最大比例增益减小到0.917倍。当然,计算的顺序不限于此。而且,20log(1/20‑
1/24‑
1/26‑
1/28)(即,

0.75db)与以0.25db为单位执行最大比例增益相关联。
[0093]
在上面的式1中,23可以对应于pcm信号的最大比例增益增加到8倍(即,左移3位)。在上面的式1中,1/20可以指对于左移3位的pcm信号不进行移位,并且1/24可以指对于左移3位的pcm信号进行了右移4位。而且,1/26可以指对于左移3位的pcm信号进行了右移6位,并且1/28可以指对于左移3位的pcm信号进行了右移8位。结果,移位值计算器1124可以向最大比例增益调谐块1122提供关于移位值(即,3、0、4、6和8)的信息。而且,符号位计算器1125可以基于移位值计算器1124的计算结果,向最大比例增益调谐块1122提供符号扩展的值(即,关于1/20的符号、1/24的符号、1/26的符号和1/28的符号的信息)。
[0094]
在实施例中,为了实现上面的式1的构思,最大比例增益调谐块1122的多个移位器1122_1至1122_5可以如图9中所示连接。例如,最大比例增益调谐块1122可以包括将pcm信号的最大比例增益增加到8倍的组件以及将增加到8倍的pcm信号的最大比例增益减小到0.917。例如,第一移位器1122_1可以对应于将pcm信号的最大比例增益增加到8倍的组件,并且第二移位器1122_2至第五移位器1122_5可以对应于将增加到8倍的pcm信号的最大比例增益减小到0.917。第一移位器1122_1可以将pcm信号左移3位,并且第二移位器1122_2至第五移位器1122_5可以将左移3位的pcm信号分别右移到不同的值。
[0095]
第一移位器1122_1可以从零填充器1940接收零值,并且可以基于零值执行零填充。例如,第一移位器1122_1可以基于零值“3”在pcm信号的lsb数据处填充三个0。作为零填充结果,pcm信号可以被左移,并且三个高位(即,第18位至第16位)可以被删除。这样,第15位的数据可以是msb数据。因为上面假设pcm信号的msb是符号位,因此第15位可以是符号位。
[0096]
第二移位器1122_2至第五移位器1122_5均可以接收左移3位的pcm信号。第二移位器1122_2至第五移位器1122_5均可以从符号位计算器1125接收符号扩展值或从零填充器1126接收零值。例如,第二移位器1122_2至第五移位器1122_5可以分别从符号位计算器1125接收符号扩展值(例如,0、4、6和8)。然而,第二移位器1122_2至第五移位器1122_5执行符号扩展的原因是,在第二移位器1122_2至第五移位器1122_5未进行左移位。因此,在进行左移位的情况下,移位器(例如,移位器1122_2至1122_5中的至少一个移位器)可以接收与左移位相对应的零值。
[0097]
从上面的式1和图9可以理解,在第二移位器1122_2处不进行符号扩展和零填充。因此,第二移位器1122_2可以在没有修改的情况下将左移3位并且从第一移位器1122_1接
收的pcm信号输出为第一pcm信号。
[0098]
第三移位器1122_3可以基于符号位值“4”来扩展pcm信号的msb数据。当对msb数据重复执行符号扩展时,可以对左移3位的pcm信号执行右移。在图9中概念性地示出了随着pcm信号的第15位数据被重复4次而执行符号扩展。这样,可以删除包括三个填充的零和作为原始lsb的第0位的四个低位,并且第三移位器1122_3可以将由此移位的pcm信号输出为第二pcm信号。
[0099]
第四移位器1122_4和第五移位器1122_5的操作可以类似于第三移位器1122_3的以上操作。结果,左移3位的pcm信号可以再次被输出为第三pcm信号,并且第五移位器1122_5可以输出第四pcm信号。
[0100]
加法器1122_6可以从移位器1122_2至1122_5接收第一pcm信号至第四pcm信号,并且可以对第一pcm信号至第四pcm信号执行加法运算和/或减法运算。加法器1122_6可以将移位的pcm信号相加的结果输出为调谐值。调谐值可以是通过将式1中的值取公共对数(common log)而得到的值与“20”一起相乘而获得的值,并且可以允许输入到最大比例增益调谐块1122的pcm信号的增益增加到17.31db。
[0101]
图9中所示的移位器1122_1至1122_5用于以0.25db为单位调谐最大比例增益,并且移位器的数目是示例性的。因此,在期望以更精确的分辨率(例如,小于0.25db)调谐最大比例增益的情况下,最大比例增益调谐块1122可以包括更多数目的移位器。
[0102]
另外,图9的第一移位器1122_1至第五移位器1122_5的连接关系和操作可以是示例性的。例如,第一移位器1122_1至第五移位器1122_5可以依据移位顺序以各种方式连接。例如,在上面的式1中,假设pcm信号的最大比例增益首先减小到0.917,然后增大到8倍。在这种情况下,第一移位器1122_1至第四移位器1122_4可以将pcm信号分别右移0位、4位、6位和8位。加法器1122_6可以接收从第一移位器1122_1至第四移位器1122_4输出的pcm信号,并且可以对接收到的pcm信号执行加法运算和/或减法运算。最后,第五移位器1122_5可以接收从加法器1122_6输出的pcm信号,并且可以将接收到的pcm信号左移3位。在这种情况下,从第五移位器1122_5输出的pcm信号可以用作调谐值。
[0103]
图10和图11概念性地示出根据本公开的实施例的如何通过调谐最大比例增益改变动态范围和分辨率。
[0104]
首先,参照图10,数字麦克风1110接收具有相对较高声音水平的语音信号,并且将该语音信号转换为pdm信号。dmic接口电路1120可以将pdm信号转换为pcm信号,以提高语音识别率,并且dmic接口电路1120可以基于预先获取的用户与电子设备1000之间的距离来调谐用于确保msb数据的最大比例增益。
[0105]
例如,在预先获取的用户与电子设备1000之间的距离较近的情况下,可以接收相对较高声音水平的语音信号,并且dmic接口电路1120可以减小pcm信号的最大比例增益,以如图4所示确保msb数据。结果,可以自适应地选择要在语音识别中使用的16位数据。
[0106]
相反,图11对应于对具有相对较低声音水平的语音信号执行语音识别的情况。数字麦克风1110接收具有相对较低声音水平的语音信号,并且将语音信号转换为pdm信号。例如,在预先获取的用户与电子设备1000之间的距离较长的情况下,可以接收相对较低声音水平的语音信号,并且dmic接口电路1120可以增加pcm信号的最大比例增益,以如图5所示确保lsb数据。
[0107]
从dmic接口电路1120输出的并且在图10中示出的pcm信号的动态范围可以大于从dmic接口电路1120输出的并且在图11中示出的pcm信号的动态范围。从dmic接口电路1120输出的并且在图10中示出的pcm信号的分辨率可以小于从dmic接口电路1120输出的并且在图11中示出的pcm信号的分辨率。这可以理解为来自同一范围内的db最大比例差。
[0108]
图12示出根据本公开的实施例的电子设备的示例性配置。
[0109]
电子设备2000可以包括音频处理块2100_1和2100_2、图像处理块2200、通信块2300、缓冲存储器2400、非易失性存储器2500、用户接口2600、传感器2700、电源管理器2800和主处理器2900。在实施例中,音频处理块2100_1和2100_2以及语音触发引擎2910可以被称为“语音识别模块”。除了音频处理块的数目之外,图12的电子设备2000的功能块可以与图1的电子设备1000的被标记有相似附图标记的功能块大致相同。因此,将省略与电子设备2000的组件相关联的额外描述以避免重复。
[0110]
然而,第一音频处理块2100_1可以被包括在电子设备2000中,但是第二音频处理块2100_2可以以各种方式来实现。例如,第二音频处理块2100_2可以类似第一音频处理块2100_1被包括在电子设备2000中。可选择地,第二音频处理块2100_2的一部分可以被包括在电子设备2000中。在这种情况下,第二音频处理块2100_2的第二数字麦克风2110_2可以利用无线麦克风(例如,蓝牙麦克风)来实现。
[0111]
第一音频处理块2100_1可以基于预先获取的用户与电子设备2000之间的距离,预先计算要由第一音频处理块2100_1的最大比例增益调谐块调谐的最大比例增益。在电子设备2000进入低功率模式之后接收到用户的语音信号的情况下,第一音频处理块2100_1可以调谐pcm信号的最大比例增益。
[0112]
然而,第二音频处理块2100_2可以基于不同于用户与电子设备2000之间的距离的距离,预先计算要由第二音频处理块2100_2的最大比例增益调谐块调谐的最大比例增益。在电子设备2000进入低功率模式之后接收到用户的语音信号的情况下,第二音频处理块2100_2可以调谐或可以不调谐pcm信号的最大比例增益。结果,由第一音频处理块2100_1处理的pcm信号的最大比例增益和由第二音频处理块2100_2处理的pcm信号的最大比例增益可以不同。
[0113]
在第一音频处理块2100_1和第二音频处理块2100_2被设置为使得pcm信号具有不同的最大比例增益之后,当从用户接收到语音信号时,第一音频处理块2100_1和第二音频处理块2100_2可以执行语音识别。例如,当与由第一音频处理块2100_1和第二音频处理块2100_2中的至少一者处理的信号相关联的语音识别或者与由所有的第一音频处理块2100_1和第二音频处理块2100_2处理的信号相关联的语音识别成功时,主处理器1900可以认为语音识别成功。这样,可以通过不同地设置要由第一音频处理块2100_1和第二音频处理块2100_2处理的pcm信号的最大比例增益,来提高语音识别的成功率。
[0114]
因为语音识别是在低功率模式下执行的,因此可能发生功耗问题。因此,当使用所有的音频处理块在低功率模式下执行语音识别时,要由每个音频处理块处理的pcm信号的位数可以不同于图1至图10的实施例的位数。例如,要从每个音频处理块发送到主处理器的pcm信号的位数可以小于16。
[0115]
然而,与图1至图10的上述实施例不同,在图12的实施例中,因为通过使用两个音频处理块2100_1和2100_2在低功率模式下执行语音识别,所以可能发生功耗问题。因此,当
使用所有的音频处理块2100_1和2100_2在低功率模式下执行语音识别时,要由每个音频处理块2100_1和2100_2处理的pcm信号的位数可以不同于图1至图10的实施例。例如,要从音频处理块2100_1和2100_2中的每一者发送到主处理器2900的pcm信号的位数可以小于16。
[0116]
图13概念性地示出图12的音频处理块2100_1和2100_2的最大比例增益调谐块的操作。例如,第一音频处理块2100_1可以包括第一pdm

pcm转换块2121_1和第一最大比例增益调谐块2122_1,并且第二音频处理块2100_2可以包括第二pdm

pcm转换块2121_2和第二最大比例增益调谐块2122_2。然而,为了说明的简洁,图3中所示的抗混叠块1123被省略。
[0117]
在图13中示出了被调谐为具有不同的最大比例增益的pcm信号。例如,由第一音频处理块2100_1处理的pcm信号可以基于预先获取的用户与电子设备2000之间的距离,并且由第二音频处理块2100_2处理的pcm信号可以基于不同于用户与电子设备2000之间的距离的距离。换言之,由音频处理块2100_1和2100_2移位的值可以不同。针对在使用所有的两个音频处理块2100_1和2100_2时发生的功耗问题,pcm信号的位数可以小于16。
[0118]
之后,第一音频处理块2100_1和第二音频处理块2100_2可以对调谐的pcm信号执行抗混叠,并且可以将pcm信号发送到主处理器1900。主处理器2900的语音触发引擎2910可以独立地对从第一音频处理块2100_1输出的pcm信号和从第二音频处理块2100_2输出的pcm信号执行语音识别操作;只要与一个pcm信号相关联的语音识别成功时,语音触发引擎2910就可以认为语音识别成功。
[0119]
图13的实施例可以与最大比例增益的减小相关联,但是图5所示的最大比例增益的增加可以以相似的方式被执行。因此,将省略额外描述以避免重复。另外,音频处理块的数目不限于图13所示的示例。例如,电子设备可以包括三个或更多个音频处理块,并且要由三个或更多个音频处理块调谐的最大比例增益可以是不同的。例如,在通过使用三个音频处理块执行语音识别时要由三个音频处理块中的每一者处理的pcm信号的位数可以小于在通过使用一个音频处理块执行语音识别时要由一个音频处理块处理的pcm信号的位数(例如,16位)。
[0120]
图14示出图12中所示的电子设备的操作方法。
[0121]
可以通过例如利用tof相机实现的图像处理块2200和/或例如利用接近传感器或超声传感器实现的传感器2700来预先获取用户与电子设备2000之间的距离值(s210)。第一音频处理块2100_1和第二音频处理块2100_2可以计算要被调谐的最大比例增益(s220)。例如,第一音频处理块2100_1可以基于预先测量的用户与电子设备2000之间的距离来计算要调谐的最大比例增益。然而,第二音频处理块2100_2可以计算与第一音频处理块2100_1的最大比例增益不同的最大比例增益。
[0122]
数字麦克风2110_1和2110_2可以从用户接收语音信号(s230),dmic接口电路2120_1和2120_2均可以将语音信号转换为pdm信号(s240),并且dmic接口电路2120_1和2120_2均可以将对应的pdm信号转换成pcm信号(s250)。
[0123]
在操作s260中,第一音频处理块2100_1和第二音频处理块2100_2均可以执行最大比例增益调谐。然而,第一音频处理块2100_1可以基于预先获取的用户与电子设备2000之间的距离来调谐pcm信号的最大比例增益,而第二音频处理块2100_2可以基于与预先获取的距离不同的距离来调谐pcm信号的最大比例增益。
[0124]
在操作s270中,第一音频处理块2100_1和第二音频处理块2100_2可以向主处理器
2900发送被调谐为具有不同的最大比例增益的pcm信号。主处理器2900的语音触发模块2910可以基于具有不同的最大比例增益的pcm信号执行语音识别。例如,当基于一个pcm信号的语音识别成功时,即使基于另一pcm信号的语音识别失败,语音触发模块2910也可以认为语音识别成功。
[0125]
根据本公开,可以提高电子设备的语音识别率。
[0126]
另外,根据本公开,可以通过使用电子设备中的各种传感器来预先获取用户与电子设备之间的距离,并且基于所获取的距离来调谐pcm信号的最大比例增益。可以以这种方式基于与可听见的声音无关或不依赖于可听见的声音的传感器数据来调谐最大比例增益。因为通过在语音识别之前调节pcm信号的最大比例增益来保持pcm信号的分辨率,因此可以提高语音识别率。
[0127]
尽管已经参照本发明构思的示例性实施例描述了本发明构思,但是对于本领域的普通技术人员明显的是,在不脱离由所附权利要求阐述的本发明的精神和范围的情况下,可以对其进行各种改变和修改。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜