动态语音辨识方法及其装置与流程

2021-06-08 12:16:00 来源：中国专利 TAG：辨识语音装置检测方法

1.本发明系有关一种语音检测辨识技术，特别是关于一种动态语音辨识方法及其装置。

背景技术：

2.在现有电子设备中，语音助理(voice assistant)技术广泛应用于各领域中，且支援语音唤醒功能。在语音助理处于待机模式(standby mode)下，仍然需要听令于热词并在有热词出现时给予对应回应，因此语音助理必须定期唤醒，语音助理的处理系统会在待机模式下启动，以利用语音活动检测电路检测是否有人声，并在有人声出现时才进一步进入语音辨识，以确认人声中是否有热词(hot words)存在，进而据此判断是否执行电子设备的系统开机或执行对应操作。
3.然而，等频率的定期唤醒语音助理进行检测，其灵敏度较差。同时，语音助理的处理系统也需满足低功率的操作，以符合能源要求的相关规范。

技术实现要素：

4.有鉴于此，本发明提出一种动态语音辨识方法，包含执行一第一阶段：利用数字麦克风检测声音资料并储存在第一存储器；于声音资料中检测到人声而产生人声检测信号；及通过第一处理电路根据总有效资料量、数字麦克风的传输位元元速率及辨识间隔时间，选择性决定执行第二阶段或第三阶段。执行第二阶段，第一处理电路输出第一指令至第二处理电路，第二处理电路根据第一指令使存储器存取电路转移声音资料至第二存储器并储存为语音资料。执行第三阶段，第一处理电路输出第二指令，第二处理电路根据第二指令使存储器存取电路转移声音资料至第二存储器并储存为语音资料，且第二处理电路确认第二存储器中的语音资料是否匹配一预设语音指令。
5.本发明另提出一种动态语音辨识装置，包含数字麦克风、第一存储器、语音活动检测电路、存储器存取电路、第二存储器、第一处理电路及第二处理电路。数字麦克风用以检测一声音资料。第一存储器电性连接数字麦克风，用以储存声音资料。语音活动检测电路电性连接数字麦克风，用以检测声音资料并产生一人声检测信号。存储器存取电路电性连接第一存储器，用以根据第一指令转移声音资料至第二存储器，以储存为语音资料。第一处理电路电性连接语音活动检测电路。第二处理电路电性连接第一处理电路、第二存储器及存储器存取电路。其中，此动态语音辨识装置用以执行前述的动态语音辨识方法。
6.依据一些实施例，第一处理电路接收到人声检测信号时，第一处理电路于辨识间隔时间后输出第一指令或第二指令。
7.依据一些实施例，辨识间隔时间是由一预算关系值决定，预算关系值小于等于目标平均功率消耗*前一周期时间*1/3时，辨识间隔时间系为2秒；预算关系值大于目标平均功率消耗*前一周期时间*1/3且小于等于目标平均功率消耗*前一周期时间*2/3时，辨识间隔时间系为1.5秒；以及预算关系值大于目标平均功率消耗*前一周期时间*2/3时，辨识间
隔时间系为1秒。
8.依据一些实施例，预算关系值系为目标平均功率消耗*前一周期时间-(第一阶段的第一平均功率消耗*第一阶段的第一时间第二阶段的第二平均功率消耗*第二阶段的第二时间第三阶段的第三平均功率消耗*第三阶段的第三时间)，其中前一周期时间等于第一时间、第二时间及第三时间的总和。
9.依据一些实施例，如第三平均功率消耗大于第二平均功率消耗，且第二平均功率消耗大于第一平均功率消耗。
10.依据一些实施例，在产生人声检测信号的后，该第一处理电路判断第一存储器是否已存满声音资料，并在存满声音资料时继续进行下一步骤。
11.综上所述，本发明在进行动态语音辨识时，将使用者经验考虑在内，并在待机模式下触发搜寻预设语音指令(热词)时，可以降低平均功率消耗，提供一个灵敏度较佳的方法。
附图说明
12.通过参照附图详细描述其示例实施例，本发明的上述和其它目标、特征及优点将变得更加显而易见。
13.图1是根据本发明一实施例的电子装置的方块示意图。
14.图2是根据本发明一实施例的动态语音辨识方法的流程示意图。
15.图3是根据本发明实施例的动态语音辨识装置的波形示意图。
16.图4是根据本发明另一实施例的动态语音辨识方法的流程示意图。
17.附图标记说明：
18.10 电子装置
19.20 动态语音辨识装置
20.21 数字麦克风
21.22 第一存储器
22.23 语音活动检测电路
23.24 存储器存取电路
24.25 第一处理电路
25.26 第二处理电路
26.27 第二存储器
27.30 影音处理电路
28.31～33 核心处理电路
29.34～36 第三存储器
30.c1 第一指令
31.c2 第二指令
32.sd1 声音资料
33.sd2 语音资料
34.ss 人声检测信号
35.st1 第一阶段
36.st2 第二阶段
37.st3 第三阶段
38.t 周期时间
39.t1～t2 时间
40.ti 辨识间隔时间
41.s10～s28 步骤
42.s30～s36 步骤
具体实施方式
43.图1是根据本发明一实施例的电子装置的方块示意图，请参阅图1所示，电子装置10包含有一动态语音辨识装置20、一影音处理电路30、数个核心处理电路31～33及数个第三存储器34～36，且数个核心处理电路31～33皆电性接至第三存储器34～36。在动态语音辨识装置20在待机模式(standby mode)下辨识到预设语音指令时，电子装置10会执行系统开机程序，使影音处理电路30、数个核心处理电路31～33及数个第三存储器34～36可以彼此协同运作，以播放电子装置10接收到的影音信号。在一实施例中，电子装置10可以是电视，但不限于此。
44.动态语音辨识装置20包含一数字麦克风21、一第一存储器22、一语音活动检测电路23、一存储器存取电路24、一第一处理电路25、一第二处理电路26以及一第二存储器27。数字麦克风21系用以检测一声音资料sd1。第一存储器22系电性连接数字麦克风21，用以储存声音资料sd1。在一实施例中，第一存储器22可以是但不限于静态随机存取存储器(sram)。
45.语音活动检测电路23电性连接数字麦克风21，用以检测声音资料sd1并产生一人声检测信号ss。在一实施例中，语音活动检测电路23可以是但不限于语音识别晶片或语音识别处理电路。
46.存储器存取电路24电性连接第一存储器22及第二存储器27，用以根据一第一指令转移声音资料sd1至第二存储器27，以将声音资料sd1储存为一语音资料sd2。在一实施例中，存储器存取电路24可以是但不限于直接存储器存取(direct memory acess，dma)电路，第二存储器27可以是但不限于动态随机存取存储器(dram)。
47.第一处理电路25电性连接语音活动检测电路23，用以根据人声检测信号ss对应产生第一指令c1或第二指令c2。第二处理电路26系电性连接第一处理电路25、第二存储器27及存储器存取电路24，第二处理电路26根据第一指令c1使存储器存取电路24转移声音资料sd1至第二存储器27并储存为语音资料sd2；或是第二处理电路26根据第二指令c2使存储器存取电路24转移声音资料sd1至第二存储器27并储存为语音资料sd2，且确认第二存储器27中的语音资料sd2是否匹配一预设语音指令。在一实施例中，第一处理电路25可以使用功率消耗较低的微控制器，例如，8051微控制器，但本发明并不以此为限。第二处理电路26则可以使用一般的微处理器、微控制器、中央处理器等各种类型的处理电路，但本发明并不以此为限。
48.在一实施例中，第一指令c1或是第二指令c2为修改共用状态的指令。
49.图2是根据本发明一实施例的动态语音辨识方法的流程示意图，图3是根据本发明实施例的动态语音辨识装置的波形示意图，请同时参阅图1、图2及图3所示，动态语音辨识
方法包含利用动态语音辨识装置20执行一第一阶段st1(步骤s10～步骤s18、步骤s22)及执行一第二阶段st2(步骤s20)或一第三阶段st3(步骤s24～步骤s26)，以下系针对各阶段详细说明。
50.在执行第一阶段st1(纯待机阶段)中，如步骤s10所示，利用数字麦克风21检测声音资料sd1，并将声音资料sd1储存在第一存储器22中。如步骤s12所示，语音活动检测电路23系检测声音资料sd1是否有人声出现，并在声音资料sd1中检测到人声时会被触发而产生人声检测信号ss，并将人声检测信号ss传输出至第一处理电路25。如步骤s14所示，第一处理电路25判断第一存储器22是否已经存满声音资料sd1，并在存满声音资料sd1时继续进行下一步骤s16，以确保有足够的声音资料sd1可以进行后续步骤。如步骤s16所示，第一处理电路25根据一总有效资料量、数字麦克风21的传输位元元速率及一辨识间隔时间ti，选择性决定执行第二阶段st2(dma阶段)或第三阶段st3(语音辨识阶段)。
51.在一实施例中，已知有目标平均功率消耗、第一阶段st1的第一平均功率消耗、第二阶段st2的第二平均功率消耗及第三阶段st3的第三平均功率消耗，并已得到前一周期时间t中，各阶段所占的时间，包含第一阶段st1的第一时间ta、第二阶段st2的第二时间tb及第三阶段st3的第三时间tc，其中前一周期时间t等于第一时间ta、第二时间tb及第三时间tc的总和，亦即t＝ta tb tc。在一实施例中，此周期时间t可以是但不限于16秒。因此通过前面各参数可以得到有关功率使用的一预算关系值(budget)，此预算关系值系为目标平均功率消耗*前一周期时间t-(第一阶段st1的第一平均功率消耗*第一阶段st1的第一时间ta 第二阶段st2的第二平均功率消耗*第二阶段st2的第二时间tb 第三阶段st3的第三平均功率消耗*第三阶段st3的第三时间tc)。
52.在取得预算关系值的后，即可根据预算关系值动态决定辨识间隔时间ti。详言的，当预算关系值小于等于目标平均功率消耗*前一周期时间t*1/3时，决定辨识间隔时间ti系为2秒。当预算关系值大于目标平均功率消耗*前一周期时间t*1/3且小于等于目标平均功率消耗*前一周期时间t*2/3时，决定辨识间隔时间ti系为1.5秒。当预算关系值大于目标平均功率消耗*前一周期时间t*2/3时，则决定辨识间隔时间ti系为1秒。接着，已知总有效资料量系为第一存储器22的有效资料量及第二存储器27的有效资料量的总和，以及数字麦克风21的传输位元元速率，因此，当总有效资料量小于数字麦克风21的传输位元元速率与辨识间隔时间的乘积时，第一处理电路25决定执行第二阶段st2的dma阶段。当总有效资料量大于等于数字麦克风21的传输位元元速率与辨识间隔时间的乘积时，第一处理电路25决定执行第三阶段st3的语音辨识阶段。
53.当第一处理电路25决定执行第二阶段st2时，如步骤s18所示，第一处理电路25会先唤醒第二处理电路26，然后进入到第二阶段st2。在第二阶段st2中，如步骤s20所示，第一处理电路25输出第一指令c1至第二处理电路26，第二处理电路26根据第一指令c1使存储器存取电路24转移第一存储器22内的声音资料sd1至第二存储器27，以储存为语音资料sd2。在第二阶段st2中仅透过存储器存取电路24转换语音资料sd2到第二存储器27中，而不需进行语音辨识。
54.当第一处理电路25决定执行第三阶段st3时，如步骤s22所示，第一处理电路25会先唤醒第二处理电路27，然后进入到第三阶段st3。在第三阶段st3中，如步骤s24所示，第一处理电路25输出第二指令c2至第二处理电路26，第二处理电路26再根据第二指令c2使存储
器存取电路24转移第一存储器22内的声音资料sd1至第二存储器27，以储存为语音资料sd2，并确认第二存储器27中的语音资料sd2是否匹配预设语音指令。如步骤s26所示，第二处理电路26判断第二存储器27中的语音资料sd2是否有匹配预设语音指令，若语音资料sd2确认有匹配预设语音指令时，即如步骤s28所示执行系统开机程序，以唤醒其他电路，包含影音处理电路30、核心处理电路31～33及第三存储器34～36等来进行系统开机。
55.图4系根据本发明另一实施例的动态语音辨识方法的流程示意图，请同时参阅图1、图3及图4所示，动态语音辨识方法包含利用动态语音辨识装置20执行一第一阶段st1(步骤s10～步骤s16)及执行一第二阶段st2(步骤s30)或一第三阶段st3(步骤s32～步骤s34)，以下系针对各阶段详细说明。
56.在执行第一阶段st1(纯待机阶段)中，如步骤s10所示，利用数字麦克风21检测声音资料sd1，并将声音资料sd1储存在第一存储器22中。如步骤s12所示，语音活动检测电路23系检测声音资料sd1是否有人声出现，并在检测到人声时会被触发而产生人声检测信号ss传输出至第一处理电路25。如步骤s14所示，第一处理电路25判断第一存储器22是否已经存满声音资料sd1，并在存满声音资料sd1时继续进行下一步骤s16，以确保有足够的声音资料sd1可以进行后续步骤。如步骤s16所示，第一处理电路25根据一总有效资料量、数字麦克风21的传输位元元速率及一辨识间隔时间ti，选择性决定执行第二阶段st2(dma阶段)或第三阶段st3(语音辨识阶段)。
57.当第一处理电路25决定执行第二阶段st2时，如步骤s30所示，在第二阶段st2中，第一处理电路25输出第一指令c1并唤醒第二处理电路26，第二处理电路26根据第一指令c1使存储器存取电路24转移第一存储器22内的声音资料sd1至第二存储器27，以储存为语音资料sd2。
58.当第一处理电路25决定执行第三阶段st3时，如步骤s32所示，在第三阶段st3中，第一处理电路25输出第二指令c2并唤醒第二处理电路26，第二处理电路26根据第二指令c2使存储器存取电路24转移第一存储器22内的声音资料sd1至第二存储器27，以储存为语音资料sd2，并确认第二存储器27中的语音资料sd2是否匹配预设语音指令。如步骤s34所示，第二处理电路26判断第二存储器27中的语音资料sd2是否有匹配预设语音指令，若语音资料sd2确认有匹配预设语音指令时，即如步骤s28所示执行系统开机程序，以唤醒所有电路进行系统开机。
59.上述动态语音辨识方法的多个步骤(s10～s26及s30～s34)仅为示例，并非限于上述示例的顺序执行。在不违背本发明的精神与范围下，在动态语音辨识方法下的各种操作当可适当地增加、替换、省略或以不同顺序执行。
60.在一实施例中，当第一处理电路25接收到人声检测信号ss时，第一处理电路25会于辨识间隔时间ti后输出第一指令c1或第二指令c2。如图1及图3所示，第一处理电路25于时间t1接收到人声检测信号ss时，第一处理电路25会在辨识间隔时间ti后的时间t2输出第一指令c1或第二指令c2，其中，此辨识间隔时间ti可基于前述方式来动态决定，以确保接收到的声音资料sd1足以反映预设语音指令后才致能第二处理电路26与第二存储器27，故可满足低功率的操作，以符合能源要求的相关规范。
61.在一实施例中，若预设语音指令所设置的关键词为『hi,tv』时，请参阅图1及图3所示，于时间t1时，数字麦克风21检测到外界声音，并产生声音资料sd1，且第一存储器22储存
此声音资料sd1，例如，数字麦克风21检测到使用者对动态语音辨识装置20说出『hi,tv
…
』等语音指令。同时，语音活动检测电路23判断出此声音资料sd1具有人声而输出人声检测信号ss。于时间t2时，第一处理电路25输出第一指令c1或第二指令c2。第二处理电路26与第二存储器27也被致能，此时，第二处理电路26根据第一指令c1或第二指令c2使存储器存取电路24被致能，以转移声音资料sd1至第二存储器27并储存为语音资料sd2。因此，第二处理电路26可分析语音资料sd2，以确认语音资料sd2是否匹配于预设语音指令『hi,tv』，并在第二处理电路26确认语音资料sd2匹配于预设语音指令，以唤醒其他电路来执行系统开机程序。
62.在一实施例中，第一阶段st1系使用到动态语音辨识装置20中的数字麦克风21、第一存储器22、语音活动检测电路23及第一处理电路25。第二阶段st2系使用动态语音辨识装置20中的数字麦克风21、第一存储器22、语音活动检测电路23、存储器存取电路24、第一处理电路25、部分第二处理电路26(仅有启动第二存储器的部分功能)及第二存储器27。第三阶段st3系使用动态语音辨识装置20中的数字麦克风21、第一存储器22、语音活动检测电路23、存储器存取电路24、第一处理电路25、第二处理电路26及第二存储器27等全部电路。因此，第三阶段st3的第三平均功率消耗大于第二阶段st2的第二平均功率消耗，且第二平均功率消耗大于第一阶段st1的第一平均功率消耗。例如，第一阶段st1所对应的消耗功率约为0.5瓦特，第三阶段st3所对应的消耗功率为4瓦特，则第二阶段st2所对应消耗功率则介于两者的间。
63.因此，本发明可以根据前一周期时间t内各阶段所占用的时间(第一时间、第二时间及第三时间)以及各阶段的平均功率消耗来决定预算关系值，以根据预算关系值动态决定辨识间隔时间ti的长短，进而据此判断是否需要进行语音资料的辨识(执行第二阶段st2或第三阶段st3)，故可根据实际运作的功率消耗来动态进行语音辨识。所以，本发明可以在进行动态语音辨识时，将使用者经验考虑在内，并在待机模式下触发搜寻预设语音指令时，可以降低平均功率消耗，以提供一个灵敏度较佳的方法。
64.以上所述的实施例仅系为说明本发明的技术思想及特点，其目的在使熟悉此项技术者能够了解本发明的内容并据以实施，当不能以的限定本发明的专利范围，即大凡依本发明所揭示的精神所作的均等变化或修饰，仍应涵盖在本发明的专利范围内。

再多了解一些

1/3 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

动态语音辨识方法及其装置与流程

相关文章

最热文献