一种语音获取方法、装置、终端及存储介质与流程

2021-12-01 01:54:00 来源：中国专利 TAG：

1.本发明涉及智能语音设备领域，尤其涉及的是一种语音获取方法、装置、终端及存储介质。

背景技术：

2.人工智能在目前阶段已经成为了最热门的科技名词，搭载其技术的产品也呈现出了爆发式的增长。在现代的智能家庭中，智能语音设备越来越多，其中拥有语音识别和智能交互技术的智能语音设备，由于可以通过声音方式与用户实现交互，因此受到了人们的广泛喜爱。
3.现有的智能语音设备需要采集用户的语音进行识别，因此其设备内通常设置有相应的语音采集装置。当用户面向语音采集装置进行发声时，语音采集装置接收的语音信息质量最佳，然而由于语音采集装置的位置固定，无法根据发出声源的方向进行相应的转动，因此无法实现用户总是面向语音采集装置进行发声，从而导致现有的智能语音设备识别用户语音的准确性较低，难以高效地响应用户的语音指令。
4.因此，现有技术还有待改进和发展。

技术实现要素：

5.本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种语音获取方法、装置、终端及存储介质，旨在解决现有的智能语音设备中语音采集装置的位置固定，无法实现用户总是面向语音采集装置进行发声，从而导致现有的智能语音设备识别用户语音的准确性较低，难以高效地响应用户的语音指令的问题。
6.本发明解决问题所采用的技术方案如下：
7.第一方面，本发明实施例提供一种语音获取方法，其中，所述方法应用于智能语音设备，所述方法包括：
8.通过语音采集装置采集唤醒语音指令，根据所述唤醒语音指令确定用户发声方位；
9.根据所述用户发声方位对所述语音采集装置进行调整；
10.通过调整后的所述语音采集装置，获取用户语音信息。
11.在一种实施方式中，所述语音采集装置包括若干语音传感器，所述唤醒语音指令包括若干所述语音传感器采集的若干唤醒语音数据，所述根据所述唤醒语音指令确定用户发声方位，包括：
12.获取若干所述唤醒语音数据分别对应的音频幅度值；
13.根据所述音频幅度值，从若干所述唤醒语音数据中确定第一唤醒语音数据和第二唤醒语音数据，其中，所述第一唤醒语音数据对应的第一音频幅度值最大，所述第二唤醒语音数据对应的第二音频幅度值与所述第一音频幅度值最接近；
14.根据所述第一唤醒语音数据、所述第一音频幅度值、所述第二唤醒语音数据以及
所述第二音频幅度值，确定所述用户发声方位。
15.在一种实施方式中，所述根据所述第一唤醒语音数据、所述第一音频幅度值、所述第二唤醒语音数据以及所述第二音频幅度值，确定所述用户发声方位，包括：
16.获取采集到所述第一唤醒语音数据的语音传感器的位置信息，得到第一位置信息；
17.获取采集到所述第二唤醒语音数据的语音传感器的位置信息，得到第二位置信息；
18.根据所述第一位置信息、所述第二位置信息、所述第一音频幅度值和所述第二音频幅度值，确定所述用户发声方位。
19.在一种实施方式中，所述根据所述第一位置信息、所述第二位置信息、所述第一音频幅度值和所述第二音频幅度值，确定所述用户发声方位，包括：
20.根据所述第一位置信息和所述第二位置信息，确定目标范围数据；
21.根据所述第一音频幅度值和所述第二音频幅度值，确定目标角度数据；
22.根据所述目标范围数据和所述目标角度数据，确定所述用户发声方位。
23.在一种实施方式中，所述根据所述用户发声方位对所述语音采集装置进行调整，包括：
24.根据所述用户发声方位，确定所述目标采集方位，其中，所述目标采集方位与所述用户发声方位相对；
25.根据所述目标采集方位对所述语音采集装置进行调整。
26.在一种实施方式中，所述语音采集装置还包括旋转机构，若干所述语音传感器固定于所述旋转机构上，所述根据所述目标采集方位对所述语音采集装置进行调整，包括：
27.将若干所述语音传感器中的一个语音传感器作为主语音传感器；
28.根据所述目标采集方位对所述旋转机构进行旋转，直至所述主语音传感器位于所述目标采集方位上。
29.在一种实施方式中，若干所述语音传感器中包括一个降噪语音传感器，其中，所述降噪语音传感器位于所述主语音传感器的相反方向，所述通过调整后的所述语音采集装置，获取用户语音信息，包括：
30.获取调整后的所述语音采集装置上除所述降噪语音传感器之外的语音传感器分别采集的声音，得到若干语音信息；
31.根据若干所述语音信息，确定初始语音信息；
32.获取所述降噪语音传感器采集的声音，得到噪音信息；
33.根据所述噪音信息对所述初始语音信息进行降噪处理，得到所述用户语音信息。
34.第二方面，本发明实施例还提供一种语音获取装置，其中，所述装置包括：
35.确定模块，用于通过语音采集装置采集唤醒语音指令，根据所述唤醒语音指令确定目标采集方位，其中，所述目标采集方位与用户发声方位对应；
36.调整模块，用于根据所述目标采集方位对所述语音采集装置进行调整；
37.获取模块，用于通过调整后的所述语音采集装置，获取用户语音信息。
38.第三方面，本发明实施例还提供一种终端，其中，所述终端包括有存储器和一个或者一个以上处理器；所述存储器存储有一个或者一个以上的程序；所述程序包含用于执行
如上述任一所述的语音获取方法的指令；所述处理器用于执行所述程序。
39.第四方面，本发明实施例还提供一种计算机可读存储介质，其上存储有多条指令，其中，所述指令适用于由处理器加载并执行，以实现上述任一所述的语音获取方法的步骤。
40.本发明的有益效果：本发明实施例通过语音采集装置采集唤醒语音指令，根据所述唤醒语音指令确定用户发声方位；根据所述用户发声方位对所述语音采集装置进行调整；通过调整后的所述语音采集装置，获取用户语音信息。由于本发明可以通过用户发声方位对语音采集装置进行调整，因此可以有效解决现有的智能语音设备中语音采集装置的位置固定，无法实现用户总是面向语音采集装置进行发声，从而导致现有的智能语音设备识别用户语音的准确性较低，难以高效地响应用户的语音指令的问题。
附图说明
41.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
42.图1是本发明实施例提供的语音获取方法的流程示意图。
43.图2是本发明实施例提供的智能语音设备的内部模块图。
44.图3是本发明实施例提供的智能语音设备的外观截面图。
45.图4是本发明实施例提供的智能语音设备的外观顶视图。
46.图5是本发明实施例提供的智能语音设备的工作流程图。
47.图6是本发明实施例提供的语音获取方法的优势图。
48.图7是本发明实施例提供的语音获取装置的内部模块连接图。
49.图8是本发明实施例提供的终端的原理框图。
具体实施方式
50.为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
51.需要说明，若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后
……
)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。
52.人工智能在目前阶段已经成为了最热门的科技名词，搭载其技术的产品也呈现出了爆发式的增长。在现代的智能家庭中，智能语音设备越来越多，其中拥有语音识别和智能交互技术的智能语音设备，由于可以通过声音方式与用户实现交互，因此受到了人们的广泛喜爱。
53.现有的智能语音设备需要采集用户的语音进行识别，因此其设备内通常设置有相应的语音采集装置。当用户面向语音采集装置进行发声时，语音采集装置接收的语音信息质量最佳，然而由于语音采集装置的位置固定，无法根据发出声源的方向进行相应的转动，因此无法实现用户总是面向语音采集装置进行发声，从而导致现有的智能语音设备识别用
户语音的准确性较低，难以高效地响应用户的语音指令。
54.针对现有技术的上述缺陷，本发明提供一种语音获取方法，所述方法包括：通过语音采集装置采集唤醒语音指令，根据所述唤醒语音指令确定用户发声方位；根据所述用户发声方位对所述语音采集装置进行调整；通过调整后的所述语音采集装置，获取用户语音信息。由于本发明可以通过用户发声方位对语音采集装置进行调整，因此可以有效解决现有的智能语音设备中语音采集装置的位置固定，无法实现用户总是面向语音采集装置进行发声，从而导致现有的智能语音设备识别用户语音的准确性较低，难以高效地响应用户的语音指令的问题。
55.如图1所示，所述方法包括如下步骤：
56.步骤s100、通过语音采集装置采集唤醒语音指令，根据所述唤醒语音指令确定用户发声方位。
57.具体地，本实施例中为了实现智能语音设备的语音控制功能，在智能语音设备上预先设置了语音采集装置，用于接收用户的语音信息。为了降低智能语音设备的功耗，避免智能语音设备在无用户使用的情况下仍然以高功耗运行，本实施例对智能语音设备设置了待机状态，智能语音设备在待机状态下会关闭一切不必要的硬件，以达到省电和降低功耗的目的。当智能语音设备进入待机状态以后，需要用户发出预先设定的唤醒指令才能使其恢复到正常的工作。
58.当用户发出唤醒指令以后，语音采集装置会采集到该唤醒指令。由于不同方位上采集的唤醒语音指令具有不同的声音特征，所以唤醒语音指令在一定程度上可以反映用户的所在的方位，因此根据基于唤醒语音指令可以确定用户发声方位。
59.在一种实现方式中，所述语音采集装置包括若干语音传感器，所述唤醒语音指令包括若干所述语音传感器采集的若干唤醒语音数据，所述根据所述唤醒语音指令确定用户发声方位，具体包括如下步骤：
60.步骤s101、获取若干所述唤醒语音数据分别对应的音频幅度值；
61.步骤s102、根据所述音频幅度值，从若干所述唤醒语音数据中确定第一唤醒语音数据和第二唤醒语音数据，其中，所述第一唤醒语音数据对应的第一音频幅度值最大，所述第二唤醒语音数据对应的第二音频幅度值与所述第一音频幅度值最接近；
62.步骤s103、根据所述第一唤醒语音数据、所述第一音频幅度值、所述第二唤醒语音数据以及所述第二音频幅度值，确定所述用户发声方位。
63.具体地，本实施例中的智能语音设备上安装的语音采集装置是由多个语音传感器组成的。当用户发出唤醒指令以后，所有语音传感器均会接收到该唤醒指令。由于所有语音传感器分别与用户发声方位具有不同的相对位置关系，因此各语音传感器分别采集到的唤醒语音数据的音频幅度值是不同。与用户发声方位相距较近的语音传感器，其得到的唤醒语音数据的音频幅度值会较大；反之，与用户发声方位相距较远的语音传感器，其得到的唤醒语音数据的音频幅度值会较小。
64.本实施例需要基于各语音传感器分别采集到的唤醒语音数据的音频幅度值，从中筛选出数值最大的两个音频幅度值，即第一音频幅度值和第二音频。由于第一唤醒语音数据和第二唤醒语音数据是基于与用户发声方位相距最近的两个语音传感器获得的，第一音频幅度值和第二音频幅度值可以进一步反映这两个语音传感器的用户发声方位的距离关
系和角度关系，因此根据第一唤醒语音数据、第一音频幅度值、第二唤醒语音数据以及第二音频幅度值，可以确定用户发声方位。
65.在一种实现方式中，所述步骤s103具体包括如下步骤：
66.步骤s1031、获取采集到所述第一唤醒语音数据的语音传感器的位置信息，得到第一位置信息；
67.步骤s1032、获取采集到所述第二唤醒语音数据的语音传感器的位置信息，得到第二位置信息；
68.步骤s1033、根据所述第一位置信息、所述第二位置信息、所述第一音频幅度值和所述第二音频幅度值，确定所述用户发声方位。
69.具体地，本实施例将采集到第一唤醒语音数据的语音传感器的位置信息定义为第一位置信息；将采集到第二唤醒语音数据的语音传感器的位置信息定义为第二位置信息。由于第一位置信息和第二位置信息分别代表的是与用户发声方位相距最近和次之的位置，而第一音频幅度值和第二音频幅度值可以进一步反映这两个语音传感器的用户发声方位的距离关系和角度关系，因此根据第一位置信息、第二位置信息、第一音频幅度值和第二音频幅度值，可以确定用户发声方位。
70.在一种实现方式中，所述步骤s1033具体包括如下步骤：
71.步骤s10331、根据所述第一位置信息和所述第二位置信息，确定目标范围数据；
72.步骤s10332、根据所述第一音频幅度值和所述第二音频幅度值，确定目标角度数据；
73.步骤s10333、根据所述目标范围数据和所述目标角度数据，确定所述用户发声方位。
74.具体地，由于第一位置信息和第二位置信息分别代表的是与用户发声方位相距最近和次之的位置，因此可以粗略地确定用户发声方位位于这两个位置之间，从而得到目标范围数据。然后再基于第一音频幅度值和第二音频幅度值，进一步确定用户发声方位位于这两个位置之间的角度，即得到目标角度数据。根据目标范围数据和目标角度数据就可以准确确定用户发声方位。
75.举例说明，如图4所示，对于4颗mic的输入音频data1、data2、data3和data4，接收唤醒词音频幅度最大的mic音频d_x和第二大的mic音频d_y，可判定用户位置在d_x和d_y之间，偏向d_x的方向，可通过各颗mic设计位置结合实际测试数据mic接收强度，估算出用户的大致方向在d_x和d_y之间大致角度：
76.d_x＝max(data1，data2，data3，data4)
77.d_y＝second(data1，data2，data3，data4)。
78.如图1所示，所述方法还包括如下步骤：
79.步骤s200、根据所述用户发声方位对所述语音采集装置进行调整。
80.具体地，由于唤醒智能语音设备以后，用户还会进一步通过声音控制智能语音设备执行期望的操作，此时用户的位置通常不会发生较大的改变，因此为了提高后续对用户语音识别的准确性，本实施例需要根据基于确定的用户发声方位对智能语音设备上的语音采集装置进行调整，使其可以正对于用户发声方位。由于语音采集装置正对于用户发声方位时，通常采集到的用户语音就是用户正面面向语音采集装置发出的声音，因此这种状态
下可以采集到质量较佳的用户语音，从而有效提高对用户语音识别的准确性。
81.在一种实现方式中，所述步骤s200具体包括如下步骤：
82.步骤s201、根据所述用户发声方位，确定所述目标采集方位，其中，所述目标采集方位与所述用户发声方位相对；
83.步骤s202、根据所述目标采集方位对所述语音采集装置进行调整。
84.具体地，本实施例在确定用户发声方位之后，需要根据用户发声方位确定目标采集方位，为了后续能够采集到更好质量的用户语音，因此本实施例将与用户发声方位相对的方位作为目标采集方位。根据目标采集方位调整语音采集装置以后，就可以采集到用户正面发出的语音。
85.在一种实现方式中，所述智能语音设备包括旋转机构，若干所述语音传感器固定于所述旋转机构上，所述步骤s202具体包括如下步骤：
86.步骤s2021、将若干所述语音传感器中的一个语音传感器作为主语音传感器；
87.步骤s2022、根据所述目标采集方位对所述旋转机构进行旋转，直至所述主语音传感器位于所述目标采集方位上。
88.具体地，如图4所示，本实施例中的智能语音设备包括有一个用于放置多个语音传感器的旋转机构，这些语音传感器即固定于该旋转机构的外围，本实施例预先在这些语音传感器中选定一个作为主语音传感器，当确定目标采集方位后，对旋转机构进行旋转，使得该主语音传感器位于目标采集方位上，从而完成对语音采集装置的调整。
89.在一种实现方式中，所述主语音传感器位于若干所述语音传感器的中间。
90.在一种实现方式中，所述旋转机构由中心镂空的圆盘结构和套设于所述圆盘结构中部的中心轴组成，且所述圆盘结构和所述中心轴为活动连接关系，若干所述语音传感器即固定于所述圆盘结构的外围。
91.在一种实现方式中，所述圆盘结构还包括有用于收纳的下层结构，如图2所示，所述下层结构中包含有电源、dsp音频处理芯片，处理器、旋转电机、音箱及无线模块等部件。其中，电源负责给设备各部件供电，完成设备的正常功能；dsp音频处理芯片主要负责对若干语音传感器和降噪语音传感器采集的语音信号处理及分析，即完成设备的语音信号采集及分析工作。处理器负责接收dsp音频处理后的语音信息，并控制电机旋转所述旋转机构，控制自身的音箱输入，及响应用户指令通过无线模块，控制从属设备工作等功能；音箱可以针对智能语音设备自身或者用户需求进行回应与反馈；无线模块主要负责和从属设备的通信功能，拓展智能语音设备的功能。
92.举例说明，如图3所示，本实施例中的智能语音设备主要分为三部分，上层为圆盘结构，用于放置若干所述语音传感器；上层和下层中间由与圆盘结构旋转连接的中心轴支撑，因此中心轴可以旋转调整上层结构的角度；下层为收纳智能语音设备的主体部件的下层结构，里面包含有电源，信号处理电路、音箱及电机模块等等。即若干语音传感器拾音后的分析处理全在下层结构进行，此部分可以根据智能语音设备的实际设计进行相关调整。
93.如图1所示，所述方法还包括如下步骤：
94.步骤s300、通过调整后的所述语音采集装置，获取用户语音信息。
95.由于本实施例是根据确定出的目标采集方向对语音采集装置进行调整的，因此调整后的语音采集装置可以采集到用户正面发出的语音信息，从而减少环境噪声的影响，得
到高质量的用户语音信息。
96.在一种实现方式中，若干所述语音传感器中包括一个降噪语音传感器，其中，所述降噪语音传感器位于所述主语音传感器的相反方向，所述步骤s300具体包括如下步骤：
97.步骤s301、获取调整后的所述语音采集装置上除所述降噪语音传感器之外的语音传感器分别采集的声音，得到若干语音信息；
98.步骤s302、根据若干所述语音信息，确定初始语音信息；
99.步骤s303、获取所述降噪语音传感器采集的声音，得到噪音信息；
100.步骤s304、根据所述噪音信息对所述初始语音信息进行降噪处理，得到所述用户语音信息。
101.由于用户所处的环境中通常还存在除了用户语音之外的其他噪声，这些噪声对智能语音设备识别用户语音的准确性会造成较大影响。如图4所示，本实施例将主语音传感器的背部的语音传感器作为降噪语音传感器，由于调整后的语音采集装置中主语音传感器位于用户的正前方，因此位于主语音传感器的背部的这个降噪语音传感器主要采集的就是环境噪声，通过这个降噪语音传感器来优化其他语音传感器采集到的语音信息。具体地，本实施例中需要获取除所述降噪语音传感器之外的语音传感器分别采集的声音，得到多个语音信息。然后，对这些语音信息进行组合优化，得到初始语音信息。同时通过降噪语音传感器获取到噪音信息。最后，根据噪音信息对初始语音信息进行降噪处理，即得到高质量的用户语音信息。
102.举例说明，如图4所示，其中mic1、mic2和mic3为用于采集用户语音信息的语音传感器，且mic1为主语音传感器，mic4则位于主语音传感器mic1的相反方向，作为降噪语音传感器，中心的旋转轴则可以调整整个部件的位置，以匹配外接的工作环境。
103.在一种实现方式中，如图5所示，当采集到用户语音信息后，通过无线模块将该用户语音信息传递至被控设备端，通过被控设备端执行所述用户语音信息对应的操作指令。如果没有没有新的唤醒语音指令出现，则对当前的语音采集装置的方位不进行调整，继续识别用户发出的语音信息，实现多轮对话的语音功能。当预设时长内智能语音设备都没有执行任何操作，则控制智能语音设备进入待机状态，需要重新获取到唤醒语音指令后才能重启智能语音设备。
104.如图6所示，本实施例中的语音获取方法的优势在于：
105.1、当唤醒语音指令输入时，即开始判定用户发声方位，可以时刻关注用户发声方位，并通过旋转机构配合用户发声方位的改变时刻调语音采集装置的采集方位，可以在多轮语音对话中，降低误触发的概率，优化多轮语音的用户体验。
106.2、通过配置降噪语音传感器，实现多元环境下的降噪工作，大大提高语音识别的准确率。
107.3、通过无线模块的结合，让智能语音设备不再局限于单纯的语音识别设备，更加有助于家庭生活的智能语音设备控制，作为家庭语音控制的中枢。
108.基于上述实施例，本发明还提供了一种语音获取装置，如图7所示，所述装置包括：
109.确定模块01，用于通过语音采集装置采集唤醒语音指令，根据所述唤醒语音指令确定目标采集方位，其中，所述目标采集方位与用户发声方位对应；
110.调整模块02，用于根据所述目标采集方位对所述语音采集装置进行调整；
111.获取模块03，用于通过调整后的所述语音采集装置，获取用户语音信息。
112.基于上述实施例，本发明还提供了一种终端，其原理框图可以如图8所示。该终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏。其中，该终端的处理器用于提供计算和控制能力。该终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现语音获取方法。该终端的显示屏可以是液晶显示屏或者电子墨水显示屏。
113.本领域技术人员可以理解，图8中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的终端的限定，具体的终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
114.在一种实现方式中，所述终端的存储器中存储有一个或者一个以上的程序，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行语音获取方法的指令。
115.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
116.综上所述，本发明公开了一种语音获取方法、装置、终端及存储介质，所述方法包括：通过语音采集装置采集唤醒语音指令，根据所述唤醒语音指令确定用户发声方位；根据所述用户发声方位对所述语音采集装置进行调整；通过调整后的所述语音采集装置，获取用户语音信息。由于本发明可以通过用户发声方位对语音采集装置进行调整，因此可以有效解决现有的智能语音设备中语音采集装置的位置固定，无法实现用户总是面向语音采集装置进行发声，从而导致现有的智能语音设备识别用户语音的准确性较低，难以高效地响应用户的语音指令的问题。
117.应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种语音获取方法、装置、终端及存储介质与流程

相关文献

最热文献