语音处理方法、系统、装置、电子设备以及存储介质与流程

2022-02-22 18:50:22 来源：中国专利 TAG：

1.本公开涉及人工智能技术领域，尤其涉及语音交互、云计算等技术领域，具体涉及语音处理方法、语音处理系统、语音处理装置、电子设备、存储介质以及程序产品。

背景技术：

2.语音交互是一种人类自然的交互方式。随着人工智能技术的不断发展，已经实现让机器能够听懂人类发出的语音，理解语音中的内在含义，并作出相应的反馈。在这些操作中，语义的准确理解、反馈的迅速程度以及音量的智能控制均成为影响语音交互顺畅的因素。

技术实现要素：

3.本公开提供了一种语音处理方法、系统、装置、电子设备、存储介质以及程序产品。
4.根据本公开的一方面，提供了一种语音处理方法，包括：响应于语音交互功能被唤醒语音唤醒，对所述唤醒语音进行轻声交互模式的唤醒识别，得到识别结果；基于所述识别结果，确定所述轻声交互模式是否被唤醒；以及响应于确定所述轻声交互模式被唤醒，发送所述唤醒语音至远程设备，以便所述远程设备基于所述唤醒语音确定所述轻声交互模式的目标音量信息。
5.根据本公开的另一方面，提供了一种语音处理方法，包括：接收来自语音交互设备的唤醒语音；确定与所述唤醒语音相关联的关联特征信息；基于所述唤醒语音的音量信息和所述关联特征信息，确定所述轻声交互模式的目标音量信息；以及将所述目标音量信息发送至所述语音交互设备，以便所述语音交互设备按照所述目标音量信息输出应答语音。
6.根据本公开的另一方面，提供了一种语音处理系统，包括：语音交互设备，用于响应于语音交互功能被唤醒语音唤醒，对所述唤醒语音进行轻声交互模式的唤醒识别，得到识别结果；基于所述识别结果，确定所述轻声交互模式是否被唤醒；以及响应于确定所述轻声交互模式被唤醒，发送所述唤醒语音至远程设备，以便所述远程设备基于所述唤醒语音确定所述轻声交互模式的目标音量信息；以及服务器，用于接收来自所述语音交互设备的唤醒语音；确定与所述唤醒语音相关联的关联特征信息；基于所述唤醒语音的音量信息和所述关联特征信息，确定所述轻声交互模式的目标音量信息；以及将所述目标音量信息发送至所述语音交互设备，以便所述语音交互设备按照所述目标音量信息输出应答语音。
7.根据本公开的另一方面，提供了一种语音处理装置，包括：识别模块，用于响应于语音交互功能被唤醒语音唤醒，对所述唤醒语音进行轻声交互模式的唤醒识别，得到识别结果；唤醒模块，用于基于所述识别结果，确定所述轻声交互模式是否被唤醒；以及语音发送模块，用于响应于确定所述轻声交互模式被唤醒，发送所述唤醒语音至远程设备，以便所述远程设备基于所述唤醒语音确定所述轻声交互模式的目标音量信息。
8.根据本公开的另一方面，提供了一种语音处理装置，包括：接收模块，用于接收来自语音交互设备的唤醒语音；特征确定模块，用于确定与所述唤醒语音相关联的关联特征
信息；音量确定模块，用于基于所述唤醒语音的音量信息和所述关联特征信息，确定所述轻声交互模式的目标音量信息；以及音量发送模块，用于将所述目标音量信息发送至所述语音交互设备，以便所述语音交互设备按照所述目标音量信息输出应答语音。
9.根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。
10.根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如上所述的方法。
11.根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。
12.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
13.附图用于更好地理解本方案，不构成对本公开的限定。其中：
14.图1示意性示出了根据本公开实施例的语音处理系统的架构图；
15.图2示意性示出了根据本公开实施例的语音处理方法的流程图；
16.图3示意性示出了根据本公开实施例的唤醒轻声交互模式的流程图；
17.图4示意性示出了根据本公开另一实施例的语音处理方法的流程图；
18.图5示意性示出了根据本公开另一实施例的语音处理系统的架构图；
19.图6示意性示出了根据本公开实施例的语音处理装置的框图；
20.图7示意性示出了根据本公开另一实施例的语音处理装置的框图；以及
21.图8示意性示出了根据本公开实施例的适于实现语音处理方法的电子设备的框图。
具体实施方式
22.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
23.本公开提供了一种语音处理方法、系统、装置、电子设备、存储介质以及程序产品。
24.根据本公开的实施例，语音处理方法可以包括：响应于语音交互功能被唤醒语音唤醒，对唤醒语音进行轻声交互模式的唤醒识别，得到识别结果；基于识别结果，确定轻声交互模式是否被唤醒；以及响应于确定轻声交互模式被唤醒，发送唤醒语音至远程设备，以便远程设备基于唤醒语音确定轻声交互模式的目标音量信息。
25.本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。
26.图1示意性示出了根据本公开实施例的语音处理系统的架构图。
27.需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
28.如图1所示，根据该实施例的系统架构100可以包括语音交互设备101、网络102和服务器103。网络102用以在语音交互设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线和/或无线通信链路等等。
29.用户可以向语音交互设备101发出唤醒语音，语音交互设备101在确定语音交互功能被唤醒后，可以对唤醒语音进行轻声交互模式的唤醒识别，以便在确定轻声交互模式被唤醒的情况下，语音交互设备101可以通过网络102与服务器103交互，将唤醒语音发送给服务器103，以便服务器103基于唤醒语音的音量信息和与唤醒语音相关联的关联特征信息来确定用于反馈用户的应答语音的目标音量信息。
30.语音交互设备101上可以安装有各种通讯客户端应用，例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
31.语音交互设备101可以是具有声音采集器，例如麦克风，来采集用户的唤醒语音和交互语音。语音交互设备101同时还可以具有声音播放器，例如扬声器，来播放语音交互设备发出的声音。
32.语音交互设备101可以是任何能够通过语音信号进行交互的电子设备。语音交互设备101可以包括但不限于智能手机、平板电脑、膝上型便携计算机、智能音箱、车载音箱、智能家教机和智能机器人等等。
33.服务器103可以是提供各种服务的服务器，例如对语音交互设备101发送的唤醒语音进行语音识别、并进行后续例如基于语音识别结果进行搜索、分析等的后台管理服务器(仅为示例)。
34.根据本公开的实施例，服务器103还可以确定与唤醒语音相关联的关联特征信息。基于唤醒语音的音量信息和关联特征信息共同来确定轻声交互模式的目标音量信息。将目标音量信息发送至语音交互设备101，以便语音交互设备101按照目标音量信息输出应答语音。
35.服务器103可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与vps服务(
″
virtual private server
″
，或简称
″
vps
″
)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。
36.应该理解，图1中的语音交互设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的语音交互设备、网络和服务器。
37.图2示意性示出了根据本公开实施例的语音处理方法的流程图。
38.如图2所示，该方法可以由语音交互设备来执行，包括操作s210～s230。
39.操作s210，响应于语音交互功能被唤醒语音唤醒，对唤醒语音进行轻声交互模式的唤醒识别，得到识别结果。
40.操作s220，基于识别结果，确定轻声交互模式是否被唤醒。
41.操作s230，响应于确定轻声交互模式被唤醒，发送唤醒语音至远程设备，以便远程设备基于唤醒语音确定轻声交互模式的目标音量信息。
42.根据本公开的实施例，语音交互功能可以是指机器例如语音交互设备接收用户输出的语音，理解语音中的含义，并作出相应的应答的交互功能。例如，接收来自用户的语音指令，并能够基于语音指令输出对应的应答语音。
43.根据本公开的实施例，唤醒语音可以是指在语音交互功能未被唤醒前接收到的语音信号，例如包括唤醒词的语音、或者包括非唤醒词的语音。
44.根据本公开的实施例，响应于语音交互功能被唤醒语音唤醒，可以直接开启语音交互功能，例如按照正常音量对用户输出应答语音。但是并不限于此。还可以对唤醒语音进行轻声交互模式的唤醒识别，得到识别结果，并基于识别结果来确定轻声交互模式是否被唤醒。
45.根据本公开的实施例，轻声交互模式被唤醒，意即轻声交互模式被开启。在轻声交互模式被唤醒后，不仅可以接收用户的语音指令，基于用户的语音指令执行操作，还可以采用轻声交互模式来进行语音交互。
46.根据本公开的实施例，轻声交互模式可以称为轻问轻答模式。轻声交互模式可以是按照与用户的唤醒语音的音量相匹配的音量输出应答语音的模式。
47.根据本公开的实施例，与用户的唤醒语音的音量相匹配的音量可以为基于目标音量信息来确定的音量。可以将唤醒语音发送至远程设备，以便远程设备基于唤醒语音来确定轻声交互模式的目标音量信息。
48.根据本公开的实施例，远程设备可以指服务器，但是并不限于此，还可以是其他可以执行计算处理的终端设备，只要是能够基于唤醒语音来确定轻声交互模式的目标音量信息的设备即可。
49.根据本公开的实施例，语音处理方法可以由语音交互设备来执行。用户采用轻声方式输出唤醒语音，该轻声方式可以是唤醒语音的音量小于历史时刻发出的唤醒语音的音量的方式。基于轻声方式输出的唤醒语音，可以唤醒轻声交互模式。响应于轻声交互模式被唤醒，则可以将该唤醒语音作为信号发送至远程设备，以便由远程设备基于唤醒语音来确定向用户输出的应答语音的目标音量信息。例如，由语音交互设备按照与用户同样轻声方式来输出应答语音，使得能够自动识别使用场景，在不宜喧哗的场景下能自动降低应答语音的音量，避免因音量高而导致打扰用户的问题。
50.利用本公开实施例提供的语音处理方法，能够在与用户进行语音交互的过程中，根据用户输出唤醒语音的方式不同，自动调节对应的应答方式，实现智能性和个性化地语音交互。
51.以上仅是示例性实施例，但不限于此，还可以包括本领域已知的其他语音处理方法，只要能够实现对唤醒语音进行轻声交互模式的识别，响应于确定轻声交互模式被唤醒，发送唤醒语音至远程设备，以便远程设备基于唤醒语音来确定轻声交互模式的目标音量信息即可。
52.下面参考图3，以具体实施例为例对例如图2所示的方法做进一步说明。
53.图3示意性示出了根据本公开实施例的唤醒轻声交互模式的流程图。
54.如图3所示，唤醒轻声交互模式可以包括操作s310、s320、s331、s332、s340、s351、s352。
55.操作s310，接收唤醒语音。
56.操作s320，确定语音交互功能是否被唤醒语音唤醒。
57.操作s331，响应于语音交互功能被唤醒语音唤醒，对唤醒语音进行轻声交互模式的唤醒识别，得到识别结果。
58.操作s332，响应于语音交互功能未被唤醒语音唤醒，停止操作。
59.操作s340，确定轻声交互模式是否被唤醒。
60.例如，将识别结果与轻声交互模式的规则进行比较。
61.操作s351，响应于识别结果满足轻声交互模式的规则，确定轻声交互模式被唤醒，可以按照轻声交互模式与用户进行语音交互。
62.操作s352，响应于识别结果未满足轻声交互模式的规则，确定轻声交互模式未被唤醒，可以将识别结果与其他规则进行比较。
63.根据本公开的实施例，轻声交互模式的规则可以指基于识别结果能够判定采用轻声交互模式来进行语音交互的规则，例如基于识别结果能够判定用户是按照低于与用户相关的群体的平均音量信息发出唤醒语音或者用户是按照低于历史时刻的音量信息发出唤醒语音的规则。响应于识别结果满足轻声交互模式的规则，可以与用户采用轻声交互模式来进行语音交互。轻声交互模式可以指语音交互设备按照唤醒语音的音量信息来输出应答语音。该唤醒语音的音量信息可以指目标音量信息。
64.根据本公开的实施例，其他规则可以包括正常音量交互模式的规则。正常音量交互模式的规则可以指基于识别结果能够判定采用正常音量交互模式来进行语音交互的规则，例如基于识别结果能够判定用户是按照与用户相关的群体的平均音量信息发出唤醒语音或者用户是按照高于历史时刻的音量信息发出唤醒语音的规则。响应于识别结果满足正常音量交互模式的规则，可以与用户采用正常音量交互模式来进行语音交互。正常音量交互模式可以指语音交互设备按照历史时刻的正常音量信息来输出应答语音。该正常音量信息可以指音量信息为与用户相关的群体的平均音量信息或者用户的高于与用户相关的群体的平均音量信息。
65.利用本公开实施例提供的语音处理方法，增加了语音交互模式的种类，提高了用户的使用体验。
66.根据本公开的示例性实施例，针对操作s220，基于识别结果，确定轻声交互模式是否被唤醒还可以包括如下操作。
67.将识别结果与模糊规则进行比较；响应于识别结果满足模糊规则，输出查询语音，其中，查询语音为用于查询是否唤醒轻声交互模式的语音信息；接收来自用户的模式确认语音；以及基于模式确认语音，确定轻声交互模式被唤醒。
68.根据本公开的实施例，模糊规则可以指基于识别结果无法判定采用的语音交互的模式的规则。在识别结果满足模糊规则的情况下，无法直接按照轻声交互模式或者正常音量交互模式来进行语音交互，可以输出查询语音，由用户来明确目标交互模式，例如轻声交互模式或者正常音量交互模式。
69.根据本公开的实施例，查询语音可以是含有“是否唤醒轻声交互模式”等语义信息的语音，只要用户通过查询语音给出模式确认语音回答即可，对查询语音的话术不做限定。
70.根据本公开的实施例，通过设定模糊规则，可以针对置信度不高的识别结果，执行向用户再次确认的操作，由此使得对语音交互模式的判断更为准确，避免因识别结果置信
度不高而做出错误判断的问题。
71.根据本公开的实施例，识别结果的类型可以是数值，与识别结果相对应的模糊规则、正常音量交互模式的规则以及轻声交互模式的规则可以设置为不同的阈值区间。可以基于数值与不同的阈值区间进行比较，进而确定识别结果与各个规则之间的关系，例如识别结果满足轻声交互模式的规则。但是并不限于此。识别结果的类型还可以是文本结果，与识别结果相对应的模糊规则、正常音量交互模式的规则以及轻声交互模式的规则可以设置为不同的标准。可以基于文本结果的语义与各个规则的标准的语义进行相似度判断，进而确定识别结果与各个规则之间的关系，例如识别结果满足轻声交互模式的规则。
72.根据本公开的实施例，识别结果可以仅基于唤醒语音的音量信息来确定。但是并不限于此。还可以基于唤醒语音的音量信息和位置信息共同来确定。
73.例如，响应于语音交互功能被唤醒语音唤醒，确定唤醒语音的音量信息；对唤醒语音进行声音定位处理，得到唤醒语音的声源的位置信息；以及基于位置信息和音量信息，对唤醒语音进行轻声交互模式的唤醒识别，得到识别结果。
74.根据本公开的实施例，可以在语音交互设备上安装多个麦克风，例如麦克风阵列。可以利用麦克风阵列各自接收唤醒语音，确定与多个麦克风阵列一一对应的多个语音信号之间的信号差，利用信号差来进行声音定位处理，得到唤醒语音的声源的位置信息，例如唤醒语音的声源与语音交互设备之间的距离信息。
75.根据本公开的实施例，信号差可以是强度差、时间差、音色差、相位差中的一种或多种。
76.根据本公开的实施例，也可以在语音交互设备上安装红外传感器，通过红外传感器来确定用户与语音交互设备之间的相对位置信息(例如声源与语音交互设备之间的距离信息)。
77.根据本公开的实施例，可以对音量信息和位置信息进行加权求和处理，得到识别结果，例如，确定音量信息的影响程度，基于音量信息的影响程度来确定音量信息的评分以及音量信息的权重。确定位置信息的影响程度，基于位置信息的影响程度来确定位置信息的评分以及位置信息的权重。基于音量信息的评分、音量信息的权重、位置信息的评分以及位置信息的权重来确定识别结果。但是并不限于此。还可以构建轻声识别模型，以音量信息和位置信息作为输入数据，利用轻声识别模型处理得到数值的输出结果。也可以包括本领域已知的其他识别结果的确定方式，只要是能够基于音量信息和位置信息来确定识别结果的方式即可。
78.图4示意性示出了根据本公开另一实施例的语音处理方法的流程图。
79.如图4所示，该方法可以由服务器来执行，包括操作s410～s440。
80.操作s410，接收来自语音交互设备的唤醒语音。
81.操作s420，确定与唤醒语音相关联的关联特征信息。
82.操作s430，基于唤醒语音的音量信息和关联特征信息，确定轻声交互模式的目标音量信息。
83.操作s440，将目标音量信息发送至语音交互设备，以便语音交互设备按照目标音量信息输出应答语音。
84.根据本公开的实施例，可以基于唤醒语音的音量信息来确定轻声交互模式的目标
音量信息，例如，确定目标音量信息与唤醒语音的音量信息相一致。该种目标音量信息的确定方式简单快速。
85.根据本公开的实施例，还可以基于唤醒语音的音量信息和与唤醒语音相关联的关联特征信息来确定轻声交互模式的目标音量信息。与唤醒语音相关联的关联特征信息，可以是用于辅助确定目标音量信息的与唤醒语音相关联的或者与发出唤醒语音的用户相关联的特征信息。
86.例如，用户输出唤醒语音的时间信息、用户输出唤醒语音的位置信息、用户的特征信息、与用户相关联的对象的特征信息等。与用户相关联的对象可以是指用户的亲属、与用户相关联的群体等。
87.根据本公开的实施例，将唤醒语音的音量信息和与唤醒语音相关联的关联特征信息相结合，共同来确定轻声交互模式的目标音量信息，可以使得目标音量信息的确定考虑的因素更为全面、更贴近用户的实际需求，提高用户的使用体验。
88.根据本公开的实施例，可以由语音交互设备直接执行基于唤醒语音的音量信息和关联特征信息来确定轻声交互模式的目标音量信息的操作。直接利用语音交互设备来确定目标音量信息，可以使得语音交互的操作更为快速。
89.根据本公开的实施例，还可以由语音交互设备将唤醒语音发送至远程设备例如服务器，由远程设备确定与唤醒语音相关联的关联特征信息，并由远程设备执行基于唤醒语音的音量信息和关联特征信息来确定轻声交互模式的目标音量信息的操作。利用远程设备例如服务器来确定目标音量信息，可以获取实时更新的与唤醒语音相关联的关联特征信息，使得目标音量信息的确定更为准确、有效。
90.以上仅是示例性实施例，但不限于此，还可以包括本领域已知的其他语音处理方法，只要能够实现基于唤醒语音的音量信息和与唤醒语音相关联的关联特征信息来确定轻声交互模式的目标音量信息，并将目标音量信息发送至语音交互设备即可。
91.根据本公开的实施例，针对操作s430，基于唤醒语音的音量信息和关联特征信息，确定轻声交互模式的目标音量信息可以包括如下操作。
92.例如基于关联特征信息，确定参照音量信息；以及基于参照音量信息和唤醒语音的音量信息，确定轻声交互模式的目标音量信息。
93.根据本公开的实施例，关联特征信息包括以下至少一项：时间信息、用户特征信息、环境信息、与用户特征信息相关的群体特征信息。
94.根据本公开的实施例，时间信息可以是指用于区分用户作息的时间信息，例如，在白天和晚上等不同时刻，用户的作息不同，需要的语音交互的音量信息也不同。例如在夜晚用户可能需要的应答语音的音量信息小于白天的应答语音的音量信息。
95.根据本公开的实施例，环境信息可以是指用于区分应用场所的信息，例如医院、图书馆、电影院等应用场所的环境信息。用户在图书馆等场所可能需要的应答语音的音量信息小于其他应用常识的应答语音的音量信息。
96.根据本公开的实施例，用户特征信息可以是指用户的年龄、职业、家庭状况等的特征信息。例如，用户家里有婴幼儿，在婴幼儿休息时需要应答语音的音量信息小于婴幼儿清醒时的应答语音的音量信息。
97.根据本公开的实施例，与用户特征信息相关的群体特征信息可以是指与用户年龄
相同的群体的特征信息，但是并不局限于此，还可以是与用户职业相同的群体的特征信息。只要是与用户特征信息相关的群体特征信息也可以作为关联特征信息。
98.根据本公开的实施例，参照音量信息可以是基于关联特征信息来确定的。例如可以是根据与用户特征信息相关的群体(多个用户)的需求来确定参照音量信息，具体可以基于与用户特征信息相关的群体的平均音量信息来确定参照音量信息。但是并不局限于此。还可以基于时间信息、环境信息以及与用户特征信息相关的群体的需求来共同确定参照音量信息。
99.根据本公开的实施例，可以对参照音量信息和唤醒语音的音量信息进行加权求和，得到轻声交互模式的目标音量信息。但是并不局限于此。还可以利用参照音量信息来辅助调整唤醒语音的音量信息，进而得到轻声交互模式的目标音量信息。例如，利用参照音量信息来判断唤醒语音的音量信息是否合理，在合理的情况下，直接以唤醒语音的音量信息作为目标音量信息。
100.利用本公开实施例提供的目标音量信息的确定方式，可以将个性化信息与群体信息相结合，满足个性化要求也符合普遍适用性。此外，利用服务器来执行目标音量信息的确定，可以得到实时变化的参照音量信息，使得参照音量信息的更新具有实时性。
101.下面参考图5，结合具体实施例对例如图2和图4所示的方法做进一步说明。
102.图5示意性示出了根据本公开另一实施例的语音处理系统的架构图。
103.如图5所示，语音处理系统可以包括语音交互设备510和服务器540.语音交互设备510可以接收用户发出的唤醒语音。例如，用户轻声发出的唤醒语音并查询指令，“aaa(唤醒语音)，明天的天气怎么样(查询指令)”。响应于语音交互功能被唤醒，利用装载于语音交互设备510上的轻声识别模型520来对唤醒语音进行轻声交互模式的唤醒识别，得到识别结果。响应于轻声交互模式被唤醒，可以利用轻声唤醒模块530将唤醒语音发送至服务器540。
104.响应于轻声交互模式被成功唤醒，语音交互设备510可以将唤醒语音连同用户的语音指令例如查询指令一起作为音频数据传给对服务器540。服务器540可以是云服务器。
105.服务器540接收到唤醒语音和语音指令后，可以基于字段标识信息将两者区分开，分别将唤醒语音发送至轻声辅助模块550，将例如查询天气的查询指令传送至服务模块560。
106.可以利用轻声辅助模块550确定与唤醒语音相关联的关联特征信息，基于关联特征信息来确定参照音量信息，基于用户的唤醒语音的音量信息和参照音量信息来确定目标音量信息。可以利用服务模块560来确定对应的天气信息。服务器540可以将目标音量信息和天气信息作为数据发送至语音交互设备510。通过语音交互设备510来按照目标音量信息向用户输出关于天气信息的应答语音。
107.图6示意性示出了根据本公开实施例的语音处理装置的框图。
108.如图6所示，语音处理装置600可以包括识别模块610、唤醒模块620、语音发送模块630。
109.识别模块610，用于响应于语音交互功能被唤醒语音唤醒，对唤醒语音进行轻声交互模式的唤醒识别，得到识别结果。
110.唤醒模块620，用于基于识别结果，确定轻声交互模式是否被唤醒。
111.语音发送模块630，用于响应于确定轻声交互模式被唤醒，发送唤醒语音至远程设
备，以便远程设备基于唤醒语音确定轻声交互模式的目标音量信息。
112.根据本公开的实施例，识别模块可以包括音量确定单元、定位单元、识别单元。
113.音量确定单元，用于响应于语音交互功能被唤醒语音唤醒，确定唤醒语音的音量信息。
114.定位单元，用于对唤醒语音进行声音定位处理，得到唤醒语音的声源的位置信息。
115.识别单元，用于基于位置信息和音量信息，对唤醒语音进行轻声交互模式的唤醒识别，得到识别结果。
116.根据本公开的实施例，唤醒模块可以包括第一比较单元、第一模式确定单元。
117.第一比较单元，用于将识别结果与轻声交互模式的规则进行比较。
118.第一模式确定单元，用于响应于识别结果满足轻声交互模式的规则，确定轻声交互模式被唤醒。
119.根据本公开的实施例，唤醒模块还可以包括第二比较单元、输出单元、接收单元、第二模式确定单元。
120.第二比较单元，用于将识别结果与模糊规则进行比较。
121.输出单元，用于响应于识别结果满足模糊规则，输出查询语音，其中，查询语音为用于查询是否唤醒轻声交互模式的语音信息。
122.接收单元，用于接收来自用户的模式确认语音。
123.第二模式确定单元，用于基于模式确认语音，确定轻声交互模式被唤醒。
124.图7示意性示出了根据本公开实施例的语音处理装置的框图。
125.如图7所示，语音处理装置700可以包括接收模块710、特征确定模块720、音量确定模块730、音量发送模块740。
126.接收模块710，用于接收来自语音交互设备的唤醒语音。
127.特征确定模块720，用于确定与唤醒语音相关联的关联特征信息。
128.音量确定模块730，用于基于唤醒语音的音量信息和关联特征信息，确定轻声交互模式的目标音量信息。
129.音量发送模块740，用于将目标音量信息发送至语音交互设备，以便语音交互设备按照目标音量信息输出应答语音。
130.根据本公开的实施例，音量确定模块可以包括参照音量确定单元、目标音量确定单元。
131.参照音量确定单元，用于基于关联特征信息，确定参照音量信息。
132.目标音量确定单元，用于基于参照音量信息和唤醒语音的音量信息，确定轻声交互模式的目标音量信息。
133.根据本公开的实施例，关联特征信息可以包括以下至少一项：时间信息、用户特征信息、环境信息、与用户特征信息相关的群体特征信息。
134.根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
135.根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上所述的方法。
136.根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上所述的方法。
137.根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上所述的方法。
138.图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
139.如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序，来执行各种适当的动作和处理。在ram 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
140.设备800中的多个部件连接至i/o接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
141.计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如语音处理方法。例如，在一些实施例中，语音处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由rom 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到ram 803并由计算单元801执行时，可以执行上文描述的语音处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音处理方法。
142.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
143.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处
理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
144.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
145.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
146.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
147.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。
148.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
149.上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于语音的指令调度方法、装置及电子设备与流程

语音处理方法、系统、装置、电子设备以及存储介质与流程

相关文献

最热文献