一种语音交互方法、装置、电子设备及存储介质与流程

2022-02-22 02:36:54 来源：中国专利 TAG：

1.本公开涉及人工智能技术领域，尤其涉及自然语言处理领域的语音交互方法、装置、电子设备及存储介质。

背景技术：

2.随着计算机技术的发展，人们的生活已经步入智能时代。人工智能技术为生活的各方面提供了便捷的服务，智能语音交互技术是一种典型的、被广泛应用的人工智能技术。因此，如何提高语音交互过程的机动性是语音交互技术领域一直追求的目标。

技术实现要素：

3.本公开提供了一种语音交互方法、装置、电子设备及存储介质。
4.根据本公开的第一方面，提供了一种语音交互方法，包括：
5.电子设备获取语音信息；响应于所述语音信息，获取针对所述语音信息的应答信息；确定所述电子设备的状态信息；
6.基于所述状态信息确定反馈所述应答信息的方式。
7.根据本公开的第二方面，提供了一种语音交互装置，包括：
8.语音信息获取模块，用于获取语音信息；
9.应答信息获取模块，用于响应于所述语音信息，获取针对所述语音信息的应答信息；
10.状态信息确定模块，用于确定所述电子设备的状态信息；
11.反馈方式确定模块，用于基于所述状态信息确定反馈所述应答信息的方式。
12.根据本公开的第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，
13.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的语音交互方法。
14.根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述的语音交互方法。
15.根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令在被处理器执行时实现上述的语音交互方法的步骤。
16.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
17.附图用于更好地理解本方案，不构成对本公开的限定。其中：
18.图1为本公开提供的语音交互方法的一种可选处理流程示意图；
19.图2为本公开提供的智能音箱以浮框的形式反馈应答信息的一种示意图；
20.图3为本公开提供的智能音箱以浮框的形式反馈应答信息的另一种示意图；
21.图4为本公开提供的智能音箱以浮框的形式反馈引导信息的一种示意图；
22.图5为本公开提供的智能音箱以浮框的形式反馈引导信息的另一种示意图；
23.图6为本公开提供的智能音箱以浮框的形式反馈全部的引导信息的示意图；
24.图7为实施本公开提供的智能音箱以浮框的形式反馈引导信息的再一种示意图；
25.图8是本公开提供的语音交互装置的一种可选组成结构示意图；
26.图9是本公开提供的语音交互系统的架构示意图；
27.图10为用来实现本公开实施例的语音交互方法的设备的框图。
具体实施方式
28.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
29.在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。
30.在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本公开实施例能够以除了在这里图示或描述的以外的顺序实施。
31.除非另有定义，本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本公开实施例的目的，不是旨在限制本公开。
32.对本公开实施例进行进一步详细说明之前，对本公开实施例中涉及的名词和术语进行说明，本公开实施例中涉及的名词和术语适用于如下的解释。
33.(1)人工智能(artificial intelligence，ai)，是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。
34.(2)自然语言处理，是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，自然语言处理领域的眼镜将设计自然语言，即人们日常使用的语言，所以自然语言处理与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
35.(3)引导信息，用户与电子设备进行语音交互的过程中，电子设备用于提示用户语音输入的关键词或句。
36.(4)浮框，悬浮于电子设备的当前显示界面之上。
37.相关技术中，用户与电子设备进行语音交互时，存在电子设备执行多任务的情况；如用户向电子设备发送语音信息时，电子设备在播放电影、音频、或运行应用程序。在该场
景下，电子设备暂停当前播放的电影、音频或应用程序，向用户发送针对用户发送的语音信息的应答信息，或者在电子设备的显示界面呈现针对用户发送的语音信息的应答信息，电子设备当前执行的任务被阻断。因此，相关技术中语音交互过程的机动性差，降低了用户对当前任务对应的内容的沉浸体验。
38.针对相关技术提供的上述语音交互方法存在的机动性差问题，本公开实施例提供了一种语音交互方法，装置、电子设备及存储介质，电子设备获取语音信息；响应于所述语音信息，获取针对所述语音信息的应答信息；确定所述电子设备的状态信息；基于所述状态信息确定反馈所述应答信息的方式。本公开实施例通过根据电子设备的状态信息确定针对用户发送的语音信息的应答信息，提高了语音交互过程的机动性。
39.图1是本公开提供的语音交互方法的一种可选处理流程示意图，至少可以包括以下步骤：
40.步骤s101，电子设备获取语音信息。
41.在一些实施例中，电子设备可以获取与所述电子设备的距离为第一距离范围内的语音信息；语音信息可以由用户发出，也可以由终端设备发出。
42.作为示例，针对语音信息由终端设备发出的场景，可以是用户对应的终端设备安装有客户端，客户端中预先存储语音信息，客户端在预设的时间发送语音信息；或者，用户触发客户端发送语音信息。
43.步骤s102，响应于语音信息，获取针对语音信息的应答信息。
44.在一些实施例中，电子设备接收到语音信息之后，对语音信息进行识别，得到语音识别结果；获取针对语音识别结果的应答信息。
45.在一些实施例中，电子设备对语音信息进行识别可以是指电子设备对语音信息进行语义理解。在具体实施时，可以由电子设备直接对语音信息进行语义理解；也可以是电子设备将语音信息发送至服务器，由服务器对语音信息进行语义理解，并将语义理解的结果发送至电子设备。电子设备或服务器对语音信息进行语义理解的过程均可通过语义理解模型实现。如电子设备或服务器将获取的语音信息输入至预先训练的语义理解模型，将语义理解模型的输出结果作为语义理解的结果。
46.在一些实施例中，针对语音识别结果的应答信息可以是：根据语音信息能够明确语音信息对应的语义理解，根据语义理解得到对应的应答信息。作为示例，若语音信息为“今日天气”，通过对语音信息的识别能够明确对应的语义理解为期望知道今天的天气状况，则应答信息为今天的天气状况。
47.在另一些实施例中，针对语音识别结果的应答信息可以是：根据语音信息不能够明确语音信息对应的语义理解，需要电子设备引导对方进一步输入其他语音信息。作为示例，若语音信息为“定闹钟”，通过对语音信息的识别仅能够确定对方期望定闹钟，但是并不能确定对方期望定几点的闹钟；电子设备需要输出引导信息“请问定几点的闹钟”，以使电子设备能够根据对方再次输入的语音信息明确对应的语义理解。因此，电子设备根据获取的语音信息不能够明确语音信息对应的语义理解时，应答信息为针对语音识别结果的引导信息。在具体实施时，针对应答信息为针对语音识别结果的引导信息的场景，引导信息可以是一条，也可以是多条。
48.步骤s103，确定电子设备的状态信息；
49.在一些实施例中，电子设备的状态信息可以是指电子设备当前执行的任务的数量，或者电子设备当前运行的进程的数量。
50.需要说明的是，本技术实施例中，步骤s102与步骤s103不存在执行的先后顺序；电子设备获取到语音信息之后，既可以先获取针对所述语音信息的应答信息，再确定电子设备的状态信息；也可以先获取针对所述语音信息的应答信息，再获取针对所述语音信息的应答信息；还可以同时确定电子设备的状态信息以及获取针对所述语音信息的应答信息。
51.步骤s104，基于状态信息确定反馈应答信息的方式。
52.在一些实施例中，若状态信息表征电子设备当前未执行任何一个任务，则确定反馈应答信息的方式为在电子设备的显示界面上全屏显示应答信息。在具体实施时，可以在电子设备当前的显示界面上进行页面跳转至目标页面，目标页面中显示有应答信息。其中，电子设备当前的显示界面可以是电子设备开机时的主页面，也可以是电子设备处于休眠状态时的页面。
53.作为示例，语音信息为“什么是地球仪”，则目标页面可以是网络上已经存在的用于对地球仪进行说明的页面。
54.在另一些实施例中，若状态信息表征电子设备执行至少一个任务，则确定反馈应答信息的方式为以浮框的形式显示应答信息。在具体实施时，若电子设备当前正在执行至少一个任务，如电子设备在播放电影或音乐，则以浮框的形式显示应答信息，浮框对应的区域的大小小于电子设备的显示界面的大小。如此，通过在小于电子设备的显示界面的浮框上反馈应答信息，能够避免电子设备当前正在执行的任务被阻断显示。
55.在一些实施例中，在电子设备上反馈的应答信息可以包括图像和文字中的至少一种。作为示例，若语音信息为“什么是地球仪”，则反馈的应答信息可以包括地球仪的图片，以及对地球仪的说明。
56.在一些实施例中，电子设备除了在显示屏幕或浮框上显示应答信息外，还可以同时通过语音的方式播放应答信息。作为示例，若语音信息为“什么是地球仪”，则反馈的应答信息可以包括地球仪的图片，以及对地球仪的说明。同时，电子设备播放显示屏幕或浮框上显示的地球仪的说明对应的语音。
57.本技术实施例中，通过判断电子设备当前的运行状态，根据电子设备当前的运行状态确定电子设备对获取的语音信息反馈应答信息的方式；提高电子设备语音交互的机动性。
58.下面以电子设备是智能音箱，智能音箱在多任务运行场景为例，对本技术实施例提供的语音交互方法进行说明。
59.在一些场景中，智能音箱当前正在播放歌曲，智能音箱获取用户输入的语音信息“今天天气”。智能音箱通过对语音信息的识别，确定用户期望获知今天的天气信息，语音信息对应的应答信息为今天的天气信息。由于智能音箱当前正在播放歌曲，因此以浮框的形式反馈今天的天气信息。以浮框的形式反馈应答信息的一种示意图，如图2所示，在智能音箱的显示界面上的第一区域显示浮框，浮框的大小小于智能音箱的显示界面的大小应答信息可以是纯文本的形式。其中，第一区域在显示界面上的位置可以是预先设定的；作为示例，第一区域与显示界面上固定显示的标识具有相对位置关系，如第一区域在显示界面上固定显示的标识上方；在显示界面上固定显示的标识可以是“开机/关机”标识，也可以是“语音助手”标识等。如此，在不阻断智能音箱播放音乐的同时，能够向用户反馈应答信息，提高用户听音乐时的沉浸体验。
60.在另一些场景中，智能音箱当前正在播放电影《西游记》，智能音箱获取用户输入的语音信息“《西游记》的作者是谁？”。智能音箱通过对语音信息的识别，确定用户期望获知名著《西游记》的作者是谁，语音信息对应的应答信息为《西游记》的作者的相关信息。由于智能音箱当前正在播放电影《西游记》，因此以浮框的形式反馈《西游记》的作者的相关信息。以浮框的形式反馈应答信息的另一种示意图，如图3所示，在智能音箱的显示界面上的第一区域显示浮框，浮框的大小小于智能音箱的显示界面的大小应答信息可以是文本和图像的形式；图像为应答信息中《西游记》的作者的图像，文本信息为《西游记》的作者的相关文字介绍。其中，第一区域在显示界面上的位置可以是预先设定的。如此，在不阻断智能音箱播放音乐的同时，能够向用户反馈应答信息，提高用户观看电影时的沉浸体验。
61.还有一些场景中，智能音箱与用户进行语音交互时，智能音箱根据用户的语音信息反馈的应答信息包括引导信息，引导信息用于引导用户进一步输出语音信息，以使智能音箱明确用户的需求或意图。作为示例，用户输出的第一语音信息为“定一个闹钟”，智能音箱通过对第一语音信息识别，无法明确用户的需求；之后，智能音箱反馈引导信息“定一个几点的闹钟”；智能音箱以浮框的形式反馈引导信息的一种示意图，如图4所示，智能音箱可以以浮框的形式反馈“定一个几点的闹钟”。然后，用户根据智能音箱反馈的引导信息输出第二语音信息“定一个早上8点的闹钟”；最后，智能音箱通过对第二语音信息识别，明确用户的需求后，反馈“好的，已帮你定了早上8点的闹钟”；智能音箱以浮框的形式反馈引导信息的另一种示意图，如图5所示，智能音箱可以以浮框的形式反馈“好的，已帮你定了早上8点的闹钟”。在一些实施例中，智能音箱还可以以浮框的形式反馈全部的引导信息，如图6所示，智能音箱可以以浮框的形式反馈“定一个几点的闹钟”以及“好的，已帮你定了早上8点的闹钟”。作为另一个示例，用户输入的语音信息为“买音响”，智能音箱通过对语音信息识别，无法明确用户的需求；之后，如图7所示，智能音箱可以以浮框的形式反馈引导信息的再一种示意图，引导信息可以包括多个语句，如“您是不是想问：如何购买音箱、如何购买智能音箱以及在哪儿可以购买音箱”。
62.需要说明的是，上述图2至图7所示的实施例是针对以浮框的方式反馈应答信息对本公开提供的语音交互方法进行详细说明。在具体实施时，还可以以对话气泡卡片的形式反馈应答信息。本公开实施例中电子设备获取的语音信息也可以是多种类型，如询问汇率、限行车辆的尾号等，本公开实施例不做限定。
63.本公开实施例还提供一种语音交互装置，语音交互装置的一种可选组成结构，如图8所示，包括：
64.语音信息获取模块401，用于获取语音信息；
65.应答信息获取模块402，用于响应于所述语音信息，获取针对所述语音信息的应答信息；
66.状态信息确定模块403，用于确定所述电子设备的状态信息；
67.反馈方式确定模块404，用于基于所述状态信息确定反馈所述应答信息的方式。
68.在一些实施例中，反馈方式确定模块404，用于若所述状态信息表征所述电子设备未执行任何任务，则确定反馈所述应答信息的方式为在所述电子设备的显示界面上全屏显
示所述应答信息。
69.在一些实施例中，反馈方式确定模块404，用于在所述显示界面上进行页面跳转至目标页面，所述目标页面中显示有所述应答信息。
70.在一些实施例中，反馈方式确定模块404，用于若所述状态信息表征所述电子设备执行至少一个任务，则确定反馈所述应答信息的方式为以浮框的形式显示所述应答信息；
71.所述浮框对应的区域的大小小于所述电子设备的显示界面的大小。
72.在一些实施例中，所述反馈所述应答信息的方式还包括：播放所述应答信息对应的语音。
73.在一些实施例中，应答信息获取模块402，用于对所述语音信息进行语音识别，得到语音识别结果；获取针对所述语音识别结果的应答结果。
74.在一些实施例中，应答信息获取模块402，用于对所述语音信息进行语音识别，得到语音识别结果；获取针对所述语音识别结果的引导信息。
75.本公开提供的语音交互方法可以通过语音交互系统实现。语音交互系统100的架构示意图，如图9所示，终端设备400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。
76.在一些实施例中，本公开提供的语音交互方法可由终端设备400或服务器200单独实施，当由终端设备400单独实施时，可以客户端的形式安装在终端设备400上，使终端设备400上的客户端具备语音交互功能，其也可以作为相关客户端的插件，根据需要下载到客户端后进行本地使用，以上这种部署方式中，语音交互系统可以直接在本地完成所有交互过程，不需要接入外部网络，可保证数据的绝对安全。
77.在一些实施例中，本技术实施例提供的语音交互方法可由终端设备400与服务器协同实施，例如，终端设备400获取语音信息；终端设备400向服务器200发送语音信息，服务器200获取针对所述语音信息的应答信息，并将应答信息发送至终端设备400；终端设备确定自身的状态信息；基于所述状态信息确定反馈所述应答信息的方式。
78.根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
79.图10示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本发明实施例在此不做限制。
80.电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
81.如图10所示，设备800包括计算单元801，其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序，来执行各种适当的动作和处理。在ram 803中，还可存储设备800操作所需的各种程序和数据。
计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
82.设备800中的多个部件连接至i/o接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
83.计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如语音交互方法。例如，在一些实施例中，语音交互方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由rom 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到ram 803并由计算单元801执行时，可以执行上文描述的语音交互方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音交互方法。
84.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
85.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
86.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
87.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视
器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
88.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
89.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。
90.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
91.上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于声纹特征的多人语音分离方法、设备及介质与流程

一种语音交互方法、装置、电子设备及存储介质与流程

相关文献

最热文献