一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

音频数据处理方法、系统、装置、设备以及存储介质与流程

2022-03-23 02:24:32 来源:中国专利 TAG:


1.本公开涉及人工智能技术领域,尤其涉及语音交互、虚拟数字人等技术领域。


背景技术:

2.传统客服系统基于pstn(public switched telephone network,公共交换电话网络)。用户需要通过手机、固话等拨打呼叫中心的电话从而接入后端的人工客服或智能客服,并且只能基于语音维度进行交互。近年来,得益于深度学习算法的突破,虚拟数字人技术飞速发展,很多公司将传统的音频客服,升级到了基于虚拟数字人的“数字员工”客服。基于虚拟数字人的“数字员工”客服可以向用户提供音频和视频两个维度的交互方式。


技术实现要素:

3.本公开提供了一种音频数据处理方法、系统、装置、设备、存储介质以及计算机程序产品。
4.根据本公开的一方面,提供了一种音频数据处理方法,包括:采集目标音频数据,并将所述目标音频数据发送至所述云手机服务端;以及接收来自所述云手机服务端的虚拟对象音频数据和虚拟对象视频数据,并播放所述虚拟对象音频数据和虚拟对象视频数据。
5.根据本公开的另一方面,提供了一种音频数据处理方法,包括:接收来自云手机客户端的目标音频数据;根据所述目标音频数据,确定虚拟对象音频数据和虚拟对象视频数据;以及将所述虚拟对象音频数据和所述虚拟对象视频数据发送至所述云手机客户端。
6.根据本公开的另一方面,提供了一种音频数据处理装置,包括:接收模块,用于接收来自所述云手机客户端的目标音频数据;处理模块,用于根据所述目标音频数据,确定虚拟对象音频数据和虚拟对象视频数据;以及发送模块,用于将所述虚拟对象音频数据和所述虚拟对象视频数据发送至所述云手机客户端。
7.根据本公开的另一方面,提供了一种音频数据处理装置,包括:音频采集模块,用于采集目标音频数据;通信模块,用于将所述目标音频数据发送至云手机服务端,以及接收来自所述云手机服务端的虚拟对象音频数据和虚拟对象视频数据;音频播放模块,用于播放所述虚拟对象音频数据;以及显示模块,用于播放所述虚拟对象视频数据。
8.本公开的另一个方面提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开实施例所示的方法。
9.根据本公开实施例的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开实施例所示的方法。
10.根据本公开实施例的另一方面,提供了一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现本公开实施例所示方法的步骤。
11.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特
征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
12.附图用于更好地理解本方案,不构成对本公开的限定。其中:
13.图1是根据本公开实施例的音频数据处理方法、装置、电子设备和存储介质的系统架构示意图;
14.图2示意性示出了根据本公开的实施例的音频数据处理方法的流程图;
15.图3示意性示出了根据本公开另一实施例的音频数据处理方法的流程图;
16.图4示意性示出了根据本公开另一实施例的确定虚拟人音频数据和虚拟人视频数据的方法的流程图;
17.图5示意性示出了根据本公开实施例的音频数据处理装置的框图;
18.图6示意性示出了根据本公开另一实施例的音频数据处理装置的框图;以及
19.图7示意性示出了可以用来实施本公开的实施例的示例电子设备的框图。
具体实施方式
20.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
21.以下将结合图1对本公开提供的系统架构方法、装置、电子设备和存储介质的的系统架构进行描述。
22.图1是根据本公开实施例的音频数据处理方法、装置、电子设备和存储介质的系统架构示意图。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
23.如图1所示,该系统架构100包括云手机客户端110和云手机服务端120。
24.云手机客户端110可以包括音频采集模块、通信模块、音频播放模块和显示模块。其中,音频采集模块可以用于采集音频数据,例如可以包括麦克风等。通信模块可以用于与其他电子设备进行网络通信,例如可以包括网卡、调制解调器、无线通信收发机等。音频播放模块可以用于播放音频数据,例如可以包括扬声器等。显示模块可以用于播放视频数据,例如可以包括显示器等。
25.根据本公开的实施例,云手机客户端110例如可以包括智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
26.云手机服务端120可以是为云手机客户端110提供云手机服务的服务器。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务(virtual private server,或简称vps)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
27.云手机服务端120可以部署一个或多个虚拟手机实例。每个虚拟手机实例与一个
云手机客户端对应,例如,云手机服务端120中可以部署与云手机客户端110对应的虚拟手机实例。每个虚拟手机实例中可以配置有各种应用程序,例如通信应用121和虚拟对象应用122。其中,通信应用121可以用于处理与云手机客户端之间的数据传输,例如接收来自云手机客户端的目标音频数据和向云手机客户端发送虚拟对象的音视频数据。虚拟对象应用122可以用于对音频数据进行处理并生成相应的虚拟对象。该虚拟手机实例中可以包括与云手机客户端110的麦克风、扬声器和显示器对应的麦克风模块、扬声器模块和显示器模块。可以分别使用与麦克风模块、扬声器模块和显示器模块对应的应用程序接口(application programming interface,api)121来调用麦克风模块、扬声器模块和显示器模块。
28.云手机客户端110和云手机服务端120之间可以建立通信连接130,云手机客户端110和云手机服务端120之间可以通过该通信连接130传输数据,以进行交互。示例性地,该通信连接130例如可以包括实时音视频通信(reel time communications,rtc)连接。通过实时音视频通信连接,可以实现云手机客户端110和云手机服务端120之间进行全双工交互,提高交互体验。
29.根据本公开的实施例,云手机客户端110可以通过麦克风采集目标音频数据,并将目标音频数据发送至云手机服务端120。云手机服务端120可以接收来自云手机客户端110的目标音频数据。然后可以根据目标音频数据,确定虚拟对象音频数据和虚拟对象视频数据,并将虚拟对象音频数据和虚拟对象视频数据发送至云手机客户端110。云手机客户端110可以接收来自云手机服务端120的虚拟对象音频数据和虚拟对象视频数据,并通过扬声器播放虚拟对象音频数据,通过显示器播放虚拟对象视频数据。
30.根据本公开的实施例,虚拟对象音频数据可以用于生成虚拟对象的声音,虚拟对象视频数据可以用于生成虚拟对象的外形和动作。其中,虚拟对象例如可以包括虚拟数字人。虚拟数字人指根据计算机视觉和语音合成等技术,生成的具有数字化外形的虚拟数字人物。
31.根据本公开的实施例,目标音频数据例如可以包括用户的语音数据,虚拟对象音频数据例如可以包括针对该语音数据的交互语音,虚拟对象视频数据例如可以包括针对该语音数据的交互形象或交互动作。通过播放虚拟对象音频数据和虚拟对象视频数据,可以向用户展示虚拟对象,用于与用户进行交互。
32.根据本公开的实施例的音频数据处理系统,利用了云手机技术低成本的优势,有利于大规模推广。
33.本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
34.图2示意性示出了根据本公开的实施例的音频数据处理方法的流程图。
35.如图2所示,该音频数据处理方法200可以包括在操作s210,云手机客户端采集目标音频数据,并将目标音频数据发送至云手机服务端。
36.然后,在操作s220,云手机服务端接收来自云手机客户端的目标音频数据。
37.在操作s230,云手机服务端根据目标音频数据,确定虚拟对象音频数据和虚拟对象视频数据。
38.在操作s240,云手机服务端将虚拟对象音频数据和虚拟对象视频数据发送至云手
机客户端。
39.在操作s250,云手机客户端接收来自云手机服务端的虚拟对象音频数据和虚拟对象视频数据,并播放虚拟对象音频数据和虚拟对象视频数据。
40.根据本公开的实施例,目标音频数据例如可以包括语音数据。示例性地,云手机客户端例如可以通过麦克风采集原始语音数据,然后将该原始语音数据发送至云手机服务端。云手机服务端可以对该原始语音数据进行解码,从而得到目标音频数据。
41.根据本公开的实施例,虚拟对象音频数据可以用于生成虚拟对象的声音,虚拟对象视频数据可以用于生成虚拟对象的外形和动作。其中,虚拟对象例如可以包括虚拟数字人。
42.根据本公开的实施例,由云手机服务端执行确定虚拟对象音频数据和虚拟对象视频数据,生成虚拟对象,相对于在云手机客户端生成虚拟对象的方法,可以节省云手机客户端的计算资源。此外,一个云手机服务端可以部署多个虚拟手机实例,可以为多个云手机客户端生成虚拟对象。相对于利用专用的云端服务器生成虚拟对象的方法,成本更低。
43.另外,根据本公开的实施例的音频数据处理方法,只需对云手机服务端进行设置,云手机客户端无需进行改造,因此扩展性较强,可支持各种云手机客户端。另一方面,在需要进行技术更新时,只需对云手机服务端进行更新,不需要对每个云手机服务端进行更新,更新较为简单和方便。
44.根据本公开另一实施例,云手机服务端可以配置有通信应用和虚拟对象应用。其中,通信应用可以用于处理与云手机客户端之间的数据传输,例如接收来自云手机客户端的目标音频数据和向云手机客户端发送虚拟对象的音视频数据。虚拟对象应用可以用于对目标音频数据进行处理和生成虚拟对象。基于此,图3示意性示出了根据本公开另一实施例的音频数据处理方法的流程图。
45.如图3所示,该音频数据处理方法300可以包括操作s310~s370。该方法例如可以由上文所示的云手机服务端执行。
46.在操作s310,利用通信应用接收来自云手机客户端的目标音频数据。
47.然后,在操作s320,利用通信应用将目标音频数据输入云手机服务端的麦克风输入接口。
48.在操作s330,利用虚拟对象应用通过云手机服务端的麦克风输出接口获取目标音频数据。
49.在操作s340,利用虚拟对象应用,根据目标音频数据,确定虚拟对象音频数据和虚拟对象视频数据。
50.在操作s350,利用虚拟对象应用将虚拟对象音频数据输入云手机服务端的扬声器输入接口,并将虚拟对象视频数据输入云手机服务端的显示器输入接口。
51.在操作s360,利用通信应用通过云手机服务端的扬声器输出接口获取与目标音频数据对应的虚拟对象音频数据,并通过云手机服务端的显示器输出接口获取与目标音频数据对应的虚拟对象视频数据。
52.在操作s370,利用通信应用将虚拟对象音频数据和虚拟对象视频数据发送至云手机客户端。
53.根据本公开的实施例,麦克风输入接口可以用于将输入的音频数据通过麦克风模
speech recognition,asr)对目标音频数据中包含的语音进行识别,得到包含语音信息的文本,作为识别结果。然后可以利用对话系统确定该识别结果对应的响应文本。接下来可以利用文本转语音(text to speech,tts)技术将该响应文本转换为语音数据,即作为响应数据。将该响应数据发送至云手机服务端。云手机服务端可以根据该响应数据生成对应的虚拟人音频数据和虚拟人视频数据。
69.根据本公开的实施例,由语音交互系统来对目标音频数据进行语音识别,生成响应数据,可以降低云手机服务端的计算量,并且可以提高交互质量。
70.图5示意性示出了根据本公开实施例的音频数据处理装置的框图。
71.如图5所示,音频数据处理装置500包括接收模块510、处理模块520和发送模块530。
72.接收模块510,用于接收来自云手机客户端的目标音频数据。
73.处理模块520,用于根据目标音频数据,确定虚拟对象音频数据和虚拟对象视频数据。
74.发送模块530,用于将虚拟对象音频数据和虚拟对象视频数据发送至云手机客户端。根据本公开的实施例,云手机服务端可以配置有通信应用。处理模块还用于利用通信应用执行以下操作:接收来自云手机客户端的目标音频数据。然后将目标音频数据输入云手机服务端的麦克风输入接口。
75.根据本公开的实施例,接收来自云手机客户端的目标音频数据例如可以包括:通过与云手机客户端之间的实时音视频通信连接,接收来自云手机客户端的目标音频数据。
76.根据本公开的实施例,云手机服务器可以配置有虚拟对象应用。处理模块还可以用于利用虚拟对象应用执行以下操作:通过云手机服务端的麦克风输出接口获取目标音频数据。然后根据目标音频数据,确定虚拟对象音频数据和虚拟对象视频数据。将虚拟对象音频数据输入云手机服务端的扬声器输入接口,并将虚拟对象视频数据输入云手机服务端的显示器输入接口。
77.根据本公开的实施例,处理模块还可以用于利用虚拟对象应用执行以下操作:通过云手机服务端的扬声器输出接口获取与目标音频数据对应的虚拟对象音频数据,并通过云手机服务端的显示器输出接口获取与目标音频数据对应的虚拟对象视频数据。然后将虚拟对象音频数据和虚拟对象视频数据发送至云手机客户端。
78.根据本公开的实施例,将虚拟对象音频数据和虚拟对象视频数据发送至云手机客户端例如可以包括:通过与云手机客户端之间的实时音视频通信连接,将虚拟对象音频数据和虚拟对象视频数据发送至云手机客户端。
79.图6示意性示出了根据本公开另一实施例的音频数据处理装置的框图。
80.如图6所示,音频数据处理装置600包括音频采集模块610、通信模块620、音频播放模块630和显示模块640。
81.音频采集模块610,用于采集目标音频数据。
82.通信模块620,用于将目标音频数据发送至云手机服务端,以及接收来自云手机服务端的虚拟对象音频数据和虚拟对象视频数据。
83.音频播放模块630,用于播放虚拟对象音频数据。
84.显示模块640,用于播放虚拟对象视频数据。根据本公开的实施例,本公开还提供
了一种电子设备、一种可读存储介质和一种计算机程序产品。
85.图7示意性示出了可以用来实施本公开的实施例的示例电子设备700的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
86.如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(rom)702中的计算机程序或者从存储单元708加载到随机访问存储器(ram)703中的计算机程序,来执行各种适当的动作和处理。在ram 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、rom 702以及ram 703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。
87.设备700中的多个部件连接至i/o接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
88.计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如音频数据处理方法。例如,在一些实施例中,音频数据处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由rom 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到ram 703并由计算单元701执行时,可以执行上文描述的音频数据处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行音频数据处理方法。
89.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
90.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
91.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
92.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
93.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
94.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
95.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
96.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献