通话方法、设备、存储介质及计算机程序产品与流程

2022-03-15 08:01:54 来源：中国专利 TAG：

本申请涉及人工智能技术领域，尤其涉及一种通话方法、设备、存储介质及计算机程序产品。

背景技术

随着人工智能(Artificial Intelligence，AI)技术的不断发展，智能语音服务逐渐被人们所使用。例如，在在线购物场景中，商家可使用智能语音服务与消费者进行语音通话，向消费者提供咨询或售后服务；又例如，在电话销售场景中，电商也可使用智能语音服务向用户推销产品、提供咨询或售后服务等。

但是，现有智能语音服务多采用机器合成的语音与用户进行通话，导致通话语音“机器感”较重，通话语音拟人感和真实性较低，用户体验较低，甚至用户不愿意进行进一步交互和沟通。

技术实现要素：

本申请的多个方面提供一种通话方法、设备、存储介质及计算机程序产品，用以提高机器通话语音的真实感和拟人感。

本申请实施例提供一种通话方法，包括：

在与用户端通话过程中，获取待反馈给用户端的第一音频数据；

将获取的环境背景音与第一音频数据进行混音处理，以得到第二音频数据；

将所述第二音频数据提供给所述用户端，以供所述用户端播放所述第二音频数据。

本申请实施例还提供一种电子设备，包括：存储器、处理器、通信组件及音频组件；其中，所述存储器，用于存储计算机程序；

所述处理器耦合至所述存储器、所述通信组件及所述音频组件，用于执行所述计算机程序以用于执行上述通话方法中的步骤。

本申请实施例还提供一种通话方法，包括：

获取环境背景音与预设的第一音频数据；

将所述环境背景音与预设的第一音频数据进行混音处理，以得到第二音频数据；

响应于与用户端之间的通话接通事件，将所述第二音频数据提供给所述用户端，以供所述用户端播放所述第二音频数据。

本申请实施例还提供一种存储有计算机指令的计算机可读存储介质，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器执行上述各通话方法中的步骤。

本申请实施例还提供一种计算机程序产品，包括：计算机程序；当计算机程序被处理器执行，致使所述处理器执行上述各通话方法中的步骤。

在本申请实施例中，在人机通话过程中，可获取待反馈给用户端的音频数据；并可将获取的环境背景音与音频数据进行混音处理，以得到混入环境背景音的音频数据；之后，将混入环境背景音的音频数据提供给用户端，这样用户端接听到的音频数据混入了环境背景音，通话环境与人与人之间的通话环境更为接近，可降低由于通话环境背景过于安静导致的拟人感不足的影响，有助于提高人机通话的真实感和拟人感。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的通话系统的结构示意图；

图2a和图2b为本申请实施例提供的另一通话系统的结构示意图；

图3a和图3b为本申请实施例提供的又一通话系统的结构示意图；

图3c为本申请实施例提供的通话交互流程示意图；

图4a-图4c为本申请实施例提供的通话方法的流程示意图；

图5为本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

针对现有人机语音通话中，通话语音拟人感和真实性较低的技术问题。在本申请一些实例中，在人机通话过程中，可获取待反馈给用户端的音频数据；并可将获取的环境背景音与音频数据进行混音处理，以得到混入环境背景音的音频数据；之后，将混入环境背景音的音频数据提供给用户端，这样在人机通话过程中，用户端接听到的音频数据混入了环境背景音，通话环境与人与人之间的通话环境更为接近，可降低由于通话环境背景过于安静导致的拟人感不足的影响，有助于提高人机通话的真实感和拟人感。

以下结合附图，详细说明本申请各实施例提供的技术方案。

应注意到：相同的标号在下面的附图以及实施例中表示同一物体，因此，一旦某一物体在一个附图或实施例中被定义，则在随后的附图和实施例中不需要对其进行进一步讨论。

图1为本申请实施例提供的通话系统的结构示意图。如图1所示，该通话系统包括：通话服务需求端10和服务端20。其中，通话服务需求端10和服务端20之间可以是无线或有线连接。可选地，通话服务需求端10可以通过移动网络和服务端20通信连接，相应地，移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G (LTE )、5G、WiMax等中的任意一种。可选地，通话服务需求端10也可以通过蓝牙、WiFi、红外线等方式和服务端20通信连接。

在本实施例中，服务端20是指可以进行语音通话管理，可响应用户端的服务请求，为用户提供与语音通话相关的服务的计算机设备，一般具备承担服务并保障服务的能力。即服务端20是指可提供语音通话服务的服务端设备。服务端设备可以为单一服务器设备，也可以云化的服务器阵列，或者为云化的服务器阵列中运行的虚拟机(Virtual Machine，VM)。另外，服务端设备也可以指具备相应服务能力的其他计算设备，例如电脑等终端设备(运行服务程序)等。

在一些实施例中，服务端20除了提供语音通话服务之外，还可提供其它形式的通信服务，如短信服务等等。服务端20可为通信服务方的服务端设备。可选地，通信服务方可为云通信服务方。服务端设备可为云化的服务器阵列，或者云化的服务器阵列中运行的虚拟机等。

在本申请实施例中，语音通话是指多方进行长连接的语音通话。多方是指两方或两方以上。或其中，语音通话可包括：电话语音通话和/或网络语音通话。电话语音通话可包括：网络电话通话和普通拨号电话通话。网络语音通话是指通过即时通信软件提供的语音通话功能进行语音通话。

在本实施例中，通话服务需求端10是指通话服务需求方的计算设备。计算设备是指用户使用的，具有用户所需计算、上网、通信等功能的计算机设备，例如可以是手机、平板电脑、个人电脑、穿戴设备等。在本实施例中，通话服务需求方可使用服务端20提供的语音通话服务与其目标用户进行通话。例如，在线购物场景中，商家可使用服务端20提供的语音通话服务与消费者进行语音通话，向消费者提供语音咨询或售后服务。又例如，在移动通信场景中，运营商可使用服务端20提供的语音通话服务与用户进行语音通话，向用户提供语音咨询、售后服务或推荐活动等。又例如，在电话销售场景中，电商也可使用服务端20提供的语音通话服务向用户推销产品、提供咨询或售后服务等。

现有智能语音服务多采用机器合成的语音与用户进行通话，机器合成的语音无杂音，通话环境背景过于安静，与实际通话环境不符，导致语音服务的拟人感不足，通话语音拟人感和真实性较低。对于通话的另一方用户来说，多不愿意与机器进行交流和沟通，用户体验较低。

在本实施例中，为了提高语音服务的拟人感和真实性，提供环境背景音服务。环境背景音是指通话环境所产生的背景音频数据。例如，办公室环境中，环境背景音可包括办公室环境下产生的背景噪声，如敲键盘的声音、电话声、鼠标滑动声、人员说话声等。又例如，在室外环境中，环境背景音可包括室外环境产生的声音，如说话声、汽笛声、车辆行驶产生的声音等。

在本申请实施例中，服务端20提供的语音通话服务可默认使用环境背景音。当然，也可由通话服务需求方自主选择是否使用环境背景音服务。在本实施例中，如图1所示，通话服务需求端10可向服务端20发起通话服务请求来使用或订购通话服务。对于服务端20来说，可接收通话服务请求，向通话服务需求端10展示通话服务设置页面。该页面可显示背景音开关控件。对于通话服务需求端10的用户可通过背景音开关控件，选择是否使用环境背景音。相应地，通话服务需求端10可响应于针对背景音开关控件的触发操作，确定背景音开关控件的状态；并根据背景音开关的状态，确定通话服务需求端10的用户是否使用背景音。若背景音开关的状态为确认使用状态(即启动状态)，确定通话服务需求端10的用户确定使用环境背景音；若背景音开关的状态为关闭状态，确定通话服务需求端10的用户确定不使用环境背景音。

针对服务端20默认使用环境背景音或者用户自主选择使用环境背景音的情况，通话服务需求端10的用户还可自主设置环境背景音，或者由服务端20自动设置环境背景音。对于由用户自主设置环境背景音的实施例，如图1所示，服务端20可向通话服务需求端10提供背景音设置控件。可选地，服务端20可向通话服务需求端10发送待加载页面依赖的资源信息；其中，该资源信息包括：背景音设置控件的描述信息；进一步，通话服务需求端10可获取待加载页面依赖的资源信息；并根据待加载页面依赖的资源信息，加载待加载页面。其中，待加载页面包括背景音设置控件。用户可通过该背景音设置控件设置通话服务所使用的环境背景音。

相应地，对于通话服务需求端10可响应于针对背景音设置控件的设置操作，获取该设置操作关联的环境背景音；进一步，通话服务需求端10可将设置操作关联的环境背景音提供给服务端20。相应地，服务端20可获取针对背景音设置控件的设置操作关联的环境背景音，作为预先设置的环境背景音。

在本申请实施例中，不限定用户通过背景音设置控件设置环境背景音的具体实现形式。在一些实施例中，用户可通过背景音设置控件上传已录制好的环境背景音。在该实施例中，通话服务需求端10可获取通过背景音设置控件提交的环境背景音；并将该环境背景音发送给服务端20。相应地，服务端20可将接收到的环境背景音设置为通话服务需求方预先设置的环境背景音。

在另一些实施例中，服务端20可预先存储环境背景音。其中，预先存储的环境背景音可为1种或多种，多种是指2种或2种以上。针对预先存储的环境背景音为1种的情况，服务端20可默认将预先存储的环境背景音设置为通话服务需求方预先设置的环境背景音。针对预先存储的环境背景音为多种的情况，可由通话服务需求端10的用户(即通话服务需求方)自主选择使用哪种环境背景音；当然也可由服务端20推荐环境背景音等等。对于由通话服务需求端10的用户自主选择使用哪种环境背景音的实施例来说，通话服务需求端10可展示多种环境背景音的标识，由用户选择使用哪种环境背景音。通话服务需求端10可响应于针对背景音设置控件的设置操作，确定该设置操作选中的环境背景音；进一步，通话服务需求端10可将该设置操作选中的环境背景音的标识提供给服务端20。服务端20可获取设置操作选中的环境背景音的标识对应的环境背景音，作为通话服务需求方预先设置的环境背景音。

对于由服务端20推荐环境背景音的实施例来说，服务端20可根据通话服务需求方的标识信息，获取通话服务需求方的通话环境特征。可选地，服务端20可根据通话服务需求方的标识信息，确定通话服务需求方的服务特征；并根据通话服务需求方的服务特征，确定通话服务需求方的通话环境特征。其中，通话服务需求方的服务特征是指通话服务需求方经营的服务的特征。例如，在在线购物场景或电话销售场景中，商家的服务特征可包括商家经营的服务的特征。又例如，在移动通信领域，运营商的服务特征是指运营商提供的服务特征等等。

在一些实施例中，可预设服务特征和通话环境特征之间的对应关系。相应地，服务端20可从服务特征和通话环境特征之间的对应关系中，获取通话服务需求方的服务特征对应的通话环境特征，作为通话服务需求方的通话环境特征。

由于不同的通话环境产生的背景音不同，因此，可根据通话服务需求方的通话环境特征，推荐候选环境背景音。具体地，可预先设置通话环境特征和环境背景音之间的对应关系。相应地，服务端20可从通话环境特征和环境背景音之间的对应关系中，获取通话服务需求方的通话环境特征对应的环境背景音，作为预先设置的环境背景音。

或者，服务端20可将通话环境特征输入预先训练的分类模型，在该分类模型中，根据根据通话服务需求方的通话环境特征，确定候选环境背景音。

进一步，服务端20可将候选环境背景音的标识发送给通话服务需求端10。通话服务需求端10可显示候选环境背景音的标识，选择环境背景音。相应地，通话服务需求端10可响应于针对候选环境背景音的确认操作，确定该确认操作关联的候选环境背景音的标识；并将确认操作关联的候选环境背景音的标识提供给服务端20。服务端20可确定确认操作关联的候选环境背景音的标识对应的环境背景音，作为预先设置的环境背景音。

当然，在本申请实施例中，也可由服务端20自动为通话服务需求方设置环境背景音。在一些实施例中，服务端20可根据通话服务需求方的标识信息，获取通话服务需求方的通话环境特征；并根据通话服务需求方的通话环境特征，获取环境背景音。关于根据通话服务需求方的通话环境特征，获取环境背景音的具体实施方式，可参见上述实施例的相关内容，在此不再赘述。

对于需要提供背景音服务的通话服务需求方来说，在环境背景音设置完成之后，服务端20可提供包含环境背景音的语音通话服务。通话服务需求方可利用服务端20提供的语音通话服务与用户端30进行语音通话。其中，用户端30是指通话服务需求方所服务的用户端。关于用户端30及用户端30与服务端20的具体实现形态，可参见上述通话服务需求端10的具体实施方式，在此不再赘述。

具体地，在通话服务需求方利用语音通话服务与用户端30进行语音通话时，主要是服务端20部署的语音通话服务与用户端30进行语音通话。下面对服务端20与用户端30之间的通话方式进行示例性说明。

如图2a所示，服务端20可在与用户端30通话过程中，可获取待反馈给用户端30的音频数据。在本申请实施例中，不限定服务端20获取待反馈给用户端30的音频数据的具体实现形式。在一些实施例中，待反馈给用户端30的音频数据为预先设置的音频数据。相应地，服务端20可获取预先设置的音频数据等。

在另一些实施例中，服务端20可根据用户端30提供的音频数据，确定针对该音频数据进行回复的音频数据。在本申请实施例中，为了便于描述和区分，将服务端20获取待反馈给用户端30的音频数据，定义为第一音频数据；将用户端30提供的音频数据定义为第二音频数据。如图2b所示，服务端20可在与用户端30通话过程中，获取用户端30提供的第二音频数据。针对用户端30提供的第二音频数据，服务端20可对第二音频数据进行语音识别，得到语音识别结果。在本申请实施例中，不限定服务端20对第二音频数据进行语音识别的具体实施方式。在一些实施例中，服务端20可采用预先训练的语音识别模型对第二音频数据进行语音识别，得到语音识别结果。

例如，服务端20可将第二音频数据输入预先训练的语音识别模型；在语音识别模型中，服务端20可对第二音频数据进行分帧处理，得到多个音频数据帧；进一步，可提取音频数据帧的声学特征；并根据音频数据帧的声学特征，识别音频数据帧的声音状态；其中，声音状态是指比音素更细致的语音单位。进一步，可将音频数据帧的声音状态合成音素，并把音素组合成单词，进而得到语音识别结果。

服务端20可根据语音识别结果，获取针对用户端30提供的第二音频数据的第一音频响应数据，作为服务端20获取的待反馈给用户的第一音频数据。在一些实施例中，语音识别结果为音频数据对应的文本信息。相应地，服务端20可对语音识别结果进行语义分析，确定语音识别结果反映的文本内容。可选地，可利用网络模型对语音识别结果进行语义分析。其中，网络模型可为词义集中架构(Representation-Focused Architecture)模型、交互集中架构(Interaction-Focused Architecture)模型、BERT预训练语言模型、BERT深度学习模型等，但不限于此。

其中，词义集中架构模型的基本假设是，相关性取决于输入文本的组合意义。交互集中架构模型的基本假设是，相关性本质上是输入文本之间的关系，因此直接从交互中学习而不是从单个表示中学习会更有效。进一步，词义集中架构模型可以为深层结构语义模型(Deep Structured Semantic Model，DSSM)、Architecture-I(Arc-I)模型、卷积神经张量网络(Converlutional neural tensor network，CNTN)或卷积潜在语义模型(Convolutional latent semantic model，CLSM)等，但不限于此。交互集中架构模型可以为深度相关匹配模型(Deep relevance matching model，DRMN)、深度文本匹配模型(Kernel based neural model for document ranking，K-NRM)、Architecture-I I(Arc-II)或Match-SRNN等，但不限于此。

相应地，可将语音识别结果输入网络模型，在网络模型中，对自然语言文本进行分词处理，以得到语音识别结果包含的词语集合；并对词语集合进行属性识别，以确定词语集合中各词语的属性；可选地，可将词语集合的各词语在已知属性的语料库中进行匹配，以确定词语集合中各词语的属性。进一步，根据词语集合中各词语的属性，确定语音识别结果反映的文本内容。

在另一些实施例中，服务端20可对语音识别结果进行意图识别，得到音频数据反映的意图信息。可选地，可将语音识别结果输入预先训练的网络模型，在网络模型中对语音识别结果进行分词处理，以得到语音识别结果包含的词语集合；对语音识别结果进行属性识别，以确定词语集合中各词语的属性；根据词语集合中各词语的属性，确定语音识别结果反映的意图信息。

在确定出第二音频数据反映的意图信息之后，可根据第二音频数据反映的意图信息，确定第二音频数据的音频响应数据。例如，服务端20询问用户端30的用户是否有兴趣了解某产品信息；用户端30提供的第二音频数据可反映其对服务端20介绍的产品是否有兴趣的意图；若第二音频数据反映用户有兴趣，则服务端20确定与有兴趣对应的音频数据为用户端30提供的第二音频数据的音频响应数据等等。

进一步，如图2a所示，服务端20可将获取的环境背景音与获取的待反馈给用户端30的第一音频数据进行混音处理，得到混入环境背景音的音频数据。在本申请实施例中，为了便于描述和区分，可将第一音频数据与环境背景音混音后的音频数据，定义为第三音频数据。其中，混音处理是指把多种来源的声音，整合至同一音轨中。

可选地，服务端20在对获取的环境背景音与第一音频数据进行混音处理时，可获取环境背景音的音量和第一音频数据的音量；并按照环境背景音的音量和第一音频数据的音量，对环境背景音与第一音频数据进行混音处理，得到第三音频数据。其中，第一音频数据和环境背景音的音量可为预先设置的音量，也可为默认音量等。

对于第一音频数据为针对用户端30提供的第二音频数据的第一音频响应数据的实施例来说，如图2b所示，服务端20可将获取的环境背景音与第一音频响应数据进行混音处理，得到混入环境背景音的音频响应数据(即图2b中的第二音频响应数据)。

在本申请实施例中，不限定服务端20获取环境背景音的时机或条件，也不限定服务端20获取环境背景音的具体实施方式。在一些实施例中，服务端20可根据通话服务需求端10对应的通话服务需求方的标识，获取通话服务需求方预先设置的环境背景音。可选地，服务端20可根据通话服务需求端10对应的通话服务需求方的标识，确定通话服务需求方预先设置的背景音标识(如背景音ID等)；进一步，可根据预先设置的背景音标识，获取预先设置的环境背景音。关于通话服务需求方设置环境背景音的具体实施方式，可参见上述实施例的相关内容，在此不再赘述。

在本申请实施例中，服务端20可在与用户端30之间的通话接通之前，获取环境背景音。例如，可在通话服务需求端10调用语音通话服务过程中，获取环境背景音；也可在呼叫用户端30过程中获取环境背景音等等。

在本申请实施例中，服务端20与用户端30之间的通话，可由用户端30主动呼叫通话服务需求方。在该实施方式中，通话服务需求方可在接收到用户端30发起的呼叫的情况下，调用服务端20提供的语音通话服务；并在调用语音通话服务过程中，获取环境背景音。

当然，服务端20与用户端30之间的通话，也可由通话服务需求方主动呼叫用户端30。在该实施方式中，通话服务需求方可调用语音通话服务；并利用服务端20的语音通话服务呼叫用户端30。相应地，服务端20可在通话服务需求方调用语音通话服务过程中，获取环境背景音。

服务端20在将环境背景音与第一音频数据进行混音处理，得到第三音频数据之后，可将第三音频数据提供给用户端30。用户端30可接收第三音频数据；并播放第三音频数据。

在本实施例中，由于用户端接听到的第三音频数据混入了环境背景音，在人机通话过程中，用户端接听到的音频数据混入了环境背景音，通话环境与人与人之间的通话环境更为接近，可降低由于通话环境背景过于安静导致的拟人感不足的影响，有助于提高人机通话的真实感和拟人感。

对于用户端30侧的用户来说，更愿意与人进行通话。语音通话服务的拟人感和真实感越高，用户愿意进一步交互与沟通的意愿越强，因此，本实施例提供的通话方式有助于提高用户交互率与留存率。

在本申请实施例中，为了进一步提高语音通话服务的拟人感和真实感，在用户端30侧的用户说话过程中，服务端20可将环境背景音提供给用户端30。用户端30可接收环境背景音，并播放环境背景音。相应地，服务端20在获取用户端30提供的音频数据的过程中，可接听到环境背景音。这样，用户端30侧的用户说话过程中，也可感受到对方的通话环境，使得人机通话过程中，通话环境与人与人之间的通话环境更接近，可进一步提高人机通话的真实感和拟人感。

在本申请实施例中，无论服务端20与用户端30之间的通话是由哪一方发起呼叫的，对于通话服务需求方来说，均可预设一些开场白之类的音频。例如，“您好，这里是XXX。请问您有什么需要？”又例如“您好，这里是XXX。我们最近推出一款YYY产品，请问您有兴趣了解吗？”等等。在本申请实施例中，为了便于描述和区分，将通话服务需求方预先设置的音频数据，定义为第四音频数据。在服务端20与用户端30之间的通话接通时，服务端20可播放预先设置的第四音频数据。在本实施例中，为了提高人机通话的拟人感和真实感，对于预设有开场白之类的音频数据的实施例来说，服务端20可将环境背景音与预设的第四音频数据进行混音处理，得到第五音频数据。进一步，可响应于与用户端30之间的通话接通事件，将第五音频数据提供给用户端30。用户端30可接收第五音频数据，并播放第五音频数据。由于用户端接听到的第五音频数据混入了环境背景音，通话环境与人与人之间的通话环境更为接近，可降低由于通话环境背景过于安静导致的拟人感不足的影响，有助于提高人机通话的真实感和拟人感。

在本实施例中，不限定服务端20将环境背景音与预设的第四音频数据进行混音处理的时机或条件。可选地，服务端20可在通话服务需求方设置环境背景音和第四音频数据之后，对环境背景音与预设的第四音频数据进行混音处理；也可通话服务需求方调用语音通话服务过程中且在服务端20与用户端30之间的通话接通之前，对环境背景音与预设的第四音频数据进行混音处理等等。

本申请实施例提供的通话方式除了上述实施例提供的通话服务需求方、服务端及用户端三方之间的交互之外，也可适用于其它客户端/服务器(C/S)架构的通话系统。由服务端直接与用户端进行通信。下面对这种通话系统进行示例性说明。

图3a和图3b为本申请实施例提供的另一通话系统的结构示意图。如图3a和图3b示，该通话系统包括：用户端30a和服务端30b。其中，关于用户端30a和服务端30b的实现形式与通信方式，可参见上述系统实施例的相关内容，在此不再赘述。在本实施例中，服务端30b可为通话服务需求方的服务端设备。

在本实施例中，用户端30a是指与服务端30b提供的语音通话服务进行通话的用户的计算设备。例如，在移动通信场景中，运营商可使用服务端30b提供的语音通话服务与用户进行语音通话，向用户提供语音咨询、售后服务或推荐活动等。又例如，电商平台可使用30b提供的语音通话服务与用户进行语音通话，向用户提供语音咨询或售后服务等。

在本申请实施例中，服务端30b提供的语音通话服务可默认使用环境背景音，并设置默认的环境背景音。可选地，服务端30b可自动设置环境背景音。关于服务端30b自动设置环境背景音的实施方式，可参见上述系统实施例的相关内容，在此不再赘述。

在本申请实施例中，服务端30b可利用语音通话服务与用户端30a进行语音通话。下面对服务端30b与用户端30a之间的通话方式进行示例性说明。

如图3a和图3b所示，服务端30b可在与用户端30a通话过程中，获取待反馈给用户端30a的第一音频数据。其中，关于服务端30b获取第一音频数据的具体实施方式，可参见上述实施例的相关内容，在此不再赘述。

在一些实施例中，如图3b所示，服务端30b可获取用户端30a提供的第二音频数据。针对用户端30a提供的第二音频数据，服务端30b可对第二音频数据进行语音识别，得到语音识别结果；并根据语音识别结果，获取针对用户端30a提供的音频数据的第一音频数据。其中，关于服务端30b对第二音频数据进行语音识别以及根据语音识别结果，获取用户端提供的音频数据的音频响应数据的实施方式，可参见上述系统实施例的相关内容，在此不再赘述。

进一步，如图3a所示，服务端30b可将获取的环境背景音与第一音频数据进行混音处理，得到混入环境背景音的第三音频数据；并可将第三音频数据提供给用户端30a；用户端30a可接收第三音频数据，并播放第三音频数据。

可选地，第一音频数据为针对用户端30a提供的第二音频数据的第一音频响应数据的实施例来说，服务端30b可将获取的环境背景音与音频响应数据进行混音处理，得到混入环境背景音的第二音频响应数据，作为第三音频数据。进一步，服务端30b可将第二音频响应数据提供给用户端30a；用户端30a可接收第二音频响应数据，并播放第二音频响应数据。

在本实施例中，由于用户端播放的第三音频数据混入了环境背景音，在人机通话过程中，用户端接听到的音频数据混入了环境背景音，通话环境与人与人之间的通话环境更为接近，可降低由于通话环境背景过于安静导致的拟人感不足的影响，有助于提高人机通话的真实感和拟人感。

对于用户端侧的用户来说，更愿意与人进行通话。语音通话服务的拟人感和真实感越高，用户愿意进一步交互与沟通的意愿越强，因此，本实施例提供的通话方式有助于提高用户交互率与留存率。

在本申请实施例中，为了进一步提高语音通话服务的拟人感和真实感，服务端30b在获取用户端30a提供的音频数据的过程中，可向用户端30a播放环境背景音。这样，用户端30a侧的用户说话过程中，也可感受到对方的通话环境，使得人机通话过程中，通话环境与人与人之间的通话环境更接近，可进一步提高人机通话的真实感和拟人感。

在本申请实施例中，无论服务端30b与用户端30a之间的通话是由哪一方发起呼叫的，对于通话服务需求方来说，均可预设一些开场白之类的音频，定义为第四音频数据。在本实施例中，为了提高人机通话的拟人感和真实感，对于预设有开场白之类的音频数据的实施例来说，服务端30b可将环境背景音与预设的第四音频数据进行混音处理，得到第五音频数据。进一步，可响应于与用户端30a之间的通话接通事件，将第五音频数据提供给用户端30a。用户端30a接收第五音频数据，并播放第五音频数据。由于用户端接听到的第五音频数据混入了环境背景音，通话环境与人与人之间的通话环境更为接近，可降低由于通话环境背景过于安静导致的拟人感不足的影响，有助于提高人机通话的真实感和拟人感。

为了更清楚的说明本申请实施例提供的通话方式，下面结合图3c提供的实际语音呼叫场景进行示例性说明。如图3c所示，在开始和确认阶段，服务端可接收用户端提供的启动事件，开始进入转录事件服务。在本实施例中，不限定启动事件的具体实现形式。在一些实施例中，启动事件可实现为用户端接通通话服务产生的通话接通事件；在另一些实施例中，启动事件可实现为用户端确认对服务端推荐的事情感兴趣所产生的确认事件等等。相应地，转录事件可实现为服务端向用户端播放预设的音频数据(即上述第二音频数据)。具体地，服务端可将环境背景音与第二音频数据进行混音处理，得到第三音频数据；并将第三音频数据提供给用户端。

在发送和确认阶段，用户端和服务端处于通话过程。用户端可发送音频流到服务端。服务端可对音频流(即上述第一音频数据)进行语音识别，得到语音识别结果；并根据音频流的语音识别结果，获取音频流的音频响应数据；之后，可将获取的环境背景音与音频响应数据进行混音处理，得到混音后的音频响应数据；之后，可将混音后的音频响应数据提供给用户端。用户端可播放混音后的音频响应数据。用户端接听到的音频数据混入了环境背景音，通话环境与人与人之间的通话环境更为接近，可降低由于通话环境背景过于安静导致的拟人感不足的影响，有助于提高人机通话的真实感和拟人感。在图3c中仅以用户端发送的音频流为音频流1和音频流2为例进行图示，但不构成限定。相应地，服务端确定出的音频流1和2的音频响应数据分别为音频响应数据1和3。图3c中音频响应数据2和4分别为音频响应数据1和3与环境背景音混音后的音频数据。

在用户端和服务端通话接收时，可进入停止和完成阶段。在该阶段，用户端可发起结束指令，如挂断电话等；相应地，服务端可发起完成事件，如结束通话等。

除了上述实施例提供的通话系统之外，本申请实施例还提供通话方法，下面对本申请实施例提供的通话方法进行示例性说明。如图4a所示，本申请实施例提供的通话方法包括：

40a、在与用户端通话过程中，获取待反馈给用户端的第一音频数据。

40b、将获取的环境背景音与第一音频数据进行混音处理，以得到第三音频数据。

40c、将第三音频数据提供给用户端，以供用户端播放第三音频数据。

本申请实施例还提供一种通话方法，如图4b所示，本申请实施例提供的通话方法包括：

401、在与用户端通话过程中，获取用户端提供的第一音频数据。

402、对第一音频数据进行语音识别，以得到语音识别结果。

403、根据语音识别结果，获取针对第一音频数据的第一音频数据。

404、将获取的环境背景音与第一音频数据进行混音处理，以得到第二音频响应数据。

405、将第二音频响应数据提供给用户端，以供用户端播放第二音频响应数据。

在本实施例中，为了提高语音服务的拟人感和真实性，提供环境背景音服务。环境背景音是指通话环境所产生的背景音频数据。在本申请实施例中，语音通话服务可默认使用环境背景音。当然，也可由通话服务需求方自主选择是否使用环境背景音服务。

针对服务端默认使用环境背景音或者通话服务需求方自主选择使用环境背景音的情况，通话服务需求方还可自主设置环境背景音，或者由服务端自动设置环境背景音。对于由通话服务需求方自主设置环境背景音的实施例，向通话服务需求端提供背景音设置控件。相应地，对于通话服务需求方对应的用户端可响应于针对背景音设置控件的设置操作，获取该设置操作关联的环境背景音；进一步，通话服务需求方可将设置操作关联的环境背景音提供给服务端(如云通信服务端)。相应地，云通信服务端可获取针对背景音设置控件的设置操作关联的环境背景音，作为预先设置的环境背景音。

在本申请实施例中，不限定通话服务需求方通过背景音设置控件设置环境背景音的具体实现形式。在一些实施例中，通话服务需求方可通过背景音设置控件上传已录制好的环境背景音。在该实施例中，可获取通过背景音设置控件提交的环境背景音；并将该环境背景音发送给服务端。相应地，服务端(如云通信服务端)可将接收到的环境背景音设置为通话服务需求方预先设置的环境背景音。

在另一些实施例中，服务端(如云通信服务端)可预先存储环境背景音。其中，预先存储的环境背景音可为1种或多种，多种是指2种或2种以上。针对预先存储的环境背景音为1种的情况，服务端20可默认将预先存储的环境背景音设置为通话服务需求方预先设置的环境背景音。针对预先存储的环境背景音为多种的情况，可由即通话服务需求方自主选择使用哪种环境背景音；当然也可由服务端推荐环境背景音等等。通话服务需求方可响应于针对背景音设置控件的设置操作，确定该设置操作选中的环境背景音；进一步，通话服务需求方可将该设置操作选中的环境背景音的标识提供给服务端。服务端(如云通信服务端)可获取设置操作选中的环境背景音的标识对应的环境背景音，作为通话服务需求方预先设置的环境背景音。

对于由服务端推荐环境背景音的实施例来说，可根据通话服务需求方的标识信息，获取通话服务需求方的通话环境特征，并可根据通话服务需求方的通话环境特征，推荐候选环境背景音。

进一步，服务端可将候选环境背景音的标识发送给通话服务需求方。通话服务需求方可显示候选环境背景音的标识，选择环境背景音。相应地，通话服务需求方对应的用户端可响应于针对候选环境背景音的确认操作，确定该确认操作关联的候选环境背景音的标识；并将确认操作关联的候选环境背景音的标识提供给服务端。服务端(如云通信服务端等)可确定确认操作关联的候选环境背景音的标识对应的环境背景音，作为预先设置的环境背景音。

当然，在本申请实施例中，也可由服务端自动为通话服务需求方设置环境背景音。在一些实施例中，服务端可根据通话服务需求方的标识信息，获取通话服务需求方的通话环境特征；并根据通话服务需求方的通话环境特征，获取环境背景音。关于根据通话服务需求方的通话环境特征，获取环境背景音的具体实施方式，可参见上述实施例的相关内容，在此不再赘述。

对于需要提供背景音服务的通话服务需求方来说，在环境背景音设置完成之后，服务端可提供包含环境背景音的语音通话服务。下面对服务端与用户端之间的通话方式进行示例性说明。

如图4a所示，在步骤40a中，可在与用户端通话过程中，获取待反馈给用户端的第一音频数据。

在本申请实施例中，不限定获取待反馈给用户端的第一音频数据的具体实施方式。在一些实施例中，如图4b的步骤401所示，可在与用户端通话过程中，获取用户端提供的第二音频数据。针对用户端提供的第二音频数据，在步骤402中，可对第二音频数据进行语音识别，得到语音识别结果。进一步，在步骤403中，可根据语音识别结果，获取针对用户端提供的第二音频数据的音频响应数据，作为步骤40a中的第一音频数据。

接着，在步骤40b中，可将获取的环境背景音与上述第一音频数据进行混音处理，得到混入环境背景音的音频数据(定义为第三音频数据)。

对于步骤403获取的音频响应数据为第一音频数据的情况来说，步骤40b可实现为步骤404，即可将获取的环境背景音与音频响应数据进行混音处理，得到混入环境背景音的音频响应数据，作为上述第三音频数据。在本申请实施例中，为了便于描述和区分，可将与环境背景音混音前的音频响应数据，定义为第一音频响应数据；将与环境背景音混音后的音频响应数据，定义为第二音频响应数据。

在本申请实施例中，不限定服务端获取环境背景音的时机或条件，也不限定服务端获取环境背景音的具体实施方式。在一些实施例中，可根据通话服务需求方的标识，获取通话服务需求方预先设置的环境背景音。可选地，可根据通话服务需求方的标识，确定通话服务需求方预先设置的背景音标识(如背景音ID等)；进一步，可根据预先设置的背景音标识，获取预先设置的环境背景音。关于通话服务需求方设置环境背景音的具体实施方式，可参见上述实施例的相关内容，在此不再赘述。

在本申请实施例中，可在与用户端之间的通话接通之前，获取环境背景音。例如，可在通话服务需求方调用语音通话服务过程中，获取环境背景音；也可在呼叫用户端过程中获取环境背景音等等。

服务端在将环境背景音与第一音频数据进行混音处理，得到第三音频数据之后，可在步骤40c中，将第三音频数据提供给用户端，以供用户端播放第三音频数据。

可选地，对于第一音频数据为上述步骤403中的第一音频响应数据的情况，第三音频数据可为上述步骤404中的第二音频响应数据。相应地，步骤40c可实现为步骤405，即将第二音频响应数据提供给用户端，以供用户端播放第二音频响应数据。

在本实施例中，由于用户端接听到的第三音频数据混入了环境背景音，在人机通话过程中，用户接听到的音频数据混入了环境背景音，通话环境与人与人之间的通话环境更为接近，可降低由于通话环境背景过于安静导致的拟人感不足的影响，有助于提高人机通话的真实感和拟人感。

在本申请实施例中，为了进一步提高语音通话服务的拟人感和真实感，在用户端侧的用户说话过程中，服务端可播放环境背景音。相应地，在获取用户端提供的音频数据的过程中，可将环境背景音提供给用户端，以供用户端播放环境背景音。这样，用户端侧的用户说话过程中，也可感受到对方的通话环境，使得人机通话过程中，通话环境与人与人之间的通话环境更接近，可进一步提高人机通话的真实感和拟人感。

在本申请实施例中，无论服务端与用户端之间的通话是由哪一方发起呼叫的，对于通话服务需求方来说，均可预设一些开场白之类的音频。在本申请实施例中，为了便于描述和区分，将通话服务需求方预先设置的音频数据，定义为第四音频数据。在本实施例中，为了提高人机通话的拟人感和真实感，对于预设有开场白之类的音频数据的实施例来说，服务端可将环境背景音与预设的第四音频数据进行混音处理，得到第五音频数据。进一步，可响应于与用户端之间的通话接通事件，将第五音频数据提供给用户端，以供用户端播放第五音频数据。由于用户端接听到的第五音频数据混入了环境背景音，通话环境与人与人之间的通话环境更为接近，可降低由于通话环境背景过于安静导致的拟人感不足的影响，有助于提高人机通话的真实感和拟人感。

相应地，本申请实施例还提供另一种通话方法的流程示意图。如图4c所示，该方法包括：

41a、获取环境背景音与预设的第四音频数据。

41b、将环境背景音与预设的第四音频数据进行混音处理，以得到第五音频数据。

41c、响应于与用户端之间的通话接通事件，将所述第五音频数据提供给用户端，以供用户端播放第五音频数据。

关于步骤41a-步骤41c的描述可参见上述实施例的相关内容，在此不再赘述。

本实施例提供的通话方法，由于用户端接听到的第五音频数据混入了环境背景音，通话环境与人与人之间的通话环境更为接近，可降低由于通话环境背景过于安静导致的拟人感不足的影响，有助于提高人机通话的真实感和拟人感。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤401和402的执行主体可以为设备A；又比如，步骤401的执行主体可以为设备A，步骤402的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如401、402等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。

相应地，本申请实施例还提供一种存储有计算机指令的计算机可读存储介质，当计算机指令被一个或多个处理器执行时，致使一个或多个处理器执行上述通话方法中的步骤。

本申请实施例还提供一种计算机程序产品，包括：计算机程序。当计算机程序被处理器执行时可实现上述通话方法中的步骤。在本申请实施例中，不限定计算机程序产品的具体实现形态。在一些实施例中，计算机程序产品可实现为软件功能模块、服务网站等。在另一些实施例中，计算机程序产品可部署于云端，实现为一种软件即服务(SaaS)形态的软件等等。

图5为本申请实施例提供的电子设备的结构示意图。如图5所示，电子设备包括：存储器50a、处理器50b及通信组件50c。在本实施例中，存储器50a用于存储计算机程序。

处理器50b耦合至存储器50a及通信组件50c，用于执行计算机程序以用于：在通过通信组件50c与用户端通话过程中，获取待反馈给用户端的第一音频数据；将获取的环境背景音与第一音频数据进行混音处理，以得到第二音频数据；将第二音频数据提供给所述用户端，以供用户端播放所述第二音频数据。

在一些实施例中，处理器50b在获取待反馈给用户端的第一音频数据时，具体用于：在通过通信组件50c与用户端通话过程中，获取用户端提供的第三音频数据；对第三音频数据进行语音识别，以得到语音识别结果；根据语音识别结果，获取针对第三音频数据的音频响应数据，作为上述第一音频数据。

可选地，处理器50b还用于：在获取用户端提供的第三音频数据的过程中，通过通信组件50c将环境背景音提供给用户端，以供用户端播放环境背景音。

在一些实施例中，处理器50b还用于：根据通话服务需求方的标识，确定通话服务需求方预先设置的背景音标识；根据预先设置的背景音标识，获取预先设置的环境背景音。

可选地，处理器50b还用于：通过通信组件50c向通话服务需求方提供背景音设置控件，以供通话服务需求方基于背景音设置控件设置环境背景音；以及，通过通信组件50c获取针对背景音设置控件的设置操作关联的环境背景音作为预先设置的环境背景音。

可选地，处理器50b还用于：根据通话服务需求方的标识信息，获取通话服务需求方的通话环境特征；根据通话服务需求方的通话环境特征，推荐候选环境背景音；以及，针对候选环境背景音的确认操作，获取确认操作关联的候选环境背景音作为预先设置的环境背景音。

在另一些实施例中，处理器50b还用于：在与用户端通话接通之前，根据通话服务需求方的标识信息，获取通话服务需求方的通话环境特征；根据通话服务需求方的通话环境特征，获取环境背景音。

可选地，处理器50b还用于：将环境背景音与预设的第四音频数据进行混音处理，以得到第五音频数据；响应于与用户端之间的通话接通事件，通过音频组件将第五音频数据提供给用户端，以供用户端播放第五音频数据。

在一些可选实施方式中，如图5所示，该电子设备还可以包括：电源组件50e等可选组件。图5中仅示意性给出部分组件，并不意味着电子设备必须包含图5所示全部组件，也不意味着电子设备只能包括图5所示组件。

本实施例提供的电子设备可实现为任何形态的电子设备。在一些实施例中，电子设备可实现为云通信服务方的服务端设备等。

本实施例提供的电子设备，在与用户端进行人机通话过程中，可获取待反馈给用户端的音频数据；并可将获取的环境背景音与音频数据进行混音处理，以得到混入环境背景音的音频数据；之后，将混入环境背景音的音频数据提供给用户端。这样，在人机通话过程中，用户端接听到的音频数据混入了环境背景音，通话环境与人与人之间的通话环境更为接近，可降低由于通话环境背景过于安静导致的拟人感不足的影响，有助于提高人机通话的真实感和拟人感。

在本申请实施例中，存储器用于存储计算机程序，并可被配置为存储其它各种数据以支持在其所在设备上的操作。其中，处理器可执行存储器中存储的计算机程序，以实现相应控制逻辑。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

在本申请实施例中，处理器可以为任意可执行上述方法逻辑的硬件处理设备。可选地，处理器可以为中央处理器(Central Processing Unit，CPU)、图形处理器(Graphics Processing Unit，GPU)或微控制单元(Microcontroller Unit，MCU)；也可以为现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程阵列逻辑器件(Programmable Array Logic，PAL)、通用阵列逻辑器件(General Array Logic，GAL)、复杂可编程逻辑器件(Complex Programmable Logic Device，CPLD)等可编程器件；或者为先进精简指令集(RISC)处理器(Advanced RISC Machines，ARM)或系统芯片(System on Chip，SOC)等等，但不限于此。

在本申请实施例中，通信组件被配置为便于其所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，4G，5G或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还可基于近场通信(NFC)技术、射频识别(RFID)技术、红外数据协会(IrDA)技术、超宽带(UWB)技术、蓝牙(BT)技术或其他技术来实现。

在本申请实施例中，显示组件可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示组件包括触摸面板，显示组件可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

在本申请实施例中，电源组件被配置为其所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

在本申请实施例中，音频组件可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(MIC)，当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。例如，对于具有语言交互功能的设备，可通过音频组件实现与用户的语音交互等。

需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机的存储介质为可读介质。可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种头域还原系统、方法及相关设备与流程

通话方法、设备、存储介质及计算机程序产品与流程

相关文献

最热文献