中断音频交互的方法、装置以及存储介质与流程

2021-10-23 00:22:00 来源：中国专利 TAG：互联网交互中断装置音频

1.本技术涉及互联网技术领域，特别是涉及一种中断音频交互的方法、装置以及存储介质。

背景技术：

2.在基于语音媒体的智能交互系统中，与真实客户进行通话的往往是智能语音机器人程序，这些程序在交互中收集判断用户的需求、意图、疑问并提供相应话术的解答，从而完成如通知、推销、回访、售后等一般商业任务。
3.机器人对有些话术语音播放时间较长，且没有命中用户疑问时，用户可能希望打断这段录音播放并再次强调自己的问题。这时机器人应该能及时响应，停止当前话术的播放，接听和判断用户的真实问题，并做出话术调整。
4.但是，出于话术前后连贯性、完整性、或者机器人使用商的商业目标，有些话术部分，机器人是不允许被打断的。现有技术中采用的方式为预先存储好用户的声纹特征，当机器人播放声音过程中，对用户信道声音做声纹识别判断，如果是通话用户，则打断播放；否则继续播放。然而这种方式不能精准的控制打断音频通话的位置，因此灵活度较差。
5.针对上述的现有技术中存在的不能精准的控制打断音频的位置，因此影响音频打断的灵活度的技术问题，目前尚未提出有效的解决方案。

技术实现要素：

6.本公开的实施例提供了一种中断音频交互的方法、装置以及存储介质，以至少解决现有技术中存在的不能精准的控制打断音频的位置，因此影响音频打断的灵活度的技术问题。
7.根据本公开实施例的一个方面，提供了一种中断音频交互的方法，用于在与目标用户进行音频交互的过程中进行中断，该方法包括：确定与交互音频对应的发音时长信息序列以及中断时间信息，其中发音时长信息序列用于记录与交互音频包含的单词对应的发音时长信息，中断时间信息用于指示交互音频可以进行中断的位置；在利用交互音频与目标用户进行交互的过程中，接收目标用户发出的音频；根据发音时长信息序列确定目标用户发出音频的时间节点；以及根据时间节点以及中断时间信息，判断是否对与目标用户进行音频交互的过程进行中断。
8.根据本公开实施例的另一个方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时由处理器执行以上任意一项所述的方法。
9.根据本公开实施例的另一个方面，还提供了一种中断音频交互的装置，用于在与目标用户进行音频交互的过程中进行中断，包括：序列确定模块，用于确定与交互音频对应的发音时长信息序列以及中断时间信息，其中发音时长信息序列用于记录与交互音频包含的单词对应的发音时长信息，中断时间信息用于指示交互音频可以进行中断的位置；音频接收模块，用于在利用交互音频与目标用户进行交互的过程中，接收目标用户发出的音频；
节点确定模块，用于根据发音时长信息序列确定目标用户发出音频的时间节点；以及中断判断模块，用于根据时间节点以及中断时间信息，判断是否对与目标用户进行音频交互的过程进行中断。
10.根据本公开实施例的另一个方面，还提供了一种中断音频交互的装置，用于在与目标用户进行音频交互的过程中进行中断，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：确定与交互音频对应的发音时长信息序列以及中断时间信息，其中发音时长信息序列用于记录与交互音频包含的单词对应的发音时长信息，中断时间信息用于指示交互音频可以进行中断的位置；在利用交互音频与目标用户进行交互的过程中，接收目标用户发出的音频；根据发音时长信息序列确定目标用户发出音频的时间节点；以及根据时间节点以及中断时间信息，判断是否对与目标用户进行音频交互的过程进行中断。
11.在本公开实施例中，系统可以根据发音时长信息序列计算用户发出音频的时间节点，然后根据中断时间信息判断是否对与目标用户进行音频交互的过程进行中断。从而，实现了精准控制通话打断位置的目的，达到了提高系统的灵活性的技术效果。进而解决了现有技术中存在的不能精准的控制打断音频的位置，因此影响音频打断的灵活度的技术问题。
附图说明
12.此处所说明的附图用来提供对本公开的进一步理解，构成本技术的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：
13.图1是用于实现根据本公开实施例1所述的方法的计算设备的硬件结构框图；
14.图2是根据本公开实施例1的第一个方面所述的中断音频交互的方法的流程示意图；
15.图3是根据本公开实施例1所述的中断音频交互的整体流程图；
16.图4是根据本公开实施例2所述的中断音频交互的装置的示意图；
17.图5是根据本公开实施例3所述的中断音频交互的装置的示意图。
具体实施方式
18.为了使本技术领域的人员更好地理解本公开的技术方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。
19.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品
或设备固有的其它步骤或单元。
20.实施例1
21.根据本实施例，提供了一种中断音频交互的方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
22.本实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的计算设备中执行。图1示出了一种用于实现中断音频交互的方法的计算设备的硬件结构框图。如图1所示，计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外，还可以包括：显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。
23.应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
24.存储器可用于存储应用软件的软件程序以及模块，如本公开实施例中的中断音频交互的方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的中断音频交互的方法。存储器可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
25.传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(network interface controller，nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(radio frequency，rf)模块，其用于通过无线方式与互联网进行通讯。
26.显示器可以例如触摸屏式的液晶显示器(lcd)，该液晶显示器可使得用户能够与计算设备的用户界面进行交互。
27.此处需要说明的是，在一些可选实施例中，上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算设备中的部件的类型。
28.在上述运行环境下，根据本实施例的第一个方面，提供了一种中断音频交互的方
法，该方法例如可以应用到商业机器人系统，该系统可以根据客户的需求生成用于语音沟通的音频，然后通过语音机器人与客户指定的人群进行音频交互。图2示出了该方法的流程示意图，参考图2所示，该方法包括：
29.s202：确定与交互音频对应的发音时长信息序列以及中断时间信息，其中发音时长信息序列用于记录与交互音频包含的单词对应的发音时长信息，中断时间信息用于指示交互音频可以进行中断的位置；
30.s204：在利用交互音频与目标用户进行交互的过程中，接收目标用户发出的音频；
31.s206：根据发音时长信息序列确定目标用户发出音频的时间节点；以及
32.s208：根据时间节点以及中断时间信息，判断是否对与目标用户进行音频交互的过程进行中断。
33.正如背景技术中所述的，现有技术中采用的方式为预先存储好用户的声纹特征，当机器人播放声音过程中，对用户信道声音做声纹识别判断，如果是通话用户，则打断播放；否则继续播放。然而这种方式不能精准的控制打断音频通话的位置，因此灵活度较差。
34.针对背景技术中存在的技术问题，本实施例技术方案在步骤s202中，系统首先确定与交互音频对应的发音时长信息序列以及中断时间信息，其中该交互音频例如可以应用到各种商业领域，例如：该交互音频用于针对指定的人群进行电话营销。发音时长信息序列用于记录与交互音频包含的单词对应的发音时长信息，中断时间信息用于指示交互音频可以进行中断的位置。在一个具体实例中，交互音频例如是“您好，请问您是某先生吗，我们是a公司这里现在有一款家电产品，其特点是节能、使用简单.....”，其对应的发音时长信息序列例如可以是：“您好”对应的发音时长为0.8秒、“请问您是”对应的发音时长为1.2秒、“某先生吗”对应的发音时长为1秒、“我们是”对应的发音时长为0.8秒、“a公司”对应的发音时长为0.6秒、“现在”对应的发音时长为0.3秒、“这里”对应的发音时长为0.3秒、“有一款”对应的发音时长为0.5秒、“家电产品”对应的发音时长为0.9秒、“其特点是”对应的发音时长为0.8秒、“节能”对应的发音时长为0.4秒、“使用简单”对应的发音时长为1.2秒...。中断时间信息为3秒～6.4秒可以进行中断。
35.进一步地，在系统在利用交互音频与目标用户进行交互的过程中，接收目标用户发出的音频。然后根据发音时长信息序列确定目标用户发出音频的时间节点，例如：在与用户音频交互的过程中，通过发音时长信息序列计算确定用户在3.5秒内发出音频(例如：发生打断通话、插嘴等情况)，即确定时间节点为3.5秒。
36.最终，根据时间节点以及中断时间信息，判断是否对与目标用户进行音频交互的过程进行中断。例如：时间节点为3.5秒，中断时间信息为3秒～6.4，则可以中断音频交互的过程。
37.从而通过这种方式，系统可以根据发音时长信息序列计算用户发出音频的时间节点，然后根据中断时间信息判断是否对与目标用户进行音频交互的过程进行中断。从而，实现了精准控制通话打断位置的目的，达到了提高系统的灵活性的技术效果。进而解决了现有技术中存在的不能精准的控制打断音频的位置，因此影响音频打断的灵活度的技术问题。
38.可选地，确定与交互音频对应的发音时长信息序列，包括：确定与交互音频对应的文本信息；确定由文本信息包含的连续单词组成的词元序列；以及根据词元序列，确定与交
互音频对应的发音时长信息序列。
39.具体地，在确定与交互音频对应的发音时长信息序列的操作中，系统首先确定与交互音频对应的文本信息。例如：文本信息可以是客户在该系统输入的，针对指定的人群进行电话营销的话术(例如上述的：您好，请问您是某先生吗，我们是a公司这里现在有一款家电产品，其特点是节能、使用简单.....)，并且同时客户还可以输入断点信息，即可以进行打断的位置，比如文本的第m个字(词)到n个字(词)(m～n)之间可以打断，m>＝0，n<＝话术文本长度。例如：第11个字到第27个字之间可以打断，即在播放“我们是a公司这里现在有一款家电产品”交互音频的时候可以被打断。此外，文本信息还可以是系统通过现有技术中的语音转文本的技术，将交互音频转化为对应的文本信息。
40.进一步地，系统确定由文本信息包含的连续单词组成的词元序列，例如词元序列为：您好、请问您是、某先生吗、我们是、a公司、这里、现在、有一款、家电产品、其特点是、节能、使用简单、.....。然后，系统根据词元序列，确定与交互音频对应的发音时长信息序列，即确定每个词元对应的发音时长。从而通过这种方式，可以根据客户的商业需求确定可以进行打断通话的位置。
41.可选地，根据词元序列，确定与交互音频对应的发音时长信息序列，包括：利用预先训练的文本对齐模型对词元序列进行预测，确定发音时长信息序列。
42.具体地，在根据词元序列，确定与交互音频对应的发音时长信息序列的操作中，系统可以利用预先训练的文本对齐模型对词元序列进行预测，确定发音时长信息序列，即利用模型确定词元序列中每个单词对应的发音时长。其中，该文本对齐模型的训练过程首先采集大量录音音频，然后确定其对应的文本标注，进一步地对文本进行分词切割成词单元序列，并人工标注录音中播放每个词单元的所消耗时间，最终通过神经网络模型训练，得到一个语音词单元对齐模型。其神经网络模型可以是卷积神经网络、残差神经网络以及其他神经网络模型。利用模型确定发音时长信息序列，可以减少人力标注的成本，并且还能够提高精准率。
43.可选地，该方法还包括：计算发音时长信息序列的发音时长总和作为第一时长，计算交互音频的播放时长作为第二时长；根据第一时长和第二时长，将发音时长信息序列中的每个单词的发音时长进行等比缩放，确定词元序列对应的实际发音时长信息序列，并且根据发音时长信息序列确定目标用户发出音频的时间节点，包括：根据实际发音时长信息序列确定目标用户发出音频的时间节点。
44.具体地，系统计算发音时长信息序列中的单词发音时长的总和作为第一时长，此外系统还计算交互音频的播放时长作为第二时长，即从头至尾播放文本信息对应的音频的总时长作为第二时长，然后根据第一时长和第二时长，将发音时长信息序列中的每个单词的发音时长进行等比缩放，例如：第一时长为t1，第二时长为t2，然后对发音时长信息序列中每个词单元时长做等比放缩：tx’＝t1/t2*tx，从而得到实际发音时长信息序列。在根据客户发出音频的时间节点以及发音序列，判断是否对音频交互过程进行中断的操作中，系统根据实际发音时长信息序列和目标用户发出音频的时间节点，判断是否对音频交互过程进行中断。通过等比缩放的方式计算每个单词在实际音频交互中的真实时长，根据真实时长判断打断位置，从而更加的贴合实际的应用场景，提高系统的音频交互的人性化效果。
45.可选地，确定由文本信息包含的连续单词组成的词元序列，包括：对文本信息进行
分词操作，确定由文本信息包含的连续单词组成的词元序列。
46.具体地，在确定由文本信息包含的连续单词组成的词元序列的操作中，系统首先对文本信息进行分词操作，例如：可以通过现有技术中的分词工具，对文本信息进行分词，然后确定由文本信息包含的连续单词组成的词元序列。
47.可选地，根据时间节点以及中断时间信息，判断是否对与目标用户进行音频交互的过程进行中断，包括：确定与中断时间信息对应的中断区间；以及根据时间节点以及中断区间，判断是否对与目标用户进行音频交互的过程进行中断。
48.具体地，在根据时间节点以及中断时间信息，判断是否对与目标用户进行音频交互的过程进行中断的操作中，系统首先确定与中断时间信息对应的中断区间，例如：3秒～6.4秒，即将可打断词单元位置区间(m，n)转化为可打断中断时间区间(3～6.4秒)。然后，根据时间节点以及中断区间，判断是否对与目标用户进行音频交互的过程进行中断。即：判断时间节点是否位于中断区间之内。从而，可以将信息转化为可打断的时间区间，通过区间判断是否打断音频交互，更加方便快捷。
49.此外，参考图1所示，根据本实施例的第二个方面，提供了一种存储介质。所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行以上任意一项所述的方法。
50.从而根据本实施例，系统可以根据发音时长信息序列计算用户发出音频的时间节点，然后根据中断时间信息判断是否对与目标用户进行音频交互的过程进行中断。从而，实现了精准控制通话打断位置的目的，达到了提高系统的灵活性的技术效果。进而解决了现有技术中存在的不能精准的控制打断音频的位置，因此影响音频打断的灵活度的技术问题。
51.此外，图3还示出了中断音频交互的整体流程图，在具体应用中，该系统包括：
52.1、打断配置管理模块，对机器人语音话术的文本部分进行可打断配置，比如说话到第m个字(词)到n个字(词)之间可以打断，m>＝0；n<＝话术文本长度；
53.2、文本分词模块，将机器人话术文本内容分割成词单元序列vl；
54.3、词语发音时长预测模块，将步骤2中词单元序列，输入所述预先训练得到的语音对齐模型m，得到每个词单元的预测发音时长；从而将词单元序列vl转化为词发音时长序列tl；
55.4、话术可打断时间计算模块，获取话术文本对应的机器人录音音频，得到其播放总时长t1，计算话术文本词单元发音时长序列发音总时长t2＝∑tl；对发音时长序列中每个词单元时长做等比放缩：tx’＝t1/t2*tx；从而得到真实词单元发音时长序列tl’；然后，根据机器人使用商配置的可打断词单元位置区间[m,n]，转化为机器人录音的可打断时间位置[t1,t2]；
[0056]
5、可打断判断模块，当机器人在线跟用户对话时，每轮对话必须记录机器人说话开始时戳。当上游系统，在机器人说话过程中监测到对端用户说话，马上发消息到本模块，本模块根据机器人本轮对话开始时戳及当前时戳，计算机器人已经说话时长，是否落在[t1,t2]可打断时间范围内。若落在可打断时间区间，则通知播放系统打断播放和进行打断后处理；否则不打断。
[0057]
在本方案中，通过语音词句对齐技术，在语音交互机器人系统中，支持可控可配置的智能打断功能。机器人使用这可以根据业务需求、话术前后连贯性，一致性、运营策略需
要等，直观方便的配置语音打断。通过机器学习训练，对发音字词对齐准确率高，能精准转化为可打断时间设置，从而在机器人话术只能在指定的时间段内被打断。本发明中，模型训练及迭代、机器人使用商的打断配置与打断时间计算、机器人会话过程的可打断判断，三个环节互相独立的，在系统空间关联商耦合性低，灵活性强。比如：模型训练算法的改进可以独立进行；机器人使用商的打断配置可以随时调整；机器人会话过程中的打断判断可以加入任意其它打断条件，本发明只是根据客户需求，限制这些条件只有满足在这个配置的机器人说话时间范围内的前提下有效。
[0058]
需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。
[0059]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
[0060]
实施例2
[0061]
图4示出了根据本实施例所述的中断音频交互的装置400，该装置400与根据实施例1的第一个方面所述的方法相对应。参考图4所示，该装置400包括：序列确定模块410，用于确定与交互音频对应的发音时长信息序列以及中断时间信息，其中发音时长信息序列用于记录与交互音频包含的单词对应的发音时长信息，中断时间信息用于指示交互音频可以进行中断的位置；音频接收模块420，用于在利用交互音频与目标用户进行交互的过程中，接收目标用户发出的音频；节点确定模块430，用于根据发音时长信息序列确定目标用户发出音频的时间节点；以及中断判断模块440，用于根据时间节点以及中断时间信息，判断是否对与目标用户进行音频交互的过程进行中断。
[0062]
可选地，序列确定模块410，包括：文本确定子模块，用于确定与交互音频对应的文本信息；词元确定子模块，用于确定由文本信息包含的连续单词组成的词元序列；以及序列确定子模块，用于根据词元序列，确定与交互音频对应的发音时长信息序列。
[0063]
可选地，序列确定子模块，包括：序列确定单元，用于利用预先训练的文本对齐模型对词元序列进行预测，确定发音时长信息序列。
[0064]
可选地，装置400还包括：计算模块，用于计算发音时长信息序列的发音时长总和作为第一时长，计算交互音频的播放时长作为第二时长；缩放模块，用于根据第一时长和第二时长，将发音时长信息序列中的每个单词的发音时长进行等比缩放，确定词元序列对应的实际发音时长信息序列，并且节点确定模块，包括：节点确定子模块，用于根据实际发音时长信息序列确定目标用户发出音频的时间节点。
[0065]
可选地，词元确定子模块，包括：词元确定单元，对文本信息进行分词操作，确定由文本信息包含的连续单词组成的词元序列。
[0066]
可选地，中断判断模块440，包括：区间确定子模块，用于确定与中断时间信息对应的中断区间；以及中断判断子模块，用于根据时间节点以及中断区间，判断是否对与目标用户进行音频交互的过程进行中断。
[0067]
从而根据本实施例，装置400可以根据发音时长信息序列计算用户发出音频的时间节点，然后根据中断时间信息判断是否对与目标用户进行音频交互的过程进行中断。从而，实现了精准控制通话打断位置的目的，达到了提高系统的灵活性的技术效果。进而解决了现有技术中存在的不能精准的控制打断音频的位置，因此影响音频打断的灵活度的技术问题。
[0068]
实施例3
[0069]
图5示出了根据本实施例所述的中断音频交互的装置500，该装置500与根据实施例1的第一个方面所述的方法相对应。参考图5所示，该装置500包括：处理器510；以及存储器520，与处理器510连接，用于为处理器510提供处理以下处理步骤的指令：确定与交互音频对应的发音时长信息序列以及中断时间信息，其中发音时长信息序列用于记录与交互音频包含的单词对应的发音时长信息，中断时间信息用于指示交互音频可以进行中断的位置；在利用交互音频与目标用户进行交互的过程中，接收目标用户发出的音频；根据发音时长信息序列确定目标用户发出音频的时间节点；以及根据时间节点以及中断时间信息，判断是否对与目标用户进行音频交互的过程进行中断。
[0070]
可选地，确定与交互音频对应的发音时长信息序列，包括：确定与交互音频对应的文本信息；确定由文本信息包含的连续单词组成的词元序列；以及根据词元序列，确定与交互音频对应的发音时长信息序列。
[0071]
可选地，根据词元序列，确定与交互音频对应的发音时长信息序列，包括：利用预先训练的文本对齐模型对词元序列进行预测，确定发音时长信息序列。
[0072]
可选地，存储器520还用于为处理器510提供处理以下处理步骤的指令：计算发音时长信息序列的发音时长总和作为第一时长，计算交互音频的播放时长作为第二时长；根据第一时长和第二时长，将发音时长信息序列中的每个单词的发音时长进行等比缩放，确定词元序列对应的实际发音时长信息序列，并且根据实际发音时长信息序列确定目标用户发出音频的时间节点。
[0073]
可选地，确定由文本信息包含的连续单词组成的词元序列，包括：对文本信息进行分词操作，确定由文本信息包含的连续单词组成的词元序列。
[0074]
可选地，根据时间节点以及中断时间信息，判断是否对与目标用户进行音频交互的过程进行中断，包括：确定与中断时间信息对应的中断区间；以及根据时间节点以及中断区间，判断是否对与目标用户进行音频交互的过程进行中断。
[0075]
从而根据本实施例，装置500可以根据发音时长信息序列计算用户发出音频的时间节点，然后根据中断时间信息判断是否对与目标用户进行音频交互的过程进行中断。从而，实现了精准控制通话打断位置的目的，达到了提高系统的灵活性的技术效果。进而解决了现有技术中存在的不能精准的控制打断音频的位置，因此影响音频打断的灵活度的技术问题。
[0076]
上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0077]
在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有
详述的部分，可以参见其他实施例的相关描述。
[0078]
在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
[0079]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0080]
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0081]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，randomaccess memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0082]
以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种切换方法、可穿戴设备及存储介质与流程

中断音频交互的方法、装置以及存储介质与流程

相关文献

最热文献