智能语音应答方法、终端设备及计算机可读存储介质与流程

2021-11-10 04:00:00 来源：中国专利 TAG：

1.本技术属于人工智能技术领域，尤其涉及一种智能语音应答方法、终端设备及计算机可读存储介质。

背景技术：

2.通常而言，语音交流与沟通，要求主体为两方以上，当一方主体发表完内容后，再由其他主体进行承接，完成交流。对于不同的主体，由于性别、年龄、知识水平、地域、以及当下情绪等条件不同，讲话的语速以及节奏也有所不同。在主体讲话的过程中，由于字、词、以及短语的不同以及讲话过程中需要进行思考、组织语言、各短句之间的停顿不完全一致，同时短句的停顿与本次讲话结束，也并不完全一致。
3.在智能语音交互设计中，判断发言主体的停顿是短语间的停顿还是本句话真实表达完毕，是非常重要的，因为这涉及到智能机器人进行回复的时机以及回复的内容是否合理；如果判断的停顿时间过短，会造成智能机器人回复的时候，发言主体继续表达未表达完的观点，造成双方同时讲话，造成抢话问题；如果判断的停顿时间过长，会造成智能机器人回复过慢，造成卡顿，会让发言主体感觉智能机器人反应慢或迟钝，甚至会催促智能机器人进行回复。

技术实现要素：

4.本技术的实施例提供一种智能语音应答方法、终端设备及计算机可读存储介质，能最大程度避免出现抢话或者反应慢的情况。
5.第一方面，本技术的实施例提供一种智能语音应答方法，所述方法包括：
6.接收输入语音并确定所述输入语音的实时语速；
7.将所述实时语速与基准语速比较，得到语速比较结果；
8.根据所述语速比较结果，确定输出回复的时间并按照所述时间输出回复，包括：
9.若所述语速比较结果满足第一条件，则在接收到所述输入语音的第一时间之后，根据所述输入语音输出回复；
10.若所述语速比较结果满足第二条件，则在接收到所述输入语音的第二时间至第三时间内，根据所述输入语音输出回复；
11.若所述语速比较结果满足第三条件，则在接收到所述输入语音的第四时间之后，根据所述输入语音输出回复；
12.其中，所述第四时间大于所述第一时间，所述第一时间大于所述第二时间，所述第二时间大于所述第三时间。
13.在第一方面的一种可能的实现方式中，所述接收输入语音并确定所述输入语音的实时语速，包括：
14.接收输入语音并将所述输入语音翻译成拼音；
15.获取所述输入语音的时长；
16.根据所述拼音以及所述输入语音的时长，确定所述输入语音的实时语速。
17.在第一方面的一种可能的实现方式中，所述根据所述拼音以及所述输入语音的时长，确定所述输入语音的实时语速，包括：
18.根据所述拼音的音节数量以及所述输入语音的时长，或者根据所述拼音的字母数量以及所述输入语音的时长，确定所述输入语音的实时语速。
19.在第一方面的一种可能的实现方式中，所述输入语音包括第一输入语音和第二输入语音；
20.相应的，所述接收输入语音并确定所述输入语音的实时语速，包括：
21.接收第一输入语音并翻译所述第一输入语音，得到第一翻译内容；
22.接收第二输入语音并翻译所述第二输入语音，得到第二翻译内容；
23.确定所述第一翻译内容与所述第二翻译内容的内容总数量；
24.若所述内容总数量符合第四条件，则获取所述第一输入语音的第一时长和所述第二输入语音的第二时长；
25.根据所述第一翻译内容、所述第一时长、所述第二翻译内容和所述第二时长，确定所述输入语音的实时语速。
26.在第一方面的一种可能的实现方式中，
27.所述接收输入语音并确定所述输入语音的实时语速，具体为：接收第一阶段输入语音并确定第一阶段实时语速，所述第一阶段实时语速表示所述第一阶段输入语音的语速；
28.所述将所述实时语速与基准语速比较，得到语速比较结果，具体为：将所述第一阶段实时语速与基准语速比较，得到第一阶段语速比较结果；
29.所述根据所述语速比较结果，确定输出回复的时间并按照所述时间输出回复，具体为：根据所述第一阶段语速比较结果，确定输出回复的第一阶段回复时间并按照所述第一阶段回复时间输出第一阶段回复；
30.在所述根据所述第一阶段语速比较结果，确定输出回复的第一阶段回复时间并按照所述第一阶段回复时间输出第一阶段回复之后，还包括：
31.接收第二阶段输入语音并确定第二阶段实时语速，所述第二阶段实时语速表示所述第二阶段输入语音的语速；
32.将所述第二阶段实时语速与所述基准语速比较，得到第二阶段语速比较结果；
33.根据所述第二阶段语速比较结果，确定输出回复的第二阶段回复时间并按照所述第二阶段回复时间输出第二阶段回复。
34.在第一方面的一种可能的实现方式中，所述接收输入语音并确定所述输入语音的实时语速，包括：
35.接收输入语音并确定所述输入语音的音量；
36.翻译所述输入语音，得到翻译内容；
37.根据所述音量和所述翻译内容确定所述输入语音的实时语速。
38.在第一方面的一种可能的实现方式中，所述方法还包括：
39.在输出回复的过程中，若在第一指定时间内检测到第三输入语音，则修改输出回复的时间，后续根据修改后的时间以及所述第三输入语音，输出回复。
40.在第一方面的一种可能的实现方式中，所述方法还包括：
41.在输出回复的过程中，若检测到第四输入语音，则计算从上一输入语音的末尾到所述第四输入语音的开始的时间间隔；
42.若所述时间间隔符合第五条件，则将上一输入语音与所述第四输入语音结合，得到结合语音，根据所述结合语音，输出回复；
43.若所述时间间隔符合第六条件，则根据所述第四输入语音，输出回复。
44.第二方面，本技术的实施例提供一种智能语音应答装置，所述装置包括：
45.语速确定模块，用于：接收输入语音并确定所述输入语音的实时语速；
46.语速比较模块，用于：将所述实时语速与基准语速比较，得到语速比较结果；
47.回复模块，用于：根据所述语速比较结果，确定输出回复的时间并按照所述时间输出回复。
48.第三方面，本技术的实施例提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的方法。
49.第四方面，本技术的实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一项所述的方法。
50.第五方面，本技术的实施例提供一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的方法。
51.本技术的实施例与现有技术相比存在的有益效果是：
52.本技术实施例中，根据接收到的输入语音，确定输入语音的实时语速；将实时语速与基准语速比较，得到语速比较结果；根据语速比较结果确定输出回复的时间，根据该时间以及输入语音，输出回复：若语速比较结果满足第一条件，则在接收到输入语音的第一时间之后，根据输入语音输出回复；若语速比较结果满足第二条件，则在接收到输入语音的第二时间至第三时间内，根据输入语音输出回复；若语速比较结果满足第三条件，则在接收到输入语音的第四时间之后，根据输入语音输出回复。如此，通过与用户进行语音交互，判断该用户讲话的语速与常规用户(基准语速)的区别，并根据此区别，确定输出回复的时间，能在后续以合适的衔接速度实现与具有不同讲话习惯的用户进行语音交互，能最大程度避免出现抢话或者反应慢的情况。
附图说明
53.为了更清楚地说明本技术的实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
54.图1是本技术一实施例提供的智能语音应答方法的流程示意图；
55.图2是本技术一实施例提供的智能语音应答方法的步骤a1的流程示意图；
56.图3是本技术一实施例提供的智能语音应答方法的步骤a1的第一种变型方式的流程示意图；
等仅用于区分描述，而不能理解为指示或暗示相对重要性。
76.在本技术说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本技术的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。
77.本技术的实施例提供一种智能语音应答方法，用于一个主体与另一个主体进行语音交互。该方法的一种应用形式可以是智能语音应答模型。
78.本技术的实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
79.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
80.本实施例提供的智能语音应答方法可以应用于智能机器人、服务器、手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，ar)/虚拟现实(virtual reality，vr)设备、笔记本电脑、超级移动个人计算机(ultra
‑
mobile personal computer，umpc)、上网本、个人数字助理(personal digital assistant，pda)等计算设备上，本技术实施例对计算设备的具体类型不作任何限制。其中，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdelivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
81.图1示出本实施例提供的智能语音应答方法的示意性流程图，该方法包括步骤a1至步骤a3。作为示例而非限定，该方法应用于上述智能机器人中，如此，智能机器人能与用户进行语音交互。
82.步骤a1、接收输入语音并确定该输入语音的实时语速。
83.在智能语音交互的场景中，用户通过语音的方式与智能机器人进行交互，智能机器人则接收用户发出的语音。在这样的情况下，用户发出的语音作为智能机器人的输入语音。
84.智能机器人接收到输入语音之后，根据输入语音确定用户的实时语速。在一些实施例中，对输入语音进行翻译，得到翻译内容，比如通过语音识别的方式得到文字，计算输入语音的时长，然后根据翻译内容和输入语音的时长，计算得到与输入语音对应的实时语速，比如计算单位时间内文字的个数。
85.步骤a2、将实时语速与基准语速比较，得到语速比较结果。
86.智能机器人接收到输入语音之后，需要在一定时间内做出回复。对于智能语音交互，需基于人工交互的特点进行模拟，设定各项基础的约束条件，比如停顿或间隔，以便智
能机器人根据约束条件对用户做出响应。一般而言，可以设定基础的停顿时间，使得智能机器人在接收到输入语音之后，经过基础的停顿时间后输出回复给用户。
87.在一些实施例中，基础的停顿时间可以这样得到：整理大量人工录音案例，分析在人工交互的场景中，用户停顿多长时间才表示真的一句话表述完毕，将该时间作为基础的停顿时间；通过分析数据，得到n秒为真实讲话结束的停顿时间，将此值应用于智能机器人，其中，n为正数。
88.在实际应用中，以n秒作为固定的停顿时间，只能针对大部分用户群体，对于不同的客户群体，由于讲话习惯并不完全一样，全都用相同的停顿时间，还是会造成抢话以及卡顿之类的情况。为建立适用于不同个体用户的智能语音应答模型，需要在通用模型基础上，进行针对性分析与优化，为不同用户计算出不同的停顿时长。为实现延长和缩短停顿时间，需要对大量常规用户讲话的语速进行一个基准值定义，得到基准语速。
89.在得到输入语音的实时语速之后，将实时语速与基准语速进行比较，得到语速比较结果。
90.步骤a3、根据语速比较结果，确定输出回复的时间并按照该时间输出回复。
91.前述语速比较结果存在三种情况：第一种情况，用户的实时语速与基准语速一致；第二种情况，用户的实时语速大于基准语速；第三种情况，用户的实时语速小于基准语速。基于这三种情况，可以确定智能机器人应该在用户发言结束后的什么时间做出回复。
92.若语速比较结果满足第一条件，则在接收到输入语音的第一时间之后，根据输入语音输出回复。具体的，智能机器人接收到输入语音时，在将输入语音翻译成文字的同时，计算用户的讲话语速，得到实时语速，如果该实时语速与基准语速(也可称为常规用户语速基准值)一致(即判定语速比较结果满足第一条件，该第一条件为实时语速与基准语速一致)，则对此用户维持运用前述基础的停顿时间(n秒)，该基础的停顿时间为前述第一时间，那么，智能机器人在接收到输入语音的第一时间之后，输出回复。
93.若语速比较结果满足第二条件，则在接收到输入语音的第二时间至第三时间内，根据输入语音输出回复。具体的，智能机器人接收到用户的输入语音时，在将输入语音翻译成文字的同时，计算用户的讲话语速，得到实时语速；如果该实时语速大于基准语速(也可称为常规用户语速基准值)，表明此用户讲话的语速较快(即判定语速比较结果满足第二条件，该第二条件为实时语速大于基准语速)，此时将基础的停顿时间(n秒)进行缩短，以迎合此用户快节奏的讲话方式，但为避免智能机器人接话速度太快，造成抢话问题，需设置最低停顿时间(p秒，p为小于n的正数)；缩短的基础的停顿时间为前述第二时间，最低停顿时间为前述第三时间；那么，智能机器人在接收到输入语音的第二时间至第三时间内，输出回复。其中，第一时间大于第二时间，第二时间大于第三时间。
94.若语速比较结果满足第三条件，则在接收到输入语音的第四时间之后，根据输入语音输出回复。具体的，智能机器人接收到用户的输入语音时，在将输入语音翻译成文字的同时，计算用户的讲话语速，得到实时语速；如果该实时语速小于基准语速(也可称为常规用户语速基准值)，则判定语速比较结果满足第三条件(第三条件为实时语速小于基准语速)，表明此用户的讲话语速较慢，用户思考或组织语言的间隔较长，因此将基础的停顿时间(n秒)进行延长，以迎合此客户快节奏的讲话方式；延长后的停顿时间为前述第四时间，第四时间大于第一时间；那么，智能机器人在接收到输入语音的第四时间之后，输出回复。
应当理解，延长停顿时间的比例可按照语速比例进行线性调整，语速越慢，延长的时间就越长。
95.如此，便可确定智能机器人在接收到输入语音之后，输出回复的时间。
96.在确定输出回复的时间之后，对于前述第一种情况，在用户发言结束后，智能机器人超过基础的停顿时间(第一时间)还是没有检测到语音信息输入，则判断用户讲话完毕。智能机器人对输入语音进行意图识别，比如通过自然语言处理模型对翻译内容进行识别，根据识别结果输出对应的回复内容和动作。
97.对于前述第二种情况，智能机器人在接收到输入语音的第二时间(基础的停顿时间)至第三时间(最低停顿时间)内，根据输入语音输出回复。
98.对于前述第三种情况，在用户发言结束后，如果智能机器人超过第四时间还是没有检测到语音信息输入，则判断用户讲话完毕，根据输入语音输出回复。
99.根据上述可知，在本实施例中，得出普通用户常用的语速以及停顿时间，对智能机器人在语音交互中的停顿时间进行基础设置；根据接收到的输入语音，确定输入语音的实时语速；将实时语速与基准语速比较，得到语速比较结果；根据语速比较结果确定输出回复的时间，根据该时间以及输入语音，输出回复；如此，通过与用户进行语音交互，判断该用户讲话的语速与常规用户(基准语速)的区别，并根据相应的区别，确定输出回复的时间，很好的准确判断用户一句话的真实结束节点，能在后续以合适的衔接速度实现与具有不同讲话习惯的用户进行语音交互，能避免智能机器人在与前述用户语音交互的过程中出现抢话或者卡顿的问题。
100.图2是本技术一实施例提供的智能语音应答方法的步骤a1的流程示意图。参考图2，在一些实施例中，前述步骤a1(接收输入语音，根据接收到的输入语音，确定输入语音的实时语速)具体包括步骤a11a至步骤a13a。
101.步骤a11a、接收输入语音并将输入语音翻译成拼音。
102.智能机器人接收到用户的输入语音之后，将输入语音翻译成拼音，具体可以是通过语音识别模型将输入语音翻译成拼音。其中，拼音可以是汉语拼音，也可以是其他语言的拼音。
103.步骤a12a、获取输入语音的时长。
104.智能机器人在接收到用户的输入语音时开始计时，直到输入语音结束停止计时，由此可同步获取输入语音的时长。当然，智能机器人也可以在接收完输入语音之后，对输入语音进行时长分析，从而获取输入语音的时长。
105.步骤a13a、根据拼音以及输入语音的时长，确定输入语音的实时语速。
106.智能机器人在获取到输入语音的时长之后，确定输入语音的实时语速，比如根据拼音的音节数量以及输入语音的时长，或者根据拼音的字母数量以及输入语音的时长，确定输入语音的实时语速；那么，该实时语速表示单位时间内的拼音数量，比如音节数量或者字母数量。
107.如此，通过拼音来计算用户的语速，能得到更精确的语速。
108.图3是本技术一实施例提供的智能语音应答方法的步骤a1的第一种变型方式的流程示意图。在一些实施例中，在用户与智能机器人刚开始交互时，因为输入语音比较少，计算语速不一定准确，为此，参考图3，前述步骤a1(接收输入语音并确定该输入语音的实时语
速)具体包括步骤a11b至步骤a15b。其中，输入语音包括第一输入语音和第二输入语音，第一输入语音和第二输入语音是两段不同的语音。
109.步骤a11b、接收第一输入语音并翻译第一输入语音，得到第一翻译内容。
110.第一输入语音为用户与智能机器人刚开始交互时产生的语音，该输入语音的内容较少。智能机器人接收到第一输入语音之后，对该语音进行翻译，比如翻译成文字，得到第一翻译内容。
111.步骤a12b、接收第二输入语音并翻译第二输入语音，得到第二翻译内容。
112.用户与智能机器人交互一段时间之后，产生新的语音，该新的语音作为第二输入语音，由智能机器人接收。智能机器人接收到第二输入语音之后，对该语音进行翻译，比如翻译成文字，得到第二翻译内容。
113.步骤a13b、确定第一翻译内容与第二翻译内容的内容总数量。
114.在获得第一翻译内容与第二翻译内容之后，计算第一翻译内容与第二翻译内容的内容总数量，比如计算出文字总数量，从而确定第一翻译内容与第二翻译内容的内容总数量。
115.步骤a14b、若内容总数量符合第四条件，则获取第一输入语音的第一时长和第二输入语音的第二时长。
116.在确定第一翻译内容与第二翻译内容的内容总数量之后，对该内容总数量进行判断，若该内容总数量符合第四条件，比如达到预设数量，则获取第一输入语音的第一时长和第二输入语音的第二时长。第一时长是第一输入语音的时间长度，第二时长则是第二输入语音的时间长度。
117.步骤a15b、根据第一翻译内容、第一时长、第二翻译内容和第二时长，确定输入语音的实时语速。
118.在获取到第一翻译内容、第一时长、第二翻译内容和第二时长之后，智能机器人根据第一翻译内容、第一时长、第二翻译内容和第二时长，确定输入语音的实时语速，具体可以是将第一时长与第二时长相加，得到总时长，将第一翻译内容与第二翻译内容相加，得到总翻译内容，将总翻译内容与总时长相比，得到单位时间内的翻译内容，从而确定输入语音的实时语速。
119.如此，在用户的输入语音达到一定程度之后，根据这些输入语音来计算用户的实时语速，能得到更加准确的实时语速。
120.图4是本技术一实施例提供的智能语音应答方法的第一种变型方式的流程示意图。参考图4，在一些实施例中，前述步骤a1(接收输入语音并确定输入语音的实时语速)具体为：接收第一阶段输入语音并确定第一阶段实时语速，该第一阶段实时语速表示第一阶段输入语音的语速。
121.具体而言，用户与智能机器人的语音交互分为多个阶段，比如第一阶段和第二阶段，这些阶段的语音交互内容不同。在第一阶段，用户发出的语音为第一阶段输入语音，该第一阶段输入语音可以是一段语音或者多段语音；智能机器人接收到第一阶段输入语音之后，根据第一阶段输入语音确定用户在第一阶段的实时语速，该语速为第一阶段实时语速。
122.相应的，前述步骤a2(将实时语速与基准语速比较，得到语速比较结果)具体为：将第一阶段实时语速与基准语速比较，得到第一阶段语速比较结果。
123.如前面的实施例所述，智能机器人接收到第一阶段输入语音之后，也需要在一定时间内做出回复，那么，在得到与第一阶段输入语音对应的第一阶段语速之后，将第一阶段语速与基准语速进行比较，得到第一阶段语速比较结果。
124.相应的，前述步骤a3(根据语速比较结果，确定输出回复的时间并按照时间输出回复)具体为：根据第一阶段语速比较结果，确定输出回复的第一阶段回复时间并按照该第一阶段回复时间输出第一阶段回复。
125.如前面的实施例所述，第一阶段语速比较结果存在三种情况：第一种情况，第一阶段语速与基准语速一致；第二种情况，第一阶段语速大于基准语速；第三种情况，第一阶段语速小于基准语速。基于这三种情况，可以确定智能机器人应该在用户发言结束后的什么时间做出回复，也就是确定输出回复的第一阶段回复时间，那么就可以按照该第一阶段回复时间输出第一阶段回复。
126.相应的，参考图4，在前述步骤a3(根据第一阶段语速比较结果，确定输出回复的第一阶段回复时间并按照该第一阶段回复时间输出第一阶段回复)之后，还包括步骤a4至步骤a6。
127.步骤a4、接收第二阶段输入语音并确定第二阶段实时语速，该第二阶段实时语速表示第二阶段输入语音的语速。
128.第一阶段的语音交互结束后，开始第二阶段的语音交互。在第二阶段，用户发出的语音为第二阶段输入语音，该第二阶段输入语音可以是一段语音或者多段语音；智能机器人接收到第二阶段输入语音之后，根据第二阶段输入语音确定用户在第二阶段的实时语速，该语速为第二阶段实时语速。
129.步骤a5、将第二阶段实时语速与基准语速比较，得到第二阶段语速比较结果。
130.如前面的实施例所述，智能机器人接收到第二阶段输入语音之后，也需要在一定时间内做出回复，那么，在得到与第二阶段输入语音对应的第二阶段语速之后，将第二阶段语速与基准语速进行比较，得到第二阶段语速比较结果。
131.步骤a6、根据第二阶段语速比较结果，确定输出回复的第二阶段回复时间并按照第二阶段回复时间输出第二阶段回复。
132.如前面的实施例所述，第二阶段语速比较结果也存在三种情况：第一种情况，第二阶段语速与基准语速一致；第二种情况，第二阶段语速大于基准语速；第三种情况，第二阶段语速小于基准语速。基于这三种情况，可以确定智能机器人应该在用户发言结束后的什么时间做出回复，也就是确定输出回复的第二阶段回复时间，那么就可以按照该第二阶段回复时间输出第二阶段回复。
133.根据上述可知，第一阶段输入语音是用户在语音交互的第一阶段发出的语音，第二阶段输入语音则是用户在第二阶段发出的语音。在前述第一阶段，根据第一阶段输入语音确定实时语速；在前述第二阶段，则根据第二阶段输入语音确定实时语速。如此，由于在每个阶段，用户讲话的语速可能不一样，所以计算实时语速时使用最近的语音片段来计算，这样能适应用户的讲话速度的变化，能提高用户体验。
134.图5是本技术一实施例提供的智能语音应答方法的步骤a1的第二种变型方式的流程示意图。参考图5，在一些实施例中，前述步骤a1(接收输入语音并确定该输入语音的实时语速)具体包括步骤a11c至步骤a13c。
135.步骤a11c、接收输入语音并确定输入语音的音量。
136.智能机器人在接收到用户的输入语音之后，对该输入语音进行处理，比如将该输入语音处理成电信号，然后根据该电信号确定输入语音的音量。
137.步骤a12c、翻译输入语音，得到翻译内容。
138.智能机器人在接收到用户的输入语音之后，对输入语音进行翻译，比如通过语音识别模型对输入语音进行翻译，得到翻译内容，比如得到与输入语音对应的文本内容。
139.步骤a13c、根据音量和翻译内容确定输入语音的实时语速。
140.用户因为情绪的原因，讲话的音量会不同，而音量会影响语速，所以在确定输入语音的实时语速的时候，考虑音量。一般而言，如果用户讲话的音量越大，那么该用户在一定时间内能讲的内容就比较少，因此，其语速也就越慢；相应的，如果用户讲话的音量越小，那么该用户在一定时间内能讲的内容就比较多，因此，其语速也就越快。
141.如此，根据音量和翻译内容确定输入语音的实时语速，能更好地适应用户生理变化，能提高用户体验。
142.以上的实施例可实现测算不同用户讲话的语速，相应对智能机器人的停顿时间进行不同的调整，适应较多用户的讲话习惯，达到较好的衔接。但是，在实际应用中，部分用户就是喜欢思考、讲话有间隔且是真正的停顿，这样就会造成智能机器人出现抢话的问题。图6是本技术一实施例提供的智能语音应答方法的第二种变型方式的流程示意图。参考图6，在一些实施例中，智能语音应答方法还包括步骤b1和步骤b2。
143.步骤b1、在输出回复的过程中，若在第一指定时间内检测到第三输入语音，则修改输出回复的时间，后续根据修改后的时间以及第三输入语音，输出回复。
144.智能机器人根据用户的输入语音进行回复，在回复过程中很短的时间内，具体是在第一指定时间内，用户也开始讲话，智能机器人检测到新的输入语音(称为第三输入语音)，证明用户之前并未讲话完毕，智能机器人进行了抢话，此时证明用户讲话习惯停顿时间较长，智能机器人修改输出回复的时间，也即延长停顿时间，比如从n秒延长至n 1秒，智能机器人停止回复，后续根据修改后的时间以及第三输入语音，输出回复。如果短时间内连续出现机器人抢话的情况，可继续延长停顿时间，比如从n 1秒延长至n 2秒。
145.步骤b2、在输出回复的过程中，若在第一指定时间内没有检测到第三输入语音，则后续根据之前确定的时间以及第三输入语音，输出回复。
146.智能机器人根据用户的输入语音进行回复，在第一指定时间内，没有检测到新的输入语音，则不用修改输出回复的时间，采用之前确定的输出回复的时间，对接收到的第三输入语音进行回复。
147.如此，在用户一句话还没讲完的情况下，能避免智能机器人进行抢话导致承接不当。
148.图7是本技术一实施例提供的智能语音应答方法的第三种变型方式的流程示意图。参考图7，在一些实施例中，智能语音应答方法还包括步骤c1至步骤c3。
149.步骤c1、在输出回复的过程中，若检测到第四输入语音，则计算从上一输入语音的末尾到第四输入语音的开始的时间间隔。
150.用户讲完话停顿，在智能机器人根据输入语音输出回复的时候，用户知道智能机器人讲述的内容，但是不想和智能机器人继续交流，所以会在短时间内继续表达自己的观
点，向智能机器人输入新的输入语音(称为第四输入语音，以区别于前述第三输入语音)，这时需要将这种情况与抢话进行区分。因此，在智能机器人输出回复的过程中，若检测到第四输入语音，则计算从上一输入语音的末尾到第四输入语音的开始的时间间隔。
151.智能机器人在输出回复的过程中，若没有检测到第四输入语音(也即新的输入语音)，则继续输出回复。
152.步骤c2、若时间间隔符合第五条件，则将上一输入语音与第四输入语音结合，得到结合语音，根据结合语音，输出回复。
153.在计算出前述时间间隔之后，如果时间间隔在设定的间隔内(时间间隔符合第五条件)，比如在3秒内，用户有两段语音，在机器人回复客户第一段语音的同时，客户表达第二段语音，此时机器人停止讲话，等待用户将第二段语音讲完，然后将用户两段语音的内容比如文本内容结合起来，得到结合语音，根据结合语音，输出回复；具体可以是，智能机器人对结合后的输入语音进行完整的意图识别，将重新识别得到的意图重新进行逻辑判断后处理，然后输出相应的回复，此时，忽略智能机器人之前回复用户第一句语音的内容即可。
154.步骤c3、若时间间隔符合第六条件，则根据第四输入语音，输出回复。
155.具体而言，如果用户第二段语音(称为第四输入语音)是在第一段语音(称为上一段语音)指定时间(比如3秒)之后才发生的(此时，时间间隔符合第六条件)，则判断为智能机器人打断而不是抢话，此时智能机器人停止讲话，忽略用户的上一段语音，待第四输入语音结束，单独对第四输入语音进行意图识别，比如对第四输入语音的文本进行意图识别。完成意图识别后，将第四输入语音识别的意图按照智能机器人设定的流程进行逻辑匹配和处理，输出回复，此时，忽略智能机器人回复用户上一段语音的内容即可。
156.根据上述可知，在本技术的实施例中，通过之前的语音交互，对不同用户进行不同的语速判断，可精确判断用户讲话的语速与常规用户的区别，并根据此区别，缩短或者延长停顿时间，以最合适的衔接速度实现与用户进行语音交互；此外，通过判断抢话的时机，调整下一次停顿的时长，以及在发生多次抢话的情况下进一步延长停顿的时长，能尽可能理解用户真实表达内容，能避免断章取义，以及避免打断用户讲话的节奏并进行错误回复，能最大程度提高用户体验。
157.对应于上文实施例所述方法，图8示出本技术的实施例提供的智能语音应答装置的结构框图，为了便于说明，仅示出与本技术实施例相关的部分。参考图8，该装置包括语速确定模块1、语速比较模块2和回复模块3。
158.语速确定模块1，用于：接收输入语音并确定输入语音的实时语速。
159.语速比较模块2，用于：将实时语速与基准语速比较，得到语速比较结果。
160.回复模块3，用于：根据语速比较结果，确定输出回复的时间并按照时间输出回复。
161.图9是本技术一实施例提供的回复模块的结构示意图。参考图9，在一些实施例中，回复模块3包括判断子模块30、第一回复子模块31、第二回复子模块32和第三回复子模块33。
162.判断子模块30，用于：判断语速比较结果。
163.第一回复子模块31，用于：若语速比较结果满足第一条件，则在接收到输入语音的第一时间之后，根据输入语音输出回复。
164.第二回复子模块32，用于：若语速比较结果满足第二条件，则在接收到输入语音的
第二时间至第三时间内，根据输入语音输出回复。
165.第三回复子模块33，用于：若语速比较结果满足第三条件，则在接收到输入语音的第四时间之后，根据输入语音输出回复。
166.其中，第四时间大于第一时间，第一时间大于第二时间，第二时间大于第三时间。
167.图10是本技术一实施例提供的语速确定模块的结构示意图。参考图10，在一些实施例中，语速确定模块1包括接收及翻译子模块11a、时长获取子模块12a和第一语速确定子模块13a。
168.接收及翻译子模块11a，用于：接收输入语音并将输入语音翻译成拼音。
169.时长获取子模块12a，用于：获取输入语音的时长。
170.第一语速确定子模块13a，用于：根据拼音以及输入语音的时长，确定输入语音的实时语速。
171.图11是本技术一实施例提供的语速确定模块1的第一种变型方式的结构示意图。参考图11，在一些实施例中，语速确定模块1包括第一翻译子模块11b、第二翻译子模块12b、内容总数量确定子模块13b、时长获取子模块14b和第二语速确定子模块15b。
172.第一翻译子模块11b，用于：接收第一输入语音并翻译第一输入语音，得到第一翻译内容。
173.第二翻译子模块12b，用于：接收第二输入语音并翻译第二输入语音，得到第二翻译内容。
174.内容总数量确定子模块13b，用于：确定第一翻译内容与第二翻译内容的内容总数量。
175.时长获取子模块14b，用于：若内容总数量符合第四条件，则获取第一输入语音的第一时长和第二输入语音的第二时长。
176.第二语速确定子模块15b，用于：根据第一翻译内容、第一时长、第二翻译内容和第二时长，确定输入语音的实时语速。
177.图12是本技术一实施例提供的语速确定模块的第二种变型方式的结构示意图。参考图12，在一些实施例中，语速确定模块1包括音量确定子模块11c、翻译子模块12c和第三语速确定子模块13c。
178.音量确定子模块11c，用于：接收输入语音并确定输入语音的音量；
179.翻译子模块12c，用于：翻译输入语音，得到翻译内容；
180.第三语速确定子模块13c，用于：根据音量和翻译内容确定输入语音的实时语速。
181.图13是本技术一实施例提供的智能语音应答装置的第一种变型方式的结构示意图。参考图13，在一些实施例中，语速确定模块1为第一阶段语速确定模块，具体用于：接收第一阶段输入语音并确定第一阶段实时语速，该第一阶段实时语速表示第一阶段输入语音的语速；相应的，语速比较模块2为第一阶段语速比较模块，具体用于：将第一阶段实时语速与基准语速比较，得到第一阶段语速比较结果；相应的，回复模块3为第一阶段回复模块，具体用于：根据第一阶段语速比较结果，确定输出回复的第一阶段回复时间并按照该第一阶段回复时间输出第一阶段回复。
182.相应的，智能语音应答装置还包括第二阶段语速确定模块4、第二阶段语速比较模块5和第二阶段回复模块6。
digital,sd)卡，闪存卡(flash card)等。进一步地，存储器161还可以既包括终端设备的内部存储单元也包括外部存储设备。存储器161用于存储操作系统、应用程序、引导装载程序(boot loader)、数据以及其他程序等，例如计算机程序的程序代码等。存储器161还可以用于暂时地存储已经输出或者将要输出的数据。
197.示例性的，计算机程序162可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器161中，并由处理器160执行，以完成本技术。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序162在终端设备16中的执行过程。
198.应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本技术实施例的实施过程构成任何限定。
199.所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本技术的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
200.前述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于计算机可读存储介质中；该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质包括：能够将计算机程序代码携带到装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(rom，read
‑
only memory)、随机存取存储器(ram，random access memory)、电载波信号、电信信号以及软件分发介质。例如u盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。
201.本技术的实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
202.本技术的实施例提供一种计算机程序产品，当计算机程序产品在终端设备比如移动终端上运行时，使得移动终端可实现上述各个方法实施例中的步骤。
203.在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。
204.本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出
本技术的范围。
205.在本技术所提供的实施例中，应该理解到，所揭露的装置/设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。
206.前述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
207.以上所述实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

智能语音应答方法、终端设备及计算机可读存储介质与流程

相关文献

最热文献