语音交互方法、装置、设备及存储介质与流程

2022-06-01 14:35:53 来源：中国专利 TAG：

1.本发明涉及金融科技领域中的人工智能、自然语音处理、语音合成、语音识别技术，尤其涉及一种语音交互方法、装置、设备及存储介质。

背景技术：

2.目前，随着互联网技术的发展，可以通过线上教学的方式对用户进行技能训练。
3.在现有技术中，在通过线上教学的方式对用户进行课程培训的过程中，通常是用户观看线上的教学视频，在观看教学视频结束之后，以线上答卷的方式完成课程练习、以及课程测试等。然而，上述训练方式较为单一固定，导致训练的灵活性较差。

技术实现要素：

4.本发明的主要目的在于提供一种语音交互方法、装置、设备及存储介质，旨在提高训练的灵活性。
5.为实现上述目的：
6.第一方面，本发明提供一种语音交互方法方法，语音交互方法方法包括：
7.获取用户选择的场景类别；
8.获取场景类别对应的至少一条第一语音；
9.播放至少一条第一语音，以及接收用户输入的每条第一语音对应的应答语音；
10.根据至少一条第一语音和每条第一语音对应的应答语音，确定用户对应的训练结果。
11.第二方面，本发明提供一种语音交互装置，包括：第一获取模块、第二获取模块、播放模块、接收模块和确定模块，其中，
12.第一获取模块用于，获取用户选择的场景类别；
13.第二获取模块用于，获取场景类别对应的至少一条第一语音；
14.播放模块用于，播放至少一条第一语音；
15.接收模块用于，接收用户输入的每条第一语音对应的应答语音；
16.确定模块用于，根据至少一条第一语音和每条第一语音对应的应答语音，确定用户对应的训练结果。
17.第三方面，本发明提供一种终端设备，终端设备包括：存储器、处理器及存储在存储器上并可在处理器上运行的语音交互程序，语音交互程序被处理器执行时实现如上第一方面中任一项的语音交互方法的步骤。
18.第四方面，本发明提供一种计算机可读存储介质，计算机可读存储介质上存储有语音交互程序，语音交互程序被处理器执行时实现如上第一方面中任一项的语音交互方法的步骤。
19.第五方面，本发明提供一种计算机程序产品，包括：计算机程序，该计算机程序被处理器执行时实现如上第一方面中任一项的语音交互方法的步骤。
20.本发明中，通过播放至少一条第一语音、接收用户输入的每条第一语音对应的应答语音，使用户模拟真实场景中的对话练习，提高对用户的培训效果，使用户随时随地利用闲暇时间进行学习，方便灵活。旨在通过根据至少一条第一语音和每条第一语音对应的应答语音，确定用户对应的训练结果，使得后台的管理者可以及时了解用户的训练进度、监督用户的训练结果。
附图说明
21.图1为本发明提供的登录训练应用程序过程中涉及的界面示意图；
22.图2a为本发明提供的场景类别的界面示意图一；
23.图2b为本发明提供的场景类别的界面示意图二；
24.图2c为本发明提供的场景类别的界面示意图三；
25.图2d为本发明提供的场景类别的界面示意图四；
26.图3为本发明提供的界面201的下级界面的示意图；
27.图4为本发明提供的小测的下级界面的示意图；
28.图5为本发明提供的界面202的下级界面的示意图；
29.图6为本发明提供的界面203的下级界面的示意图；
30.图7为本发明提供的界面109的下级界面的示意图；
31.图8为本技术提供的用户画像的一种示意图；
32.图9为本发明提供的语音交互方法的流程示意图一；
33.图10为本发明提供的确定训练结果的流程示意图；
34.图11为本发明提供语音交互装置的结构示意图一；
35.图12为本发明提供语音交互装置的结构示意图二；
36.图13为本发明提供的终端设备的硬件示意图。
37.本发明目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
38.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
39.为使发明的目的、技术方案和优点更加清楚，下面将结合发明中的附图，对发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
40.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产
品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
41.在现有技术中，在用户观看线上的教学视频之后，以线上答卷的方式完成课程练习、课程测试等，无法使用户模拟真实场景中的对话练习，导致对用户的培训效果较差。在本技术中为了使用户可以模拟真实场景中的对话练习，提高对用户的培训效果，本技术提供一种训练应用程序，在将该训练应用程序安装至终端设备之后，当用户使用训练应用程序进行训练时，终端设备可以执行本技术提供的语音交互方法，使用户可以模拟真实场景中的对话练习，提高对用户的培训效果。
42.下面结合图1至图8中本技术提供的一种训练应用程序中包括的界面进行说明。
43.图1为本发明提供的登录训练应用程序过程中涉及的界面示意图。如图1所示，包括：界面101、界面102、界面103、界面104、界面105、界面106、界面107、界面108和界面109。
44.请参见界面101，在用户点击终端设备中训练应用程序对应的图标之后显示界面101。
45.请参见界面102，用户依次在界面中输入手机号、点击“获取验证码”控件，以使终端设备可以接收到注册验证码。
46.请参见界面103，用户在界面中输入接收到的注册验证码，点击“登录”控件，显示重置登录界面104。
47.请参见界面104，用户在界面中点击“获取验证码”控件，以使终端设备可以接收到密码重置验证码。
48.请参见界面105，用户依次在界面中输入接收到的密码重置验证码、点击“下一步”控件，显示界面106。
49.请参见界面107，用户在界面106中依次输入密码、点击“下一步”控件，如界面107 所示。
50.请参见界面108，在用户节点界面107中“下一步”控件之后，显示界面108。在界面108显示第一预设时长之后，自动显示界面109。其中，第一预设时长例如可以为2秒、 3秒等。
51.请参见界面109，界面109中包括“学习模式”控件、“对练模式”控件、“测试模块”控件、“特例练习模式”控件、“申诉结果”控件、以及累计学习时长等。
52.在图1实施例的基础上，下面结合图2a至图2d实施例，对界面109的下一级界面进行说明。具体的，请参见图2。
53.图2a为本发明提供的场景类别的界面示意图一。在图1中界面109的基础上，如图 2a所示，包括：界面201。具体的，在用户点击界面109中的“学习模式”控件之后，可以显示界面201。
54.请参见界面201，界面201中包括多个场景类别对应的控件。例如，多个场景类别包括：客户说“我没兴趣”、客户说“我有朋友做保险”、客户说“我没时间”等。
55.图2b为本发明提供的场景类别的界面示意图二。在图1中界面109的基础上，如图 2b所示，包括：界面202。具体的，在用户点击界面109中的“对练模式”控件之后，显示界面202。
56.请参见界面202，界面202中包括多个场景类别对应的控件。例如，多个场景类别包
括：保险销售01、保险销售02、保险销售03等。
57.需要说明的是，界面202中的多个场景类别以列表形式显示在界面202中，用户可以逐个完成每个场景类别。可选地，在多个场景类别中，可以将第一个场景类别对应的控件设置为可按状态(例如：灰色)，第一个场景类别之后的场景类别对应的控件设置为不可按状态(例如：蓝色)。在实际中当前一个场景类别完成之后，后一个场景类别对应的控件可以自动变为可按状态。
58.图2c为本发明提供的场景类别的界面示意图三。在图1中界面109的基础上，如图 2c所示，包括：界面203。具体的，在用户点击界面109中的“测试模式”控件之后，显示界面203。
59.请参见界面203，界面203中包括多个场景类别对应的控件。例如，多个场景类别包括：模拟测试1、模拟测试2、终测、补考等。
60.图2d为本发明提供的场景类别的界面示意图四。在图1中界面109的基础上，如图 2d所示，包括：界面204。具体的，在用户点击界面109中的“对练模式”控件之后，显示界面204。
61.请参见界面204，在界面204中，场景类别为特例练习模式中包括的多个重点技巧问答对，其中，一个场景类别为一个重点技巧问答对。例如，本发明公开的界面204中包括一个重点技巧问答对，其中，重点技巧问答对包括第一语音(例如：我对保险没兴趣)和第一语音的应答语音(例如：我不是推销保险的，我们有个活动想邀请您参加)。在实际中，终端设备播放第一语音，接着用户录入应答语音，最后终端设备对应答语音进行实时检测得到应答结果，并显示应答结果(如界面204所示的应答结果：回答正确)。进一步地，当应答结果为回答正确时，可以从特例练级模式中删除该重点技巧问答对。可选地，针对特例练习模式中的每个重点技巧问答对，可以支持重复播放。需要说明的是，在终端设备播放第一语音，接着用户录入应答语音的操作过程与界面2010至界面2012类似，此处不再赘述。
62.可选地，可以点击界面204中的“下一题”控件、或者由下向上滑动显示屏，显示下一个重点技巧问答对。可选地，特例练级模式中的多个重点技巧问答对可以根据做错时间由前至后排列。其中，多个重点技巧问答对为学习模式、对练模式和特例练习模式对应的场景类别中、应答语音错误时对应的重点技巧问答对。
63.在上述实施例的基础上，下面结合图3，对界面201的下级界面进行说明，具体的，请参见图3实施例。
64.图3为本发明提供的界面201的下级界面的示意图。如图3所示，包括：界面201、界面210、界面211、界面212、界面213、界面214、界面215、界面216和界面217。
65.请参见界面210，在用户点击界面201中的“客户说
‘
我没兴趣
’”
控件之后，显示界面210。界面210中包括多个案例名称对应的控件和小测对应的控件。例如，多个案例名称包括：案例名称1、案例名称2、案例名称3、案例名称4、案例名称5。具体的，在用户点击界面201中的“客户说
‘
我没兴趣
’”
控件之后，显示界面210。进一步地，在用户点击“名称1”控件之后，显示界面211。
66.请参见界面211，在用户点击界面210中“案例名称1”控件之后，显示界面211。
67.请参见界面212，在用户点击界面211中的“开始练习”控件之后，显示界面212。终端设备自动播放案例名称1中包括的至少一个重点技巧问答对，每个重点技巧问答对中包
括第一语音和第一语音对应的应答语音。在终端设备自动播放案例名称1中包括的重点技巧问答对之后，可以显示提示“情景分析”和“跟读练习”控件。需要说明的是，在终端设备自动播放案例名称1中包括的重点技巧问答对的过程中，不可中途暂停。
68.请参见界面213，在用户可以点击界面212中的“跟读练习”控件之后，显示界面213。界面213中包括重点对话技巧对的对话文字(第一语音对应的文字“我对保险没兴趣”和应答语音对应的文字“我们有个活动，邀请您参加”)、提示“接下来请在机器人说话之后基于响应的语音回复、以及“跟读”控件。在界面213中以暗色(例如：灰色)显示方式显示“跟读”控件，该暗色显示方式用于指示控件为不可按状态。
69.请参见界面214，在用户点击界面213中的“x”之后，关闭提示，并显示界面214。终端设备自动播放第一语音“我对保险没兴趣”，在播放完成之后，以亮色(例如，蓝色) 显示方式显示“跟读”控件，该暗色显示方式用于指示控件为可按状态。
70.可选地，在终端设备自动播放第一语音“我对保险没兴趣”之后，若第一预设时长内，用户未点击“跟读”控件进行跟读，则显示界面215；若预设时长内，用户点击“跟读”控件进行跟读，则显示界面216。其中，第一预设时长可以为30秒、40秒等，此处不对预设时长进行限定。
71.请参见界面215，显示提示“请给予相应的回复”。可选地，在显示提示“请给予相应的回复”之后，若用户点击“跟读”控件、并录入应答语音，则显示界面216；若用户未点击“跟读”控件，则继续显示界面215。
72.请参见界面216，界面216中包括“再次跟读”控件，用户可以点击“再次跟读”控件，再一次跟读第一语音的应答语音。界面216中还包括“下一个”控件。
73.请参见界面217，在用户点击界面216中的“下一个”控件之后，显示界面217。界面217中显示第二个重点技巧问答对对应的对话文字(第一语音对应的文字“什么活动”、应答语音对应的文字“健康知识普及活动”)和“跟读”控件。用户可以点击“跟读”控件，录入应答语音“健康知识普及活动”。
74.在实际应用中，在用户点击界面217中的“跟读”控件之后，若存在第三个重点技巧问答对，则在界面217中取消显示“跟读”控件，并显示“上一个”控件、“再次跟读”控件和“下一个”控件。用户可以点击“上一个”控件跟读第一个重点技巧问答对，用户点击“再次跟读”控件，跟读第二个重点技巧问答对，用户点击“下一个”控件跟读第三个重点技巧问答对。
75.需要说明的是，在图3中实施例中，当用户跟读完案例名称1中包括的重点技巧问答对至少一次之后，可以认为完成对案例名称1的学习。
76.在上述实施例的基础上，下面结合图4，对小测包括的下级界面进行说明，具体的，请参见图4实施例。
77.图4为本发明提供的小测的下级界面的示意图。如图4所示，包括：界面210、界面 2010、界面2011和界面2012。需要说明的是，用户学习完成案例名称1至案例名称4之后，“小测”控件由不可按状态变为可按状态(例如：“小测”控件由灰色变为蓝色)。
78.请参见界面2010，在户点击界面210中的“小测”控件之后，显示界面2010。界面 2010中包括提示“请使用前期学习的任意一种话术技巧进回复”和“开始测试”控件。用户可以点击“开始测试”控件，播放第一语音“我对保险没兴趣”。可选地，在播放“我对保险没兴趣”的过程中，“开始测试”控件为不可按状态。
79.请参见界面2011，在播放完“我对保险没兴趣”之后，“开始测试”控件变为“开始说话”控件。用户可以点击“开始说话”控件，录入应答语音“我们马上有个活动，邀请您参加”。
80.请参见界面2012，在用户录入应答语音“我们马上有个活动，邀请您参加”之后，“开始说话”控件变为“测试完成”控件，接着终端设备可以对应答语音进行处理，得到应答语音对应的应答结果。若应答语音正确则显示“回答正确”，若应答语音错误，则显示错误结果。例如错误结果可以包括：响应时长结果、应答语速结果、敏感词汇结果、语义结果。例如，响应时长结果为：过慢、过快等。例如，应答语速结果为：过慢、过快等。例如，敏感词汇结果包括通过、不通过。对于未通过的敏感词汇结果，终端设备直接显示具体的敏感词汇。
81.需要说明的是，小测部分支持实时质检。但是在语义错误时，不支持申诉。具体的，对申诉的详细说明，请参见图5和图7实施例，此处不再赘述。
82.在上述实施例的基础上，下面结合图5，对图2实施例中界面202的下级界面进行说明，具体的，请参见图4实施例。
83.图5为本发明提供的界面202的下级界面的示意图。如图5所示，包括：界面202、界面2020、界面2021、界面2022、界面2023、界面2024、界面2025、界面2026、界面 2027。例如，在用户点击界面210中的“保险销售01”控件之后，显示界面2020。
84.请参见界面2020。显示提示“本对话中请在机器人说话后给予相应语音回复”和“开始对话”控件
85.请参见界面2021，在用户可以点击界面2020中的“开始对话”控件之后，显示界面 2021。终端设备播放第一语音“你有什么保险推荐吗”，“开始对话”控件变为不可按状态。
86.请参见界面2022，在播放完第一语音“你有什么保险推荐吗”之后，“开始对话”控件变为可按状态。用户可以点击“开始对话”，同时计时器开始计时，录入第一语音对应的应答语音。
87.请参见界面2023，在用户录入每条第一语音对应的应答语音之后，显示界面2023。界面2023中包括：“查看对练详情”控件、“完成”控件、综合评分，以及对练结束时间等。
88.请参见界面2024，在用户点击界面2023中的“查看对练详情”控件之后，显示界面 2024。界面2024中包括：至少一条第一语音，每条第一语音中包括第一语音、第一语音对应的应答语音、应答语音对应的应答结果。其中，应答结果包括：响应时长结果(即应答语速，为通过)、应答语速结果(即速度，为通过)、敏感词汇结果(即敏感词，为通过) 或语义结果(即语义，为未通过)。
89.请参见界面2025，在用户可以点击界面2024中的“申诉”控件之后，显示界面2025。界面2025中包括：错误应答语音对应的文本中的多个字和/或词汇，用户可以根据提示“请在回答中选中，您认为判断错误的次，可以多选”选择多个字和/或词汇中的至少一个，并点击“确定”控件，显示界面2026。
90.请参见界面2026，在界面2026中，用户可以点击其认为存在错误的至少一个错误类型对应的控件，并选中该错误类型对应的控件。例如，当用户选中“语音识别文字错误”控件时，显示界面2027。
91.请参见界面2027，用户可以在相应位置输入应答语音对应的对话文字。可选地，在输入对话文字之后，还可以点击其他错误类型对应的控件，进而点击“确定”控件，提交申诉。
92.在上述实施例的基础上，下面结合图6，对界面203的下级界面进行说明，具体的，请参见图6实施例。
93.图6为本发明提供的界面203的下级界面的示意图。如图6所示，包括：界面203、界面2030、界面2031、界面2032、界面2033、界面2034。
94.请参见界面2030，在用户点击界面203中点击“模拟测试1”控件之后，显示界面2030。界面2030中包括：提示“本对话中请在机器人说话后给予相应语音回复，考试过程中不可中途退出，否则考试分数视为0分”、“开始测试”控件、倒计时等。
95.请参见界面2031，在用户点击界面2030中的“x”控件，关闭提示，进而点击界面 2030中的“开始测试”控件之后，显示界面2031；或者在用户直接点击界面2030中的“开始测试”控件，显示界面2031。在界面2031中“开始测试”控件变为“开始说话”控件。在终端设备播放第一语音的过程中，“开始说话”控件为不可按状态。在第一语音播放完成之后，“开始说话”控件为可按状态。
96.请参见界面2032，在“开始说话”控件为可按状态之后，用户点击界面2031中的“开始说话”控件录入应答语音。需要说明的是，当用户在录入了“模拟测试1”中每条第一语音之后，显示界面2033。
97.需要说明的是，在“开始说话”控件为可按状态之后，若用户在第一预设时长(例如 20秒、或者30秒等)之后，用户未点击界面2031中的“开始说话”控件录入应答语音，则显示提示(例如“请给予相应的回复”)，若在第二预设时长之后，用户仍未点击界面2031 中的“开始说话”控件录入应答语音，则显示界面203，且本次考试计为0分。
98.请参见界面2033，界面2033中包括模拟测试1对应的分数、“查看测试详情”控件、“完成”控件等。可选地，用户可以点击“完成”控件，显示界面203。
99.请参见界面2034，在用户点击界面2033中的“查看测试详情”控件，显示界面2034。界面2034中包括每条应答语音对应的应答结果。可选地，在界面2034中用户可以点击“申述”控件，在用户点击“申述”控件之后，终端设备显示的界面与界面2025至界面2027 相似，此处不再进行赘述。
100.在实际应用中，当用户未完成模拟测试1时，若用户则在用户点击“查看测试详情”控件之后，可以显示分数：0、用户已对练的重点技巧问答对、已对练的重点技巧问答对中应答语音对应的应答结果、提示“您未完成测试，无其他题目显示”。
101.可选地，对于对练完成模拟测试1之后，若用户再次点击界面203中的“模拟测试1”之后，可以展示“查看详情”控件，用户点击“查看详情”控件，使终端设备显示上一次测试分数
102.可选地，在界面2031和界面2032中，用户点击“模拟测试1”控件之后，终端设备可以显示提示“中途退出考场，本次考试记为0分，确认离开？”103.需要说明的是，在界面2030、界面2031、界面2032、界面2033、界面2034，当用户点击其中任意一个界面中“模拟测试1”控件之后可以显示界面203。
104.可选地，模拟测试不需要补考，用户可以重复点击“模拟测试1(2、3)”控件，进行重复测试，终端设备记录最新一次的测试分数即可。
105.可选地，当用户完成模拟测试之后，可以进行终测，若终测分数小于预设分数，则显示补考提示，用户仍然可以再次进行终测，但是终端设备仅记录第一次终测的分数。
106.可选地，在用户进行补考时，用户具有两次的补考机会，若两次的分数都小于预设分数，则用户再无补考机会、也无法再做补考题目；若至少一次补考的分数大于或等于预设分数，则将至少一次补考的分数中的最大分数，作为最终补考分数。
107.需要说明的是，“补考”控件通常显示预设时长，在预设时长之后，“补考”控件为不可按状态。其中，预设时长可以为2天、3天等。
108.在上述实施例的基础上，下面结合图7实施例，对界面109的下级界面进行说明，具体的，请参见图7。
109.图7为本发明提供的界面109的下级界面的示意图。如图7所示，包括：界面109和界面1090。
110.请参见界面109，“申诉结果”控件上显示有标识(例如：5，5指示有5个申诉结果)。用户可以点击“申诉结果”控件，显示界面1090。
111.请参见界面1090，需要说明的是，界面1090以1个申述结果为例进行说明。界面1090 中包括：提交申诉时用户选中的错误类型、重点技巧问答对和申诉指示(例如：申诉成功)。在实际应用中，当申诉成功之后，可以对测试分数进行修改(在原来测试分数的基础上，增加该重点技巧问答对对应的扣除分数)。
112.在上述实施例的基础上，本技术还提供一种用户画像，下面结合图8对本技术提供的用户画像进行说明。具体的，请参见图8。
113.图8为本技术提供的用户画像的一种示意图。如图8所示，包括：界面109和界面1091。
114.请参见界面109，用户点击“我的”控件，显示界面1091。
115.请参见界面1091，界面1091中包括用户画像，其中，用户画像中包括：错题分布(应答时间、语速、敏感词、语义)、已完成课程比例、场景对练完成比例、终测分数、以及补考分数等。
116.在上述实施例的基础上，下面结合图9对本技术提供的语音交互方法进行说明，具体的，请参见图9实施例。
117.图9为本发明提供的语音交互方法的流程示意图一。如图9所示，本实施例提供的语音交互方法包括：
118.s901、获取用户选择的场景类别。
119.可选地，本技术实施例的执行主体可以为终端设备，也可以为设置在终端设备中的数据处理装置，该数据处理装置可以通过软件和/或硬件的结合来实现。其中，终端设备例如可以为平板电脑、智能手机、带无线收发功能的电脑等。
120.可选地，场景类别可以图2实施例中界面201、界面202、界面203、以及界面204中的任意一种场景类别。具体的，对场景类别的解释说明，此处不再赘述。
121.进一步地，用户可以点击界面201、界面202、界面203中场景类别对应的控件，实现获取用户选择的场景类别；或者用户可以点击界面204中的“下一题”控件，实现获取用户选择的场景类别。
122.s902、获取场景类别对应的至少一条第一语音。
123.可选地，终端设备中可以预先缓存多个场景类别各自对应的至少一条第一语音。在获取到用户选择的场景类别之后，可以从多个场景类别各自对应的至少一条第一语音
中，确定用户选择的场景类别对应的至少一条第一语音。
124.具体的，可以为多个场景类别配置各自对应的类别标识，在获取到用户选择的场景类别之后，可以根据第一映射关系，在多个场景类别各自对应的类别标识中确定用户选择的场景类别的目标标识，进而将目标标识对应的至少一条第一语音确定为用户选择的场景类别对应的至少一条第一语音。其中，第一映射关系中包括至少一个场景类别和每个场景类别对应的至少第一语音。
125.可选地，每条第一语音为重点技巧问答对，每条第一语音中包括第一语音和第一语音对应的应答语音。
126.在一种可能的设计中，在获取用户选择的场景类别之前，还包括：
127.获取多组样本数据，每组样本数据包括样本问题和样本答案；
128.根据多组样本数据，生成多个场景类别对应的至少一条第一语音。
129.可选地，对多组样本数据进行场景分类，得到多个场景类别对应的至少一组样本数据；进一步地，针对一个场景类别对应的至少一组样本数据，通过预设模型，对场景类别对应的至少一组样本数据进行处理，得到场景类别对应的至少一条第一语音。其中，预设模型为通过预先训练好的。
130.s903、播放至少一条第一语音，以及接收用户输入的每条第一语音对应的应答语音。
131.在一种可能的设计中，播放至少一条第一语音，以及接收用户输入的每条第一语音对应的应答语音，包括：
132.确定当前的训练模式，训练模式为如下至少一种：学习模式、对练模式、测试模式或特例练习模式；
133.根据训练模式，播放至少一条第一语音，以及接收用户输入的每条第一语音对应的应答语音。
134.需要说明的是，训练模式不同时，播放至少一个语音的方式不同。
135.在一种可能的设计中，训练模式为学习模式，至少一条第一语音包括问题语音和答案语音；根据训练模式，播放至少一条第一语音，以及接收用户输入的每条第一语音对应的应答语音，包括：
136.播放问题语音和答案语音；
137.接收用户输入的第一指令，第一指令用于指示开启跟读练习；
138.播放第i条问题语音，以及接收用户输入的第i条问题语音对应的应答语音，i依次取 1、2、
……
、n，n为大于或等于1的整数，n为至少一条语音中包括的问题语音的数量。
139.例如，在图3实施例的界面212中，播放的问题语音为“为对保险没兴趣”、答案语音为“答案语音”，进步一地，用户输入的第一指令为用户点击界面212中的“跟读练习”控件之后生成的。
140.需要说明的是，在播放第i条问题语音之后，以及接收用户输入的第i条问题语音对应的应答语音之前，均需要用户点击“跟读练习”控件。
141.在一种可能的设计中，训练模式为对练模式、测试模式或者特例练习模式，至少一条第一语音包括n条问题语音；根据训练模式，播放至少一条第一语音，以及接收用户输入的每条第一语音对应的应答语音，包括：
142.播放第i条问题语音，以及接收用户输入的第i条问题语音对应的应答语音，i依次取 1、2、
……
、n，n为大于或等于1的整数，n为至少一条语音中包括的问题语音的数量。
143.具体的，当训练模式为对练模式时，播放第i条问题语音，以及接收用户输入的第i 条问题语音(即第一语音)对应的应答语音的具体过程可以参见图5实施例，此处不再赘述。
144.具体的，当训练模式为测试模式时，播放第i条问题语音，以及接收用户输入的第i 条问题语音(即第一语音)对应的应答语音的具体过程可以参见图7实施例，此处不再赘述。
145.具体的，当训练模式为特例练习模式时，通过图2实施例中对界面204的解释说明，此处不再赘述。
146.s904、根据至少一条第一语音和每条第一语音对应的应答语音，确定用户对应的训练结果。
147.具体的，对s904的解释说明可以参见图10实施例中的s1001～s1007中。此处不再赘述。
148.本实施例提供的语音交互方法包括：获取用户选择的场景类别；获取场景类别对应的至少一条第一语音；播放至少一条第一语音，以及接收用户输入的每条第一语音对应的应答语音；根据至少一条第一语音和每条第一语音对应的应答语音，确定用户对应的训练结果。在上述方法中，播放至少一条第一语音、接收用户输入的每条第一语音对应的应答语音，可以使用户模拟真实场景中的对话练习，提高对用户的培训效果，而且可以使用户随时随地利用闲暇时间进行学习，方便灵活。
149.进一步地，根据至少一条第一语音和每条第一语音对应的应答语音，确定用户对应的训练结果，可以随时将用户对应的训练结果反馈给培训后台，使得后台的管理者可以及时了解用户的训练进度、监督用户的训练结果。
150.而且与现有技术不同，在现有技术中，传统培训方式(包括线上培训)都无法有效监督学习进度与效果，考核形式受限，导致考核的标准化程度低、难度大、时间周期长。而在本技术中，考核形式多样，即可以通过学习模式、对练模式、测试模式或特例练习模式等对用户进行考核，使得考核的标准化程度高、难度低、时间周期短(几天就可以考核一下)。
151.在上述实施例的基础上，下面结合图10实施例对确定训练结果的方法进行说明，具体的，请参见图10实施例。
152.图10为本发明提供的确定训练结果的流程示意图。如图10所示，本实施例提供的确定训练结果的方法包括：
153.s1001、针对至少一条第一语音中的任意一条第一语音，获取第一语音对应的应答语音的应答信息，应答信息包括如下至少一种：响应时长、应答语速、多个词汇或语义信息。
154.可选地，可以通过如下可行的方法获取应答语音的响应时长：
155.在第一语音播放结束时，终端设备开始计时；在用户开始向终端设备中输入应答语音时，终端设备结束计时；终端设备将开始计时至结束计时之间的时长，确定为响应时长。
156.可选地，可以通过如下可行的方法获取应答语音的应答语速：
157.在用户开始向终端设备中输入应答语音时，终端设备开始计时，在用户结束向终端设备中输入应答语音时，终端设备结束计时；终端设备对应答语音进行字数检测，得到总字数；终端设备将总字数与将开始计时至结束计时之间的时长的比值，确定为应答语速；或
者，
158.将设备将总字数与将开始计时至结束计时之间的时长，确定为应答语速。
159.可选地，可以通过如下可行的方法获取应答语音的多个词汇：
160.通过预设词汇拆分处理算法，对应答语音进行词汇拆分处理，得到多个词汇。可选地，可以通过如下可行的方法获取应答语音的语义信息：
161.通过预设语义分析算法，对应答语音进行处理，得到语义信息。
162.s1002、获取标准信息，标准信息包括如下至少一种：预设响应时长范围、预设应答语速范围、预设敏感词汇集合、或第一语音对应的至少一个应答文本。
163.可选地，标准信息可以为预先缓存在终端设备中的
164.s1003、若响应时长位于预设响应时长范围内，则响应时长结果为通过。
165.s1004、若应答语速位于预设应答语速范围内，则确定应答语速结果为通过。
166.s1005、若预设敏感词汇集合中不包括多个词汇中的任意一个，则确定敏感词汇结果为通过。
167.s1006、若至少一个应答文本中存在应答文本与语义信息的相似度大于或等于第一阈值，则确定语义结果为通过。
168.具体的，s203～s206的执行方法是对根据应答信息和标准信息，确定应答语音的应答结果的解释说明。
169.具体的，s201～s206的执行方法是以至少一条第一语音中的任意一条第一语音为例，对根据至少一条第一语音和每条第一语音对应的应答语音，确定每条应答语音的应答结果的解释说明。
170.在一种可能的设计中，根据至少一条第一语音和每条第一语音对应的应答语音，确定每条应答语音的应答结果之后，还包括：
171.确定当前的训练模式，训练模式为如下至少一种：学习模式、对练模式、测试模式或特例练习模式；
172.根据训练模式，显示每条应答语音对应的应答结果。
173.在一种可能的设计中，根据训练模式，显示每条应答语音对应的应答结果，包括：
174.若训练模式为学习模式、对练模式或者特例练习模式，针对任意一条应答语音，在确定得到应答语音对应的应答结果后，显示应答结果；
175.若训练模式为测试模式，则在测试结束后，显示测试中每条应答语音对应的应答结果。
176.例如，当训练模式为学习模式时，在进行小测时，针对小测中的任意一条应答语音，在确定得到应答语音对应的应答结果后，显示应答结果，如图4中界面2012所示。
177.例如，当训练模式为对练模式时，可以在得到应答语音对应的应答结果后，显示应答语音对应的应答结果；或者，在针对一个场景类别的对练结束之后，显示每条应答语音对应的应答结果，如图5中界面2024所示。
178.例如，当训练模式为特例练习模式时，针对任意一条应答语音，在得到应答语音对应的应答结果后，显示应答结果，如图6中界面2024所示。
179.例如，当训练模式为测试模式时，在测试结束后，显示测试中每条应答语音对应的应答结果，如图2中界面204所示。
180.在一种可能的设计中，在根据训练模式，显示每条应答语音对应的应答结果之后，还包括：
181.接收用户对未通过的敏感词汇结果输入的第一反馈信息，并根据第一反馈信息，更新预设敏感词汇集合；和/或，
182.接收用户对未通过的语义结果输入的第二反馈信息，并根据第二反馈信息，更新第一语音对应的至少一个应答文本。
183.可选地，在终端设备识别出敏感词汇之后，终端设备可以显示敏感词。在实际应用中，可能由于终端设备识别错误，导致显示敏感词。因此，在对未通过的敏感词汇结果，用户可以输入第一反馈信息。例如，第一反馈信息中包括用户输入的敏感词对应的正确词汇，在终端设备接收到第一反馈信息之后，从预设敏感词汇集合中删除敏感词，从而实现对预设敏感词汇集合的更新。
184.可选地，第二反馈信息可以包括：用户选中的至少一个字和/或词汇(如图5实施例中的界面2025)、用户选中的错误类别(如图5实施例中的界面2026)或者用户输入的正确文字(如图5实施例中界面2027)中等。其中，至少一个字和/或词汇为终端设备对用户输入的第一语音对应的应答语音进行文本识别得到文本文字中包括的。
185.进步一地，针对第一语音，终端设备接收到第一语音对应的第二反馈信息之后，获取第一语音对应的应答语音的文本文字(即应答文本)，根据该文本文字和第二反馈信息更新第一语音对应的应答文本。可选地，根据该文本文字和第二反馈信息更新第一语音对应的应答文本，包括：
186.将应答文本中(用户输入的正确文字对应的)文字，替换为用户输入的正确文字。
187.s1007、根据每条应答语音的应答结果，确定训练结果，训练结果包括每条应答语音对应的应答结果。
188.具体的，可以根据上述s1001～s1006的执行方法获取每条应答语音的应答结果，进而根据每条应答语音的应答结果，确定训练结果。
189.在一种可能的设计中，在上述s1004之后或者s1007，还可以包括：
190.获取用户在预设时段内的训练结果；
191.根据预设时段内的训练结果，确定用户的训练信息，训练信息包括如下至少一种：训练数量、训练质量、用户训练特征。
192.可选地，预设时段可以为图1实施例中界面109中的累计学习天(例如：5)。
193.可选地，如图8中界面1091所示，例如训练数量包括：已完成课程比例(即学习模式对应的完成占比)、场景对练完成比例(即对练模式对应的完成占比)，例如训练质量包括：综合分数、排名、错题分布、终测分数和补考分数等。例如，用户训练特征可以为根据错题分布确定用户特点。
194.可选地，在学习模式中，针对一个场景类别，只要用户学习一次该场景类别中的一案例，即可视为完成对该案例的学习。例如，若学习模式中包括5个场景类别、每个场景类别中包括5个案例名称，则学习模式包括25个案例，若用户完成对20个案例的学习，则学习模式对应的完成占比为20/25＝80％。
195.可选地，在对练模式中，只要用户学习一次每个场景类别中的包括案例，即可视为完成对练。例如，当对练模式中包括50个场景类别时，若用户完成对30个场景类别，则学习
模式对应的完成占比为30/50＝60％。
196.可选地，综合分数可以根据应答时间、语速、敏感词、语音各自对应的百分比，以及终测分数、补考分数、已完成课程比例、场景对练完成比例中的至少任意一种确定。例如，综合分数可以为终测分数、补考分数、已完成课程比例、场景对练完成比例的加权求和值，其中，终测分数、补考分数、已完成课程比例、场景对练完成比例各自对应的权重可以为预先设定好，并存储在终端设备中的。
197.可选地，排名可以服务器向终端设备发送的。可选地，终端设备在确定综合分数之后，向服务器发送综合评分后，服务器对接收到的所有综合评分进行排名，得到该终端设备对应的排名，并向终端设备发送排名。
198.例如，若应答时长大于或等于第一时长时的第一目标概率(如界面1091中的80％) 大于或等于第一概率，则确定用户特点：反应速度慢。其中，第一目标概率为第一数量与第五数量的比值，其中，第一数量为任意至少一种模型下包括的(学习模式、对练模式、测试模式或特例练习模式)多个应答语音中、应答时长大于或等于第一时长的应答语音的总数量，第五数量为任意至少一种模型下包括的多个应答语音的总数量。
199.例如，若语速大于或等于第一语速时的第二目标概率(如界面1091中的70％)大于或等于第二概率，则确定用户特点：说话快；若语速大于或等于第一语速时的概率小于第二概率，则用户特点：说话慢，其中，第一语速大于第二语速。其中，第二目标概率为可以为第二数量与第五数量的比值，第二数量为任意至少一种模式下包括多个应答语音中、语速大于或等于第一语速的应答语音的总数量
200.例如，若敏感词出现的第三目标概率大于或等于第三概率时，则确定用户特点：没有礼貌、不适合作为销售服务人员。其中，第三目标概率为第三数量与第五数量的比值，第三数量为任意至少一种模式下包括的多个应答语音中、具有敏感词的应答语音的总数量。
201.例如，若语义错误对应的第四目标概率大于或等于第四概率时，则确定用户特征：词不达义。其中，第四目标概率为第四数量与第五数量的比值，第四数量为任意至少一种模式下包括的多个应答语音中、语义错误的应答语音的总数量。
202.进一步地，在测试模式中，当终测总分为100分，终测中包括10条第一语音，每条第一语音包括第一语音和应答语音，正确回答一条第一语音中的应答语音得10分，若正确回答9条第一语音中的应答语音，则确定9条第一语音的得分为90，即终测分数为90 分。
203.其中，针对回答错误的一条第一语音中的应答语音，若出现敏感词和/或语义错误，则为0分，若没有出现敏感词和语义的错误，则根据应答时间、语速、敏感词和语义各自对应的权重和10分，确定该条第一语音的得分。
204.例如，当应答时间、语速、敏感词和语义各自对应的权重依次为0.1、0.1、0.3、0.5 时，若应答时间、语速、敏感词和语义均通过，则该条第一语音的得分为 0.1*10 0.1*10 0.3*10 0.5*10＝10；若应答时间未通过，语速、敏感词和语义均通过，则该条第一语音的得分为0.1*10 0.3*10 0.5*10＝9。
205.具体的，补考分数与终测分数的计算方法相似，此处不再赘述。
206.在现有技术中，优秀的销售人员(即本技术中的用户)占比很低，初入实战的销售人员销售效果欠佳，职位流动性大导致对销售人员的培训成本较高，导致对销售人员的考核难以标准化和量化。而在本技术中，通过训练应用程序对对销售人员的培训，可以降低培
训成本，而且根据训练结果，确定用户的训练信息，训练信息包括如下至少一种：训练数量、训练质量、用户训练特征，实现对销售人员的考核的标准化和量化。
207.图11为本发明提供语音交互装置的结构示意图一。如图11所示，语音交互装置10 包括：第一获取模块11、第二获取模块12、播放模块13、接收模块14和确定模块15，其中，
208.第一获取模块11用于，获取用户选择的场景类别；
209.第二获取模块12用于，获取场景类别对应的至少一条第一语音；
210.播放模块13用于，播放至少一条第一语音；
211.接收模块14用于，接收用户输入的每条第一语音对应的应答语音；
212.确定模块15用于，根据至少一条第一语音和每条第一语音对应的应答语音，确定用户对应的训练结果。
213.本技术实施例提供的语音交互装置可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。
214.图12为本发明提供语音交互装置的结构示意图二。在图11的基础上，如图12所示，语音交互装置10还包括：显示模块16，其中，
215.确定模块15还用于，在根据至少一条第一语音和每条第一语音对应的应答语音，确定每条应答语音的应答结果之后，确定当前的训练模式，训练模式为如下至少一种：学习模式、对练模式、测试模式或特例练习模式；
216.显示模块16用于，根据训练模式，显示每条应答语音对应的应答结果。
217.本技术实施例提供的语音交互装置可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。
218.在一种可能的设计中，语音交互装置10还包括：第三获取模块，其中，
219.第三获取模块用于，获取用户在预设时段内的训练结果；
220.确定模块15还用于，根据预设时段内的训练结果，确定用户的训练信息，训练信息包括如下至少一种：训练数量、训练质量、用户训练特征。
221.本技术实施例提供的语音交互装置可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。
222.在一种可能的设计中，语音交互装置10还包括：第四获取模块和生成模块，其中，
223.第四获取模块用于，获取多组样本数据，每组样本数据包括样本问题和样本答案；
224.生成模块还用于，根据多组样本数据，生成多个场景类别对应的至少一条第一语音。
225.在一种可能的设计中，确定模块15具体用于：
226.根据至少一条第一语音和每条第一语音对应的应答语音，确定每条应答语音的应答结果；
227.根据每条应答语音的应答结果，确定训练结果，训练结果包括每条应答语音对应的应答结果。
228.在一种可能的设计中，确定模块15具体用于：
229.针对任意一条第一语音，获取第一语音对应的应答语音的应答信息，应答信息包括如下至少一种：响应时长、应答语速、多个词汇或语义信息；
230.获取标准信息，标准信息包括如下至少一种：预设响应时长范围、预设应答语速范
围、预设敏感词汇集合、或第一语音对应的至少一个应答文本；
231.根据应答信息和标准信息，确定应答语音的应答结果。
232.在一种可能的设计中，应答结果包括如下至少一种：响应时长结果、应答语速结果、敏感词汇结果或语义结果；确定模块15具体用于：
233.若响应时长位于预设响应时长范围内，则响应时长结果为通过；
234.若应答语速位于预设应答语速范围内，则确定应答语速结果为通过；
235.若预设敏感词汇集合中不包括多个词汇中的任意一个，则确定敏感词汇结果为通过；
236.若至少一个应答文本中存在应答文本与语义信息的相似度大于或等于第一阈值，则确定语义结果为通过。
237.在一种可能的设计中，显示模块16具体用于：
238.若训练模式为学习模式、对练模式或者特例练习模式，针对任意一条应答语音，在确定得到应答语音对应的应答结果后，显示应答结果；
239.若训练模式为测试模式，则在测试结束后，显示测试中每条应答语音对应的应答结果。
240.在一种可能的设计中，接收模块13还用于，在根据训练模式，显示每条应答语音对应的应答结果之后，接收用户对未通过的敏感词汇结果输入的第一反馈信息，并根据第一反馈信息，更新预设敏感词汇集合；和/或，
241.接收用户对未通过的语义结果输入的第二反馈信息，并根据第二反馈信息，更新第一语音对应的至少一个应答文本。
242.在一种可能的设计中，确定模块15还用于：确定当前的训练模式，训练模式为如下至少一种：学习模式、对练模式、测试模式或特例练习模式；
243.播放模块13具体用于，根据训练模式，播放至少一条第一语音；
244.接收模块14具体用于，接收用户输入的每条第一语音对应的应答语音。
245.在一种可能的设计中，训练模式为学习模式，至少一条第一语音包括问题语音和答案语音；
246.播放模块13具体用于，播放问题语音和答案语音；
247.接收模块14具体用于，接收用户输入的第一指令，第一指令用于指示开启跟读练习；
248.播放模块13具体用于，播放第i条问题语音，以及接收用户输入的第i条问题语音对应的应答语音，i依次取1、2、
……
、n，n为大于或等于1的整数，n为至少一条语音中包括的问题语音的数量。
249.在一种可能的设计中，训练模式为对练模式、测试模式或者特例练习模式，至少一条第一语音包括n条问题语音；
250.播放模块13具体用于，播放第i条问题语音；
251.接收模块14具体用于，接收用户输入的第i条问题语音对应的应答语音，i依次取1、 2、
……
、n，n为大于或等于1的整数。
252.图13为本发明提供的终端设备的硬件示意图。如图13所示，终端设备20包括：存储器21、处理器22及存储在存储器上并可在处理器上运行的语音交互程序，
253.其中，存储器21、处理器22通过总线23连接；
254.语音交互程序被处理器执行时实现如上语音交互方法的步骤。
255.在上述图13中，应理解，处理器可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。
256.存储器可能包含高速ram存储器，也可能还包括非易失性存储nvm，例如磁盘存储器。
257.总线可以是工业标准体系结构(industry standard architecture，isa)总线、外部设备互连(peripheral component，pci)总线或扩展工业标准体系结构(extended industry standardarchitecture，eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本技术附图中的总线并不限定仅有一根总线或一种类型的总线。
258.本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有语音交互程序，语音交互程序被处理器执行时实现如上语音交互方法的步骤。
259.本发明还提供一种算机程序产品，包括：计算机程序，该计算机程序被处理器执行时实现如上语音交互方法的步骤。
260.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语音“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
261.上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
262.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如 rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例的方法。
263.以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：意图识别方法、装置、电子设备及存储介质与流程

语音交互方法、装置、设备及存储介质与流程

相关文献

最热文献