语音交互方法及装置与流程

2021-10-09 14:26:00 来源：中国专利 TAG：交互语音装置总体方法

1.本发明总体说来涉及语音交互技术领域，更具体地讲，涉及一种语音交互方法及装置。

背景技术：

2.目前，随着智能电视的普及和发展，语音交互功能已经成为智能电视的必备功能之一，并且也已经在例如智能汽车、智能电话、智能音响、虚拟显示设备等诸多产品中被集成。人们可以方便地通过语音搜索来获取内容，例如寻找喜欢的歌曲或电影。目前的语音交互方式主要有两种：一种是近场方案，通过特定的语音键来开启或结束对话过程，在近场语音方案中，用户按住按键来开始对话，松开按键时对话结束，类似于对讲机的会话过程；另一种是远场方案，用户通过特定的唤醒词来控制开启对话，通过唤醒词来开始语音交互，在会话阶段可能会有多条语音交互，并且由一个特定的操作(或者确定或者会话超时)来标识会话阶段结束。
3.传统语音交互使用语音按键或唤醒词来开启和关闭语音对话。对于非触摸屏，或者ar虚拟屏等设备，由于对用户意图的识别和目标实体的理解存在不确定性，因此存在繁琐的语音提示。此外，传统语音交互具有句式固定、交互中易被外部声音打断等问题。而在本技术的语音交互方法中，用户可以通过系统呈现的启发式信息，实现人机交互，改善人机交互的自然性。通过交互中显示待选择目标所关联的可见或者不可见的增强信息(hoai)，可以帮助用户进行高效的语音意图反馈，去除主题不相关的语音和噪声干扰，避免多次重复语音交互会话，提高交互效率并改善用户体验。
4.提出上述信息作为背景信息仅为了帮助理解本技术。关于上述信息中的任何信息是否适合作为关于本技术的现有技术，没有做出任何确定，也没有做出任何断言。

技术实现要素：

5.本技术的各方面至少解决上述问题和/或缺点，并至少提供下面描述的优点。
6.本技术的示例性实施例提供一种语音交互方法及装置。根据本技术的示例性实施例的语音交互方法及装置，在使用语音交互时，当在各种类型的显示界面上选择交互对象时，通过显示交互对象的关联对象增强信息来灵活地管理会话，从而实现类自然式的语音人机交互。
7.根据本技术的示例性实施例，提供一种语音交互方法，包括：检测第一用户语音；根据检测到的第一用户语音显示与第一用户语音相关联的多个候选对象以及与所述多个候选对象相应的对象增强信息；基于与所述多个候选对象相应的对象增强信息从所述多个候选对象中确定目标对象。
8.可选地，根据检测到的第一用户语音显示与第一用户语音相关联的多个候选对象以及与所述多个候选对象相应的对象增强信息包括：根据检测到的第一用户语音确定与第一用户语音相关联的多个候选对象；产生与所述多个候选对象相应的对象增强信息，其中，
产生与所述多个候选对象相应的对象增强信息的步骤包括：获取所述多个候选对象的上下文信息，基于所述多个候选对象的特性和上下文信息产生与所述多个候选对象相应的对象增强信息。
9.可选地，基于与所述多个候选对象相应的对象增强信息从所述多个候选对象中确定目标对象包括：接收用户输入或第二用户语音；将所述多个候选对象中具有与用户输入或第二用户语音匹配的对象增强信息的候选对象确定为目标对象。
10.可选地，基于与所述多个候选对象相应的对象增强信息从所述多个候选对象中确定目标对象包括：接收用户输入或第二用户语音；当基于与所述多个候选对象相应的对象增强信息以及用户输入或第二用户语音从所述多个候选对象中确定出多个候选目标对象时，基于所述多个候选目标对象的特性和上下文信息对与所述多个候选目标对象相应的对象增强信息进行更新，基于更新后的对象增强信息确定目标对象。
11.可选地，所述方法还包括：基于检测到的第一用户语音识别用户意图；基于与所述多个候选对象相应的对象增强信息和识别出的用户意图，规避不相干的外部语音或噪声。
12.可选地，所述方法还包括：接收第三用户语音，当第三用户语音的意图与识别出的用户意图不同时，根据第三用户语音重新确定候选对象，产生与重新确定的候选对象相应的对象增强信息。
13.根据本技术的示例性实施例，提供一种语音交互装置，包括：检测模块，检测第一用户语音；控制模块，根据检测到的第一用户语音显示与第一用户语音相关联的多个候选对象以及与所述多个候选对象相应的对象增强信息；确定模块，基于与所述多个候选对象相应的对象增强信息从所述多个候选对象中确定目标对象。
14.可选地，控制模块被配置为：根据检测到的第一用户语音确定与第一用户语音相关联的多个候选对象；产生与所述多个候选对象相应的对象增强信息，其中，产生与所述多个候选对象相应的对象增强信息包括：获取所述多个候选对象的上下文信息，基于所述多个候选对象的特性和上下文信息产生与所述多个候选对象相应的对象增强信息。
15.可选地，确定模块被配置为：获取通过检测模块接收的用户输入或第二用户语音；将所述多个候选对象中具有与用户输入或第二用户语音匹配的对象增强信息的候选对象确定为目标对象。
16.可选地，确定模块被配置为：获取通过检测模块接收的用户输入或第二用户语音；当基于与所述多个候选对象相应的对象增强信息以及用户输入或第二用户语音从所述多个候选对象中确定出多个候选目标对象时，获取通过控制模块基于所述多个候选目标对象的特性和上下文信息对与所述多个候选目标对象相应的对象增强信息进行更新而获得的更新后的对象增强信息，基于更新后的对象增强信息确定目标对象。
17.可选地，控制模块还被配置为：基于检测到的第一用户语音识别用户意图；基于与所述多个候选对象相应的对象增强信息和识别出的用户意图，规避不相干的外部语音或噪声。
18.可选地，控制模块还被配置为：获取通过检测模块接收的第三用户语音，当第三用户语音的意图与识别出的用户意图不同时，根据第三用户语音重新确定候选对象，产生与重新确定的候选对象相应的对象增强信息。
19.根据本技术的另一示例性实施例，提供一种存储指令的计算机可读存储介质，其
中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如上所述的语音交互方法。
20.根据本技术的另一示例性实施例，提供一种计算装置，包括：处理器；存储器，存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的语音交互方法。
21.根据本技术的示例性实施例的语音交互方法及装置，是一种启发式的语音交互方法或装置。该方法或装置可以基于交互对象的可见或者不可见的关联增强信息，通过启发式地内容呈现，有效地关联主题内容和避免外部语音打扰，同时自适应地管理交互会话期间的语音命令，从而处理语音交互单目标选择问题。本技术能够提供给用户类似自然语音交互的体验，规避有限的语音样例对用户引导教育不足而导致的语音交互普及性和便利性的问题。
22.附加的方面将在下面的描述中部分地阐述，并且部分地，将通过描述而清楚，或者可以通过本技术的实施例的实践来获知。
附图说明
23.根据以下结合附图进行的详细描述，本技术的特定实施例的以上和其它方面、特征和优点将更加明显，其中：
24.图1的(a)、(b)和(c)示出根据本技术的示例性实施例的语音交互方法的概念示意图；
25.图2示出根据本技术的示例性实施例的语音交互方法的流程图；
26.图3示出根据本技术的示例性实施例的通用系统结构图；
27.图4示出根据本技术的示例性实施例的模块依赖关系的示图；
28.图5示出根据本技术的示例性实施例的模块实现的流程图；
29.图6的(a)、(b)示出根据本技术的示例性实施例的应用本技术的语音交互方法的实施例的示图；
30.图7的(a)、(b)示出根据本技术的示例性实施例的应用本技术的语音交互方法的ar模式下的实施例的示图；
31.图8示出根据本技术的示例性实施例的语音交互装置的框图。
具体实施方式
32.在下文中，将参照附图详细描述本发明。在描述本发明时，当确定现有技术或配置的详细描述可能不必要地模糊本发明的主旨时，省略该详细描述。此外，下面的实施例能够以各种不同的形式被修改，并且本发明的技术构思的范围不限于下面的实施例。提供这样的实施例以完成本发明并且将本发明的技术构思完整地传达给本领域技术人员。
33.在以下描述和权利要求中使用的术语和词语不限于字面含义，而是仅由申请人使用以使得能够清楚和一致地理解本公开。因此，对于本领域技术人员应当显而易见的是，提供本公开的各种实施例的以下描述仅出于说明的目的，而不出于限制由权利要求及其等同物所限定的本公开的目的。
34.本文使用的术语仅用于描述本技术的各种实施例，而不旨在限制本技术。除非上下文另外明确表明，否则单数形式旨在包括复数形式。在本技术中，术语“包括”或“具有”指
示特征、数量、步骤、操作、结构元件、部件或它们的组合的存在，并且不排除存在一个或更多个其它特征、数字、步骤、操作、结构元件、部件或它们的组合或者添加一个或更多个其它特征、数字、步骤、操作、结构元件、部件或它们的组合的可能性。
35.在说明书中，术语“a或b”、“a或/和b中的至少一个”或“a或/和b中的一个或更多个”可以包括一起列举的项的所有可能组合。例如，术语“a或b”或“a或/和b中的至少一个”可以指定(1)至少一个a、(2)至少一个b、或(3)至少一个a和至少一个b两者。
36.在本文中，表述“被配置为”可以与例如“适合于”、“具有
……
的能力”、“被设计为”、“被适配为”、“被制造为”或“能够”互换使用。表述“被配置为”不一定意味着在硬件意义上“被专门设计为”。相反，在一些情况下，“被配置为
……
的装置”可以指示这样的装置可以与另一装置或部件一起执行操作。例如，表述“被配置为执行a、b和c的处理器”可以指示执行相应操作的专用处理器(例如，嵌入式处理器)，或者可以通过运行存储在存储器装置中的一个或更多个软件程序来执行相应操作的通用处理器(例如，中央处理器(cpu)或应用处理器(ap))。
37.根据本公开的实施例的电子装置可以被实现为智能电话。此外，电子装置可以被实现为移动电话、个人数字助理(pda)、平板个人计算机(pc)、视频电话、电子书阅读器、台式pc、膝上型pc、上网本计算机、便携式多媒体播放器(pmp)、运动图像专家组阶段1或阶段2(mpeg
‑
1或mpeg
‑
2)音频层3(mp3)播放器、移动医疗仪器、相机、物联网或可穿戴装置。
38.图1的(a)、(b)和(c)示出根据本技术的示例性实施例的语音交互方法的概念示意图。参照图1的(a)，用户语音会话开始时，所有可见或不可见的对象都可以作为交互对象。参照图1的(b)和(c)，系统根据检测到的用户语音逐渐从多个可见或不可见的对象中确定目标交互对象。例如，根据本技术的语音交互方法从图1的(a)中的多个对象中确定出了图1的(c)中呈现的目标对象。以下将参照图2详细描述根据本技术的示例性实施例的语音交互方法。
39.图2示出根据本技术的示例性实施例的语音交互方法的流程图。所述方法可以通过计算机程序来实现。例如，所述方法可以通过安装在电子装置中的应用来执行。作为示例，所述电子装置可以是移动通信终端(例如，智能电话)、多媒体播放装置、智能可穿戴设备(例如，智能手表)等能够向用户推荐内容的电子装置。
40.参照图2，所述方法包括：在步骤s201，检测第一用户语音。用户语音可以是用于与电子装置(诸如电视、智能电话、智能音响、空调等)进行交互的语音信息。根据本技术的示例性实施例的用于与用户进行语音交互的电子装置能够从用户接收用户语音，并针对接收到的用户语音进行响应。
41.在检测到第一用户语音之后，所述方法包括：在步骤s202，根据检测到的第一用户语音显示与第一用户语音相关联的多个候选对象以及与多个候选对象相应的对象增强信息。根据本技术的示例性实施例，在用户进行选择时，系统会根据用户语音动态地显示候选对象，并且给出与候选对象相应的对象增强信息(hoai)，其中，与候选对象相应的对象增强信息(hoai)用于启发用户识别多个候选对象的不同之处。通过在显示多个候选对象时显示与多个候选对象相应的对象增强信息，来便于用户进行继续对话，明确相应的多个候选对象的意图。例如，在第一用户语音(或用户语音信息)为电影时，根据检测到的用户语音信息显示多部电影以及每部电影的名称与播放时间。
42.根据本技术的语音交互方法，根据检测到的第一用户语音显示与第一用户语音相关联的多个候选对象以及与多个候选对象相应的对象增强信息包括：根据检测到的第一用户语音确定与第一用户语音相关联的多个候选对象；产生与多个候选对象相应的对象增强信息，其中，产生与多个候选对象相应的对象增强信息的步骤包括：获取多个候选对象的上下文信息，基于多个候选对象的特性和上下文信息产生与多个候选对象相应的对象增强信息。根据本技术的示例性实施例，对象的上下文信息可以是从服务器获得的信息。对象的上下文信息可以是对象在服务器中的位置等，但不限于此。对象的特性可以是对象本身的物理特性、对象的名称、对象的类型、用户设置的特征等，但不限于此，例如，对象的特性可以是对象的产生时间。以下参照图4描述产生与多个候选对象相应的对象增强信息的方法。
43.在产生与多个候选对象相应的对象增强信息之后，根据本技术的示例性实施例的方法还包括：步骤s203，基于与多个候选对象相应的对象增强信息从多个候选对象中确定目标对象。与多个候选对象相应的对象增强信息分别显示多个候选对象中每个候选对象的特征以区别于多个候选对象中的其它候选对象，从而可以基于每个候选对象的特征来确定目标对象。然而，根据本技术的实施例的候选对象的特征可能存在相同的情况，此时，需要进一步的用户输入或用户语音来更新候选对象的范围。
44.根据本技术的示例性实施例的语音交互方法，基于与多个候选对象相应的对象增强信息从多个候选对象中确定目标对象包括：接收用户输入或第二用户语音；将多个候选对象中具有与用户输入或第二用户语音匹配的对象增强信息的候选对象确定为目标对象。也就是说，如果用户输入或第二用户语音与多个候选对象中的一个候选对象的对象增强信息一致，则将该一个候选对象确定为目标对象。
45.此外，根据本技术的示例性实施例的语音交互方法，基于与多个候选对象相应的对象增强信息从多个候选对象中确定目标对象包括：接收用户输入或第二用户语音；当基于与多个候选对象相应的对象增强信息以及用户输入或第二用户语音从多个候选对象中确定出多个候选目标对象时，基于多个候选目标对象的特性和上下文信息对与多个候选目标对象相应的对象增强信息进行更新，基于更新后的对象增强信息确定目标对象。也就是说，用户输入或第二用户语音可能与多个候选对象中的一些候选对象一致，此时需要进一步缩小待选择的对象的范围，并在缩小范围后的待选择的对象中确定目标对象，例如，产生与缩小范围后的待选择的对象相应的对象增强信息，并基于这些对象增强信息从缩小范围后的待选择的对象中选择目标对象。例如，当与基于第一用户语音产生的多个候选对象中的一些对象分别相应的对象增强信息彼此相同，基于这些对象增强信息不足以确定目标对象时，本技术的语音交互方法将确定新的候选对象，继续检测新的用户语音，并基于该新的用户语音信息以及与新的候选对象相应的对象增强信息来确定目标对象。根据本技术的示例性实施例，当基于与新的候选对象相应的对象增强信息以及该新的用户语音信息未能确定目标对象时，上述产生对象增强信息以及接收用户输入或用户语音的过程可以被重复执行，直到确定了语音交互的目标对象为止。
46.根据本技术的示例性实施例的语音交互方法还包括：基于检测到的第一用户语音识别用户意图；基于与多个候选对象相应的对象增强信息和识别出的用户意图，规避不相干的外部语音或噪声。根据本技术的示例性实施例的语音交互方法能够在用户进行语音交互时排除掉与该交互无关的语音信息，从而有效管理语音会话周期，构建连续的类自然的
语音交互体验。
47.本技术的语音交互方法还包括：接收第三用户语音，当第三用户语音的意图与识别出的用户意图不同时，根据第三用户语音重新确定候选对象，产生与重新确定的候选对象相应的对象增强信息。也就是说，本技术的方法能够在接收到与当前意图不同的用户语音时，脱离当前主题的有意图的文本，基于新输入的用户语音产生新的对象增强信息(hoai)，从而支持跨领域的语音会话管理，改善多轮对话体验。例如，第一用户用户语音为“南京明天天气如何”，基于第一用户语音可以确定用户意图为讨论天气状态，因此本技术的语音交互方法可能为用户显示一些天气软件或南京各地的天气状况供用户选择，然而当用户继续说出“查询明天去南京的飞机票”时，本技术的方法可以脱离“天气”主题，向用户显示关于机票或旅游的应用、或直接向用户显示南京的景点和每个景点的位置、特点等。
48.根据本技术的示例性实施例的语音交互方法基于待选择对象的启发式增强信息(即，对象增强信息)确定目标对象。在选择目标对象会话结束时，可以对接已有各种系统对选择的目标对象进行后续操作，例如，删除、播放、修改等。
49.图3示出根据本技术的示例性实施例的通用系统结构图。
50.参照图3，根据本技术的示例性实施例的通用系统包括用户界面(ui)、ui推荐层、语音输入模块、上下文提取器模块、视觉增强模块和会话控制。在本技术中，语音输入模块用于获取用户语音信息。上下文提取器模块可以从服务器接收数据，即，使用来自服务器的信息。视觉增强模块用于基于待选择的对象的特性和上下文信息产生对象增强信息。通过用户界面显示待选择的对象，以及与待选择的对象相应的对象增强信息。会话控制部分是核心模块。该系统的界面显示可以方便地集成于各种已有平台。对应交互对象的上下文信息，可以通过服务器访问获得，也可以依赖于存储于系统的已有数据支持。
51.图4示出根据本技术的示例性实施例的模块依赖关系的示图。如图4中所示，根据本技术的示例性实施例的启发式语音交互方法能够基于从上下文提取器获得的信息以及用户的语音输入来确定候选对象以及其对象增强信息(即，增强文本序列)。以下参照图5描述模块实现的流程图。
52.图5示出根据本技术的示例性实施例的模块实现的流程图。
53.参照图5，上下文图用于加载和生成交互对象的上下文数据(上下文信息)、增强信息数据等，该处理采用类图式的数据管理方式，以便于检索。通过gnn利用上下文数据作为输入进行候选对象的当前向量化数据生成。将生成的当前向量化数据通过图嵌入模块之后，结合图节点注意力最终输入到序列解码器(sequence2sequence解码器)，该输入作为序列解码器的与交互对象相应的输入，其中，图节点注意力基于注意力机制通过高权重上下文节点的信息关联当前主题，基于用户语音输入的信息，动态的关联候选对象集，进行目标对象范围的更新。在该模块实现流程图中，在语音交互时，通过asr模块将用户语音转换为文本，通过装置定向会话检测ddud(device
‑
directed utterance detection)模块可以确认语音对话是否为面向装置的，并且通过已经加载的交互对象信息(例如，对象增强信息)以及当前识别的用户意图进行无关语音的过滤。lm模块是预训练的自然语言模型，输入序列的向量化表示，其中，lm模块可以支持不同的语言。lm模块的输出通过语句嵌入(sentence embedding)最终输入到序列解码器，该输入作为序列解码器的与用户语音相应的输入。在匹配解码阶段，序列解码器基于输入的用户语音向量序列和候选对象(交互对
象)的对象增强信息确定目标对象。
54.图6的(a)、(b)示出根据本技术的示例性实施例的应用本技术的语音交互方法的实施例的示图。
55.参照图6的(a)，在会话开始后，当进行界面选择时，用户说“the crown”，界面中有两个待选择的对象，第一对象和第四对象均包含“the crown”。在图6的(a)所示的情况下，用户无法从待选择的对象确定目标对象。如图6的(b)所示，本技术的语音交互方法可以通过待选择的对象的特性和上下文信息，计算待选择的对象的对象增强信息，在显示界面上给出待选择对象的对象增强信息，例如，在用户界面给出电影播出季的启发式对象增强信息(hoai)。当用户继续说“the crown，season 2”时，如图6的(b)中所示的第四对象被选中。此外，根据本技术的示例性实施例，如果有和当前场景不相关的语音输入或噪音，会话管理系统会自动去除该不相关语音输入或噪声。
56.根据本技术的示例性实施例的会话管理模块通过对当前会话意图注意力机制的模型的动态匹配，可以基于ddud特征过滤不相干的内容，从而增强鲁棒性。
57.图7的(a)、(b)示出根据本技术的示例性实施例的应用本技术的语音交互方法的ar模式下的实施例的示图。本实施例中在ar设备上显示增强提示符(或对象增强信息)。当用户说“选择杯子”时，通过扩展的模块(例如，mask
‑
cnn等图像识别算法)或者通过服务器的目标信息检索，把相关信息通过上下文提取器模块，引入会话管理模块。在ar设备的场景下，给出候选hoai信息，当用户继续说“选择杯子，绿色的”或“绿色的”时，与“绿色的”相应的候选对象被选中，作为目标对象。
58.图8是示出根据本技术的示例性实施例的语音交互装置800的框图。
59.参照图8，根据本技术的示例性实施例的语音交互装置800可以包括检测模块801、控制模块802和确定模块803，其中，检测模块801检测第一用户语音，控制模块802根据检测到的第一用户语音显示与第一用户语音相关联的多个候选对象以及与多个候选对象相应的对象增强信息，确定模块803基于与多个候选对象相应的对象增强信息从多个候选对象中确定目标对象。语音交互装置800中的每个模块可以由一个或多个模块来实现，并且相应模块的名称可以根据模块的类型而变化。在各种实施例中，可以省略语音交互装置800中的一些模块，或者还可以包括另外的模块。此外，根据本技术的各种实施例的模块/元件可以被组合以形成单个实体，并且因此可以等效地执行相应模块/元件在组合之前的功能。
60.在根据本技术的示例性实施例的语音交互装置中，控制模块802被配置为：根据检测到的第一用户语音确定与第一用户语音相关联的多个候选对象；产生与多个候选对象相应的对象增强信息，其中，产生与多个候选对象相应的对象增强信息包括：获取多个候选对象的上下文信息，基于多个候选对象的特性和上下文信息产生与多个候选对象相应的对象增强信息。参照图3，本技术的语音交互装置可以从服务器获取多个候选对象的上下文信息。
61.确定模块803被配置为：获取通过检测模块801接收的用户输入或第二用户语音；将多个候选对象中具有与用户输入或第二用户语音匹配的对象增强信息的候选对象确定为目标对象。例如，参照图6，当第二用户语音为“第二季”且多个候选对象中的一个候选对象的对象增强信息为“第二季”时，该一个候选对象被确定为目标对象。
62.根据本技术的另一示例性实施例，确定模块803被配置为：获取通过检测模块801
接收的用户输入或第二用户语音；当基于与多个候选对象相应的对象增强信息以及用户输入或第二用户语音从多个候选对象中确定出多个候选目标对象时，获取通过控制模块802基于多个候选目标对象的特性和上下文信息对与多个候选目标对象相应的对象增强信息进行更新而获得的更新后的对象增强信息，基于更新后的对象增强信息确定目标对象。在多个候选对象中的一些候选对象的对象增强信息相同时，基于用户输入或第二用户语音无法区分所述一些候选对象时，控制模块802可以缩小多个候选对象的范围，产生多个候选目标对象，从多个候选目标对象中确定目标对象。
63.在本技术的语音交互装置中，控制模块802还被配置为：基于检测到的第一用户语音识别用户意图；基于与多个候选对象相应的对象增强信息和识别出的用户意图，规避不相干的外部语音或噪声。也可以进行跨领域的语音意图处理。此外，本技术的语音交互装置还可以在新接收到的用户语音的意图与当前用户意图不一致时，脱离当前主题下的有意图的文本，反馈信息给上下文提取器模块，触发上下文图的注意力特征更新，从而给出更多的hoai，以支持跨领域的语音会话管理，改善多轮对话体验。
64.控制模块802还被配置为：获取通过检测模块801接收的第三用户语音，当第三用户语音的意图与识别出的用户意图不同时，根据第三用户语音重新确定候选对象，产生与重新确定的候选对象相应的对象增强信息。
65.应理解，根据本技术示例性实施例的语音交互装置中的各个单元可以被实现硬件组件和/或软件组件。本领域技术人员可以根据限定的各个单元所执行的处理，使用例如现场可编程门阵列(fpga)或专用集成电路(asic)来实现各个单元。
66.此外，根据本技术的另一示例性实施例，提供一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如上所述的语音交互方法。
67.根据本技术的另一示例性实施例，提供一种计算装置，其中，所述计算装置包括处理器存储有计算机程序的存储器，当所述计算机程序被处理器执行时，所述计算装置实现如上所述的语音交互方法。
68.在当前的语音交互方案下，常常会存在以下问题：在通常自然语音交互情况下，用户常常给出简略的语音交互句式，然后再具体(例如，“拿个杯子”，“绿色的”)，用户需要多次重复激活会话，多次触发语音，多次重复的唤醒词，且该方案依赖于固定的句式，需要给出用户教育，但是语音命令的教育和场景适应性较差；语音交互对象存在相似时，系统不能有效地完成具体目标对象的选择，当选择内容很多时，内容需要翻页显示，单纯的数字标记，存在用户体验差，多次触发语音对话才能完成操作的缺陷；当被操作的多个对象有相同的文本标签时(例如相同的电影名，但内容提供商不同)，系统会弹出一个提示框(y/n)来获取更多信息以确认选择，从而使得用户体验不自然；在当前语音交互中，在进行语音交互时，当前语音交互方案也会受外部语音、噪音影响，导致当前主题会话管理中止；当前基于规则的会话管理方案，固定的句式教育方法，因为用户体验差，目标实体识别困难等问题，不能很好地支持多样性设备，以及复杂环境下的语音交互。
69.根据本技术的示例性实施例的语音交互方法，可以实现更自然、连续的语音对话选择过程，用户不必使用特定操作按键或唤醒词来重复打开语音会话。对于用户在通过触屏选择困难时(开车)，或者非实体设备(ar设备)进行目标对象搜索和选择时，自适应的给
出启发式对象增强信息(hoai)，清晰且准确地帮助用户识别候选对象状态和差别信息，从而可以以类自然语音交互方式确定目标对象。
70.根据本技术的示例性实施例的语音交互方法，通过提供交互对象的相关增强信息，本技术可以显著地提升语音交互的易用性，改进因为固定语音交互句式的不足而导致的用户交互体验差、用户语音操作意图匹配准确率低的问题。
71.在本技术中，诸如“模块”、“单元”、“部件”等的术语用于指执行至少一个功能或操作的元件，并且这样的元件可以被实现为硬件或软件、或硬件和软件的组合。此外，除了当多个“模块”、“单元”、“部件”等中的每一个需要被实现在单独的硬件中时，组件可以被集成在至少一个模块或芯片中并且被实现在至少一个处理器中。
72.可将在此阐述的各种实施例实现为包括存储在存储介质中的可由机器(例如，移动装置或电子设备)读取的一个或更多个指令的软件。例如，在处理器的控制下，所述机器的处理器可以在使用或无需使用一个或更多个其它部件的情况下调用存储在存储介质中的所述一个或更多个指令中的至少一个指令并运行所述至少一个指令。这使得所述机器能够操作用于根据所调用的至少一个指令执行至少一个功能。所述一个或更多个指令可包括由编译器产生的代码或能够由解释器运行的代码。可以以非暂时性存储介质的形式来提供机器可读存储介质。其中，术语“非暂时性”仅意味着所述存储介质是有形装置，并且不包括信号(例如，电磁波)，但是该术语并不在数据被半永久性地存储在存储介质中与数据被临时存储在存储介质中之间进行区分。
73.尽管已示出和描述了本发明的一些示例性实施例，但本领域技术人员应理解，在不脱离由权利要求及其等同物限定的本发明的范围和精神的情况下，可对其进行形式和细节上的各种改变。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于两阶段嵌入的可逆鲁棒医学音频方法与流程

语音交互方法及装置与流程

相关文章

最热文献