一种眼动辅助的语音交互意图识别方法与流程

2022-12-06 23:12:09 来源：中国专利 TAG：

1.本发明涉及多模态人机交互领域，特别涉及一种眼动辅助的语音交互意图识别方法。

背景技术：

2.随着语音识别、眼动追踪、行为识别等技术的发展，语音、眼动、手势等自然交互方式逐步成为鼠标、键盘、触控等传统交互方式之外的新型交互模态，给现有的人机交互带来了极大的便利和效率提升。
3.在现有技术中，倾向于使用多轮对话的形式实现对自然语音交互过程交互意图不明或信息不完整等问题的解决。但是，人们在自然语音交互过程中可以根据交互上下文实现对缺省的句子成分、指向不明的代词、约束不全的名词等信息的自动关联补齐，准确理解对方的交互意图。虽然通过多轮对话也可以实现对上述信息的关联补齐，但是总显得语音交互算法的智能性、自然性不足，并且多轮对话也延迟了交互意图的确认时间，降低了语音交互的效率，与通过语音、眼动等自然交互方式提升交互效率的初衷背道而驰。
4.专利申请cn112114672a，公开了一种眼动结合语音辅助交互装置及方法，包括语音单元、定位单元以及主控单元；语音单元用于获取用户的声音信号，将声音信号传输至主控单元；定位单元用于获取注视点信号，并识别注视点信号对应的位置信息，将包含位置信息的注视点信号传输至主控单元；主控单元用于获取注视点信号，并将包含位置信息的注视点信号转换成屏幕坐标；还用于获取声音信号，识别声音信号中的控制指令，在相应的屏幕坐标上实施控制指令。实现通过定位单元(眼动)确定屏幕上的位置信息，再结合语音单元在该位置上执行相应的操作。但是该专利申请仅仅实现了把语音指令映射到正在注视的屏幕区域来执行，并未利用注视信息来完善语音指令的识别，并未解决自然交互语音指令存在句子成分缺省、代词指向不明、名词约束不足等情况导致的槽位信息不全的问题。

技术实现要素：

5.为了克服上述现有技术存在的缺陷，本发明的目的在于提出了一种眼动辅助的语音交互意图识别方法，针对语音指令句子成分缺省、代词指向不明、名称约束不足等问题，利用眼动追踪技术实现交互人员意图操控区域功能的识别解析，进而结合软件知识图谱实现对语音指令槽位信息的完善；本发明结合眼动辅助，能够在一定程度上避免多轮对话，提升语音交互效率。
6.为实现上述目的，本发明提供如下技术方案：
7.一种眼动辅助的语音交互意图识别方法，具体包括以下步骤：
8.1)对语音交互指令进行意图识别和槽位填充，得到交互意图和槽位信息；
9.2)识别得到交互人员在交互软件ui上的意图操控区域；
10.3)提取意图操控区域关联的知识图谱子图；
11.4)对步骤1)识别得到的交互意图关联的槽位信息进行分析，从步骤3)得到的知识
图谱子图中提取并完善步骤1)的槽位信息；
12.5)基于步骤1)的交互意图和步骤4)中完善的槽位信息，从知识图谱中索引匹配语音指令的响应方式，发送给交互软件进行响应。
13.所述步骤1)中，交互意图和槽位信息通过已知的联合意图识别和槽位填充算法获得。
14.所述步骤)2中，利用眼动仪或已知的眼动追踪算法对桌面交互人员在ui上注视点的实时检测，交互人员当前正在注视的区域即为意图操控区域。
15.所述步骤3)中，通过解析交互软件ui布局和功能的映射关系得到意图操控区域功能即ui上的可操作项，进而根据意图操控区域功能关联的实体从软件知识图谱中进行实体链接，提取得到知识图谱子图。
16.所述步骤4)中，根据知识图谱子图中包含的实体信息，对步骤1)语音指令中包括成分缺省、指向不明、约束不足的槽位信息进行唯一性补齐和确认，完善槽位信息；该过程在完善缺失或不明确的槽位信息的同时根据知识图谱子图对已有槽位信息进行了合法性验证。
17.所述步骤5)中，按交互软件支持的消息格式和消息交互方式，把步骤1)得到的交互意图和根据步骤4)完善和确认的槽位信息，从知识图谱中索引匹配相关实体的对应交互意图的响应方式发送给交互软件，交互软件进而进行响应，实现面向桌面软件的自然语音交互。
18.与现有技术相比，本发明的有益效果是：
19.本发明结合眼动辅助，把眼动表现出的交互意图与语音交互意图相融合，有效应对语音交互过程中语音指令的自然性导致的语音指令句子成分缺省、代词指向不明、名词约束不足等问题，在一定程度上避免了单纯地利用语音交互进行多轮对话来应对这些问题，更加有利于在保证语音交互自然性的同时提升交互效率。
附图说明
20.为了更清楚地说明本发明，下面将公开一个或多个实施例或相关技术中的技术方案，对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显。
21.图1为本发明的工作流程图。
22.图2为本发明可应用的一个交互软件示例。
具体实施方式
23.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
24.在本发明实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。
25.一种眼动辅助的语音交互意图识别方法，具体包括以下步骤：
26.1)对语音交互指令进行意图识别和槽位填充，得到交互意图和槽位信息；
27.2)对桌面交互人员进行眼动追踪，识别得到交互人员在交互软件ui上的意图操控区域；
28.3)解析步骤2)识别得到的交互软件意图操控区域的功能，从交互软件知识图谱中提取意图操控区域关联的知识图谱子图；
29.4)对步骤1)识别得到的交互意图关联的槽位信息进行分析，从步骤3)得到的知识图谱子图中提取并完善语音指令中成分缺省、指向不明、约束不足的槽位信息；
30.5)基于步骤1)的交互意图和步骤4)中完善的槽位信息，从知识图谱中索引匹配语音指令的响应方式，发送给交互软件进行响应。
31.所述步骤1)中，交互意图和槽位信息是利用已知的联合意图识别和槽位填充算法获得，但是自然语音交互过程中的语音指令往往存在句子成分缺省、代词指向不明、名词约束不足等情况，导致交互意图相关的槽位信息识别不完整，需要后续步骤来处理。
32.所述步骤2)中，利用已有的眼动仪或已知的眼动追踪算法实现交互人员在交互软件ui上的意图操控区域，交互人员当前正在注视的区域即为意图操控区域。
33.所述步骤2)中，意图操控区域是指软件ui上的一个功能区域，通常由一系列控件组成，ui布局上具备区域性。
34.所述步骤3)中，意图操控区域的功能可以通过解析交互软件ui布局和功能的映射关系得到，进而根据意图操控区域功能关联的实体从软件知识图谱中进行实体链接，提取得到知识图谱子图。
35.所述步骤4)中，根据知识图谱子图中包含的实体信息，对语音指令中成分缺省、指向不明、约束不足的槽位信息进行唯一性补齐和确认，既可补齐缺失信息，也可实现对已有槽位信息进行合法性判断。
36.所述步骤5)中，根据步骤4)完善和确认的槽位信息，从知识图谱中索引匹配相关实体的对应交互意图的响应方式，按交互软件支持的消息格式和消息交互方式把响应方式发送给交互软件，交互软件进而进行响应，实现面向桌面软件的自然语音交互。
37.实施例1
38.图2展示了本发明可应用的一个交互软件示例，四窗格视频显示区域可以显示四架无人机的实时画面。
39.在图2所示的交互软件中，可以通过语音指令控制四窗格分别显示哪些无人机的实时画面。一条句子成分完整、语义明确的语音交互指令示例是“在窗格1上显示无人机1的实时画面”。但是，在自然语音交互过程中，指挥员(软件交互人员)可能会直接简单地发出语音指令“显示无人机1的画面”。根据本发明步骤1)，可以识别出本语音指令的意图时“显示无人机实时画面”，相关的槽位信息包括“显示”、“无人机1”、“画面”。单纯地分析该语音指令，无法解析出交互软件可执行的指令，因为交互软件有4个显示窗格，目前语音指令为给出要在哪个窗格上显示无人机1的画面。
40.针对上述场景，采用传统的多轮对话来填补槽位时，软件需要回复“要在哪个窗格上显示无人机1的画面”，促使指挥员说出完整的指令或者补偿槽位信息。但是，在本发明的
应用中，结合指挥员正在观察图2所示ui上的右上窗格，根据本发明步骤2)，得出指挥员正在观察无人机画面的四窗格显示区域；根据本发明步骤3)，结合软件的知识图谱和眼睛注视位置，提取到四窗格显示区域的知识图谱子图，可以得出四窗格显示区域有4个显示窗格以及每个窗格的区域位置和大小，每个窗格可以单独显示某些无人机的实时画面；进而结合本发明步骤4)，结合眼动正在注视右上窗格，可以推理出要“在窗格2上显示无人机1的画面”，补齐槽位信息“窗格2”；进而根据步骤5)，基于语音交互意图“显示无人机实时画面”以及槽位信息“显示”、“窗格2”、“无人机1”、“画面”，组合出交互软件支持的消息传输格式，通过“信号-槽”机制把消息发送给交互软件，交互软件根据收到的消息在2号窗格上显示无人机1的实时画面，完成整个语音交互过程。
41.对于本实例，尽管语音指令“显示无人机1的画面”明确表达出了交互意图，但是槽位信息不完整，导致软件无法直接执行该指令。但是，本发明方法结合指挥员下达指令过程中的眼动信息，推理出要在窗格2上显示无人机1的画面，不经多轮对话即可完成对交互意图和槽位信息的确认。进一步地，如果语音指令是“显示1号无人机”，那么结合眼动和知识图谱，解析出指挥员正在注视2号窗格，而2号窗格的功能是显示无人机的实时画面，因此同样可以推理出真实意图是“在窗格2上显示无人机1的实时画面”。尽管该情况下缺失了“在哪里显示”“显示什么”两个重要槽位信息，但是结合眼动和知识图谱，依然完成了语音交互指令的意图识别。
42.对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
43.此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于深度图像的目标检测方法和装置与流程

一种眼动辅助的语音交互意图识别方法与流程

相关文献

最热文献