一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

室内导航方法、室内导航装置、设备及存储介质与流程

2022-02-22 02:06:54 来源:中国专利 TAG:


1.本公开涉及导航技术领域,尤其涉及室内导航方法、室内导航装置、设备及存储介质。


背景技术:

2.导航作为机器人领域的核心问题之一,在飞行器控制、自动驾驶、家庭服务机器人等场景有着强烈的应用需求。视觉导航是具象人工智能的主要研究问题之一,模型需要在虚拟环境中找到特定物体,并导航到物体附近。
3.目前,语言指令视觉导航(vision-language navigation,vln)成为具应用前景的研究领域。在视觉导航的基础上,语言指令视觉导航模型理解用户指令,根据第一视角观察到的环境信息进行导航。


技术实现要素:

4.为克服相关技术中存在的问题,本公开提供室内导航方法、室内导航装置、设备及存储介质。
5.根据本公开实施例的一方面,提供一种室内导航方法,应用于导航设备,所述室内导航方法包括:接收用于导航的指令,并采集环境图像;提取所述指令中包括的指令房间特征和指令物体特征,并基于所述环境图像,确定视觉房间特征、视觉物体特征以及视角特征;将所述指令物体特征以及所述视觉物体特征,与表征室内物体关联关系的第一知识图谱融合,得到物体特征,并根据所述视觉房间特征以及所述指令房间特征,确定房间特征;基于所述视角特征、所述房间特征以及所述物体特征,确定导航决策。
6.在一些实施例中,将所述指令物体特征以及所述视觉物体特征,与表征室内物体关联关系的第一知识图谱融合,得到物体特征,包括:基于所述视觉物体特征,提取所述环境图像中包括的物体实体;基于所述物体实体以及所述表征室内物体关联关系的第一知识图谱,构造第二知识图谱,所述第二知识图谱用于表征所述物体实体,与所述第一知识图谱中与所述物体实体具有关联关系的第一物体实体之间的关联关系;对所述第一知识图谱和所述第二知识图谱分别进行多步图卷积推理,得到第一知识图谱推理信息以及第二知识图谱推理信息;融合所述第一知识图谱推理信息和所述第二知识图谱推理信息,并利用融合后的知识图谱推理信息更新所述第一知识图谱;基于所述第二知识图谱对所述指令物体特征执行第一特征融合强化操作,得到增强的指令物体特征;对更新后的第一知识图谱以及所述增强的指令物体特征,执行第二特征融合强化操作,得到所述物体特征。
7.在一些实施例中,根据所述视觉房间特征以及所述指令房间特征,确定房间特征,包括:根据所述视觉房间特征,确定各可选视角内包括的视觉房间类别,并根据所述指令房间特征,确定各可选视角内包括的指令房间类别;基于所述视觉房间类别、所述指令房间类别,以及预设房间关联性矩阵,确定各可选视角房间置信度;基于所述各可选视角房间置信度,确定房间特征。
8.在一些实施例中,基于所述视角特征、所述房间特征以及所述物体特征,确定导航决策,包括:基于所述视角特征,确定所述环境图像的总视角特征;拼接所述总视角特征、所述物体特征、所述指令房间特征以及所述指令物体特征,得到场景记忆令牌,并基于所述场景记忆令牌,得到当前导航进度信息,并拼接所述房间特征以及所述视角特征,得到可选视角特征;对所述可选视角特征,以及所述当前导航进度信息,执行第三特征融合强化操作,得到下一导航进度的导航决策。
9.在一些实施例中,基于所述视角特征,确定所述环境图像的总视角特征,包括:确定上一导航进度信息;对所述视角特征,以及所述上一导航进度信息执行第四特征融合强化操作,得到所述环境图像的总视角特征。
10.在一些实施例中,所述室内导航方法还包括:基于所述导航决策中的视角与最优视角之间的偏离程度,确定惩罚系数,所述最优视角为各可选视角中距离导航终点距离最近的可选视角;基于所述惩罚系数,更改所述导航决策中的视角。
11.在一些实施例中,所述确定单元采用如下方式确定导航决策:基于语言指令视觉导航模型确定导航决策;所述语言指令视觉导航模型通过以下方式训练得到:基于模仿学习损失函数、房间类别预测损失函数以及方向感知损失函数,确定总损失函数,所述模仿学习损失函数用于表征可选视角与最优视角之间的偏差程度,所述房间类别预测损失函数用于表征可选视角对应的房间类别与导航决策中的房间类别之间的偏差程度,所述方向感知损失函数用于表征导航决策中的视角与最优视角之间的偏离程度;基于所述总损失函数训练所述导航模型。
12.在一些实施例中,所述室内导航方法还包括:确定各可选视角的对数几率值;并确定各可选视角与当前位置所在位置之间的回溯距离;基于所述回溯距离修正所述各可选视角的对数几率值,并基于修正后的对数几率值,更改所述导航决策中的视角。
13.根据本公开实施例的又一方面,提供一种室内导航装置,应用于导航设备,所述室内导航装置包括:接收单元,用于接收用于导航的指令;采集单元,用于采集环境图像;确定单元,用于提取所述指令中包括的指令房间特征和指令物体特征,并基于所述环境图像,确定视觉房间特征、视觉物体特征以及视角特征;将所述指令物体特征以及所述视觉物体特征,与表征室内物体关联关系的第一知识图谱融合,得到物体特征,并根据所述视觉房间特征以及所述指令房间特征,确定房间特征;基于所述视角特征、所述房间特征以及所述物体特征,确定导航决策。
14.在一些实施例中,所述确定单元采用如下方式将所述指令物体特征以及所述视觉物体特征,与表征室内物体关联关系的第一知识图谱融合,得到物体特征:基于所述视觉物体特征,提取所述环境图像中包括的物体实体;基于所述物体实体以及所述表征室内物体关联关系的第一知识图谱,构造第二知识图谱,所述第二知识图谱用于表征所述物体实体,与所述第一知识图谱中与所述物体实体具有关联关系的第一物体实体之间的关联关系;对所述第一知识图谱和所述第二知识图谱分别进行多步图卷积推理,得到第一知识图谱推理信息以及第二知识图谱推理信息;融合所述第一知识图谱推理信息和所述第二知识图谱推理信息,并利用融合后的知识图谱推理信息更新所述第一知识图谱;基于所述第二知识图谱对所述指令物体特征执行第一特征融合强化操作,得到增强的指令物体特征;对更新后的第一知识图谱以及所述增强的指令物体特征,执行第二特征融合强化操作,得到所述物
体特征。
15.在一些实施例中,所述确定单元采用如下方式根据所述视觉房间特征以及所述指令房间特征,确定房间特征:根据所述视觉房间特征,确定各可选视角内包括的视觉房间类别,并根据所述指令房间特征,确定各可选视角内包括的指令房间类别;基于所述视觉房间类别、所述指令房间类别,以及预设房间关联性矩阵,确定各可选视角房间置信度;基于所述各可选视角房间置信度,确定房间特征。
16.在一些实施例中,所述确定单元采用如下方式基于所述视角特征、所述房间特征以及所述物体特征,确定导航决策:基于所述视角特征,确定所述环境图像的总视角特征;拼接所述总视角特征、所述物体特征、所述指令房间特征以及所述指令物体特征,得到场景记忆令牌,并基于所述场景记忆令牌,得到当前导航进度信息,并拼接所述房间特征以及所述视角特征,得到可选视角特征;对所述可选视角特征,以及所述当前导航进度信息,执行第三特征融合强化操作,得到下一导航进度的导航决策。
17.在一些实施例中,所述确定单元采用如下方式基于所述视角特征,确定所述环境图像的总视角特征:确定上一导航进度信息;对所述视角特征,以及所述上一导航进度信息执行第四特征融合强化操作,得到所述环境图像的总视角特征。
18.在一些实施例中,所述确定单元还用于:基于所述导航决策中的视角与最优视角之间的偏离程度,确定惩罚系数,所述最优视角为各可选视角中距离导航终点距离最近的可选视角;基于所述惩罚系数,更改所述导航决策中的视角。
19.在一些实施例中,所述确定导航决策包括:基于语言指令视觉导航模型确定导航决策;所述语言指令视觉导航模型通过以下方式训练得到:基于模仿学习损失函数、房间类别预测损失函数以及方向感知损失函数,确定总损失函数,所述模仿学习损失函数用于表征可选视角与最优视角之间的偏差程度,所述房间类别预测损失函数用于表征可选视角对应的房间类别与导航决策中的房间类别之间的偏差程度,所述方向感知损失函数用于表征导航决策中的视角与最优视角之间的偏离程度;基于所述总损失函数训练所述导航模型。
20.在一些实施例中,所述确定单元还用于:确定各可选视角的对数几率值;并确定各可选视角与当前位置所在位置之间的回溯距离;基于所述回溯距离修正所述各可选视角的对数几率值,并基于修正后的对数几率值,更改所述导航决策中的视角。
21.根据本公开实施例的又一方面,提供一种室内导航设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为:执行前述任意一项所述的室内导航方法。
22.根据本公开实施例的又一方面,提供一种非临时性计算机可读存储介质,当存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行前述任意一项所述的室内导航方法。
23.本公开的实施例提供的技术方案可以包括以下有益效果:分别根据视觉和指令特征进行处理得到表征房间信息和物体信息的多个特征,通过将表征不同类型信息的特征进行融合,最终得到物体特征、房间特征,并确定导航决策。在确定导航行动决策中,对场景信息保持长时记忆,增强视觉模态和语言模态之间的理解能力,并引入房间和物体的实体知识推理,使导航中的行动决策更加合理。
24.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不
能限制本公开。
附图说明
25.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
26.图1是根据本公开一示例性实施例示出的一种室内导航方法的流程图。
27.图2是根据本公开一示例性实施例示出的跨模态知识推理模型架构示意图。
28.图3是根据本公开一示例性实施例示出的提取环境图像中包括的视觉特征的模型框架示意图。
29.图4是根据本公开一示例性实施例示出的提取语音指令中包括的指令房间特征和指令物体特征的房间、物体感知注意力模块示意图。
30.图5是根据本公开一示例性实施例示出的一种将指令物体特征以及视觉物体特征,与表征室内物体关联关系的第一知识图谱融合,得到物体特征的方法的流程图。
31.图6是根据本公开一示例性实施例示出的一种根据视觉房间特征以及指令房间特征,确定房间特征的方法的流程图。
32.图7是根据本公开一示例性实施例示出的确定房间特征示意图。
33.图8是根据本公开一示例性实施例示出的一种基于视角特征、房间特征以及物体特征,确定导航决策的方法的流程图。
34.图9是根据本公开一示例性实施例示出的确定导航决策原理示意图。
35.图10是根据本公开一示例性实施例示出的一种基于视角特征,确定环境图像的总视角特征的方法的流程图。
36.图11是根据本公开一示例性实施例示出的一种室内导航方法的流程图。
37.图12a是根据本公开一示例性实施例示出的方向感知原理图。
38.图12b是根据本公开一示例性实施例示出的距离搜索原理图。
39.图13是根据本公开一示例性实施例示出的一种训练导航模型方法的流程图。
40.图14是根据本公开一示例性实施例示出的一种室内导航方法的流程图。
41.图15-图19是根据本公开实施例示出的一种室内导航方法的可视化示意图。
42.图20是根据本公开一示例性实施例示出的房间物体感知注意力模块的运算结果。
43.图21是根据本公开一示例性实施例示出的一种室内导航装置框图。
44.图22根据本公开一示例性实施例示出的一种用于室内导航的装置的框图。
具体实施方式
45.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
46.语言指令视觉导航技术自诞生以来备受关注,在该技术中,导航设备不仅需要从导航指令中提取有关路径规划的信息,还需要理解导航的目标物体,进而在模拟器中完成定位。
47.为了进一步提高灵活性,人们提出了真实室内环境下的远程具象视觉指代表达(rem ote embodied visual referring expression in real indoor environments,reverie)任务。reverie使用抽象指令训练模型定位目标物体。抽象指令的引入意味着指令理解和行动决策难度的提升,reverie任务上进行导航的效果差,无法满足用户需求。
48.相关技术中,传统视觉导航实现方法的物体定位(pointer)模块以当前位置的视觉感知图像和自然语言指令作为输入,计算并返回与自然语言指令最相符的3个物体。这3个物体的视觉特征和类别标签,作为导航(navigator)模块的输入。navigator模块以自然语言指令和当前位置的视觉感知图像为输入,其输出为停止或下一个前进的方向。若navigator模块输出停止,则当前步pointer模块返回的、与自然语言指令最相似的物体为导航最终输出结果。
49.在上述导航过程中,导航设备对导航场景信息长时记忆能力低,对于自然语言指令中包括的导航任务的目标,例如“在某房间找到某物体”,导航设备缺乏对于房间以及物体之间的跨模态理解能力,缺乏常识知识,对于未知环境中房间、物体之间的关联性推理能力差,因此,导航效果不理想。
50.由此,本公开提供一种室内导航方法,在确定导航行动决策中,增强视觉模态和语言模态之间跨模态的理解能力,并引入房间和物体的实体知识推理,使导航中的行动决策更加合理,提高导航效率。
51.图1是根据本公开一示例性实施例示出的一种室内导航方法的流程图,室内导航方法应用于导航设备,如图1所示,室内导航方法包括以下步骤。
52.在步骤s101中,接收用于导航的指令,并采集环境图像。
53.在步骤s102中,提取指令中包括的指令房间特征和指令物体特征,并基于环境图像,确定视觉房间特征、视觉物体特征以及视角特征。
54.在步骤s103中,将指令物体特征以及视觉物体特征,与表征室内物体关联关系的第一知识图谱融合,得到物体特征,并根据视觉房间特征以及指令房间特征,确定房间特征。
55.在步骤s104中,基于视角特征、房间特征以及物体特征,确定导航决策。
56.在本公开实施例中,对导航设备进行导航时,接收用于导航的指令,该指令类型可为语音指令、语言指令等。该指令可以包含导航设备所需要采取的全部行动,导航设备采集环境图像,环境图像可以是导航设备所处环境的全景图。该指令中可以包括房间特征、物体特征,环境图像中也包括房间特征、物体特征。提取指令中包括的指令房间特征和指令物体特征,基于环境图像,确定与视觉相关的特征,即视觉房间特征、视觉物体特征以及视角特征,视角特征用于反应环境图像中的视角包括的信息,实现对指令和环境图像输入的房间特征、物体特征进行解耦和提取。将指令物体特征以及视觉物体特征,与第一知识图谱融合进行推理,得到物体特征。第一知识图谱基于知识常识构建,用于表征室内物体关联关系。根据视觉房间特征以及指令房间特征,显式学习房间关联性,确定房间特征。基于确定的视角特征、房间特征以及物体特征,确定导航决策。
57.根据本公开实施例,分别根据视觉和指令特征进行处理得到表征房间信息和物体信息的多个特征,通过将表征不同类型信息的特征进行融合,最终得到物体特征、房间特征,并确定导航决策。在确定导航行动决策中,通过房间与物体感知注意力机制,从视觉和
语言输入中显式识别房间物体,填补视觉模态和语言模态之间的语义间隙,并引入常识知识提高捕捉房间与物体之间复杂关系的能力,使导航中的行动决策更加合理。
58.在一些实施例中,室内导航方法可以通过跨模态知识推理模型实现。图2是根据本公开一示例性实施例示出的跨模态知识推理模型架构示意图,参照图2,跨模态知识推理模型基于transformer编码器-译码器架构,其中编码器用于提取用于导航的语言指令的特征,译码器用于建模时序决策过程。在编码器和译码器之间,可以包括房间、物体感知注意力(roaa)模块,对语言指令和环境图像中的房间特征和物体特征进行显式解耦。使用知识驱动的实体关系推理(kerr)模块引入conceptnet中的常识知识,并与视觉特征、房间跨模态特征、物体跨模态特征相融合,得到场景记忆令牌。行动选择模块使用transformer译码器对得到的场景记忆令牌进行分析,得到当前时间步的隐向量以确定导航决策。
59.在本公开实施例中,接收用于导航的指令,并采集环境图像,提取指令中包括的指令特征并基于环境图像,确定视觉特征视觉特征和指令特征经过房间、物体感知注意力模块的处理,得到视角特征v
t
、视觉房间特征v
tr
、视觉物体特征v
to
、指令房间特征以及指令物体特征上述特征在知识驱动的实体关系推理模块与常识知识相融合,然后以房间特征f
tr
和物体特征f
to
的形式存在。视角特征v
t
与上一时间步保存的隐向量h
t-1
通过第四特征融合强化操作得到总视角特征
60.f
tv
=v
t
·
·
softmax(v
t
wvh
t-1
)
61.其中,wv是可学习参数,第四特征融合强化操作可以是以视角特征v
t
、可学习参数以及隐向量h
t-1
为输入,以视角特征为输出的注意力机制的操作,以融合多个视角特征,从而使与隐向量h
t-1
相关程度高的视角特征得到更大程度的保留。
62.行动选择模块会使用上述特征生成隐向量h
t
和决策结果a
t

63.在本公开实施例中,确定导航决策可以是基于语言指令视觉导航ckr模型实现,视觉定位可以是基于vilbert模型实现。针对本公开实施例中的ckr模型,在进行模型训练中,隐向量维度dh可以设置为512,词向量维度dw设置为300。批次大小为100,优化器使用adam,权重衰减为5e-4,学习率为1e-4。损失函数的各项占比为λ1=1、λ2=1以及λ3=5。使用学生模式训练需要约10gpu小时,得到最优ckr模型。
64.针对vilbert模型,可以在reverie数据集上进行微调。训练数据为自然语言指令和环境图像中的物体roi特征。批次大小为60,学习率为2e-5,训练时间约为8gpu小时。在测试阶段,具有最高匹配得分的物体被选作预测结果。
65.图3是根据本公开一示例性实施例示出的提取环境图像中包括的视觉特征的模型框架示意图,如图3所示,可选视角的总数为n
t
,对于第i个可选视角(1≤i≤n
t
),首先使用visual genome数据集上预训练的faster r-cnn在视觉特征中进行目标检测,得到个显著物体构成的集合例如,若第i个可选视角朝向卧室,很有可能包含床、床头柜等物体。对于第i个可选视角的第j个显著物体,初始向量可以通过拼接其视觉roi特征和类别对应的glove特征得到。
66.由于房间类型很大程度上取决于房间中包括的物体,视觉房间特征可以通过聚
合视觉物体特征得到。
[0067][0068]
图4是根据本公开一示例性实施例示出的提取语音指令中包括的指令房间特征和指令物体特征的房间、物体感知注意力模块示意图,分别提取语音指令中包括的指令房间特征和指令物体特征。用于导航的语音指令可以被抽象为“在某房间找到某物体”的格式,对于指令根据glove初始化词向量使用transformer编码器处理,得到优化后的指令特征其中dw表示词向量维度,l表示以词为单位的指令长度。
[0069]
在本公开一实施例中,通过房间感知注意力模块和物体感知注意力模块。将语音指令i解耦为指令房间特征和指令物体特征房间感知注意力模块和物体感知注意力模块使用隐向量作为查询向量,基于注意力机制实现解耦。
[0070][0071][0072]
其中,和分别表示房间感知注意力参数和物体感知注意力参数。
[0073]
指令房间特征和指令物体特征的使用方式不同,wr和wo在训练时的优化方向不同,可以理解地,指令房间特征可以包括更多的与房间相关信息,指令物体特征包括更多的物体相关信息。例如,语音指令“去那个蓝色的客厅,把电视左上角的照片拿过来”中,房间感知注意力模块会关注语音指令中包括的“客厅”,物体感知注意力模块会关注语音指令中包括的“照片”和“电视”。
[0074]
图5是根据本公开一示例性实施例示出的一种将指令物体特征以及视觉物体特征,与表征室内物体关联关系的第一知识图谱融合,得到物体特征的方法的流程图,如图5所示,该方法包括以下步骤。
[0075]
在步骤s201中,基于视觉物体特征,提取环境图像中包括的物体实体。
[0076]
在步骤s202中,基于物体实体以及表征室内物体关联关系的第一知识图谱,构造第二知识图谱,第二知识图谱用于表征物体实体,与第一知识图谱中与物体实体具有关联关系的第一物体实体之间的关联关系。
[0077]
在步骤s203中,对第一知识图谱和第二知识图谱分别进行多步图卷积推理,得到第一知识图谱推理信息以及第二知识图谱推理信息。
[0078]
在步骤s204中,融合第一知识图谱推理信息和第二知识图谱推理信息,并利用融合后的知识图谱推理信息更新第一知识图谱。
[0079]
在步骤s205中,基于第二知识图谱对指令物体特征执行第一特征融合强化操作,得到增强的指令物体特征。
[0080]
在步骤s206中,对更新后的第一知识图谱以及增强的指令物体特征,执行第二特
征融合强化操作,得到物体特征。
[0081]
在本公开实施例中,从语音指令中提取的指令房间特征和指令物体特征从环境图像中提取视角特征v
t
、视觉房间特征v
tr
、视觉物体特征v
to

[0082]
可以是基于conceptnet构建了室内导航知识图谱,在房间和物体的推理中引入常识知识。在导航任务中的第0步中使用的目标检测器可以区分1600种物体,记为{h1,h2,

,h
1600
},覆盖了室内导航任务数据集中标注的所有物体类别。对于类别hi,在conceptnet中检索最相关的k条常识{f
i,1
,f
i,2
,

,f
i,k
},每条常识以三元组的形式存储,可以表示为f
i,j
=(hi,r
i,j
,tj),其中tj表示目标类别,r
i,j
表示hi与tj的相关程度。
[0083]
检索得到的目标类别集合{t1,t2,

,tk}表示在语义和空间共现层面上,与hi相关程度最高的k个类别。多条常识三元组可以构成一个带权无向图ge=(he,ee),其中he表示类别集合,ee表示所有常识组成的边集,记ae为ge的邻接矩阵。对于he中的每个结点,即物体类别类别,使用glove初始化特征向量,
[0084]
带权无向图ge的邻接矩阵使用conceptnet中的相关程度初始化,使用conceptnet中的相关程度初始化,对应于常识三元组f
i,j
=(hi,r
i,j
,tj)。根据conceptnet提供的节点特征,可以表示为:
[0085][0086]
随着k的增长,ge中包含的噪声也逐渐增加。为了降低噪声带来的影响,创建第一知识图谱gi=(hi,ei),以及第二知识图谱ge,第二知识图谱ge用于表征物体实体,与第一知识图谱中与物体实体具有关联关系的第一物体实体之间的关联关系。表示节点特征矩阵,使用glove特征初始化。表示gi的邻接矩阵,矩阵元素表示不同节点之间的关联程度,初始化方式与ae相同。
[0087]
对于第i个可选视角,基于视觉物体特征提取环境图像中包括的物体实体构造完全子图其中表示根据视觉物体特征采样得到的结点特征矩阵,是ai的子矩阵。
[0088]
基于物体实体以及表征室内物体关联关系的第一知识图谱,构造第二知识图谱,第二知识图谱用于表征物体实体,与第一知识图谱中与物体实体具有关联关系的第一物体实体之间的关联关系。第二知识图谱由ge动态抽取而来,第二知识图谱与第一知识图谱推理过程相结合。
[0089]
对第一知识图谱和第二知识图谱分别进行多步图卷积推理,得到第一知识图谱推理信息以及第二知识图谱推理信息。可以用下式表示:
[0090][0091]
其中k为图推理的迭代次数,δ为激活函数,w
e(k)
为可学习参数,h
e(k)
为g
e(k)
的结点特征矩阵。图卷积的作用是第一知识图谱和第二知识图谱中相邻节点之间传递信息,经过
多步迭代,实现全图级别的信息传递,使第一知识图谱和第二知识图谱中的每个节点都感知到周围的图结构。
[0092]
融合第一知识图谱推理信息和第二知识图谱推理信息,并利用融合后的知识图谱推理信息更新第一知识图谱。对于第i个可选视角,使用视觉物体特征作为索引在h
e(k)
中采样子节点特征矩阵将第一知识图谱的节点特征矩阵与第二知识图谱的节点特征矩阵去平均,从而吸取知识常识推理的结论并使用帮助第一知识图谱推理,即:
[0093][0094]
基于第二知识图谱对指令物体特征执行第一特征融合强化操作,得到增强的指令物体特征,如下列公式:
[0095][0096]
其中,wf为可学习参数,第一特征融合强化操作可以是以第二知识图谱的节点特征矩阵、可学习参数以及指令物体特征为输入的注意力操作,得到增强的指令物体特征。对更新后的第一知识图谱h
ti(k)
以及增强的指令物体特征执行第二特征融合强化操作,第二特征融合强化操作也可以是注意力操作,以使第一知识图谱中与增强的指令物体特征相关性高的物体实体的重要程度得到增强,从而得到物体特征f
to
,f
to
可以通过如下式得到。
[0097][0098]
根据本公开实施例,基于常识知识构建第一知识图谱与第二知识图谱,基于有限的已知环境学习房间和物体之间的内部、外部关联,并应用于未知环境,在房间和物体实体知识推理中提高确定房间与物体之间复杂关系的能力,为导航中的合理行动决策提供保障。
[0099]
图6是根据本公开一示例性实施例示出的一种根据视觉房间特征以及指令房间特征,确定房间特征的方法的流程图,如图6所示,该方法包括以下步骤。
[0100]
在步骤s301中,根据视觉房间特征,确定各可选视角内包括的视觉房间类别,并根据指令房间特征,确定各可选视角内包括的指令房间类别。
[0101]
在步骤s302中,基于视觉房间类别、指令房间类别,以及预设房间关联性矩阵,确定各可选视角房间置信度。
[0102]
在步骤s303中,基于各可选视角房间置信度,确定房间特征。
[0103]
在本公开实施例中,从语音指令中提取的指令房间特征和指令物体特征从环境图像中提取视角特征v
t
、视觉房间特征v
tr
、视觉物体特征v
to
。根据视觉房间特征v
tr
以及指令房间特征确定房间特征
[0104]
图7是根据本公开一示例性实施例示出的确定房间特征示意图,参照图7,房间关联性矩阵用组成,其中,nr表示可能存在的房间类别数,矩阵中的元素表示房间i可经由房间j到达的置信度。人类具备判断房间之间关联关系的能力,例如,导航目的地为厨房,人们通常不会选择进入卧室,而是选择进入餐厅寻找可能的路径。为了请房间特征,可以是通过下面的公式
[0105][0106][0107]
其中,第i个可选视角的房间类别语言指令描述的房间类别基于模型提供的真实房间类别进行监督,则第i个可选视角的置信度可以表示为:
[0108][0109]
上式中,和p
ti
是独热向量,其中,向量只在第kv个元素处取1,其他元素取0。向量p
ti
只在第ki个元素处取1,其他元素取0。上式可以退化为取s
t,i
的第ki行第kv列的元素值,即s
t,i
描述了目标房间类别由第i个可选视角可达的概率。
[0110]
房间特征定义为所有可选视角的置信度组成的向量,即
[0111][0112]
根据本公开实施例,在房间类别推理中,根据视觉房间特征,确定各可选视角内包括的视觉房间类别,并根据指令房间特征,确定各可选视角内包括的指令房间类别,基于视觉房间类别、指令房间类别,以及预设房间关联性矩阵,确定各可选视角房间置信度,基于各可选视角房间置信度,确定房间特征,显式学习房间类别之间的关联性,为导航中的合理行动决策提供保障。
[0113]
图8是根据本公开一示例性实施例示出的一种基于视角特征、房间特征以及物体特征,确定导航决策的方法的流程图,如图8所示,该方法包括以下步骤。
[0114]
在步骤s401中,基于视角特征,确定环境图像的总视角特征。
[0115]
在步骤s402中,拼接总视角特征、物体特征、指令房间特征以及指令物体特征,得到场景记忆令牌,并基于场景记忆令牌,得到当前导航进度信息,并拼接房间特征以及视角特征,得到可选视角特征。
[0116]
在步骤s403中,对可选视角特征,以及当前导航进度信息,执行第三特征融合强化操作,得到下一导航进度的导航决策。
[0117]
在本公开实施例中,从语音指令中提取的指令房间特征和指令物体特征从环境图像中提取、视觉房间特征v
tr
、视觉物体特征v
to
,由于环境图像中是基于视觉信息进行特征提取,由于视觉信息包含的信息量丰富,从环境图像中还提取视角特征v
t
。进行多个视角特征v
t
的综合,得到环境图像的总视角特征f
tv

[0118]
图9是根据本公开一示例性实施例示出的确定导航决策原理示意图,参照图9,从语音指令中提取的指令房间特征和指令物体特征从环境图像中提取视角特征v
t
、视觉房间特征v
tr
、视觉物体特征v
to
。基于视角特征v
t
,确定环境图像的总视角特征f
tv
。总视角特
征f
tv
、物体特征f
to
、指令房间特征以及指令物体特征拼接后得到场景记忆令牌m
t
,场景记忆令牌m
t
用于导航设备当前环境场景信息的概括。基于场景记忆令牌m
t
,经过transformer解码器的处理,得到用于表征当前导航进度信息的隐向量h
t
。拼接房间特征f
tr
以及视角特征v
t
,得到各个可选视角特征。对各个可选视角特征以及当前导航进度信息h
t
,执行第三特征融合强化操作,以较大程度保留与导航进度信息最显著相关的可选视角特征,得到下一导航进度的导航决策a
t
。第三操作可以是对各个可选视角特征以及当前导航进度信息h
t
执行的注意力操作,可以用下面的公式表示:
[0119]
p
t
=softmax([f
tr
,v
t
]wah
t
)
[0120]at
=arg maxap
t,a
[0121]
其中,p
t,a
表示在当前时间步选择行动a的概率。
[0122]
根据本公开实施例,拼接总视角特征f
tv
、物体特征f
to
、指令房间特征以及指令物体特征得到场景记忆令牌,场景记忆令牌按照时间顺序输入解码器,在transformer模型中基于可学习的多层注意力网络,挖掘场景记忆令牌中包含的丰富信息,确定导航决策,使导航中的行动决策更加合理。
[0123]
图10是根据本公开一示例性实施例示出的一种基于视角特征,确定环境图像的总视角特征的方法的流程图,如图10所示,该方法包括以下步骤。
[0124]
在步骤s501中,确定上一导航进度信息。
[0125]
在步骤s502中,对视角特征,以及上一导航进度信息执行第四特征融合强化操作,得到环境图像的总视角特征。
[0126]
在本公开实施例中,从语音指令中提取的指令房间特征和指令物体特征从环境图像中视角特征v
t
、视觉房间特征v
tr
、视觉物体特征,由于环境图像中是基于视觉信息进行特征提取,由于视觉信息包含的信息量丰富,从环境图像中还提取视角特征。基于多个视角特征,进行多个视角特征的综合,得到环境图像的总视角特征。
[0127]
基于视觉特征和指令特征得到视角特征v
t
、视觉房间特征v
tr
、视觉物体特征v
to
、指令房间特征以及指令物体特征上述特征与常识知识融合,然后以房间特征f
tr
和物体特征f
to
的形式存在。
[0128]
在本公开实施例中,为了输出与上一步保存的导航进度信息h
t-1
最显著相关的视角特征v
t
的特征融合表达,将视角特征v
t
与上一步保存的导航进度信息隐向量h
t-1
执行第四特征融合强化操作,得到总视角特征f
tv
,f
tv
可以由下式确定。
[0129]ftv
=v
t
·
·
softmax(v
t
wvh
t-1
)
[0130]
其中,wv为可学习参数,第四特征融合强化操作可以是以视角特征v
t
、可学习参数以及隐向量h
t-1
为输入,以视角特征为输出的注意力机制的操作,以融合多个视角特征,从而使与隐向量h
t-1
相关程度高的视角特征得到更大程度的保留。
[0131]
根据本公开实施例,基于多个视角特征,进行多个视角特征的综合,得到环境图像的总视角特征,能够反映多个视角共同的特征,利用总视角特征丰富了进行导航决策的信息量,为导航中的合理行动决策提供保障。
[0132]
图11是根据本公开一示例性实施例示出的一种室内导航方法的流程图,如图11所
示,室内导航方法包括以下步骤。
[0133]
在步骤s601中,接收用于导航的指令,并采集环境图像。
[0134]
在步骤s602中,提取语音指令中包括的指令房间特征和指令物体特征,并基于环境图像,确定视觉房间特征、视觉物体特征以及视角特征。
[0135]
在步骤s603中,将指令物体特征以及视觉物体特征,与表征室内物体关联关系的第一知识图谱融合,得到物体特征,并根据视觉房间特征以及指令房间特征,确定房间特征。
[0136]
在步骤s604中,基于视角特征、房间特征以及物体特征,确定导航决策。
[0137]
在步骤s605中,基于导航决策中的视角与最优视角之间的偏离程度,确定惩罚系数,最优视角为各可选视角中距离导航终点距离最近的可选视角。
[0138]
在步骤s606中,基于惩罚系数,更改导航决策中的视角。
[0139]
在本公开实施例中,方向和距离是导航过程中的重要元素,为了在导航过程中关注导航方向的确定,基于导航决策中的视角与最优视角之间的偏离程度确定惩罚系数,以更改导航决策中的视角。
[0140]
图12a是根据本公开一示例性实施例示出的方向感知原理图,在第t个时间步,根据概率p
t
确定导航决策,即a
t
∈{a0,a1,a2,a3}。a0表示停机行动,图12a中,a1表示最优视角。在导航过程中,期望导航设备至少应该朝着目标的大概方向进行探索。根据行动概率p
t
,在可选视角集合{a0,a1,a2,a3}中选择一个作为下一步选择的视角,记为a
t
。基于导航决策中的可选视角与最优视角a1之间的偏离程度,确定惩罚系数,与最优视角a1偏离程度大的可选视角,对应的惩罚系数越大。方向感知损失的计算公式可以表示为:
[0141]
f(θ)=(1-cosθ)/2
[0142][0143]
其中,θ
t,a
∈[0,π]表示可选视角a与最优视角a1之间的夹角,停机行动a0与其它可选视角之间的夹角都定义为π/2。
[0144]
在本公开实施例中,基于导航决策中的视角与最优视角之间的偏离程度,确定惩罚系数,并基于惩罚系数,更改导航决策中的视角,提高模型导航效率。
[0145]
表1示出方向感知损失权重λ3的影响。在val-seen数据集上,将权重λ3从2增加到10没有获得显著提升。当λ3为5时,方向感知损失带来的提升最为明显,spl指标从51.79%提升至56.02%。在val-unseen数据集上,设置λ3为10比设置λ3为0的性能更高。spl指标由8.11%提升至11.05%,rsr指标从7.91%提升至10.04%。tl指标有所降低,说明方向感知损失可以帮助本公开实施例中的模型提高探索效率。
[0146][0147]
表1
[0148]
图13是根据本公开一示例性实施例示出的一种训练导航模型方法的流程图,如图13所示,训练导航模型方法包括以下步骤。
[0149]
在步骤s701中,基于模仿学习损失函数、房间类别预测损失函数以及方向感知损失函数,确定总损失函数,模仿学习损失函数用于表征可选视角与最优视角之间的偏差程度,房间类别预测损失函数用于表征可选视角对应的房间类别与导航决策中的房间类别之间的偏差程度,方向感知损失函数用于表征导航决策中的视角与最优视角之间的偏离程度。
[0150]
在步骤s702中,基于总损失函数训练语言指令视觉导航模型。
[0151]
在本公开实施例中,基于语言指令视觉导航模型确定导航决策,语言指令视觉导航模型的训练目标可以是模仿学习损失、房间类别预测损失以及方向感知损失组成。其中,训练语言指令视觉导航模型的过程使用学生模式。在第t个时间步,语言指令视觉导航模型会为每个可选视角a预测一个概率p
t,a
。距离导航任务终点最近的可选视角定义为最优视角,模仿学习损失函数可以用下式表示:
[0152][0153]
其中,t表示停机时刻或导航过程运行的最长时间,模仿学习损失函数用于表征可选视角与最优视角之间的偏差程度。
[0154]
用表示导航终点的房间类别,为第t个时间步的第i个可选视角的房间类别,基于房间类别预测损失函数反应可选视角对应的房间类别与导航决策中的房间类别之间的偏差程度,房间类别预测损失函数可以表示为:
[0155][0156]
总损失函数可以定义为:
[0157]
l=λ1li λ2lr λ3l
dir
[0158]
其中,λi,i=1,2,3分别损失函数的相对权重。
[0159]
图14是根据本公开一示例性实施例示出的一种室内导航方法的流程图,如图14所示,室内导航方法包括以下步骤。
[0160]
在步骤s801中,接收用于导航的指令,并采集环境图像。
[0161]
在步骤s802中,提取指令中包括的指令房间特征和指令物体特征,并基于环境图像,确定视觉房间特征、视觉物体特征以及视角特征。
[0162]
在步骤s803中,将指令物体特征以及视觉物体特征,与表征室内物体关联关系的第一知识图谱融合,得到物体特征,并根据视觉房间特征以及指令房间特征,确定房间特征。
[0163]
在步骤s804中,基于视角特征、房间特征以及物体特征,确定导航决策。
[0164]
在步骤s805中,确定各可选视角的对数几率值,并确定各可选视角与当前位置所在位置之间的回溯距离。
[0165]
在步骤s806中,基于回溯距离修正各可选视角的对数几率值,并基于修正后的对数几率值,更改导航决策中的视角。
[0166]
图12b是根据本公开一示例性实施例示出的距离搜索原理图,语言指令视觉导航任务可以看作可选视角图上的搜索问题,为了在保证效率的条件下提高导航成功率,可以采用基于回溯的前沿感知搜索算法(frontier aware search with backtracking,fast)。fast算法使用局部信息和全局信息,基于历史导航进度做出导航决策,在感知到路线错误时也能高效回溯到正确路线。将历史可选视角加入当前可选视角列表中,然后选择对数几率(logit)值最高的可选视角,基于已知地图规划出前往该位置的最短路径。如图12b所示,视角f2到终点的距离比视角f1近,因此视角f2的logit值大于视角f1的logit值。在fast算法中,导航决策为回溯到起点,再前往视角,即该算法不能的到最优路线。确定各可选视角的对数几率值,并确定各可选视角与当前位置所在位置之间的回溯距离,基于回溯距离修正各可选视角的对数几率值,并基于修正后的对数几率值,更改导航决策中的视角。修正后的对数几率值可以表示为:
[0167]
logit

=logit/dw[0168]
其中,d表示当前位置到可选视角的距离,诶控制距离权重的超参数。
[0169]
根据本公开实施例,在确定导航策略中,基于回溯距离修正各可选视角的对数几率值,并基于修正后的对数几率值,更改导航决策中的视角导航设备在导航过程中充分考虑距离因素,从而提高效率。
[0170]
表2示出了距离感知搜索中距离权重w对导航性能的影响。在这个实验中,w的取值在0到10之间。当w被设置为0时,表示不适用距离感知搜索。观察到随着w的增加,tl指标持续下降。在val-unseen数据集上,当w被设置为2时,tl指标从37.09米骤降至22.37米。尽管sr指标也有所降低,从19.91%降低至17.30%,但是降幅小于tl指标,因此spl指标提升了1.42%。随着距离权重w的增加,sr指标的降幅开始赶超tl,spl指标也开始下降。在val-seen数据集上,调整w对sr、tl甚至spl指标的影响均不明显,这是因为val-seen数据集上的tl指标已经很小,所以距离感知搜索的作用有所削弱。
[0171][0172]
表2
[0173]
图15-图19是根据本公开实施例示出的一种室内导航方法的可视化示意图,为了对本公开实施例中应用的模型在导航过程中的行为给出更加直观的展示,对一些样本进行了可视化。可视化结果由环境图像、房间类别的预测结果和真实值以及显著物体集合组成。在每个环境图像内,标号





等表示可选视角,标号下方的文字表示房间类别的预测结果(左)和真实值(右)。环境图像下方对应于每个可选视角,标注了目标检测模型的结果。
[0174]
图15对应的语言指令为“女人照片上面有一张男人照片,去照片左边的卧室里的洗手间,检查水池有没有堵住”。导航设备导航的起点位于厨房和起居室之间,由于“厨房”和“餐厅”的语义较为相似,房间类别检测错误没有影响导航设备的行动选择。厨房的左侧出现了沙发、篝火、灯、风扇灯物品,因此很可能是起居室。又因为语言指令中出现了“卧
室”、“洗手间”,这些房间类别与起居室的联系比厨房更加紧密,导航设备的决策为穿过起居室寻找目标物体。
[0175]
图16对应的语言指令为“去卧室里,把手形的椅子搬到办公桌下面”。导航设备决定停机前观测到的环境图像左侧包含“床”、“灯”、“书”、“风扇”等物体,很可能是一个卧室;右侧包含“门”、“地板”等物体,很可能是一个走廊。结合语言指令分析可知,导航的目标房间就是卧室,导航设备的决策为停机。
[0176]
图17对应的语言指令为“去一楼的办公室,把椅子从办公桌下面搬出来”。导航设备在屋门口,室内的一侧检测到“窗户”、“椅子”、“柱子”、“台阶等物体”,室外一侧则包含“植物”、“天空”、“地面”、“屋顶”等物体。自然地,办公室应该位于室内,导航设备的决策为室内方向前进。
[0177]
图18展示了本公开实施例中的ckr模型与reverie基线模型在导航过程中的区别。两个模型被放置在同一个虚拟环境的同一个位置上。其中,图18左侧展示了reverie基线模型的导航过程,右侧展示了本公开实施例中的ckr模型的导航过程。对于相同的自然语言指令“去一楼的卫生间,把卫生纸从水池上的架子里拿出来”,ckr模型和reverie基线模型在前两个时间步的行动决策完全相同。二者都认为有必要探索面前的房间,但是很快就发现房间里没有目标物体,因此原路返回出发位置。从第三个时间步开始,两个模型的导航过程开始出现分歧。ckr模型注意到右侧有一个楼梯,于是决定下楼继续探索。另一方面,reverie基线模型沿着楼梯旁的走廊径直向前走去。经过几个时间步,两个模型都找到了各自楼层的卫生间,并且成功定位到了其中的卫生纸。但是reverie基线模型所在的楼层是二楼,与自然语言指令不同,因此导航失败。
[0178]
图19示出了本公开实施例中应用的ckr模型和reverie基线模型被放置在同一个虚拟环境的同一个位置,输入的语言指令是“去一楼的起居室,把衣柜旁边的轮椅拿过来”的效果对比图。本公开实施例中的ckr模型导航过程中,在第一个时间步,导航设备发现自己处在一个房间之中,但是这里并没有自然语言指令中描述的衣柜,所以决定离开房间。经过两个时间步,导航设备来到了指令描述的衣柜前。但是由于导航距离太短,模型不敢轻易选择停机动作,所以导航设备决定在当前位置附近查看。于是在第五个时间步,导航设备再一次回到大厅,但是位置与第三个时间步略有不同。经过确认,导航设备相信第四个时间步发现的衣柜就是自然语言指令中所描述的衣柜,所以在第六个时间步回到了衣柜前,并决定停机。由于视角问题,图19右侧示出的行动6中无法直接观察到轮椅,但是输入物体定位网络的图片不存在此问题,所以目标检测可以正常进行。
[0179]
reverie基线模型的导航过程的前三个时间步,导航设备首先在当前房间搜索。发现当前房间没有自然语言指令所描述的衣柜以后,导航设备在第四个时间步回到了起点。从第五个时间步开始,reverie基线模型的行动决策与ckr模型相似,差别仅在于最后一个时间步。在第六个时间步,导航设备到达起居室外,但是在行动选择时前往了更靠内侧的柜子。尽管这个柜子的外观看起来和衣柜相同,但是该位置周围没有符合自然语言指令描述的轮椅,所以导航失败。
[0180]
图20是根据本公开一示例性示出的房间物体感知注意力模块的运算结果,颜色越深表示注意力权重越大,模型就越关注该部分内容。三个样例中,房间感知注意力模块关注的词语分别是“卫生间”、“衣柜”以及“卫生间”,指令其他部分的注意力权重相对较低;物体
感知注意力模块关注的词语则是“坐浴盆”、“衬衫”以及“洗手台”,有时也会关注物体相关的动词或形容词,例如“清洗”、“白色的”、“清理”等,但是总体来说对于物体的感知能力更强。由此可见,房间物体感知注意力模块有效实现了语言指令中房间和物体信息的显示解耦,该信息将有助于后续的知识推理以及行动决策过程。
[0181]
基于相同的构思,本公开实施例还提供一种室内导航装置。
[0182]
可以理解的是,本公开实施例提供的装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤,本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本公开实施例的技术方案的范围。
[0183]
图21是根据本公开一示例性实施例示出的一种室内导航装置框图,室内导航装置应用于导航设备,参照图21,该室内导航装置100包括接收单元101、采集单元102和确定单元103。
[0184]
接收单元101,用于接收用于导航的指令。
[0185]
采集单元102,用于采集环境图像。
[0186]
确定单元103,用于提取指令中包括的指令房间特征和指令物体特征,并基于环境图像像,确定视觉房间特征、视觉物体特征以及视角特征;将指令物体特征以及视觉物体特征,与表征室内物体关联关系的第一知识图谱融合,得到物体特征,并根据视觉房间特征以及指令房间特征,确定房间特征;基于视角特征、房间特征以及物体特征,确定导航决策。
[0187]
一些实施例中,确定单元103采用如下方式将指令物体特征以及视觉物体特征,与表征室内物体关联关系的第一知识图谱融合,得到物体特征:基于视觉物体特征,提取环境图像中包括的物体实体;基于物体实体以及表征室内物体关联关系的第一知识图谱,构造第二知识图谱,第二知识图谱用于表征物体实体,与第一知识图谱中与物体实体具有关联关系的第一物体实体之间的关联关系;对第一知识图谱和第二知识图谱分别进行多步图卷积推理,得到第一知识图谱推理信息以及第二知识图谱推理信息;融合第一知识图谱推理信息和第二知识图谱推理信息,并利用融合后的知识图谱推理信息更新第一知识图谱;基于第二知识图谱对指令物体特征第一特征融合强化操作,得到增强的指令物体特征;对更新后的第一知识图谱以及增强的指令物体特征,执行第二特征融合强化操作,得到物体特征。
[0188]
一些实施例中,确定单元103采用如下方式根据视觉房间特征以及指令房间特征,确定房间特征:根据视觉房间特征,确定各可选视角内包括的视觉房间类别,并根据指令房间特征,确定各可选视角内包括的指令房间类别;基于视觉房间类别、指令房间类别,以及预设房间关联性矩阵,确定各可选视角房间置信度;基于各可选视角房间置信度,确定房间特征。
[0189]
一些实施例中,确定单元103采用如下方式基于视角特征、房间特征以及物体特征,确定导航决策:基于视角特征,确定环境图像的总视角特征;拼接总视角特征、物体特征、指令房间特征以及指令物体特征,得到场景记忆令牌,并基于场景记忆令牌,得到当前导航进度信息,并拼接房间特征以及视角特征,得到可选视角特征;对可选视角特征,以及
当前导航进度信息,执行第三特征融合强化操作,得到下一导航进度的导航决策。
[0190]
一些实施例中,确定单元103采用如下方式基于视角特征,确定环境图像的总视角特征:确定上一导航进度信息;对视角特征,以及上一导航进度信息执行第四特征融合强化操作,得到环境图像的总视角特征。
[0191]
一些实施例中,确定单元103还用于:基于导航决策中的视角与最优视角之间的偏离程度,确定惩罚系数,最优视角为各可选视角中距离导航终点距离最近的可选视角;基于惩罚系数,更改导航决策中的视角。
[0192]
一些实施例中,确定单元103采用如下方式确定导航决策:基于语言指令视觉导航模型确定导航决策;语言指令视觉导航模型通过以下方式训练得到:基于模仿学习损失函数、房间类别预测损失函数以及方向感知损失函数,确定总损失函数,模仿学习损失函数用于表征可选视角与最优视角之间的偏差程度,房间类别预测损失函数用于表征可选视角对应的房间类别与导航决策中的房间类别之间的偏差程度,方向感知损失函数用于表征导航决策中的视角与最优视角之间的偏离程度;基于总损失函数训练导航模型。
[0193]
一些实施例中,确定单元103还用于:确定各可选视角的对数几率值;并确定各可选视角与当前位置所在位置之间的回溯距离;基于回溯距离修正各可选视角的对数几率值,并基于修正后的对数几率值,更改导航决策中的视角。
[0194]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0195]
图22是根据本公开一示例性实施例示出的一种用于室内导航的装置200的框图。例如,装置200可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
[0196]
参照图22,装置200可以包括以下一个或多个组件:处理组件202,存储器204,电力组件206,多媒体组件208,音频组件210,输入/输出(i/o)的接口212,传感器组件214,以及通信组件216。
[0197]
处理组件202通常控制装置200的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件202可以包括一个或多个处理器220来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件202可以包括一个或多个模块,便于处理组件202和其他组件之间的交互。例如,处理组件202可以包括多媒体模块,以方便多媒体组件208和处理组件202之间的交互。
[0198]
存储器204被配置为存储各种类型的数据以支持在装置200的操作。这些数据的示例包括用于在装置200上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
[0199]
电力组件206为装置200的各种组件提供电力。电力组件206可以包括电源管理系统,一个或多个电源,及其他与为装置200生成、管理和分配电力相关联的组件。
[0200]
多媒体组件208包括在所述装置200和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏
幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件208包括一个前置摄像头和/或后置摄像头。当装置200处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0201]
音频组件210被配置为输出和/或输入音频信号。例如,音频组件210包括一个麦克风(mic),当装置200处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器204或经由通信组件216发送。在一些实施例中,音频组件210还包括一个扬声器,用于输出音频信号。
[0202]
i/o接口212为处理组件202和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
[0203]
传感器组件214包括一个或多个传感器,用于为装置200提供各个方面的状态评估。例如,传感器组件214可以检测到装置200的打开/关闭状态,组件的相对定位,例如所述组件为装置200的显示器和小键盘,传感器组件214还可以检测装置200或装置200一个组件的位置改变,用户与装置200接触的存在或不存在,装置200方位或加速/减速和装置200的温度变化。传感器组件214可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件214还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件214还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
[0204]
通信组件216被配置为便于装置200和其他设备之间有线或无线方式的通信。装置200可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信组件216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件216还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
[0205]
在示例性实施例中,装置200可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
[0206]
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器204,上述指令可由装置200的处理器220执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0207]
可以理解的是,本公开中“多个”是指两个或两个以上,其它量词与之类似。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
[0208]
进一步可以理解的是,术语“第一”、“第二”等用于描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开,并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。
[0209]
进一步可以理解的是,除非有特殊说明,“连接”包括两者之间不存在其他构件的直接连接,也包括两者之间存在其他元件的间接连接。
[0210]
进一步可以理解的是,本公开实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
[0211]
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
[0212]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献