用于确定地图上的目的地的方法、设备和存储介质与流程

2021-10-24 09:53:00 来源：中国专利 TAG：计算机图上可读总体用于

1.本公开的实施例总体涉及计算机技术领域，并且更具体地，涉及用于确定地图上的目的地的方法、设备和计算机可读存储介质。

背景技术：

2.在人机交互中，自然语言是用户和机器人之间最理想的通信形式之一。然而，对于机器人来说，解释自然语言仍是非常困难的问题。主要问题在于，即使语音被成功地转换为文本，文本与其适当的解释之间仍存在相当大的差距。

技术实现要素：

3.在第一方面，提供了一种用于确定地图上的目的地的方法。该方法包括：获取文本的n个片段，其中，n为大于1的整数；基于文本的n个片段之间的语法关系，确定n个片段的递归顺序；针对n个片段中的每个，基于每个片段的含义从多个模型中选择匹配模型，其中，每个片段的匹配模型均配置为使用输入文本和地图的输入区域作为输入，并基于输入文本的含义和输入区域输出地图的更新区域；按递归顺序，将每个片段连同地图的初始区域或由匹配模型针对递归顺序中的该片段的前一片段输出的更新区域输入到该片段的匹配模型中；以及使用由匹配模型针对递归顺序中的最后一个片段输出的更新区域作为地图中的目的地。
4.在第二方面，提供了一种用于确定地图上的目的地的设备。该设备包括一个或多个处理器以及存储器。该存储器用于存储可由一个或多个处理器执行的指令以使设备执行以下操作，该操作包括：获取文本的n个片段，其中，n为大于1的整数；基于文本的n个片段之间的语法关系，确定n个片段的递归顺序；针对n个片段中的每个，基于每个片段的含义从多个模型中选择匹配模型，其中，每个片段的匹配模型均配置为使用输入文本和地图的输入区域作为输入，并基于输入文本的含义和输入区域输出地图的更新区域；按递归顺序，将每个片段连同地图的初始区域或由匹配模型针对递归顺序中的该片段的前一片段输出的更新区域输入到该片段的匹配模型中；以及使用由匹配模型针对递归顺序中的最后一个片段输出的更新区域作为地图中的目的地。
5.在第三方面，提供了一种存储指令的非暂时性计算机可读存储介质，其中，该指令可由处理器执行以执行操作，该操作包括：获取文本的n个片段，其中，n为大于1的整数；基于文本的n个片段之间的语法关系，确定n个片段的递归顺序；针对n个片段中的每个，基于片段的含义从多个模型中选择匹配模型，其中，每个片段的匹配模型均配置为使用输入文本和地图的输入区域作为输入，并且基于输入文本的含义和输入区域输出地图的更新区域；按递归顺序，将每个片段连同地图的初始区域或由匹配模型针对递归顺序中的该片段的前一片段输出的更新区域输入到该片段的匹配模型中；以及使用由匹配模型针对递归顺序中的最后一个片段输出的更新区域作为地图中的目的地。
附图说明
6.从以下结合附图的详细描述中，本公开的实施方式的上述和其它特征、优点和方面将变得更加显而易见。在附图中，相同或相似的附图标记表示相同或相似的元件：
7.图1是根据本公开的一些实施方式的用于确定地图上的目的地的方法的流程图；
8.图2是根据本公开的一些实施方式的确定片段的递归顺序的实现方式的示意图；
9.图3是将文本片段的每个输入到匹配模型中的实现方式的示意图；
10.图4是将文本片段的每个输入到匹配模型中的应用示例的示意图；
11.图5是根据本公开的一些其它实施方式的用于确定地图上的目的地的方法的流程图；
12.图6是根据本公开的一些实施方式的多个模型的更新函数的语义说明的示意图；
13.图7是根据本公开的一些实施方式的对文本片段执行计算的示意图；
14.图8是用于确定地图上的目的地的方法的应用场景；以及
15.图9是根据本公开的一些实施方式的用于确定地图上的目的地的设备的示意图。
具体实施方式
16.下面将结合附图和实施方式进一步详细描述本公开。应理解，本文描述的具体实施方式仅用于解释相关的公开内容，而不是限制本公开内容。另外，应注意，为了便于描述，在附图中仅示出了与相关的公开内容有关的部件。
17.还应注意，本公开中的实施方式和实施方式中的特征可在不冲突的基础上彼此组合。下面将参考附图并结合实施方式详细描述本公开。
18.当前机器人语言寻址算法大多为固定场景维护有限的策略集，并通过大量的数据训练建立图像或地理信息与自然语言之间的映射。现有的技术大多利用神经网络的学习能力由大量数据来记忆语言与目标位置之间的映射关系。这种方法没有充分利用语言的结构，并且忽略了自然语言中目的地描述的推理性质。其缺点包括对数据的需求巨大、对未记录的语言结构缺乏通用性以及难以理解对需要推理的位置描述，这会导致机器人控制的不便。
19.图1是根据本公开的一些实施方式的用于确定地图上的目的地的方法的流程图。该方法包括步骤101至105。
20.步骤101包括：获取文本的n个片段，其中n是大于1的整数。
21.在一些实施方式中，基于用户输入获取文本。用户输入可以是机器或计算机可接收的任何输入。在一些实施方式中，用户输入包括语音、来自键盘的输入、来自传感器的输入或来自触摸屏的输入中的至少一个。
22.在一些实施方式中，n个片段包括指示位置的片段和指示位置关系的片段。
23.在一些实施方式中，用户说“去北出口附近的会议室”，由机器人接收语音并从语音获取文本“去北出口附近的会议室”。在一些实施方式中，对文本执行语义分析以获取关于位置描述的文本，例如“北出口附近的会议室”。然后，获取文本的多个片段，即名词片段(例如，“会议室”和“北出口”)和介词片段(例如，“附近”)。
24.步骤102包括：基于文本的n个片段之间的语法关系，确定n个片段的递归顺序。
25.在一些实施方式中，步骤102包括如图2所示的步骤1021和1022。步骤1021包括从n
个片段中确定介词片段前面的名词主语片段、介词片段和介词片段的宾语片段。
26.在一些实施方式中，使用自然语言处理(nlp)工具将文本解析为具有主语u
h
、介词u
prep
和介词的宾语u
pob
j的从属结构。
27.步骤1022包括：将介词片段前面的名词主语片段确定为递归顺序中的第一片段，将介词片段确定为递归顺序中的第二片段，以及将宾语片段确定为递归顺序中的第三片段。
28.步骤103包括：针对n个片段中的每个，基于每个片段的含义从多个模型中选择匹配模型，其中，每个片段的匹配模型均配置为使用输入文本和地图的输入区域作为输入，并基于输入文本的含义和输入区域输出地图的更新区域。
29.在一些实施方式中，多个模型包括第一类型模型和第二类型模型，其中，第一类型模型配置为使用第一地图区域和指示位置的第一类型文本作为输入，并输出第一地图区域内的第一更新区域，其中，第二类型模型配置为使用第二地图区域和指示所述位置关系的第二类型文本作为输入，并基于第二地图区域和位置关系输出第二更新区域。
30.在一些实施方式中，位置关系包括临近关系，并且第二类型模型包括临近度模型，该临近度模型配置为使用第二地图区域和指示临近关系的第二类型文本作为输入，并输出临近第二地图区域的第二更新区域。
31.在一些实施方式中，位置关系包括方向关系，并且第二类型模型包括方向模型，该方向模型配置为使用第二地图区域和指示方向关系的第二类型文本作为输入，并输出在第二地图区域的方向上的第二更新区域。
32.在一些实施方式中，与介词片段前面的名词片段、介词片段和宾语名词片段相匹配的模型可分别使用以下等式：
[0033][0034][0035][0036]
其中，表示以θ为参数的地面函数，b0表示虚拟置信度或跨越整个地图m的初始分布。在一些实施方式中，等式(1)和等式(3)共用同一函数。
[0037]
步骤104包括：按递归顺序，将每个片段连同地图的初始区域或由匹配模型针对递归顺序中的该片段的前一片段输出的更新区域输入到每个片段的匹配模型中。
[0038]
在一些实施方式中，步骤104包括如图3所示的步骤1041和步骤1042。
[0039]
步骤1041包括：将递归顺序中的第一片段和地图的初始区域输入到第一片段的匹配模型，以获取第一更新区域。
[0040]
步骤1042包括：针对递归顺序中的第二片段至第n片段中的每个，将该片段和由匹配模型针对递归顺序中的该片段的前一片段输出的更新区域输入到该片段的匹配模型中，以获取用于该片段的更新区域。
[0041]
图4示出了步骤104的应用示例。在图4中，如等式(1)中所定义的，将第一片段“北出口”连同地图的初始区域一起输入到第一模型。然后，如等式(2)所定义的，将第二片段“附近”连同第一模型的输出一起输入到第二模型。最后，如等式(3)所定义的，将第三片段
“
会议室”连同第二模型的输出一起输入到第三模型。
[0042]
步骤105包括：使用由用于按递归顺序的最后一个片段的匹配模型输出的更新区域作为地图中的目的地。
[0043]
在一些实施方式中，使用图4中的第三模型的输出作为目的地。在一些实施方式中，地图的坐标由机器人基于地图上的目的地来确定，然后机器人规划从机器人的当前位置到地图的坐标的路径，并沿着规划的路径移动。
[0044]
根据本公开的一些实施方式的方法最大限度地利用了自然语言的结构特征，根据指令结构将完整的寻址任务分解为几个独立的语言理解任务，并且以概率分布的形式发送所提取的信息。在初始状态下，目标概率在整个地图范围内均匀分布。概率分布通过独立的语言一个接一个地被理解和更新，并指向最终的目标位置。
[0045]
根据本公开的一些实施方式的方法具有可解释、易于优化且所需数据更少的特征。利用根据本公开的一些实施方式的方法，地图中的目的地的坐标可由机器人基于用户的输入容易地确定，从而帮助用户控制机器人。
[0046]
图5是根据本公开的一些其它实施方式的用于确定地图上的目的地的方法的流程图。该方法包括步骤501至505。
[0047]
步骤501包括获取文本的n个片段，该n个片段包括指示位置的片段、指示方向的片段、指示临近度的片段、以及不指示任何位置或任何位置关系的片段。
[0048]
步骤502包括基于文本的n个片段之间的语法关系，确定n个片段的递归顺序。步骤502与步骤102相同，相关描述可参考步骤102的描述。
[0049]
步骤503包括：针对n个片段中的每个选择匹配模型，该选择包括：选择第一类型模型作为用于指示位置的片段的匹配模型，选择方向模型作为用于指示方向的片段的匹配模型，选择临近度模型作为用于指示临近度的片段的匹配模型，以及选择第三类型模型作为用于不指示任何位置或任何位置关系的片段的匹配模型。
[0050]
在本公开的以下描述中，文本的片段也被称为修饰词，并且模型的输入和输出也分别被称为先验和后验。表i示出根据一些实施方式的第一类型模型(即，精确模型)、临近度模型、方向模型和第三类型模型(即，虚拟模型)及其可用输入、输出和规则的示例。
[0051]
表i
[0052]
更新类型
[0053]
[0054]
在一些实施方式中，等式(1)至(3)被统一并被视为如下一般置信度更新链：
[0055][0056]
b
k
＝f
θ
(u
k
,
…
f
θ
(u2，f
θ
(u1，b0)))
…
)
ꢀꢀꢀꢀꢀꢀ
(5)
[0057]
其中，k是指u
pobj
和u
prep
的总数。在一些实施方式中，文本被分解为与语法相关的片段(u
k
)的序列，并且序列中的每个被递归地应用以更新置信度b的概念。
[0058]
在一些实施方式中，构造一组可学习函数和分类器等式(4)中的更新函数可表达为：
[0059][0060]
其中，是指示符函数。分类器c表示为神经网络，定义如下：
[0061][0062]
其中，φ
c
表示由选通重复单元(gru)层提取的隐藏状态，并且w
c
是指将gru的隐藏状态映射到原始分类权重的线性层的权重。图6示出根据本公开的一些实施方式的多个模型的更新函数的语义图示。精确模型、方向模型、临近度模型和虚拟模型的更新函数描述如下。
[0063]
精确模型
[0064]
在一些实施方式中，地图m∈m被分为一组感兴趣区域每个区域在地图边界b0内具有边界b
i
。每个区域a
i
与通常提到的字符串的元组(诸如唯一区域id、区域类别和区域名称(如果适用))相关联，并且每个感兴趣的区域至多分配n个词。
[0065]
在一些实施方式中，将区域信息中的每个词转换为固定长度的嵌入，然后将长度嵌入级联。结果是地图信息的矩阵表示，表示为s是感兴趣区域的数量。n是指区域描述符中的令牌的数量。h是词嵌入的维度。在一些实施方式中，修饰词u
k
被编码为嵌入矩阵在一些实施方式中，精确模型形成为s级分类问题，其生成在地图中的所有区域上定义的离散分布w
k
。每个区域a
i
的计算如下：
[0066][0067]
其中γ
k
、和w
k
‑1表示如下解释的方向比例因子、修饰词
‑
地图关注度和先验权重，η是指归一化因子。然后，可通过将w
k
(i)分配给由边界b
i
指示的地图上的区域，然后在整个地图上进行归一化来恢复全置信度b
k
。
[0068]
γ
k
的使用是由方向通常用作主语的形容词而触发的(参见表1)。等式如下：
[0069][0070]
其中σ是s形函数，x
i
是区域a
i
的质心，b0是地图的边界，e
αk
是预测的方向α
k
∈[
‑
π，π]的单位方向矢量，κ
k
∈[0,1]是指示是否在u
k
中使用方向的可训练变量，β
k
是调整γ
k
的缩放比例的整形因子，以及∈是正常数。当使用方向形容词时，κ
k
被标记为1，以指数形式呈现γ
k
，该指数形式的γ
k
根据每个区域a
i
的质心沿预测方向的投影来加权每个区域a
i
。添加β
k
作为偏移以提供额外的灵活性。当不涉及方向形容词时，将κ
k
标记为0，并且对于所有的a
i
将γ
k
(i)推向∈，从而有效地消除了这一判别项。等式中(9)的除x
i
和b
i
之外的所有项由所有区域权重共享，并由可学习函数计算为
[0071][0072]
其中，φ*表示由gru层提取的隐藏状态，并且w*是生成标量输出的线性层的权重。
[0073]
等式(8)中的关注度项如下所示：
[0074][0075]
其中，是归一化因子，是指分配给区域a
i
的第j词嵌入，以及是指修饰词中的第l词嵌入，该项通过对预定义的区域信息和修饰词u
k
之间的匹配词对计数来加权每个区域a
i
。通过阈值λ过滤归一化的嵌入点积来检查词匹配。
[0076]
最后，通过从先验置信度收集每个区域a
i
的权重来计算区域先验w
k
‑1(i)，如下所示：
[0077][0078]
其中u、v是指地图坐标，并且η
k
‑1是归一化因子。
[0079]
临近度模型
[0080]
当存在涉及临近关系的介词时，后验表示为以先验为中心的高斯分布，并被分配与先验区域大小成比例的方差。然后将更新函数表达为：
[0081][0082]
其中，x
k
‑1和|b
k
‑1|是由先验b
k
‑1指示的区域的质心坐标和大小，并且ρ是比例常数。
[0083]
方向模型
[0084]
除了用作形容词之外，方向词(例如，“北”)还可直接用作主语，例如，“会议室202的北边”。在一些实施方式中，使用高斯分布来表示先验，但是该分布设置有仅保留置信度与u
k
一致的附加掩码。参见图6的图示说明。更新函数可表达为：
[0085][0086]
其中，e
αk
是有效方向α
k
的单位方向矢量。n
k
‑1采用与等式(13)相同的形式。cos(
·
,
·
)是余弦相似度。在一些实施方式中，α
k
被表示为如下所示的类似于等式(10)的可学
习变量：
[0087][0088]
虚拟模型
[0089]
在一些实施方式中，虚拟模型函数是同一映射。
[0090]
在一些实施方式中，通过反向传播来最小化特定类型的损耗，而对可学习函数进行训练。在一些实施方式中，用于训练的地图是由一般工作区域、会议室和诸如娱乐区域的指定区域组成的办公室的平面图。在一些实施方式中，除了重新使用诸如房间和指定区域的现有空间结构之外，诸如走廊的一般公共空间也被分割。在一些实施方式中，将整个地图分割成具有指定属性的80个区域。汇总的区域属性请参见表ii。
[0091]
表ii
[0092]
区域属性和修饰词词典
[0093][0094]
对于每种更新类型t，k＝10个修饰词u是根据预定义的词典随机生成的(见表ii)，并将每个区域a
i
用作关键区域。
[0095]
在一些实施方式中，3200个更新样本被用于训练。为每个更新函数生成基本训练样本的过程如下所述。
[0096]
对于虚拟模型：省略先验置信度和后验置信度，并且每个训练样本都是具有类型标记t*＝0的单项(u
k
，)。
[0097]
对于临近度模型：先验b0均匀地分布在关键区域内，并且后验b1是以关键区域为中心的高斯分布，其标准偏差与关键区域大小成比例。每个训练样本都是具有类型标签t*＝1的元组(b0，b1，u
k
)。
[0098]
对于方向模型：先验b0在关键区域内均匀分布，从均匀的[
‑
π，π)中采样方向角α
k
，并且通过采用类似于临近度更新中的高斯分布来生成后验b1，但是其一半使用与由α
k
表示的方向垂直的分界线来掩蔽。最后，基于α
k
确定修饰词u
k
。每个训练样本都是具有类型标记t*＝2的元组(b0，b1，u
k
，α
k
)。
[0099]
对于精确模型：先随机生成先验b0作为基于关键字区域的临近度更新或方向更新的输出。然后，从b0中采样地图位置，并选择大多数采样的位置落入其中的两个顶部区域a1、a2。然后生成基于最小规则集的唯一定位a1的修饰词u
k
(参见表iii，方括号指示可选用法)。另外，如果方向词用作形容词，则κ
k
标记为1，否则标记为0。后验b1均匀地分布在a1内。每个训练样本都是具有类型标签t*＝3的元组(b0，b1，u
k
，α
k
，κ
k
)。
[0100]
表iii
[0101]
修饰词生成规则
[0102][0103]
等式(6)中设置的更新函数集是通过最小化适用于每种更新函数类型的所有监督项的总损失来进行训练。对于所有监督项的损失定义如下。对于分类器c，交叉熵损失l
c
用作
[0104][0105]
对于方向α
k
，边缘l2损失用作
[0106][0107]
对于指示符κ
k
，交叉熵损失κ
k
用作
[0108][0109]
在一些实施方式中，在训练阶段中，保持10％的数据作为测试集，并对其余样本执行训练。对每个词单独使用bert嵌入来对文本指令进行编码，并生成长度为h＝768的词嵌入。在一些实施方式中，gru隐藏的大小设定为8，并使用具有1e
‑
4学习速率的adam对10个时期执行优化。
[0110]
在一些实施方式中，在每个置信度更新中，输入是先验
‑
修饰词元组(b0，u)，如上所述，每个输入元组与地面真实更新类型t*以及所需输出项配对。
[0111]
步骤504包括按递归顺序将n个片段中的每个输入到每个片段的匹配模型中，其中，n个片段中的每个具有地图的初始区域或由匹配模型针对递归顺序中的该片段的前一片段输出的更新区域。
[0112]
图7示出对文本片段执行计算的示意图。
[0113]
步骤505包括使用由匹配模型针对递归顺序中的最后片段输出的的更新区域作为地图中的目的地。
[0114]
步骤505与步骤105相同，相关描述可参考步骤105的描述。
[0115]
图8示出用于确定地图上的目的地的方法的应用场景。由机器人的扬声器要求用户描述导航命令。作为响应，用户说“去娱乐区域附近的北电话室”。机器人通过麦克风接收用户的语音，将语音转换为文本，然后使用根据本公开的一些实施方式的方法基于文本确定地图上的目的地。在确定目的地之后，机器人规划从当前位置到目的地的路径，并使用照相机和传感器沿所规划的路径移动。
[0116]
如图9所示，设备包括：一个或多个处理器901、存储器902、以及用于连接各种部件的接口(包括高速接口和低速接口)。各种部件使用不同的总线彼此连接，并且可根据需要安装在通用主板上或以其它方法安装。处理器可处理在设备内执行的指令，包括存储在存
储器中或存储器上的指令，以在外部输入/输出设备(诸如联接到接口的显示装置)上显示gui的图形信息。在其它实施方式中，必要时可将多个处理器和/或多个总线连同多个存储器一起使用。类似地，可连接多个电子设备，并且这些设备提供了一些必要操作，例如作为服务器阵列、一组刀片式服务器或多处理器系统。在图9中，作为示例，使用一个处理器901。
[0117]
存储器902是由本公开提供的非暂时性计算机可读存储介质。存储器存储可由至少一个处理器执行的指令，该指令使至少一个处理器根据本公开的实施方式执行用于确定地图上的目的地的方法。本公开的非暂时性计算机可读存储介质存储计算机指令，该指令用于使计算机根据本公开的实施方式执行用于确定地图上的目的地的方法。
[0118]
作为非暂时性计算机可读存储介质的存储器902可用于存储非暂时性软件程序、非暂时性计算机可执行程序和模块，诸如与根据本公开的实施方式的用于确定地图上的目的地的方法对应的程序指令/模块。处理器901执行存储在存储器902中的非暂时性软件程序、指令和模块，以执行服务器的各种功能应用和数据处理，即实现根据本公开的实施方式的用于确定地图上的目的地的方法。
[0119]
存储器902可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统和至少一个功能所需的应用程序，以及存储数据区可存储通过使用根据本公开的实施方式的用于确定地图上的目的地的方法的设备而创建的数据。另外，存储器902可包括高速随机存取存储器，并且还可包括非暂时性存储器，诸如至少一个磁盘存储装置、闪存装置或其它非暂时性固态存储装置。在一些实施方式中，存储器902可以可选地包括相对于处理器901远程设置的存储器，并且这些远程存储器可连接到根据本公开的实施方式的用于确定地图上的目的地的方法的设备。上述网络的示例包括但不限于互联网、内联网、局域网、移动通信网络及其组合。
[0120]
根据本公开的一些实施方式的执行用于确定地图上的目的地的方法的设备还可包括：输入设备903和输出设备904。处理器901、存储器902、输入设备903和输出设备904可通过总线或以其它方法连接。在图9中，作为示例，使用通过总线的连接。
[0121]
输入设备903可接收输入的数字或字符信息，并生成与用户设置和用于学习知识表示的方法的设备的功能控制相关的键信号输入，输入设备903例如是触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或多个鼠标按钮、轨迹球、操纵杆和其它输入设备。输出设备904可包括显示装置、辅助照明设备(例如，led)、触觉反馈设备(例如，振动马达)等。显示装置可包括但不限于液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中，显示装置可以是触摸屏。
[0122]
应理解，以上所示的各种形式的过程可用于重新排序、添加或删除步骤。例如，本公开所述的步骤可并行、顺序或以不同顺序执行。只要能够实现本公开所公开的技术方案的期望结果，在本文中不作出限定。
[0123]
上述特定实施方式并不构成对本公开保护范围的限制。本领域技术人员应理解，可根据设计要求和其它因素作出各种修改、组合、子组合和替换。在本公开的精神和原理内作出的任何修改、等同替换和改进均应包括在本公开的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种人口流动数据的统计分析方法、装置及电子设备与流程

用于确定地图上的目的地的方法、设备和存储介质与流程

相关文献

最热文献