意图信息确定方法、装置、设备、存储介质及程序产品与流程

2022-07-02 07:55:37 来源：中国专利 TAG：

1.本技术涉及神经网络技术领域，特别涉及一种意图信息确定方法、装置、设备、存储介质及程序产品。

背景技术：

2.任务型对话系统是指通过与用户进行对话来帮助用户完成某项任务的系统，该任务可以为餐馆预定、天气预报、旅游安排等。该系统可以根据与用户的对话确定用户的意图信息，根据该意图信息来回复用户，从而满足用户需求。因此，如何确定该意图信息成为了亟待解决的问题。
3.相关技术中，系统完成某项任务时，由于用户可能并不会一次全部说出自己的需求，且在对话过程中用户可能会更改自己的需求，因此，系统可能需要与用户进行多轮对话。在两轮对话之后，开始新一轮对话之前，系统需要根据该新一轮对话之前的多轮对话的对话音频来确定用户的意图信息。
4.但该多轮对话的对话音频中存在冗余信息，该冗余信息会干扰意图信息的生成，影响意图信息的生成效果，导致确定的意图信息的准确性差。

技术实现要素：

5.本技术实施例提供了一种意图信息确定方法、装置、设备、存储介质及程序产品，可以提高确定的意图信息的准确性。该技术方案如下：
6.第一方面，提供了一种意图信息确定方法，所述方法包括：
7.获取多个第一音频对，所述第一音频对为第一对话对象与第二对话对象的对话音频；
8.确定每个第一音频对的音频标签，所述音频标签用于表示所述第一音频对的意图参数；
9.基于所述每个第一音频对的音频标签，从所述多个第一音频对中过滤掉意图参数不满足预设参数的第一音频对，得到至少一个第二音频对；
10.基于所述至少一个第二音频对，确定所述第一对话对象的目标意图信息。
11.第二方面，提供了一种意图信息确定方法，所述方法包括：
12.获取多个第一音频对，所述第一音频对为第一对话对象与第二对话对象的对话音频；
13.将所述多个第一音频对输入意图信息确定模型中，得到所述第一对话对象的目标意图信息；
14.所述意图信息确定模型用于确定每个第一音频对的音频标签，所述音频标签用于表示所述第一音频对的意图参数，基于所述每个第一音频对的音频标签，从所述多个第一音频对中过滤掉意图参数不满足预设参数的第一音频对，得到至少一个第二音频对，基于所述至少一个第二音频对，确定所述目标意图信息。
15.第三方面，提供了一种意图信息确定装置，所述装置包括：
16.第一获取模块，用于获取多个第一音频对，所述第一音频对为第一对话对象与第二对话对象的对话音频；
17.第一确定模块，用于确定每个第一音频对的音频标签，所述音频标签用于表示所述第一音频对的意图参数；
18.过滤模块，用于基于所述每个第一音频对的音频标签，从所述多个第一音频对中过滤掉意图参数不满足预设参数的第一音频对，得到至少一个第二音频对；
19.第二确定模块，用于基于所述至少一个第二音频对，确定所述第一对话对象的目标意图信息。
20.第四方面，提供了一种意图信息确定装置，所述装置包括：
21.第二获取模块，用于获取多个第一音频对，所述第一音频对为第一对话对象与第二对话对象的对话音频；
22.输入模块，用于将所述多个第一音频对输入意图信息确定模型中，得到所述第一对话对象的目标意图信息；
23.所述意图信息确定模型用于确定每个第一音频对的音频标签，所述音频标签用于表示所述第一音频对的意图参数，基于所述每个第一音频对的音频标签，从所述多个第一音频对中过滤掉意图参数不满足预设参数的第一音频对，得到至少一个第二音频对，基于所述至少一个第二音频对，确定所述目标意图信息。
24.第五方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如上述第一方面或第二方面中任一种可能实现方式的意图信息确定方法。
25.第六方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如上述第一方面或第二方面中任一种可能实现方式的意图信息确定方法。
26.第七方面，提供了一种计算机程序产品，所述计算机程序产品存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如上述第一方面或第二方面中任一种可能实现方式的意图信息确定方法。
27.本技术实施例提供的技术方案带来的有益效果至少包括：
28.本技术实施例提供了一种意图信息确定方法，该方法先确定每个音频对的音频标签，由于音频标签可以反映该音频对的意图参数，因此，根据每个音频对的音频标签可以从多个音频对中过滤掉意图参数不满足条件的音频对，也即冗余的音频对，得到满足条件的音频对，根据满足条件的音频对来确定目标意图信息，以此来避免冗余信息的干扰，准确生成目标意图信息，从而提高确定的目标意图信息的准确性。
附图说明
29.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
30.图1是本技术实施例提供的一种意图信息确定方法的实施环境的示意图；
31.图2是本技术实施例提供的一种意图信息确定方法的流程图；
32.图3是本技术实施例提供的一种意图信息确定方法的流程图；
33.图4是本技术实施例提供的一种确定音频标签的示意图；
34.图5是本技术实施例提供的一种确定目标意图信息的示意图；
35.图6是本技术实施例提供的一种意图信息确定方法的流程图；
36.图7是本技术实施例提供的一种pr曲线的示意图；
37.图8是本技术实施例提供的一种意图信息确定装置的结构示意图；
38.图9是本技术实施例提供的一种意图信息确定装置的结构示意图；
39.图10是本技术实施例提供的一种终端的结构框图；
40.图11是本技术实施例提供的一种服务器的结构框图。
具体实施方式
41.为使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术实施方式作进一步地详细描述。
42.本技术的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四
”ꢀ
等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们的任意变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
43.需要说明的是，本技术所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本技术中涉及到的对话音频都是在充分授权的情况下获取的。
44.图1是本技术实施例提供的一种意图信息确定方法的实施环境的示意图，参见图1，该实施环境包括：电子设备，该电子设备可以提供为终端101，也可以提供为终端101和服务器102，在本技术实施例中，对此不作具体限定。
45.若电子设备提供为终端101，该终端101为承载第二对话对象的设备，第一对话对象与第二对话对象通过该终端101进行对话，该终端101可以记录第一对话对象与第二对话对象对话的音频，终端101根据该音频确定第一对话对象的意图信息，根据该意图信息确定回复第一对话对象的语句，向第二对话对象发送该语句，第二对话对象根据该语句回复第一对话对象，从而满足第一对话对象的需求。
46.其中，第一对话对象可以为用户，也可以为设备，若第一对话对象为用户，该用户可以直接与第二对话对象进行对话，若第一对话对象为设备，用户通过该设备与第二对话对象进行对话，第二对话对象为该终端内部嵌入的具有语音功能的模块，例如，语音助手，在此对第一对话对象和第二对话对象不作具体限定。
47.若电子设备提供为终端101和服务器102，则终端101记录第一对话对象与第二对话对象对话的音频后，向服务器102发送该音频，服务器102根据该音频确定第一对话对象
的意图信息，然后向终端101返回该意图信息，终端101根据该意图信息确定回复第一对话对象的语句，向第二对话对象发送该语句。或者，服务器根据该意图信息，确定回复第一对话对象的语句，向终端发送该语句，终端向第二对话对象转发该语句，第二对话对象根据该语句回复第一对话对象，从而满足第一对话对象的需求。
48.本技术实施例提供的方法可以应用在多个场景中，例如，应用在订餐、订票、查询业务、咨询业务以及其他根据第一对话对象的要求提供服务的场景。
49.若该方法应用在订餐场景，第二对话对象为终端101中的语音助手，用户想要预定餐桌，终端101根据与用户的对话内容确定用户的意图，例如，预定时间、预定人数，预定场所等，然后为用户预定餐桌，从而满足用户的订餐需求。若该方法应用在订票场景，第二对话对象为智能机器人内部嵌入的具有语音功能的模块，用户想要购买机票，智能机器人根据与用户的对话内容确定用户的意图，例如，机票的出发时间、出发地和目的地等，然后为用户购买机票，从而满足用户的订票需求。
50.终端101为手机、平板电脑和pc(personal computer)设备、机器人等设备中的至少一种。服务器102可以为一台服务器、由多台服务器组成的服务器集群、云服务器、云计算平台和虚拟化中心中的至少一种。
51.图2是本技术实施例提供的一种意图信息确定方法的流程图，参见图2，该方法包括：
52.步骤201：获取多个第一音频对，第一音频对为第一对话对象与第二对话对象的对话音频。
53.步骤202：确定每个第一音频对的音频标签，音频标签用于表示第一音频对的意图参数。
54.步骤203：基于每个第一音频对的音频标签，从多个第一音频对中过滤掉意图参数不满足预设参数的第一音频对，得到至少一个第二音频对。
55.步骤204：基于至少一个第二音频对，确定第一对话对象的目标意图信息。
56.在一种可能的实现方式中，确定每个第一音频对的音频标签，包括：
57.确定多个槽中每个槽的槽向量以及多个第一音频对的上下文向量，上下文向量用于表示多个第一音频对所处的上下文语境；
58.对于每个第一音频对，确定第一音频对的第一音频向量，第一音频向量用于表示第一音频对与槽的关联关系；
59.基于每个槽的槽向量、多个第一音频对的上下文向量以及第一音频对的第一音频向量，确定第二音频向量；
60.基于第二音频向量的维度，确定第一音频对的音频标签。
61.在另一种可能的实现方式中，确定第一音频对的第一音频向量的过程，包括：
62.对第一音频对进行编码，得到第三音频向量；
63.基于第三音频向量和每个槽的槽向量，确定每个槽在第一音频对的每个向量维度上的概率分布；
64.基于每个槽在第一音频对的每个向量维度上的概率分布以及第三音频向量，确定第一音频向量。
65.在另一种可能的实现方式中，确定多个第一音频对的上下文向量的过程，包括：
66.基于第一音频对中每个词的词向量，确定第一音频对中每个词的概率分布；
67.基于第一音频对中每个词的概率分布，确定第一音频对的句子向量；
68.基于第一音频对的句子向量，确定多个第一音频对中每个第一音频对的概率分布；
69.基于每个第一音频对的概率分布及其对应的句子向量，确定多个第一音频对的上下文向量。
70.在另一种可能的实现方式中，确定槽的槽向量的过程，包括：
71.确定槽所属领域的领域向量以及槽所属槽位的槽位向量；
72.确定槽的领域向量和槽位向量的和值，得到槽的槽向量。
73.在另一种可能的实现方式中，基于第二音频向量的维度，确定第一音频对的音频标签，包括：
74.若第二音频向量的维度为第一维度，确定第一音频对的音频标签为第一标签，第一标签用于表示第一音频对的意图参数不满足预设参数；
75.若第二音频向量的维度为第二维度，确定第一音频对的音频标签为第二标签，第二标签用于表示第一音频对的意图参数满足预设参数。
76.在另一种可能的实现方式中，基于至少一个第二音频对，确定第一对话对象的目标意图信息，包括：
77.基于至少一个第二音频对的第一音频向量，确定目标音频向量；
78.获取多个槽中每个槽的槽向量和第一对话音频，第一对话音频包括多个第一音频对；
79.基于目标音频向量、槽的槽向量和第一对话音频的第四音频向量，确定槽的意图信息；
80.基于每个槽的意图信息，确定目标意图信息。
81.在另一种可能的实现方式中，基于目标音频向量、槽的槽向量和第一对话音频的第四音频向量，确定槽的意图信息，包括：
82.基于目标音频向量、槽的槽向量和第一对话音频的第四音频向量，确定槽的意图向量和预测意图值；
83.基于槽的意图向量，确定槽的意图类型；
84.基于槽的意图类型和预测意图值，确定槽的实际意图值，得到槽的意图信息。
85.本技术实施例提供了一种意图信息确定方法，该方法先确定每个音频对的音频标签，由于音频标签可以反映该音频对的意图参数，因此，根据每个音频对的音频标签可以从多个音频对中过滤掉意图参数不满足条件的音频对，也即冗余的音频对，得到满足条件的音频对，根据满足条件的音频对来确定目标意图信息，以此来避免冗余信息的干扰，准确生成目标意图信息，从而提高确定的目标意图信息的准确性。
86.在本技术实施例中，电子设备可以直接根据多个第一音频对来确定目标意图信息，也可以通过意图信息确定模型来确定目标意图信息，对此不作具体限定。这里先以电子设备直接根据多个第一音频对来确定目标意图信息为例进行说明。
87.图3是本技术实施例提供的一种意图信息确定方法的流程图，由电子设备执行，参见图 3，该方法包括：
88.步骤301：电子设备获取多个第一音频对。
89.该第一音频对为第一对话对象与第二对话对象的对话音频。在本技术实施例中，第二对话对象可以根据第一对话对象的需求为第一对话对象提供服务，完成任务。由于第一对话对象可能并不会一次全部说出自己的需求，且在对话过程中第一对话对象可能会更改自己的需求，因此，第二对话对象可能需要与第一对话对象进行多轮对话，则该第一音频对为第二对话对象与第一对话对象每轮进行对话的音频，且第一音频对的开始音频为第二对话对象的音频，结束音频为第一对话对象的音频。
90.其中，第一对话对象可以为任一用户，第二对话对象为电子设备内部嵌入的具有语音功能的模块，在此对第一对话对象和第二对话对象不作具体限定。若第一对话对象为用户，第二对话对象为终端中的语音助手，则第一音频对为开始音频为该语音助手说话的音频，结束音频为用户说话的音频。
91.本步骤中，电子设备可以通过以下实现方式获取多个第一音频对，该过程为：电子设备获取第一对话音频，根据第一对话音频确定多个第一音频对。该第一对话音频为第二对话对象完成当前任务过程中，与第一对话对象的新一轮对话开始之前，与第一对话对象进行对话的历史对话音频。
92.该实现方式中，电子设备可以将第一对话音频中的多轮对话，按照开始音频为第二对话对象说话的音频，结束音频为第一对话对象说话的音频进行划分，得到对话历史列表，该对话历史列表包括多个第一音频对。
93.例如，第一对话音频h＝[r1，u1，r2，u2……
，r
t
，u
t
]，对话历史列表 h＝[(r1，u1)，(r2，u2)
……
，(r
t
，u
t
)]，其中h表示第一对话音频，r1表示第一轮对话时第二对话对象的音频，u1表示第一轮对话时第一对话对象的音频，r
t
表示第t轮对话时第二对话对象的音频，u
t
表示第t轮对话时第一对话对象的音频，(r1，u1)、(r2，u2)
……
(r
t
，u
t
) 为第一音频对，第t轮对话为截止到当前时间为止的最后一轮对话。
[0094]
步骤302：电子设备确定多个槽中每个槽的槽向量。
[0095]
本步骤中，对于每个槽，电子设备确定该槽所属领域的领域向量以及该槽所属槽位的槽位向量，确定该槽的领域向量和槽位向量的和值，得到该槽的槽向量。
[0096]
电子设备可以先确定该槽所属的领域，确定该领域对应的领域编码，根据该领域编码确定领域向量。相应的，电子设备确定该槽所属的槽位，确定该槽位对应的槽位编码，根据该槽位编码确定槽位向量。由此可知，电子设备采用领域编码和槽位编码叠加的方式来构建槽向量。
[0097]
例如，槽向量可以表示为sj＝embedding(dp) embedding(sq)，其中，sj表示第j个槽的槽向量，j为槽的序号，embedding(dp)表示领域向量，embedding(sq)表示槽位向量，j为大于0的整数。
[0098]
步骤303：电子设备确定多个第一音频对的上下文向量。
[0099]
本步骤中，电子设备可以通过以下步骤(1)至(4)来确定上下文向量，包括：
[0100]
(1)电子设备基于第一音频对中每个词的词向量，确定第一音频对中每个词的概率分布。
[0101]
第一音频对中包括多个词，电子设备可以以词为单位，将第一音频对进行划分，得到多个词，确定每个词对应的词向量，该词向量为编码后的词向量。对于每个词，电子设备
将该词对应的词向量进行转换，得到转换后的词向量，根据每个词转换后的词向量，确定每个词的概率分布。
[0102]
该实现方式中，电子设备可以通过预设转换函数将词向量进行转换，得到转换后的词向量。然后确定以第一数值为底数，以每个词转换后的词向量与第二数值的乘积为指数的值的和值，再确定以第一数值为底数，以每个词转换后的词向量与第二数值的乘积为指数的值与该和值的比值，从而得到每个词的概率分布。
[0103]
例如，电子设备通过以下关系式将词向量进行转换：u
im
表示第i个第一音频对中第m个词转换后的词向量，tanh()表示预设转换函数，表示第i 个第一音频对中第m个词转换前的词向量，w1和b1表示转换参数，i和m均为大于0的整数。电子设备通过以下关系式确定每个词的概率分布：α
im
表示第i 个第一音频对中第m个词的概率，n为第i个第一音频对中包括的词的总数量，第一数值为自然底数e，第二数值为uw。
[0104]
(2)电子设备基于第一音频对中每个词的概率分布，确定第一音频对的句子向量。
[0105]
电子设备可以确定每个词的概率与其对应的词向量的乘积的和值，得到第一音频对的句子向量。
[0106]
例如，电子设备可以通过以下关系式确定第一音频对的句子向量：si表示第i个第一音频对的句子向量。
[0107]
(3)电子设备基于第一音频对的句子向量，确定多个第一音频对中每个第一音频对的概率分布。
[0108]
电子设备可以对第一音频对的句子向量进行转换，得到转换后的句子向量，根据转换后的句子向量，确定每个第一音频对的概率分布。
[0109]
电子设备确定以第三数值为底数，每个第一音频对的句子向量与第四数值的乘积的值的和值，再确定以第三数值为底数，每个第一音频对的句子向量与第四数值的乘积为指数的值与该和值的比值，得到每个第一音频对的概率分布。
[0110]
例如，电子设备通过以下关系式对第一音频对的句子向量进行转换： ri＝tanh(w2si b2)，ri表示第i个第一音频对转换后的句子向量，w2和b2表示转换参数。
[0111]
电子设备通过以下关系式确定每个第一音频对的概率分布：αi表示第i个第一音频对的概率分布，t表示第一音频对的总数量，第四数值为us，第三数值与第一数值可以相同或者不同，这里仅以第三数值与第一数值相同，均为自然底数e为例进行说明。
[0112]
(4)电子设备基于每个第一音频对的概率分布及其对应的句子向量，确定多个第
一音频对的上下文向量。
[0113]
电子设备确定每个第一音频对的概率及其对应的句子向量的乘积的和值，得到多个第一音频对的上下文向量，该上下文向量用于表示多个第一音频对所处的上下文语境。
[0114]
例如，电子设备通过以下关系式确定上下文向量：c表示上下文向量。
[0115]
在本技术实施例中，使用层次编码的结构来确定多个第一音频对的上下文向量，首先使用词级别的注意力将每个第一音频对构建成句子向量，然后进一步编码句子向量，并使用句级别的注意力将所有句子向量融合起来构建成当前所需的上下文向量，从而辅助判断第一音频对的音频标签。
[0116]
步骤304：对于每个第一音频对，电子设备确定该第一音频对的第一音频向量。
[0117]
本步骤中，电子设备可以通过以下步骤(1)至(3)确定第一音频对的第一音频向量，包括：
[0118]
(1)电子设备对该第一音频对进行编码，得到第三音频向量。
[0119]
电子设备可以采用双向gru(gate recurrent unit，门控循环单元)结构，对该第一音频对进行编码。该过程可以为：电子设备可以基于预先训练好的glove向量(global vectors fbrword representation，全局的词向量表示)和char向量，确定该第一音频对中每个词的词向量，该词向量为glove向量和char向量组合得到的，然后将该词向量送入双向gru编码器中进行编码，得到第三音频向量，该第三音频向量为第一音频对中多个词编码后的词向量组成的词向量序列。
[0120]
例如，电子设备可以通过以下关系式表示编码前任一词的词向量：
ꢀꢀ
表示第i个第一音频对中第m个词的词向量，电子设备可以通过以下关系式来表示第三音频向量：hi表示第三音频向量，表示第i个第一音频对中第m个词编码后的词向量。
[0121]
需要说明的一点是，电子设备还可以对第一对话音频进行编码，确定第一对话音频的第四音频向量，该过程与确定第一音频对的第三音频向量的过程相似，也是确定第一对话音频中每个词的词向量，然后将该词向量送入双向gru编码器中进行编码，得到第四音频向量。
[0122]
例如，第四音频向量可以表示为： h表示第四音频向量， wq表示第一对话音频中第q个词编码后的词向量，z表示第一对话音频中词的总数量，q和z 均为大于0的整数。
[0123]
(2)电子设备基于第三音频向量和每个槽的槽向量，确定每个槽在该第一音频对的每个向量维度上的概率分布。
[0124]
对于每个第一音频对，电子设备确定该第一音频对的第三音频向量在每个向量维度上的子向量，对于每个槽，确定以第五数值为底数，该槽的槽向量与该第一音频对的每
个向量维度上的子向量的乘积为指数的值的和值，确定以第五数值为底数，该槽的槽向量与该第一音频对的每个向量维度上的子向量的乘积的值与该和值的比值，得到该槽在该第一音频对的每个向量维度上的概率分布。
[0125]
例如，电子设备通过以下关系式确定每个槽在每个第一音频对的每个向量维度上的概率分布：α
iv
表示第i个第一音频对在第v个向量维度上的概率，表示第i个第一音频对在第v个向量维度上的子向量，v表示该第一音频对的总向量维度，sj表示第i个槽的槽向量，v和v均为大于0的整数。
[0126]
(3)电子设备基于每个槽在该第一音频对的每个向量维度上的概率分布以及第三音频向量，确定第一音频向量。
[0127]
对于每个槽和每个第一音频对，电子设备确定该槽在该第一音频对的每个向量维度上的概率与第三音频向量的乘积的和值，得到该第一音频对与该槽相关的第一音频向量。
[0128]
例如，电子设备通过以下关系式确定第一音频对与每个槽相关的第一音频向量：其中，h
′i表示第i个第一音频对与槽sj相关的第一音频向量。
[0129]
需要说明的一点是，步骤304的步骤(1)中得到的第三音频向量与槽无关，而不同的槽对同一个第一音频对所关注的信息是不同的，因此，在本技术实施例中，引入注意力机制，借助槽向量来更新第一音频对的音频向量，从而获得与每个槽相关的每个第一音频对的第一音频向量。
[0130]
需要说明的另一点是，由于需要根据槽的槽向量确定第一音频对相对于槽的第一音频向量，因此，在本技术实施例中，电子设备先确定每个槽的槽向量，再确定每个第一音频对相对于每个槽的第一音频向量，至于电子设备确定多个第一音频对的上下文向量与每个槽的槽向量的先后顺序可以根据需要进行设置并更改，例如，电子设备先确定多个第一音频对的上下文向量，再确定每个槽的槽向量，或者，电子设备先确定每个槽的槽向量，再确定多个第一音频对的上下文向量。
[0131]
步骤305：电子设备基于每个槽的槽向量、多个第一音频对的上下文向量以及该第一音频对的第一音频向量，确定第二音频向量。
[0132]
本步骤中，对于每个槽和每个第一音频对，电子设备可以将该槽的槽向量、多个第一音频对的上下文向量和该第一音频对的第一音频向量进行拼接，得到拼接后的向量，然后对拼接后的向量依次进行激活处理和归一化处理，得到该第一音频对相对于该槽的第二音频向量。
[0133]
例如，电子设备通过以下关系式确定第二音频向量：l
ij
＝softmax(relu(w3·
[h
′i，sj，c]))，l
ij
表示第i个第一音频对相对于第j个槽的第二音频向量，softmax()表示归一化函数，relu()表示激活函数，w3表示参数。
[0134]
步骤306：电子设备基于第二音频向量的维度，确定第一音频对的音频标签。
[0135]
对于每个槽和每个第一音频对，若该第一音频对相对于该槽的第二音频向量的维度为第一维度，电子设备确定该第一音频对相对于槽的音频标签为第一标签，该第一标签用于表示该第一音频对的意图参数不满足预设参数。
[0136]
若该第一音频对相对于该槽的第二音频向量的维度为第二维度，电子设备确定该第一音频对相对于该槽的音频标签为第二标签，该第二标签用于表示该第一音频对的意图参数满足预设参数。
[0137]
在本技术实施例中，第一维度可以为0维，第二维度可以为1维，通过二分类从多个第一音频对中筛选出满足条件的第一音频对。预设参数可以根据需要进行设置并更改，在本申请实施例中，对此不作具体限定。
[0138]
在本技术实施例中，电子设备可以通过对第一音频对进行二分类标注，来判断每个第一音频对相对于每个槽在特定对话上下文情况下是否表现为有用，也即第一音频对的意图参数不满足预设参数时，电子设备确定该第一音频对相对于该槽的标签为无用标签，第一音频对的意图参数满足预设参数时，电子设备确定该第一音频对相对于该槽的标签为有用标签，这样可以在一定程度上去除冗余的第一音频对，从而提高确定的意图信息的准确性。
[0139]
参见图4，从图4中可以看出：电子设备先确定词向量，基于词向量确定句子向量，基于句子向量，确定上下文向量。根据上下文向量、槽向量和第一音频向量，确定第二音频向量，基于第二音频向量的维度，确定第一音频对的音频标签。
[0140]
步骤307：电子设备基于每个第一音频对的音频标签，从多个第一音频对中过滤掉意图参数不满足预设参数的第一音频对，得到至少一个第二音频对。
[0141]
电子设备可以从多个第一音频对中过滤掉意图参数不满足预设参数的第一音频对，得到意图参数满足预设参数的至少一个第二音频对，也即从多个第一音频对中筛选出有用标签的至少一个第二音频对。
[0142]
步骤308：电子设备基于至少一个第二音频对的第一音频向量，确定目标音频向量。
[0143]
对于每个槽，电子设备可以确定至少一个第二音频对相对于该槽的第一音频向量的和值，得到至少一个第二音频对相对于该槽的目标音频向量。
[0144]
在本技术实施例中，电子设备也可以直接基于每个第一音频对的音频标签和第一音频向量，确定目标音频向量，相应的，步骤307和308可以替换为：对于每个槽，电子设备基于每个第一音频对相对于该槽的音频标签，确定每个第一音频对相对于该槽的音频标签值，若该第一音频对相对于该槽的音频标签为第一标签，也即无用标签，则确定该第一音频对相对于该槽的音频标签值为0，若该第一音频对相对于该槽的音频标签为第二标签，也即有用标签，则确定该第一音频对相对于该槽的音频标签值为1，然后确定每个第一音频对相对于该槽的第一音频向量与其音频标签值的乘积的和值，得到多个第一音频对相对于该槽的目标音频向量。
[0145]
该实现方式中，电子设备可以通过以下关系式来确定目标音频向量： h
select
表示多个第一音频对相对于槽sj的目标音频向量，l
ij
表示第i
个第一音频对相对于第 j个槽的音频标签值，h
′i表示第i个第一音频对相对于槽sj的第一音频向量。
[0146]
步骤309：电子设备获取多个槽中每个槽的槽向量和第一对话音频。
[0147]
电子设备可以获取步骤302中得到的每个槽的槽向量，获取步骤301中得到的第一对话音频。
[0148]
步骤310：电子设备基于目标音频向量、该槽的槽向量和第一对话音频的第四音频向量，确定该槽的意图信息。
[0149]
本步骤可以通过以下步骤(1)至(3)实现，包括：
[0150]
(1)对于每个槽，电子设备基于目标音频向量、该槽的槽向量和第一对话音频的第四音频向量，确定该槽的意图向量和预测意图值。
[0151]
电子设备确定该槽的意图向量的过程可以为：电子设备将目标音频向量和该槽的槽向量输入解码器中，该解码器借助注意力机制在解码第一步时生成第一隐向量，基于第一隐向量和第一对话音频的第四音频向量，确定第一概率，基于第一概率与第一对话音频的第四音频向量，确定该槽的意图向量，第一概率可以表示第一对话音频中每个词的重要性，第一概率越大，说明该词越重要，则基于第一概率与第四音频向量得到的意图向量为第一对话音频中重要的词组合后得到的向量。
[0152]
例如，电子设备可以通过以下关系式将目标音频向量和该槽的槽向量输入解码器中：解码器第一步解码时输入的为槽向量sj，h
j(k-1)
为h
select
，第一步解码后得到的第一隐向量为h
j1
。
[0153]
电子设备确定第一隐向量和第四音频向量的乘积，然后对该乘积值进行归一化处理，得到第一概率。例如，电子设备通过以下关系式确定第一概率：：表示第1步解码后第j个槽的第一概率。
[0154]
电子设备确定第一概率与第四音频向量的乘积，得到该槽的意图向量。例如，电子设备通过以下关系式确定该槽的意图向量：c
j1
表示第1步解码后第j个槽的意图向量。
[0155]
电子设备确定预测意图值的过程可以为：解码器根据目标音频向量和该槽的槽向量，借助注意力机制在完全解码后生成第二隐向量和第三隐向量，基于第二隐向量和第一对话音频的第四音频向量，确定每个词在第一对话音频中的第二概率，基于第二隐向量和预设词表，确定每个词在预设词表中的第三概率。基于第二概率和第四音频向量，确定第五音频向量，基于第三隐向量、该第三隐向量的上一步解码得到的第四隐向量以及第五音频向量，确定转换概率，基于转换概率、第二概率以及第三概率，确定预测意图值。
[0156]
该实现方式中，电子设备可以确定第二隐向量和第四音频向量的乘积，然后对该乘积值进行归一化处理，得到第二概率，该第二概率用于表示每个词在第一对话音频中的生成概率。例如，电子设备通过以下关系式确定第二概率：电子设备通过以下关系式确定第二概率：表示第k步解码后第j个槽的第二概率，k为解码器的解码总步数，h表示第四音频向量，h
jk
表示第k步解码后得到的第二隐向量，softmax()表示归一化函数。
[0157]
电子设备可以确定第二隐向量和预设词表的词表向量的乘积，然后对该乘积值进
行归一化处理，得到第三概率，该第三概率用于表示每个词在预设词表中的生成概率。例如，电子设备通过以下关系式确定第三概率：设备通过以下关系式确定第三概率：表示第k步解码后第j个槽的第三概率，e表示预设词表的词表向量。
[0158]
电子设备可以确定第二概率与第四音频向量的乘积，得到第五音频向量。例如，电子设备通过以下关系式确定第五音频向量：c
jk
表示第k步解码后第j个槽的第五音频向量。
[0159]
电子设备将第三隐向量、该第三隐向量的上一步解码得到的第四隐向量以及第五音频向量进行拼接，得到拼接后的向量，对该拼接后的向量进行激活处理，得到转换概率，该转换概率用于表示从预设词表中生成词还是从第一对话音频中生成词。例如，电子设备通过以下关系式确定转换概率：关系式确定转换概率：表示第k步解码后第j个槽的转换概率，表示第k步解码后第j个槽的第三隐向量，表示第(k-1) 步解码后第j个槽的第四隐向量，w4表示参数，sigmoid()表示激活函数。
[0160]
电子设备确定转换概率与第三概率的乘积，得到第一乘积值，确定第六数值与转换概率的差值，确定该差值与第二概率的乘积，得到第二乘积值，确定第一乘积值和第二乘积值的和值，得到预测意图值，该预测意图值用于表示每个词的概率分布。第六数值可以根据需要进行设置并更改，这里仅以第六数值为1为例进行说明。例如，电子设备通过以下关系式确定预测意图值：定预测意图值：表示预测意图值。
[0161]
电子设备得到预测意图值后，可以根据每个词的概率分布，将概率较大的多个词进行组合，得到组合后的词。
[0162]
(2)电子设备基于该槽的意图向量，确定该槽的意图类型。
[0163]
在本技术实施例中，电子设备可以预设划分五个意图类型，这五个意图类型分别为“ptr”、
ꢀ“
none”、“dontcare”、“yes”以及“no”，然后对该槽的意图向量进行归一化处理，得到该槽的意图类型分布。
[0164]
例如，电子设备通过以下关系式确定该槽的意图类型分布：gj＝softmax(w5·cj1
)，gj表示第j个槽的意图类型分布，w5表示参数。
[0165]
(3)电子设备基于该槽的意图类型和预测意图值，确定该槽的实际意图值，得到该槽的意图信息。
[0166]
电子设备将该意图类型分布中概率最大的意图类型作为该槽的意图类型。
[0167]
若该槽的意图类型为“ptr”类型，则电子设备将根据该预测意图值组合后得到的词作为该槽的实际意图值，得到该槽的意图信息。
[0168]
若该槽的意图类型为“none”、“dontcare”、“yes”和“no”中的任一种，则电子设备将该意图类型值作为该槽的实际意图值，得到该槽的意图信息。该槽的意图信息包括：该槽所属的领域、槽位及实际意图值，可以通过领域-槽位-实际意图值这样的三元组来描述，其中，领域为预设的多个领域中其中一个，槽位为预设的多个槽位中的其中一个。
[0169]
步骤311：电子设备基于每个槽的意图信息，确定目标意图信息。
[0170]
该目标意图信息为第一对话对象的意图信息，电子设备可以将多个槽的意图信息组合起来，得到该目标意图信息，该目标意图信息可以表示为：bf＝{b1，b2，
…
，bf}，bf表示目标意图信息，b1、b2、
……bf
为多个槽的意图信息。
[0171]
参见图5，从图5中可以看出：电子设备基于音频标签确定的目标音频向量、槽向量和第四音频向量，确定每个槽的意图类型和预测意图值，根据意图类型和预测意图值，确定实际意图值。
[0172]
本技术实施例提供了一种意图信息确定方法，该方法先确定每个音频对的音频标签，由于音频标签可以反映该音频对的意图参数，因此，根据每个音频对的音频标签可以从多个音频对中过滤掉意图参数不满足条件的音频对，也即冗余的音频对，得到满足条件的音频对，根据满足条件的音频对来确定目标意图信息，以此来避免冗余信息的干扰，准确生成目标意图信息，从而提高确定的目标意图信息的准确性。
[0173]
本技术实施例以电子设备通过意图信息确定模型来确定目标意图信息为例进行说明。
[0174]
图6是本技术实施例提供的一种意图信息确定方法的流程图，由电子设备执行，参见图 6，该方法包括：
[0175]
步骤601：电子设备获取多个第一音频对。
[0176]
本步骤与步骤301相同，这里不再赘述。
[0177]
步骤602：电子设备将多个第一音频对输入意图信息确定模型中，得到目标意图信息。
[0178]
电子设备将多个第一音频对输入意图信息确定模型中，意图信息确定模型用于确定每个第一音频对的音频标签，基于每个第一音频对的音频标签，从多个第一音频对中过滤掉意图参数不满足预设参数的第一音频对，得到至少一个第二音频对，基于至少一个第二音频对，确定目标意图信息。
[0179]
其中，电子设备通过意图信息确定模型确定每个第一音频对的音频标签的过程与电子设备执行上述步骤302-306的过程相同，电子设备得到至少一个第二音频对的过程与电子设备执行步骤307的过程相同，电子设备基于至少一个第二音频对，确定目标意图信息的过程与电子设备执行步骤308-311的过程相同，这里不再赘述。
[0180]
在本技术实施例中，该意图信息确定模型可以由该电子设备训练得到，也可以由其他电子设备训练得到，然后该电子设备使用该模型来确定目标意图信息，对此不作具体限定，这里仅以该电子设备训练得到该意图信息确定模型为例进行说明。
[0181]
电子设备训练得到意图信息确定模型的过程可以为：电子设备获取多个样本音频对和样本意图信息，该样本音频对为第一样本对象与第二样本对象的对话音频，基于该多个样本音频对和样本意图信息，进行模型训练，得到意图信息确定模型。
[0182]
该实现方式中，电子设备可以获取每个样本音频对的真实音频标签，每个样本音频对相对于每个槽的真实意图值以及每个槽的真实意图类型，然后将该多个样本音频对输入初始模型中，通过该初始模型预测该多个样本音频对的音频标签，并且，基于该初始模型预测的音频标签，确定意图参数满足预设参数的至少一个样本音频对，根据该至少一个样本音频对，确定每个样本音频对相对于每个槽的预测意图值以及每个槽的预测意图类型。
[0183]
该初始模型可以包括：音频标签模块、意图生成模块和意图类型模型，其中，音频标签模块的损失函数可以为：lh表示音频标签模块的损失值， n表示槽的总数量，l
′
ij
表示预测音频标签，表示真实音频标签。
[0184]
意图生成模块的损失函数可以为：l
p
表示意图生成模块的损失值，p
′
jk
表示预测意图值，表示真实意图值。
[0185]
意图类型模块的损失函数可以为：lg表示意图类型模块的损失值，g
′j表示预测意图类型，表示真实意图类型。
[0186]
在模型训练过程中，电子设备将这三个模块一起进行联合训练，也即根据真实音频标签、预测音频标签、真实意图值、预测意图值、真实意图类型以及预测意图类型进行模型训练，直至迭代次数达到预设迭代次数或者总损失值最小，该损失值为三个模块的损失值之和，也即l＝l
p
lg lh最小，其中，l为总损失值。
[0187]
其中，电子设备在训练模型时，可以使用multiwoz数据集，其中，训练集包括56668 个样本，验证集包括7374个样本，测试集包括7368个样本，训练集、验证集和测试集的样本比例约为8∶1∶1。
[0188]
在本技术实施例中，在对话状态追踪任务中，也即确定意图信息的过程中更加细粒度的分析和利用历史对话音频，利用对话固有的结构关系来进行模型训练，并借助于对历史对话音频的有用性判别降低对话历史中冗余信息对于对话状态追踪任务的干扰，实现更加准确稳定地对话状态追踪。
[0189]
本技术实施例提供了一种意图信息确定方法，该方法将多个第一音频对输入意图信息确定模型中，通过该意图信息确定模型来确定每个音频对的音频标签，由于音频标签可以反映该音频对的意图参数，因此，根据每个音频对的音频标签可以从多个音频对中过滤掉意图参数不满足条件的音频对，也即冗余的音频对，得到满足条件的音频对，根据满足条件的音频对来确定目标意图信息，以此来避免冗余信息的干扰，准确生成目标意图信息，从而提高确定的目标意图信息的准确性。
[0190]
接下来将通过实验数据来表征本技术实施例提供的意图信息确定模型的性能。
[0191]
第一，音频标签模块的性能表现
[0192]
音频标签模块主要用于确定每个音频对在特定上下文情况下对于某个槽的有用性判别，可以看作一个分类子任务，因此，通过经典的分类指标准确率、召回率和f1值来衡量该方面的性能表现。参见表1，从表1中可以看出：准确率、召回率和f1值分别达到了89.01％、88.53％、 88.77％的性能表现，可以达到预期。
[0193]
表1 音频标签模块的性能表现
[0194]
准确率(％)召回率(％)f1(％)
89.0188.5388.77
[0195]
参见图7，图7为pr曲线，该pr曲线为准确率与召回率的关系曲线，该曲线的面积越大，越接近1，说明性能越好，从图7中可以看出：该曲线的面积为0.94，面积较大，说明该模型的性能较好。
[0196]
第二，意图类型模块的性能表现
[0197]
在本技术实施例中，将意图类型扩展为了五分类类型，参见表2，表2为三分类类型的性能与五分类类型的性能的对比，从表2中可以看出：该模型在新增两个类型的情况下，并没有损耗在其他三个类型上的分类性能，反而由于更加细致的分类，减少了其他类型在分类时的干扰，在一定程度上优化了意图类型预测情况。
[0198]
表2 意图类型模块的性能表现
[0199][0200][0201]
第三，模型整体性能表现
[0202]
在分析模型整体性能表现时，重点关注两个评价指标，一个是联合准确率，一个是槽预测准确率。
[0203]
其中，
[0204][0205]
联合准确率统计的是意图信息完全预测预测正确的样本个数占比，槽预测准确率统计的是平均每个样本中意图信息预测的准确率。如表3所示，为本技术提供的模型与其它几种模型的性能对比，从表3中可以看出：相较于其他几种模型，本技术提供的模型的联合准确率为50.01％，槽预测准确率为97.18％，本技术提供的模型取得了更好的实验结果。
[0206]
表3 各模型整体性能表现
[0207]
模型联合准确率(％)槽预测准确率(％)glad35.5795.44neural reading41.10
‑‑
sumbt46.6596.44trade*47.8696.85comer48.79
‑‑
本技术提供的模型50.0197.18
[0208]
联合准确率是一个非常严苛的评价指标，尽管不同的方法在槽预测准确率上相差不大，但是在联合准确率上却有比较明显的差别，这也体现了对话状态追踪中对于预测意图信息完整性上的一点要求，希望该方法可以尽可能完整而准确地预测出当前的全部对话状态，也即目标意图信息。
[0209]
进一步地，我们还计算了本技术实施例提供的方法在数据集的五个领域上分别表现出来的性能。参见表4，从表4中可以看出：与trade模型相比，该模型在五个领域上的性能表现均有所提升，其中以taxi领域的提升尤为显著，在联合准确率上有将近20％的提升，并且，在其他四个领域上，也有2％～4％不同程度上的提升。
[0210]
表4 不同领域下的整体性能表现
[0211][0212]
第四，不同长度对话下模型性能表现
[0213]
本技术实施例提供的方法主要是实现对对话音频中有用信息的提取，尽可能减少冗余信息的干扰，这里以对话的轮次为依据对对话音频做了划分，以此来分析模型的性能。参见表 5，从表5中可以看出：本技术提供的模型在更长的对话轮次情况下表现出了更好的性能。
[0214]
表5 不同长度对话下模型的性能表现
[0215][0216]
综上所述，本技术实施例提供的方法通过每个音频对对于每个槽在特定上下文情况下的有用性判别，实现对于有用信息的筛选，从而去除冗余信息，提高了确定的意图信息的准确性。并且，在槽值类型判断阶段，使用五分类的判断模块有效改善了槽值类型判断阶段的性能表现。
[0217]
图8是本技术实施例提供的一种意图信息确定装置的结构示意图，参见图8，该装置包括：
[0218]
第一获取模块801，用于获取多个第一音频对，第一音频对为第一对话对象与第二对话对象的对话音频；
[0219]
第一确定模块802，用于确定每个第一音频对的音频标签，音频标签用于表示第一音频对的意图参数；
[0220]
过滤模块803，用于基于每个第一音频对的音频标签，从多个第一音频对中过滤掉意图参数不满足预设参数的第一音频对，得到至少一个第二音频对；
[0221]
第二确定模块804，用于基于至少一个第二音频对，确定第一对话对象的目标意图信息。
[0222]
在一种可能的实现方式中，第一确定模块802，用于确定多个槽中每个槽的槽向量以及多个第一音频对的上下文向量，上下文向量用于表示多个第一音频对所处的上下文语境；对于每个第一音频对，确定第一音频对的第一音频向量，第一音频向量用于表示第一音频对与槽的关联关系；基于每个槽的槽向量、多个第一音频对的上下文向量以及第一音频对的第一音频向量，确定第二音频向量；基于第二音频向量的维度，确定第一音频对的音频标签。
[0223]
在另一种可能的实现方式中，第一确定模块802，用于对第一音频对进行编码，得到第三音频向量；基于第三音频向量和每个槽的槽向量，确定每个槽在第一音频对的每个向量维度上的概率分布；基于每个槽在第一音频对的每个向量维度上的概率分布以及第三音频向量，确定第一音频向量。
[0224]
在另一种可能的实现方式中，第一确定模块802，用于基于第一音频对中每个词的词向量，确定第一音频对中每个词的概率分布；基于第一音频对中每个词的概率分布，确定第一音频对的句子向量；基于第一音频对的句子向量，确定多个第一音频对中每个第一音频对的概率分布；基于每个第一音频对的概率分布及其对应的句子向量，确定多个第一音频对的上下文向量。
[0225]
在另一种可能的实现方式中，第一确定模块802，用于确定槽所属领域的领域向量以及槽所属槽位的槽位向量；确定槽的领域向量和槽位向量的和值，得到槽的槽向量。
[0226]
在另一种可能的实现方式中，第一确定模块802，用于若第二音频向量的维度为第一维度，确定第一音频对的音频标签为第一标签，第一标签用于表示第一音频对的意图参数不满足预设参数；若第二音频向量的维度为第二维度，确定第一音频对的音频标签为第二标签，第二标签用于表示第一音频对的意图参数满足预设参数。
[0227]
在另一种可能的实现方式中，第二确定模块804，用于基于至少一个第二音频对的第一音频向量，确定目标音频向量；获取多个槽中每个槽的槽向量和第一对话音频，第一对话音频包括多个第一音频对；基于目标音频向量、槽的槽向量和第一对话音频的第四音频向量，确定槽的意图信息；基于每个槽的意图信息，确定目标意图信息。
[0228]
在另一种可能的实现方式中，第二确定模块804，用于基于目标音频向量、槽的槽向量和第一对话音频的第四音频向量，确定槽的意图向量和预测意图值；基于槽的意图向量，确定槽的意图类型；基于槽的意图类型和预测意图值，确定槽的实际意图值，得到槽的意图信息。
[0229]
本技术实施例提供了一种意图信息确定装置，该装置先确定每个音频对的音频标签，由于音频标签可以反映该音频对的意图参数，因此，根据每个音频对的音频标签可以从多个音频对中过滤掉意图参数不满足条件的音频对，也即冗余的音频对，得到满足条件的音频对，根据满足条件的音频对来确定目标意图信息，以此来避免冗余信息的干扰，准确生成目标意图信息，从而提高确定的目标意图信息的准确性。
[0230]
图9是本技术实施例提供的一种意图信息确定装置的结构示意图，参见图9，该装置包括：
[0231]
第二获取模块901，用于获取多个第一音频对，第一音频对为第一对话对象与第二对话对象的对话音频；
[0232]
输入模块902，用于将多个第一音频对输入意图信息确定模型中，得到第一对话对象的目标意图信息；
[0233]
意图信息确定模型用于确定每个第一音频对的音频标签，音频标签用于表示第一音频对的意图参数，基于每个第一音频对的音频标签，从多个第一音频对中过滤掉意图参数不满足预设参数的第一音频对，得到至少一个第二音频对，基于至少一个第二音频对，确定目标意图信息。
[0234]
在一种可能的实现方式中，装置还包括：
[0235]
第三获取模块，用于获取多个样本音频对和样本意图信息，样本音频对为第一样本对象与第二样本对象的对话音频；
[0236]
训练模块，用于基于多个样本音频对和样本意图信息，进行模型训练，得到意图信息确定模型。
[0237]
本技术实施例提供了一种意图信息确定装置，该装置将多个第一音频对输入意图信息确定模型中，通过该意图信息确定模型来确定每个音频对的音频标签，由于音频标签可以反映该音频对的意图参数，因此，根据每个音频对的音频标签可以从多个音频对中过滤掉意图参数不满足条件的音频对，也即冗余的音频对，得到满足条件的音频对，根据满足条件的音频对来确定目标意图信息，以此来避免冗余信息的干扰，准确生成目标意图信息，从而提高确定的目标意图信息的准确性。
[0238]
需要说明的是：上述实施例提供的意图信息确定装置在确定意图信息时，仅以上
述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的意图信息确定装置与意图信息确定方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
[0239]
若电子设备提供为终端，参见图10，图10示出了本技术一个示例性实施例提供的终端 1000的结构框图。该终端1000可以是：智能手机、平板电脑、mp3播放器(moving pictureexperts group audio layer iii，动态影像专家压缩标准音频层面3)、mp4(moving pictureexperts group audio layer iv，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
[0240]
通常，终端1000包括有：处理器1001和存储器1002。
[0241]
处理器1001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1001可以采用dsp(digital signal processing，数字信号处理)、fpga(field－programmablegate array，现场可编程门阵列)、pla(programmable logic array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称cpu(central processing unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器 1001可以在集成有gpu(graphics processing unit，图像处理器)，gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1001还可以包括ai(artificialintelligence，人工智能)处理器，该ai处理器用于处理有关机器学习的计算操作。
[0242]
存储器1002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1002中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器1001所执行以实现本申请中方法实施例提供的意图信息确定方法。
[0243]
在一些实施例中，终端1000还可选包括有：外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地，外围设备包括：射频电路1004、触摸显示屏1005、摄像头1006、音频电路1007、定位组件1008和电源1009 中的至少一种。
[0244]
外围设备接口1003可被用于将i/o(input/output，输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中，处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上；在一些其他实施例中，处理器1001、存储器1002 和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。
[0245]
射频电路1004用于接收和发射rf(radio frequency，射频)信号，也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电
路1004 包括：天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2g、3g、4g及 5g)、无线局域网和/或wifi(wireless fidelity，无线保真)网络。在一些实施例中，射频电路1004还可以包括nfc(near field communication，近距离无线通信)有关的电路，本技术对此不加以限定。
[0246]
显示屏1005用于显示ui(user interface，用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时，显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器 1001进行处理。此时，显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/ 或软键盘。在一些实施例中，显示屏1005可以为一个，设置终端1000的前面板；在另一些实施例中，显示屏1005可以为至少两个，分别设置在终端1000的不同表面或呈折叠设计；在再一些实施例中，显示屏1005可以是柔性显示屏，设置在终端1000的弯曲表面上或折叠面上。甚至，显示屏1005还可以设置成非矩形的不规则图形，也即异形屏。显示屏1005可以采用lcd(liquid crystal display，液晶显示屏)、oled(organic light-emitting diode，有机发光二极管)等材质制备。
[0247]
摄像头组件1006用于采集图像或视频。可选地，摄像头组件1006包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。
[0248]
音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1001进行处理，或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004 的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1007还可以包括耳机插孔。
[0249]
定位组件1008用于定位终端1000的当前地理位置，以实现导航或lbs(location basedservice，基于位置的服务)。定位组件1008可以是基于美国的gps(global positioning system，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
[0250]
电源1009用于为终端1000中的各个组件进行供电。电源1009可以是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
[0251]
在一些实施例中，终端1000还包括有一个或多个传感器1010。该一个或多个传感器1010 包括但不限于：加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。
[0252]
加速度传感器1011可以检测以终端1000建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1011可以用于检测重力加速度在三个坐标轴上的分量。处理器1001可以根据加速度传感器1011采集的重力加速度信号，控制触摸显示屏1005以横向视图或纵向视图进行用户界面的显示。加速度传感器1011还可以用于游戏或者用户的运动数据的采集。
[0253]
陀螺仪传感器1012可以检测终端1000的机体方向及转动角度，陀螺仪传感器1012可以与加速度传感器1011协同采集用户对终端1000的3d动作。处理器1001根据陀螺仪传感器 1012采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。
[0254]
压力传感器1013可以设置在终端1000的侧边框和/或触摸显示屏1005的下层。当压力传感器1013设置在终端1000的侧边框时，可以检测用户对终端1000的握持信号，由处理器 1001根据压力传感器1013采集的握持信号进行左右手识别或快捷操作。当压力传感器1013 设置在触摸显示屏1005的下层时，由处理器1001根据用户对触摸显示屏1005的压力操作，实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
[0255]
指纹传感器1014用于采集用户的指纹，由处理器1001根据指纹传感器1014采集到的指纹识别用户的身份，或者，由指纹传感器1014根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1001授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1014可以被设置终端 1000的正面、背面或侧面。当终端1000上设置有物理按键或厂商logo时，指纹传感器1014 可以与物理按键或厂商logo集成在一起。
[0256]
光学传感器1015用于采集环境光强度。在一个实施例中，处理器1001可以根据光学传感器1015采集的环境光强度，控制触摸显示屏1005的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1005的显示亮度；当环境光强度较低时，调低触摸显示屏1005的显示亮度。在另一个实施例中，处理器1001还可以根据光学传感器1015采集的环境光强度，动态调整摄像头组件1006的拍摄参数。
[0257]
接近传感器1016，也称距离传感器，通常设置在终端1000的前面板。接近传感器1016 用于采集用户与终端1000的正面之间的距离。在一个实施例中，当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变小时，由处理器1001控制触摸显示屏1005从亮屏状态切换为息屏状态；当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变大时，由处理器1001控制触摸显示屏1005从息屏状态切换为亮屏状态。
[0258]
本领域技术人员可以理解，图10中示出的结构并不构成对终端1000的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。
[0259]
若电子设备提供为终端和服务器，参见图11，图11是本技术实施例提供的一种服务器的结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，cpu)1101和一个或一个以上的存储器
1102，其中，该存储器1002中存储有至少一条程序代码，该至少一条程序代码指令由该处理器1001加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器1100还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1100还可以包括其他用于实现设备功能的部件，在此不做赘述。
[0260]
在示例性实施例中，还提供了一种计算机可读存储介质，例如包括程序代码的存储器，上述指令可由电子设备中的处理器执行以完成上述实施例中意图信息确定方法。例如，该计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0261]
在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现本技术实施例中意图信息确定方法。
[0262]
在一些实施例中，本技术实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
[0263]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
[0264]
以上所述仅为本技术的可选实施例，并不用以限制本技术，凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于通道注意力与时间卷积网络的句子级唇语识别方法

意图信息确定方法、装置、设备、存储介质及程序产品与流程

相关文献

最热文献