一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于提供对话服务的电子设备和方法与流程

2022-04-25 04:40:05 来源:中国专利 TAG:


1.本公开涉及用于提供对话服务的电子设备和方法,并且例如涉及用于基于用户的对话历史来解释用户话语输入并输出响应消息的方法和设备。


背景技术:

2.随着用于以复杂方式执行各种功能的电子设备(例如智能电话)的近来的发展,已经启动了配备有语音识别功能的电子设备以提高可操作性。语音识别技术可应用于对话用户接口,用于输出对由用户的语音以日常自然语言输入的问题的响应消息,以提供用户友好的对话服务。
3.对话用户界面是指在以用户的语言通话时操作的智能用户界面。对话用户界面可以用在用于输出对用户问题的回答的问题回答(qa)系统中。相比于用于简单地检索并呈现与用户问题相关的列表信息的信息检索技术,qa系统的不同之处在于:qa系统搜索并提供对用户问题的回答。
4.例如,诸如智能电话、计算机、个人数字助理(pda)、便携式多媒体播放器(pmp)、智能家用电器、导航设备、可穿戴设备等的个人电子设备可以通过连接到服务器或执行应用来提供对话服务。
5.作为另一个示例,安装在商店或公共机构中的诸如无人指导信息终端、无人亭、无人结账柜等的公共电子设备也可以提供对话服务。安装在公共场所中的公共电子设备需要为每个用户存储和使用对话历史,以便准确地分析用户话语输入并向其提供个性化的回答。


技术实现要素:

6.技术问题
7.当使用用于向多个用户提供对话服务的设备时,需要一种即使在用户发出与过去对话历史有关的话语时也能够从设备接收准确的个性化回答的方法。
8.技术方案
9.本公开的实施例提供了一种用于通过以更加用户友好的方式执行对与用户账户相关联的所存对话历史进行检索的过程来提供对话服务的方法和设备。
10.另外的方面将部分地在随后的描述中阐述,并且部分地将从描述中显而易见。
11.根据本公开的示例性实施例,由电子设备执行的提供对话服务的方法包括:接收话语输入;在从话语输入获得的文本中识别表示时间的时间表达式;基于时间表达式确定与话语输入相关的时间点;从多个数据库中选择与所确定的时间点对应的数据库,其中多个数据库存储使用对话服务的用户的对话历史信息;基于从所选择的数据库获取的、用户的对话历史信息来解释文本;基于解释的结果生成对话语输入的响应消息;输出所生成的响应消息。
附图说明
12.从以下结合附图的详细描述中,本公开的某些实施例的上述和其它方面、特征和优点将变得更加明显,其中:
13.图1是示出根据本公开的实施例的电子设备基于对话历史提供对话服务的示例的图;
14.图2a是示出根据本公开的实施例的用于提供对话服务的示例性系统的图;
15.图2b是示出根据本公开的实施例的用于提供对话服务的示例性系统的图;
16.图3是示出根据本公开的实施例的由电子设备执行的、提供对话服务的示例性方法的流程图;
17.图4a是示出根据本公开的实施例的电子设备基于对话历史提供对话服务的示例的图;
18.图4b是示出根据本公开的实施例的电子设备基于对话历史提供对话服务的示例的图;
19.图5是示出根据本公开的实施例的由电子设备执行的、提供对话服务的示例性过程的图;
20.图6是示出根据本公开的实施例的所存储的对话历史信息的示例的图;
21.图7a是示出根据本公开的实施例的由电子设备执行的、提供对话服务的示例性方法的流程图;
22.图7b是示出根据本公开的实施例的由电子设备执行的、提供对话服务的示例性方法的流程图;
23.图8是示出根据本公开的实施例的确定电子设备是否将使用对话历史信息生成响应的示例性方法的流程图;
24.图9是示出根据本公开的实施例的由电子设备执行的、基于用户话语输入来选择数据库的示例性方法的流程图;
25.图10是根据本公开的实施例的由电子设备确定与用户话语输入相关的时间点的示例性概率图;
26.图11是示出根据本公开的实施例的由电子设备执行的、切换其中存储用户的对话历史的数据库的示例性方法的图;
27.图12a是示出根据本公开的实施例的、多个电子设备彼此共享用户的对话历史的示例性过程的图;
28.图12b是示出根据本公开的实施例的、多个电子设备彼此共享用户的对话历史的示例性过程的图;
29.图12c是示出根据本公开的实施例的、多个电子设备彼此共享用户的对话历史的示例性过程的图;
30.图12d是示出根据本公开的实施例的、多个电子设备彼此共享用户的对话历史的示例性过程的图;
31.图13a是示出根据本公开的实施例的示例性电子设备的示例性配置的框图;
32.图13b是示出根据本公开的另一个实施例的示例性电子设备的示例性配置的框图;
33.图14是示出根据本公开的实施例的示例性电子设备的框图;
34.图15a是示出根据本公开的实施例的包括在示例性电子设备中的示例性处理器的框图;
35.图15b是示出根据本公开的实施例的包括在示例性电子设备中的示例性处理器的框图;
36.图16是示出根据本公开的实施例的示例性语音识别模块的框图;
37.图17是示出根据本公开的实施例的示例性时间表达式提取模型的图;以及
38.图18是示出根据本公开的实施例的示例性时间点预测模型的图。
具体实施方式
39.根据本公开的一个示例性实施例,由电子设备执行的提供对话服务的方法包括:接收话语输入;在从话语输入获得的文本中识别表示时间的时间表达式;基于时间表达式确定与话语输入相关的时间点;从多个数据库中选择与所确定的时间点对应的数据库,多个数据库存储使用对话服务的用户的对话历史信息;基于从所选择的数据库获取的、用户的对话历史信息来解释文本;基于解释的结果生成对话语输入的响应消息;输出所生成的响应消息。
40.根据本公开的另一个示例性实施例,配置成提供对话服务的电子设备包括:存储器,存储一个或多个指令;以及至少一个处理器,配置成执行一个或多个指令以向用户提供对话服务,其中至少一个处理器还配置成执行一个或多个指令以控制电子设备:接收话语输入;在从话语输入获得的文本中识别表示时间的时间表达式;基于时间表达式确定与话语输入相关的时间点;从多个数据库中选择与所确定的时间点对应的数据库,多个数据库存储关于使用对话服务的用户的对话历史的信息;基于从所选择的数据库获取的、用户的对话历史信息来解释文本;基于解释的结果生成对话语输入的响应消息;输出所生成的响应消息。
41.根据本公开的另一个示例性实施例,一个或多个非暂时性计算机可读记录介质中存储有用于执行提供对话服务的方法的程序,方法包括:接收话语输入;在从话语输入获得的文本中识别表示时间的时间表达式;基于时间表达式确定与话语输入相关的时间点;从多个数据库中选择与所确定的时间点对应的数据库,多个数据库存储使用对话服务的用户的对话历史信息;基于从所选择的数据库获取的、用户的对话历史信息来解释文本;基于解释的结果生成对话语输入的响应消息;输出所生成的响应消息。
42.下面将参考附图更详细地描述本公开的各种示例性实施例。然而,本公开的实施例可以具有不同的形式,而不应被理解为限于本文的各种示例性实施例。此外,可以省略与本公开无关的部分以使本公开的描述清楚,并且附图中相同的附图标记始终表示相同的元件。
43.在整个公开中,表述“a、b或c中的至少一个”仅表示a,仅b,仅c,a和b两者,a和c两者,b和c两者,所有的a、b和c,或其变体。
44.本公开的一些实施例可以根据功能块组件和各种处理步骤来描述。功能块中的所有或一些可以使用配置成执行特定功能的任何数量的硬件和/或软件组件来实现。例如,本公开的功能块可以由用于执行预定功能的一个或多个微处理器或电路组件来实现。此外,
例如,本公开的功能块可以用各种编程或脚本语言来实现。功能块可以在运行于一个或多个处理器上的算法中实现。此外,本公开可以采用相关领域的用于电子配置、信号处理和/或数据处理的技术。
45.此外,图中所示的元件之间的连接线或连接器仅旨在表示元件之间的示例性功能关系和/或物理或逻辑联接。应当注意,在实际设备中可以存在许多替代或附加的功能关系、物理连接或逻辑连接。
46.下面将参考附图更详细地描述本公开的各种示例性实施例。
47.通常,用于向多个用户提供对话服务的设备可以在不识别用户的情况下,基于每个用户账户或者基于每一次会话来管理对话。会话可以指例如从用于对用户的查询执行语音识别并输出对其的响应的对话服务的开始到结束的时间段。
48.通常,在设备基于每个用户账户管理对话的情况下,用户需要通过输入诸如用户id或姓名的用户信息来注册他或她的账户。此外,每次用户使用该设备时,用户可能遭受必须输入用户信息和检索他或她的账户的不便。
49.为了减少用户的不便性,可以使用在不识别用户的情况下基于每一次会话管理对话的设备。在设备基于每一次会话管理对话的情况下,当在会话终止之后接收到用户话语输入时,设备开始新的会话并提供对话服务,而不提供关于先前对话的历史的信息。因此,当用户在新的会话开始之后询问与他或她在先前会话期间与设备进行的对话的细节相关的问题时,设备可能无法提供对用户问题的准确响应。
50.为了解决上述问题,本公开提供了一种由电子设备执行的方法,该方法通过在不需要用户注册他或她的账户的情况下自动识别用户来存储每个用户的对话历史,并且利用该对话历史来创建响应。
51.图1是示出用户10在月前访问商店并通过电子设备200购买空调、电视(tv)和冰箱的示例的图。根据本公开的实施例,当用户10简单地接近电子设备200时,电子设备200可以自动地执行基于面部的用户认证,而不需要输入用于用户认证的用户信息。电子设备200可以在没有用户的单独命令的情况下经由基于面部的用户认证来发起对话服务。
52.根据本公开的实施例,电子设备200可以通过识别用户的面部检查出用户10的面部id已被存储,并且确定用户10已经使用过对话服务。电子设备200可以基于用户的服务使用历史来输出语音消息“您再次返回”。
53.根据本公开的实施例,当没有找到与用户面部匹配的面部id时,电子设备200可以确定用户10从未使用过对话服务。当确定用户10正在第一次使用对话服务时,电子设备200可以输出语音消息“欢迎初次访问”。根据本公开的实施例,电子设备200可以基于用户的服务使用历史来输出适合于情景的用户响应消息。
54.如图1所示,用户10可以发出与用户10先前(例如,一个月前)通过电子设备200购买的产品有关的请求“你知道我上次购买了什么”。
55.因为相关技术的基于每一次会话管理对话的电子设备不存储与用户10的过去对话的内容,所以即使在用户10进行与他或她过去的话语的内容相关的话语时,电子设备也可能无法确保对话的连续性或提供适当的响应消息。
56.另一方面,根据本公开的示例性实施例的电子设备200可以基于用户10的过去对话历史来解释用户10的话语,从而基于过去对话历史来输出响应消息。
57.例如,如图1所示,电子设备200可以基于与用户10在一个月前通过电子设备200购买的产品相关的对话历史,输出响应消息“您在一个月前购买了空调、电视和冰箱。您是指哪一种产品?”。根据本公开的实施例,当确定需要用户过去对话历史来解释用户的话语时,电子设备200可以基于与识别以便存储的用户面部匹配的用户过去对话历史来解释用户的话语,并且基于解释结果来生成响应消息。
58.图2a是示出根据本公开的实施例的用于提供对话服务的示例性系统的图,并且图2b是示出根据本公开的实施例的用于提供对话服务的示例性系统的图。
59.如图2a所示,根据本公开的实施例,电子设备200可以单独用于向用户10提供对话服务。电子设备200的示例可以包括但不限于:家用电器(例如电视、冰箱、洗衣机等)、智能电话、pc、可穿戴设备、pda、媒体播放器、微服务器、全球定位系统(gps)、电子书终端、数字广播终端、导航设备、售货亭、mp3播放器、数码相机、其它移动或非移动计算设备等。电子设备200可以通过例如执行聊天机器人应用或对话代理应用等来提供对话服务。
60.根据本公开的实施例,电子设备200可以接收用户10的话语输入,并且生成并输出对所接收的话语输入的响应消息。
61.根据本公开的实施例,电子设备200可以提供一种通过自动识别用户10而无需用户10注册账户来为每个用户存储对话历史并使用对话历史来生成响应的方法。
62.例如,根据本公开的实施例,电子设备200可以经由相机识别用户的面部,并且从已存储面部id中搜索与所识别面部匹配的面部id。电子设备200可以检索映射到找到的面部id的对话历史和对话服务使用历史。电子设备200可以基于对话历史向用户10提供对话服务,并且在结束与用户10的对话之后更新对话历史。
63.根据本公开的实施例,当在已存储面部id中没有与所识别面部匹配的面部id时,电子设备200可以向用户10检查是否存储与用户的面部相关的信息。当用户10同意存储他或她的面部id时,电子设备200可以将对话历史和服务使用历史映射到他或她的面部id,以便在与用户10的对话结束之后进行存储。
64.根据本公开的实施例,在管理已存储面部id和对话历史时,电子设备200可以基于存储容量有限并且需要保护个人信息的事实来指定可以存储面部id和对话历史的最大存储周期。当经过最大存储周期时,电子设备200可以删除已存储面部id和对话历史。然而,当在经过最大存储周期之前重新识别到用户10时(例如,当用户10重新访问商店时),电子设备200可以延长和灵活地管理存储周期。根据用户10使用对话服务的时间间隔和次数,电子设备200可以为每个用户指定不同的信息存储周期。
65.根据本公开的实施例,当确定需要过去对话历史和服务使用历史来解释用户的问题时,电子设备200可以基于用户10的对话历史来生成并输出响应消息。
66.电子设备200可以接收用户话语输入并确定与包括在话语输入中的时间相关的上下文。与包括在话语输入中的时间相关的上下文例如可以涉及与根据包括在话语输入中的用户的意图生成响应所需的时间有关的信息。电子设备200可以基于上下文的确定结果,从在第一时段上累积的关于对话历史的信息和在第二时段上累积的关于对话历史的信息之中确定要使用哪个对话历史信息。因此,电子设备200可以减少解释用户的问题所需的时间量,并通过仅基于所选对话历史信息识别对话的上下文来提供适当的响应。
67.此外,如图2b所示,根据本公开的实施例,电子设备200可以结合另一电子设备300
和/或服务器201来提供对话服务。电子设备200、另一电子设备300和服务器201可以通过有线或无线方式彼此连接。
68.另一电子设备300或服务器201可以与电子设备200共享数据、资源和服务,执行电子设备200的控制或文件管理,或监视整个网络。例如,另一电子设备300可以是移动或非移动计算设备。
69.电子设备200可以通过与另一电子设备300和/或服务器201的通信来生成并输出对用户话语输入的响应消息。
70.如图2a和图2b所示,根据本公开的实施例,用于提供对话服务的系统可以包括至少一个电子设备和/或服务器。为了便于描述,下面将描述由“电子设备”执行的提供对话服务的方法。然而,以下将描述的电子设备的一些或所有操作也可以由连接到该电子设备的另一电子设备和/或服务器来执行,并且可以部分地由多个电子设备来执行。
71.图3是示出根据本公开的实施例的由电子设备200执行的提供对话服务的示例性方法的流程图。
72.根据本公开的实施例,电子设备200可以接收用户话语输入(操作s310)。
73.根据本公开的实施例,电子设备200可以发起对话服务并且接收用户话语输入。根据本公开的实施例,当用户在距电子设备200一定距离内接近电子设备200时,当接收到预定强度或更高强度的语音信号时,以及当接收到用于发出预定启用词的语音信号时,电子设备200可以发起对话服务。
74.根据本公开的实施例,当用户在某个距离内接近电子设备200时,电子设备200可以获得用户的面部图像,并且通过搜索数据库来确定与所获得的用户的面部图像匹配的面部id是否被存储。应当理解,可以使用用于识别用户的任何合适的装置,并且本公开不限于面部id识别。例如,但不限于,可以使用语音识别、生物识别、用户界面的输入等,并且使用面部id是为了便于解释和说明。电子设备200可以基于确定结果发起对话服务。
75.根据本公开的实施例,当与所获得的用户的面部图像匹配的面部id存储在数据库中时,电子设备200可以更新所存储的、映射到面部id的服务使用历史。否则,当与所获得的用户的面部图像匹配的面部id没有存储在数据库中时,电子设备200可以生成新面部id和映射到新面部id的服务使用历史。
76.根据本公开的实施例,电子设备200可以经由麦克风接收并存储包括用户话语输入的音频信号。例如,电子设备200可以通过使用语音活动检测(vad)、端点检测(epd)等来检测人的语音的存在和不存在,从而以句子为单位接收和存储话语输入。
77.根据本公开的实施例,电子设备200可以识别从用户话语输入(例如,文本)获得的、表示时间的时间表达式(操作s320)。
78.电子设备200可以通过对用户话语输入执行语音识别来获得文本,并且将包括在文本中的表示时间点、持续时间或时间段中的至少一个的实体确定为时间表达式。然而,应当理解,确定时间表达式不限于获得和分析文本。
79.实体可以包括包含在文本中的具有特定含义的单词、短语或语素中的至少一个。电子设备200可以识别文本中的至少一个实体,并且根据该至少一个实体的含义来确定哪个域包括每个实体。例如,电子设备200可以确定文本中识别的实体是否是表示例如但不限于人、对象、地理区域、时间、日期等的实体。
80.根据本公开的实施例,电子设备200可以将例如但不限于文本所指示的表示操作或状态的时间点或包括在文本中的表示时间点、时间、时间段等的副词、形容词、名词、单词、短语等确定为时间表达式。
81.电子设备200可以执行用于将文本映射到多个向量的嵌套(embedding)。通过将双向长短期记忆(lstm)模型应用于所映射的向量,电子设备200可以将beginning-inside-outside(bio)标签分配给包括在文本中的表示时间点、持续时间或时间段中的至少一个的至少一个语素。电子设备200可以基于bio标签来在文本中识别表示时间的实体。电子设备200可以将所识别的实体确定为时间表达式。
82.根据本公开的实施例,电子设备200可以基于时间表达式来确定与用户话语输入相关的时间点(操作s330)。
83.与用户话语输入相关的时间点可以是,例如,当电子设备200根据用户话语中的意图生成响应所必需的信息时的时间点,当接收到包括该信息的用户过去的话语输入时的时间点,或者当将该信息存储在对话历史中时的时间点。与用户话语输入相关的时间点可以包括当接收或存储用户的过去话语时的时间点,过去话语包括用于详细说明用户话语输入的内容的信息。例如,与用户话语输入有关的时间点可以包括接收或存储过去话语时的时间点,该过去话语与用户购买、提及、查询用户话语输入中提到的产品以及对该产品的服务请求有关。
84.电子设备200可以预测概率值,例如,时间表达式指示多个时间点中的每一个的概率。电子设备200可以确定与所预测的概率值之中的最高概率值对应的时间点,作为与用户话语输入相关的时间点。
85.根据本公开的实施例,电子设备200可以从存储与使用对话服务的用户的对话历史有关的信息的多个数据库之中选择与同用户话语输入相关的时间点对应的数据库(操作s340)。另一方面,可以使用单个数据库,并且本公开不限于多个数据库。
86.多个数据库可以包括用于存储关于在预设时间点之前累积的用户对话历史的信息的第一数据库和用于存储关于在预设时间点之后累积的用户对话历史的信息的第二数据库。当与用户话语输入相关的时间点在预设时间点之前时,电子设备200可以选择第一数据库。当与用户话语输入相关的时间点在预设时间点之后时,电子设备200可以选择第二数据库。此外,包括在数据库中的第一数据库可以被存储在外部服务器中,而第二数据库可以被存储在电子设备200中。
87.根据本公开的实施例,预设时间点可以是以下之一:当包括在第二数据库中的与用户的对话历史有关的信息中的至少一些被发送到第一数据库时的时间点、当获得用户的面部图像时的时间点、以及当对话服务开始时的时间点。
88.根据本公开的实施例,电子设备200可以基于从所选数据库获取的关于用户的对话历史的信息来解释文本(操作s350)。
89.电子设备200可以确定包括在文本中并且需要详细说明的实体。电子设备200可以通过检索从所选数据库获取的、关于用户对话历史的信息来获取用于详细说明所确定的实体的详细说明信息。电子设备200可以使用例如但不限于自然语言理解(nlu)模型等来解释文本和详细说明信息。
90.从数据库获取的关于用户对话历史的信息可以包括,例如,但不限于,从用户接收
的过去话语输入、提供给用户的过去响应消息、与过去话语输入和过去响应消息相关的信息等。例如,与过去话语输入和过去响应消息相关的信息可以包括过去话语输入中所包括的实体、过去话语输入中包括的内容、过去话语输入的类别、接收过去话语输入时的时间点、过去响应消息中包括的实体、过去响应消息中包括的内容、输出过去响应消息时的时间点、与过去话语输入被接收之前和之后的情况有关的信息、以及用户的兴趣产品、心情、支付信息、语音特性等,其是基于过去话语输入和过去响应消息而确定的。
91.根据本公开的实施例,电子设备200可以基于解释结果生成对所接收用户话语输入的响应消息(操作s360)。
92.电子设备200可以例如但不限于通过将对话管理器(dm)模型应用于解释结果来确定响应消息的类型。电子设备200可以使用例如但不限于自然语言生成(nlg)模型来生成所确定类型的响应消息。
93.根据本公开的实施例,电子设备200可以输出所生成的响应消息(操作s370)。例如,电子设备200可以以语音、文本或图像中的至少一种的形式输出响应消息。
94.根据本公开的实施例,电子设备200可以与另一电子设备共享用户面部id、服务使用历史或对话历史中的至少一个。例如,在提供给用户的对话服务结束之后,电子设备200可以将用户的面部id发送到另一电子设备。当用户希望通过另一电子设备接收对话服务时,另一电子设备可以识别用户,并且基于确定出所识别的用户对应于所接收的用户的面部id,从电子设备200请求与用户的对话历史有关的信息。响应于从另一电子设备接收的请求,电子设备200可以向另一电子设备发送存储在数据库中所包括的第二数据库中的与用户的对话历史有关的信息。
95.图4a是示出根据本公开的实施例的电子设备200基于对话历史提供对话服务的示例的图,图4b是示出根据本公开的实施例的电子设备200基于对话历史提供对话服务的示例的图。
96.图4a是示出根据本公开的实施例的电子设备200是销售电子产品的商店中的无人售货亭的示例的图。售货亭例如可以指安装在公共场所中的无人信息终端。参照图4a,在2019年5月5日,电子设备200可以接收用户10的话语输入,用户10询问空调a的价格是多少。电子设备200可以响应于用户话语输入输出告知空调a的价格的响应消息。
97.在2019年5月15日,电子设备200可以接收重新访问商店的用户10的话语输入。电子设备200可以通过对用户话语输入的语音识别获得说“我上次问你的空调的价格是多少?”的文本。电子设备200可以识别所获得的文本(例如“上次”、“询问”和“价格是多少”)中的时间表达式。电子设备200可以基于所识别的时间表达式确定出需要用户的对话历史来解释所获得的文本。
98.电子设备200可以确定文本中的需要详细说明的实体,并且基于用户的对话历史获取用于详细说明该实体的详细说明信息。电子设备200可以使用nlu模型来解释其中详细说明了实体的文本。
99.根据本公开的实施例,电子设备200可以确定文本中的表示产品的类别的实体,并且基于对话历史信息来详细说明该产品。例如,如图4a所示,电子设备200可以确定“空调”为用户话语“我上次问你的空调的价格是多少?”中的表示产品实体的类别的实体。电子设备200可以基于日期为5月5日的对话历史来确定用户希望知道其价格的产品是“空调a”。电
子设备200可以响应于用户的问题输出告知空调a的价格的响应消息。
100.图4b是示出根据本公开的实施例的其中电子设备200是餐厅中的无人结账柜台的示例的图。参照图4b,在2019年5月10日,电子设备200可以接收订购沙拉的用户10的话语输入。电子设备200可以响应于用户话语输入输出告知对订购沙拉的确认的响应消息。
101.在2019年5月15日,电子设备200可以接收重新访问餐厅的用户10的话语输入。电子设备200可以通过对用户话语输入的语音识别来获得阐述“订购我经常吃的那个”的文本。电子设备200可以识别所获得的文本(例如“总是”和“吃”)中的时间表达式。电子设备200可以基于所识别的时间表达式确定出需要用户的对话历史来解释所获得的文本。
102.根据本公开的实施例,电子设备200可以将文本中的需要详细说明的名词确定为需要详细说明的实体,并且基于对话历史信息来详细说明由名词指示的对象。例如,如图4b所示,电子设备200可以将用户的话语“订购我经常吃的那个”中的“那个”确定为需要详细说明的实体。电子设备200可以基于日期为5月10日的对话历史来确定用户10希望订购的食物是“沙拉”。电子设备200可以响应于用户话语输入,输出请求确认订购沙拉是否正确的响应消息。
103.此外,根据本公开的实施例,为了与用户10执行流畅的对话,电子设备200可能需要缩短基于对话历史生成响应消息所需的时间。因此,根据本公开的实施例,电子设备200可以通过仅对从存储与对话历史有关的信息的多个数据库之中选择的数据库进行搜索来缩短检索对话历史信息所需的时间。
104.图5是示出根据本公开的实施例的由电子设备200执行的提供对话服务的示例性过程的图。
105.图5示出根据本公开的实施例的电子设备200是销售电子产品的商店中的无人售货亭的示例。根据本公开的实施例,电子设备200可以使用第一数据库501和第二数据库502,第一数据库501用于存储在用于提供对话服务的当前会话开始之前累积的对话历史信息,第二数据库502用于存储与在当前会话期间执行的对话相关的信息。
106.图6是示出根据本公开的实施例的存储在第一数据库501中的针对每个用户的服务使用历史和对话历史的示例的图。如图6所示,电子设备200可以将服务使用历史620和对话历史630映射到用户10的面部id以供存储。
107.服务使用历史620可以包括,例如,但不限于,用户10进行的访问次数、访问周期、上次访问日期621、以及服务使用历史620被安排删除的日期。对话历史630可以包括有关以下的信息:用户感兴趣的产品和用户过去问题的类别(这些是基于用户过去的问题而确定的)、用户10是否购买了感兴趣的产品、接收到用户问题的时间点。
108.电子设备200可以通过对经由相机获得的用户10的面部图像执行面部识别来识别用户10(操作s510)。例如,电子设备200可以通过搜索第一数据库501来检索与所识别的用户10的面部id对应的对话服务使用历史。
109.电子设备200可以通过添加指示用户10当前正在使用对话服务的信息来更新所识别的用户10的对话服务使用历史(操作s520)。
110.例如,如图6所示,电子设备200可以以这样的方式更新用户10的对话服务使用历史620,该方式添加指示用户10在2019年5月16日使用了对话服务的信息621。
111.根据本公开的实施例,电子设备200可以基于记录在用户的使用历史中的、用户10
的访问次数或访问周期中的至少一个来延迟安排删除与用户10相关的信息的日期。例如,随着用户10的访问次数增加并且访问周期变短,电子设备200可以延长与用户10相关的信息的存储周期。
112.电子设备200可以发起对话服务并且接收用户话语输入(操作s530)。电子设备200可以从用户话语输入获得阐述“我对上次我购买的产品有问题”的文本。电子设备200可以识别作为所获得的文本中的表示时间的时间表达式的“上次”。
113.电子设备200可以基于时间表达式“上次”来确定需要与在当前会话开始的时间点之前累积的用户对话历史有关的信息来解释所获得的文本。
114.电子设备200可以基于确定出需要与在当前会话开始之前累积的用户对话历史有关的信息,从第一数据库501检索关于用户对话历史的信息(操作s540)。电子设备200可以将包括在用户的话语“我对上次我购买的产品有问题”中的作为名词的“产品”确定为需要详细说明的实体,并且基于从第一数据库501获取的与用户的对话历史有关的信息来解释文本。
115.例如,电子设备200可以基于日期为5月10日的对话历史631来确定用户10想要引用的产品是具有型号名称19comr1的“计算机b”。
116.响应于用户话语输入,电子设备200可以输出确认用户10是否由于在5月10日购买的计算机b的问题而访问商店的响应消息(操作s550)。
117.在结束对话服务之后,电子设备200可以以添加关于会话期间执行的对话的历史的信息的方式来在第一数据库510中更新与用户的对话历史有关的信息(操作s560)。
118.图7a是示出根据本公开的实施例的由电子设备200执行的提供对话服务的示例性方法的流程图,图7b是示出根据本公开的实施例的由电子设备200执行的提供对话服务的示例性方法的流程图。
119.用户可以通过接近电子设备200来开始使用对话服务。
120.根据本公开的实施例,电子设备200可以通过相机来识别用户的面部(操作s701)。根据本公开的实施例,电子设备200可以搜索数据库以查找与所识别的用户对应的已存储面部id(操作s702)。根据本公开的实施例,电子设备200可以确定对应于所识别的用户的面部id是否被存储在数据库中(操作s703)。
121.当用户的面部id被存储在数据库中时(在操作s703中为“是”),电子设备200可以检索用户的服务使用历史。根据本公开的实施例,电子设备200可以更新用户的服务使用历史(操作s705)。例如,电子设备200可以更新包括在用户的服务使用历史中的与用户的上次访问的日期有关的信息。
122.根据本公开的实施例,当用户的面部id没有存储在数据库中时(操作s703中的“否”),电子设备200可以询问用户他或她是否同意将来存储用户的面部id和对话历史(操作s704)。根据本公开的实施例,当用户同意存储他或她的面部id和对话历史时(操作s704中的“是”),电子设备200可以在操作s705中更新用户的服务使用历史。根据本公开的实施例,当用户不同意存储他或她的面部id和对话历史时,电子设备200可以基于每一次会话来执行与用户的对话。
123.参照图7b,根据本公开的实施例,电子设备200可以接收用户的话语输入(操作s710)。
124.根据本公开的实施例,电子设备200可以确定是否需要对话历史信息来解释用户的话语输入(操作s721)。下面将参考图8更详细地描述操作s721。
125.当确定不需要对话历史信息来用于解释时(操作s721中的“否”),根据本公开的实施例,电子设备200可以生成并输出通用响应,而不使用对话历史信息(操作s731)。
126.当确定需要对话历史信息来用于解释时(操作s721中的“是”),根据本公开的实施例,电子设备200可以确定是否需要包括在第一数据库中的对话历史信息(操作s723)。
127.例如,根据本公开的实施例,电子设备200可以基于预设时间点来确定是否需要在预设时间点之前累积并存储在第一数据库中的、用户的对话历史信息,或者是否需要在预设时间点之后累积并存储在第二数据库中的、用户的对话历史信息。第一数据库可以存储从用户的对话历史被第一次存储到预设时间点起在相对长的时间段内累积的对话历史信息。第二数据库可以存储在从预设时间点到当前时间点的短时间段内累积的对话历史信息。下面将参考图9更详细地描述操作s723。
128.当确定需要包括在第一数据库中的对话历史信息来解释用户话语输入时(操作s723中的“是”),根据本公开的实施例,电子设备200可以基于从第一数据库获取的对话历史信息生成响应消息(操作s733)。当确定不需要包括在第一数据库中的对话历史信息来解释用户话语输入时(操作s723中的“否”),根据本公开的实施例,电子设备200可以基于从第二数据库获取的对话历史信息生成响应消息(操作s735)。
129.根据本公开的实施例,电子设备200可以输出所生成的响应消息(操作s740)。
130.根据本公开的实施例,电子设备200可以确定对话是否已经结束(操作s750)。例如,当用户离开电子设备200的距离大于或等于阈值距离时,当超过阈值时间没有接收到用户话语输入时,或者当确定用户偏离电子设备200所处的任何空间(例如商店或餐厅)时,电子设备200可以确定对话已经结束。
131.当确定出对话已经结束时(操作s750中的“是”),根据本公开的实施例,电子设备200还可以将与当前对话相关的对话历史信息存储在映射到用户面部id的已存对话历史中(操作s760)。否则,当确定对话尚未结束时(操作s750中的“否”),根据本公开的实施例,电子设备200可返回到操作s710,并重复接收用户话语输入并生成对用户话语输入的响应消息的过程。
132.图8是示出根据本公开的实施例的确定电子设备200是否将基于对话历史信息生成响应的示例性方法的流程图。
133.例如,图7b的操作s721可以被细分为图8的操作s810、s820和s830。
134.根据本公开的实施例,电子设备200可以接收用户话语输入(操作s710)。根据本公开的实施例,电子设备200可以通过对所接收的用户话语输入执行语音识别(例如,自动语音识别(asr))来获得文本(操作s810)。
135.根据本公开的实施例,电子设备200可以从所获得的文本中提取时间表达式(操作s820)。根据本公开的实施例,电子设备200可以通过将经过预训练的时间表达式提取模型应用于所获得的文本来提取时间表达式。
136.根据本公开的实施例,电子设备200可以确定所提取的时间表达式是否表示过去的时间点、时间段或持续时间(操作s830)。当所提取的时间表达式不是表示过去的时间表达式时(操作s830中的“否”),电子设备200可以基于不考虑对话历史的一般nlu来生成对用
户话语输入的响应(操作s841)。否则,当所提取的时间表达式是表示过去的时间表达式时(操作s830中的“是”),电子设备200可以确定出需要基于对话历史信息来生成响应(操作s843)。
137.图9是示出根据本公开的实施例的由电子设备200执行的基于用户话语输入来选择数据库的示例性方法的流程图。
138.例如,可以将图7b的操作s723细分成图9的操作s910、s920、s930和s940。
139.根据本公开的实施例,在操作s843,电子设备200可以确定出需要对话历史信息来解释用户话语输入。
140.根据本公开的实施例,电子设备200可以从基于用户话语输入获得的文本中提取时间表达式(操作s910)。根据本公开的实施例,电子设备200可以从所提取的时间表达式中提取表示过去的表达式(操作s920)。因为图9的操作s910对应于图8的操作s820,所以根据本公开的实施例可以不执行操作s910。当没有执行图9的操作s910时,电子设备200可以使用在操作s820中提取和存储的时间表达式。
141.根据本公开的实施例,电子设备200可以基于表示过去的时间表达式来预测与用户话语输入相关的时间点(操作s930)。根据本公开的实施例,电子设备200可以通过将经过预训练的时间点预测模型应用于所提取的过去时间表达式来确定与所提取的过去时间表达式相关的时间点。
142.如图10所示,电子设备200可以预测概率值,例如,表示过去的时间表达式指示多个时间点中的每一个的概率,并生成表示预测的概率值的图形1000。电子设备200可以确定与预测的概率值中的最高概率值1001对应的时间点作为与用户话语输入相关的时间点。在图形1000中,x轴和y轴可以分别表示时间和概率值。图形1000中的时间轴上的零点表示用作用于选择数据库的参考点的预设时间点。
143.根据本公开的实施例,电子设备200可以确定所预测时间点是否在预设时间点之前(操作s940)。
144.当所预测时间点在预设时间点之前时(操作s940中的“是”),电子设备200可以基于从第一数据库获取的对话历史信息来生成对用户话语输入的响应(操作s733)。当所预测的时间点在预设时间点处或在预设时间点之后时(操作s940中的“否”),电子设备200可以基于从第二数据库获取的对话历史信息来生成对用户话语输入的响应(操作s735)。
145.根据本公开的实施例,电子设备200可以根据对话历史被累积的时间段来管理多个数据库,从而减少检索对话历史所需的时间。根据本公开的实施例,电子设备200可以在数据库之间切换,使得存储在一个数据库中的关于用户的对话历史的至少一些信息被存储在另一个数据库中。
146.在本公开中,尽管图10示出其中电子设备200使用两个数据库的示例,但是本公开的实施例不限于此。电子设备200所使用的数据库可以包括三个或更多数据库。为了便于描述,在本公开中,将其中数据库包括第一和第二数据库的情况描述为示例。
147.图11是示出根据本公开的实施例的由电子设备200执行的切换其中存储用户的对话历史的数据库的示例性方法的图。
148.根据本公开的实施例,第一数据库1101可以存储关于在预设时间点之前累积的用户对话历史的信息,并且第二数据库可以存储关于在预设时间点之后累积的用户对话历史
的信息。例如,预设时间点可以是将包括在第二数据库1102中的关于用户对话历史的至少一些信息发送到第一数据库1101的时间点、获得用户面部图像的时间点、开始对话服务的时间点、以及在当前时间点之前的预定时间发生的时间点中的一个,但是本公开不限于此。
149.根据本公开的实施例,第一数据库1101可以存储从用户的对话历史被第一次存储到预设时间点的相对长的时间段内累积的对话历史信息。第二数据库1102可以存储在从预设时间点到当前时间点的短时间段内累积的对话历史信息。
150.例如,第一数据库1101可以被包括在外部服务器中,而第二数据库1102可以被包括在电子设备200中。第一数据库1101还可以存储用户的服务使用历史。
151.根据本公开的实施例,电子设备200可以将存储在第二数据库1102中的关于用户的对话历史的至少一些信息切换到第一数据库1101。
152.根据本公开的实施例,电子设备200可以切换其中周期性地或者在开始或结束特定操作之后或者当数据库的存储空间不足时存储用户的对话历史信息的数据库。
153.例如,电子设备200可以根据预定时间段(例如但不限于6小时、1天、1个月等)向第一数据库1101发送存储在第二数据库1102中的、与用户的对话历史有关的信息,并且从第二数据库1102中删除与用户的对话历史有关的信息。
154.作为另一个示例,当对话服务结束时,电子设备200可以在提供对话服务的同时向第一数据库1101发送在第二数据库1102中累积的与用户的对话历史有关的信息,并且从第二数据库1102中删除与用户的对话历史有关的信息。
155.根据本公开的实施例,当在数据库之间切换时,电子设备200可概括排除用户的敏感信息之外的信息,从而减轻用户个人信息泄漏的风险并减少内存使用。
156.作为未处理数据的原始数据可以存储在第二数据库1102中。第二数据库1102可以如同在原始数据作为用户的对话历史信息输入到电子设备200时那样存储原始数据。
157.例如,用户可能不愿意长时间地在电子设备200中存储与用户的个人信息相关的详细信息(例如,特定的对话内容、所捕获的用户图像、用户的语音、用户的账单信息、用户的位置等)。因此,根据本公开的实施例,电子设备200可以管理包括对用户敏感的信息的对话历史信息,使得对话历史信息被存储在第二数据库1102中,第二数据库1102仅在短时间内存储对话历史信息。
158.经处理数据可存储在第一数据库1101中。第一数据库1101可以存储通过从存储在第二数据库1102中的原始数据中排除对用户敏感的信息而概括的数据作为用户的对话历史信息。
159.如图11所示,存储在第二数据库1102中的、用户和电子设备200之间的对话的原始内容可以被概括为关于对话类别、内容和感兴趣的产品的数据,并且被存储在第一数据库1101中。存储在第二数据库1102中的、用户的所捕获图像帧和用户语音可以被概括为用户在提供对话服务时的时间点处的心情,并存储在第一数据库1101中。此外,存储在第二数据库1102中的用户的支付信息可以被概括为由用户购买的产品和购买价格,并且被存储在第一数据库1101中。
160.根据本公开的实施例,电子设备200可以与其它电子设备共享用户面部id、服务使用历史或对话历史中的至少一个。图12a是示出根据本公开的实施例的示例性过程的图,其中多个电子设备200-a、200-b和200-c彼此共享用户的对话历史。例如,电子设备200-a、
200-b和200-c可以是位于商店的不同空间(例如,不同楼层)中的无人售货亭。用户10可以基于由电子设备200-a、200-b和200-c提供的对话服务接收关于产品的指导或帮助购买产品。
161.参考图12a,电子设备200-c可以向用户10提供对话服务。电子设备200-c可以接收用户10的话语输入,并且生成并输出对话语输入的响应消息。
162.图12b是示出根据本公开的实施例的示例性过程的图,其中多个电子设备200-a、200-b和200-c彼此共享用户的对话历史。
163.参照图12b,在完成与电子设备200-c的协商之后,用户10可以从电子设备200-c移开大于或等于预定距离的距离。电子设备200-c可以基于相距用户10的距离来识别对话被暂停。电子设备200-c可以在数据库中存储关于在当前会话期间执行的、与用户10的对话的历史的信息。例如,电子设备200-c可以将关于在当前会话期间执行的、与用户10的对话历史的信息存储在包括在电子设备200-c中的第二数据库中。
164.图12c是示出根据本公开的实施例的示例性过程的图,其中多个电子设备200-a、200-b和200-c彼此共享用户的对话历史。
165.参考图12c,电子设备200-c可以例如但不限于将已经与之完成协商的用户10的面部id共享或广播到商店中的其它电子设备200-a和200-b。
166.图12d是示出根据本公开的实施例的示例性过程的图,其中多个电子设备200-a、200-b和200-c彼此共享用户的对话历史。
167.参照图12d,在查看商店的第二楼层之后,用户10可以向下到达第一楼层并接近电子设备200-a。电子设备200-a可以识别用户10以向用户10提供对话服务。当确定所识别的用户10对应于由电子设备200-c共享的面部id时,电子设备200-a可以请求电子设备200-c共享其中存储了与共享的面部id相关的信息的数据库。
168.电子设备200-c可以与电子设备200-a共享数据库,在该数据库中存储了与用户10的面部id对应的对话历史。电子设备200-a可以基于存储在共享的数据库中的对话历史来解释用户话语输入。因此,即使当电子设备200-a从用户10接收到与同电子设备200-c的对话有关的话语输入时,电子设备200-a也可以输出保证对话的连续性的响应消息。
169.现在将更详细地描述根据本公开的实施例的电子设备200的配置。下面将描述的电子设备200的每个组件可以执行由电子设备200执行的如上所述的提供对话服务的方法的每个操作。
170.图13a是示出根据本公开的实施例的示例性电子设备200的示例性配置的框图。
171.用于提供对话服务的电子设备200可以包括处理器(例如,包括处理电路)250,其通过执行存储在存储器中的一个或多个指令来向用户提供对话服务。尽管图13a示出电子设备200包括一个处理器250,但是本公开的实施例不限于此。电子设备200可以包括多个处理器。当电子设备200包括多个处理器时,将在下面描述的处理器250的操作和功能可以部分地由处理器执行。
172.电子设备200的输入器220可以包括各种输入电路并接收用户话语输入。
173.根据本公开的实施例,处理器250可以识别从用户话语输入获得的文本中的表示时间的时间表达式。
174.处理器250可以通过对用户话语输入进行语音识别来获得文本,并执行用于将文
本映射到多个向量的嵌套。例如,通过将双向lstm模型应用于映射向量,处理器250可以将bio标签分配给包括在文本中的表示时间点、持续时间或时间段中的至少一个的至少一个语素。处理器250可以基于bio标签来确定包括在文本中的表示作为时间表达式的时间点、持续时间或时间段中的至少一个的实体。
175.根据本公开的实施例,处理器250可以基于时间表达式来确定与用户话语输入相关的时间点。
176.处理器250可以预测概率值,例如,所识别的时间表达式指示多个时间点中的每一个的概率,并且确定与所预测的概率值之中的最高概率值对应的时间点为与用户话语输入相关的时间点。
177.根据本公开的实施例,处理器250可以从用于存储与使用对话服务的用户的对话历史有关的信息的多个数据库之中选择同与用户话语输入相关的时间点对应的数据库。
178.多个数据库可以包括用于存储关于在预设时间点之前累积的用户对话历史的信息的第一数据库和用于存储关于在预设时间点之后累积的用户对话历史的信息的第二数据库。当与用户话语输入相关的时间点在预设时间点之前时,处理器250可以从数据库之中选择第一数据库。当与用户话语输入相关的时间点在预设时间点之后时,处理器250可以从数据库之中选择第二数据库。
179.此外,第一数据库可以存储在外部服务器中,而第二数据库可以存储在电子设备200中。用作用于选择数据库的参考点的预设时间点t可以是当包括在第二数据库中的关于用户对话历史的至少一些信息被切换到包括在第一数据库中时的时间点、当获得用户面部图像时的时间点、以及当开始对话服务时的时间点中的一个。
180.根据本公开的实施例,处理器250可以基于从所选数据库获取的与用户的对话历史有关的信息来解释文本。
181.处理器250可以确定包括在文本中并且需要详细说明的实体。处理器250可以通过检索从所选数据库获取的关于用户对话历史的信息来获取用于详细说明所确定的实体的详细说明信息。处理器250可以使用nlu模型来解释文本和详细说明信息。处理器250可以通过将dm模型应用于解释结果来确定响应消息的类型,并且使用nlg模型来生成所确定类型的响应消息。
182.处理器250可以基于解释结果生成对所接收的用户话语输入的响应消息。电子设备200的输出器230可以包括各种输出电路并输出所生成的响应消息。
183.根据本公开的各种实施例的电子设备200的配置不限于图13a的框图中所示的配置。例如,图13b是示出根据本公开的另一个实施例的示例性电子设备200的示例性配置的框图。
184.参照图13b,根据本公开的另一个实施例的电子设备200可以包括可以具有各种通信电路的通信器210,并且经由外部设备接收用户话语输入并且将对用户话语输入的响应消息发送到外部设备。处理器250可以基于与用户话语输入相关的时间点来选择数据库,并且基于存储在所选数据库中的用户对话历史来生成响应消息。上面关于图13a已经提供的描述被省略。
185.图14是示出根据本公开的实施例的示例性电子设备200的框图。
186.如图14所示,电子设备200的输入器220可以包括各种输入电路并接收用于控制电
子设备200的用户输入。根据本公开的实施例,输入器220可以包括用户输入设备,该用户输入设备包括用于接收用户的触摸的触摸面板、用于接收用户的按压操作的按钮、用于接收用户的旋转操作的轮、键盘、圆顶开关等,但不限于此。例如,输入器220可以包括例如但不限于用于识别用户面部的相机221、用于接收用户话语输入的麦克风223、或用于接收用户的支付信息的支付设备225中的至少一个。
187.根据本公开的实施例,电子设备200的输出器230可以包括各种输出电路和输出信息,其是从外部接收、由处理器250处理、或者以例如但不限于光、声音、图像或振动中的至少一种形式存储在存储器270或至少一个数据库260中。例如,输出器230可以包括用于向用户话语输入输出响应消息的显示器231或扬声器233中的至少一个。
188.根据本公开的实施例,电子设备200还可以包括用于存储用户的对话历史的至少一个数据库260。根据本公开的实施例,包括在电子设备200中的数据库260可以存储在预设时间点之前累积的用户的对话历史信息。
189.根据本公开的实施例,电子设备200还可以包括存储器270。存储器270可以包括由处理器250使用的数据、由处理器250处理的结果、由处理器250执行的命令、或由处理器250使用的人工智能(ai)模型中的至少一者。
190.存储器270可以包括至少一种类型的存储介质,例如闪存类型存储器、硬盘类型存储器、多媒体卡微型存储器、卡类型存储器(例如sd卡或xd存储器)、随机存取存储器(ram)、静态ram(sram)、只读存储器(rom)、电可擦除可编程rom(eeprom)、prom、磁存储器、磁盘或光盘。
191.尽管图14示出数据库260和存储器270是单独的组件,但是本公开的实施例不限于此。例如,数据库260可以包括在存储器270中。
192.根据本公开的实施例,通信器210可以包括各种通信电路,并且使用无线或有线通信方法与外部电子设备或服务器进行通信。例如,通信器210可以包括短距离无线通信模块、有线通信模块、移动通信模块和广播接收模块。
193.根据本公开的实施例,电子设备200可以经由通信器210共享例如但不限于用户面部id、服务使用历史或与另一电子设备的对话历史中的至少一个。例如,在提供给用户的对话服务结束之后,电子设备200可以将用户的面部id发送到另一电子设备。当用户希望通过另一电子设备接收对话服务时,另一电子设备可以识别用户,并且基于确定出所识别的用户对应于所接收的用户的面部id,从电子设备200请求与用户的对话历史有关的信息。响应于从其它电子设备接收的请求,电子设备200可以向其它电子设备发送存储在数据库260中的关于用户的对话历史的信息。
194.图15a是示出根据本公开的实施例的包括在电子设备200中的示例性处理器250的框图,图15b是示出根据本公开的实施例的另一示例性处理器250的框图。
195.根据本公开的实施例,由包括在电子设备200中的处理器250执行的操作和功能可以由图15a中所示的各种模块来表示。可以使用执行特定功能的各种数量的硬件和/或软件组件来实现模块中的一些或全部。
196.面部识别模块1510可以包括各种处理电路和/或可执行程序元件,并且是用于识别通过相机(图14的221)捕获的图像中的面部的模块。
197.服务管理模块1520可以包括各种处理电路和/或可执行程序元件,并且是用于管
理用户对电子设备200的使用历史的模块,并且可以管理活动历史,诸如经由电子设备200购买产品和/或搜索产品信息。
198.语音识别模块1530可以包括各种处理电路和/或可执行程序元件,并且从用户话语输入获得文本并基于解释文本的结果生成对用户话语输入的响应消息。
199.数据库管理模块1540可以包括各种处理电路和/或可执行程序元件,并且从多个数据库中选择用于获取对话历史信息的至少一个数据库,并且管理在其间存储在数据库中的信息被删除的时间段。
200.参照图15b,图15a的面部识别模块1510可以包括面部检测模块和面部搜索模块,面部检测模块包括用于检测图像中的面部的各种处理电路和/或可执行程序元件,面部搜索模块包括用于针对所检测的面部搜索数据库的各种处理电路和/或可执行程序元件。
201.此外,参考图15b,图15a的语音识别模块1530可以包括以下至少之一:包括用于将语音信号转换为文本信号的各种处理电路和/或可执行程序元件的自动语音识别(asr)模块;包括用于解释文本的含义的各种处理电路和/或可执行程序元件的nlu模块;包括用于提取包括在文本中的实体的各种处理电路和/或可执行程序元件的实体提取模块;包括用于根据文本的类别对文本进行分类的各种处理电路和/或可执行程序元件的分类模块;包括用于管理对话历史的各种处理电路和/或可执行程序元件的上下文管理模块;包括用于检测用户话语输入中的时间表达式的各种处理电路和/或可执行程序元件的时间上下文检测模块;或者包括用于生成与解释文本和时间表达式的结果对应的响应消息的各种处理电路和/或可执行程序元件的nlg模块。
202.此外,参考图15b,图15a的数据库管理模块1540可以包括删除时段管理模块和数据库选择模块,该删除时段管理模块包括用于管理期间存储在第一数据库1561或第二数据库1562中的信息被删除的时间段的各种处理电路和/或可执行程序元件,该数据库选择模块包括用于从第一和第二数据库1561和1562中选择至少一个数据库以获取和存储信息的各种处理电路和/或可执行程序元件。
203.图16是示出根据本公开的实施例的语音识别模块1530的示例性配置的框图。
204.参照图16,根据本公开的实施例,包括在电子设备200的处理器250中的语音识别模块1530可以包括asr模块1610、nlu模块1620、dm模块1630、nlg模块1640和文本到语音(tts)模块1650,每个模块可以包括各种处理电路和/或可执行程序元件。
205.asr模块1610可以将语音信号转换为文本。nlu模块1620可以解释文本的含义。dm模块1630可以通过管理包括对话历史的上下文信息、确定问题的类别以及生成对该问题的响应来引导对话。nlg模块1640可以将以计算机语言编写的响应转换为人类可以理解的自然语言。tts模块1650可以将文本转换为语音信号。
206.根据本公开的实施例,图16的nlu模块1620可以通过执行预处理(1621)、执行嵌套(1623)、应用时间表达式提取模型(1625)、以及应用时间点预测模型(1627)来解释从用户话语获得的文本。
207.在执行预处理的操作1621中,语音识别模块1530可以去除包括在文本中的特殊字符,将同义词统一成单个单词,并通过语音部分(pos)标记来执行形态分析。在执行嵌套的操作1623中,语音识别模块1530可以对预处理的文本执行嵌套。在操作1623中,语音识别模块1530可以将预处理的文本映射到多个向量。
208.在应用时间表达式提取模型的操作1625中,语音识别模块1530可以基于嵌套的结果来提取包括在从用户话语输入获得的文本中的时间表达式。在应用时间点预测模型的操作1627中,语音识别模块1530可以预测所提取的时间表达式相对于当前时间点表示过去的程度。
209.下面将参考图17和图18更详细地描述应用时间表达式提取模型和应用时间点预测模型的操作1625和1627。
210.图17是示出根据本公开的实施例的示例性时间表达式提取模型(例如,包括各种处理电路和/或可执行程序元件)的图。
211.例如,应用时间表达式提取模型1625可以包括根据图17所示的ai模型处理输入数据。
212.根据本公开的实施例,语音识别模块1530可以接收通过将话语输入转换为输入句子而获得的文本。语音识别模块1530可以以单词和/或字符为单位对输入句子进行嵌套。语音识别模块1530可以执行级联嵌套,以便将单词嵌套结果和字符嵌套结果一起使用。语音识别模块1530可通过将双向lstm模型应用于映射到多个向量的文本来生成条件随机场(crf)
213.语音识别模块1530可通过在预定条件下应用基于概率的标记模型来生成crf。根据本公开的实施例,语音识别模块1530可以预先学习其中单词、词干或词素更可能是时间表达式的条件以及基于预先学习的条件具有大于或等于阈值的概率值的标签部分。例如,语音识别模块1530可以通过bio标记提取时间表达式。
214.图18是示出根据本公开的实施例的示例性时间点预测模型的图。
215.例如,应用时间点预测模型1627可以包括根据图18所示的ai模型处理输入数据。
216.根据本公开的实施例,语音识别模块1530可基于由时间表达式提取模型在文本中识别的时间表达式来确定与时间表达式相关的时间点。语音识别模块1530可预测关于哪些时间点由所识别的时间表达式表示的概率值,并将具有最高概率值的时间点确定为由时间表达式表示的时间点。
217.语音识别模块1530可预先学习由各种时间表达式指示的时间点。语音识别模块1530可通过将经过预训练的模型应用于所识别的时间表达式(作为输入)来推导出包括概率值(例如,所识别的时间表达式表示多个时间点的概率)的图形1810。在图形1810中,x轴和y轴可以分别表示时间点和概率值。图形1810可以表示关于在特定时间间隔任意指定的时间点的概率值,或者可以显示在发出过去话语的时间点处或者在使用对话服务的时间点处的概率值。
218.当确定了与时间表达式相关的时间点时,语音识别模块1530可以执行用于确定所确定时间点是在预设时间点之前还是之后的二元分类1820。
219.语音识别模块1530可在基于经由二元分类1820的确定结果确定出与时间表达式相关的时间点在预设时间点之前时选择第一数据库261。语音识别模块1530可在基于经由二元分类1820的确定结果确定出与时间表达式相关的时间点在预设时间点之后时选择第二数据库263。
220.根据本公开的实施例,语音识别模块1530可以基于从所选数据库获取的用户对话历史来解释文本。尽管图16仅示出语音识别模块1530的nlu模块1620确定文本中的与话语
输入相关的时间点并基于该时间点选择数据库的过程,但是语音识别模块1530可以再次执行nlu过程,以基于从所选数据库获取的、与用户的对话历史有关的信息来解释文本。nlu模块1620可以详细说明包括在文本中的至少一个实体,并且基于从所选数据库获取的、与用户的对话历史有关的信息来解释经详细说明的文本。
221.dm模块1630可以接收经由nlu模块1620解释经详细说明的文本的结果作为输入,并且考虑诸如对话历史的状态变量来输出用于nlg模块1640的指令列表。nlg模块1640可以基于所接收的指令列表生成对用户话语输入的响应消息。
222.根据本公开的各种实施例,电子设备200可以在用于向用户提供对话服务的整个过程中使用ai技术。根据本公开的与ai相关的功能由处理器和存储器操作。处理器可以包括一个或多个处理器。在这种情况下,一个或多个处理器可以是通用处理器,例如但不限于中央处理单元(cpu)、应用处理器(ap)或数字信号处理器(dsp);专用图形处理器,例如图形处理单元(gpu)或视觉处理单元(vpu);或者专用ai处理器,例如神经处理单元(npu)。一个或多个处理器可以根据存储在存储器中的预定操作规则或ai模型来控制要处理的输入数据。当一个或多个处理器是专用ai处理器时,专用ai处理器可以被设计成具有专门用于处理特定ai模型的硬件结构。
223.预定义的操作规则或ai模型可以通过训练过程来创建。例如,这可以指通过基于利用大量训练数据的学习算法训练基本ai模型而创建的、被设计成执行期望特性(或目的)的预定操作规则或ai模型。训练过程可以由根据本公开的实施例在其上实现ai的设备或者单独的服务器和/或系统来执行。学习算法的示例可以包括,但不限于,监督学习、无监督学习、半监督学习和强化学习。
224.ai模型可以包括多个神经网络层。神经网络层中的每一个可以具有多个权重值,并且可以经由对前一层中的计算结果和当前层中的多个权重值的算术运算来执行神经网络计算。可以通过训练ai模型的结果来优化每一个神经网络层中的多个权重。例如,可以更新多个权重以减少或最小化在训练过程期间由ai模型获取的损失或成本值。人工神经网络可以包括深度神经网络(dnn),并且可以包括:例如但不限于,卷积神经网络(cnn)、dnn、递归神经网络(rnn)、受限boltzmann机器(rbm)、深度置信网络(dbn)、双向递归dnn(brdnn)、深q-网络(dqn)等,但不限于此。
225.本公开的实施例可以实现为包括存储在计算机可读存储介质中的指令的软件程序。
226.计算机例如可以指配置成检索存储在计算机可读存储介质中的指令并且响应于所检索的指令而操作的设备,并且可以包括根据本公开的实施例的终端设备和遥控设备。
227.计算机可读存储介质可以以非暂时性存储介质的形式提供。在这点上,“非暂时性”存储介质可以不包括信号并且是有形的,并且该术语不区分半永久性存储的数据和临时存储在存储介质中的数据。
228.此外,根据本公开的实施例的电子设备和方法可以以计算机程序产品的形式提供。计算机程序产品可以作为产品在卖方和买方之间交易。
229.计算机程序产品可以包括软件程序和其中存储有软件程序的计算机可读存储介质。例如,计算机程序产品可以包括由电子设备的制造商或通过电子市场(例如google play store和app store)电子分发的软件程序形式的产品(例如可下载应用)。对于这种电
子分发,软件程序的至少一部分可以被存储在存储介质上或者可以被临时生成。存储介质可以是制造商的服务器、电子市场的服务器或用于临时存储软件程序的中继服务器的存储介质。
230.在包括服务器和终端(例如,终端设备或遥控设备)的系统中,计算机程序产品可以包括服务器的存储介质或终端的存储介质。在存在与服务器或终端通信的第三设备(例如,智能电话)的情况下,计算机程序产品可以包括第三设备的存储介质。计算机程序产品可以包括从服务器发送到终端或第三设备或者从第三设备发送到终端的软件程序。
231.在这种情况下,服务器、终端和第三设备中的一个可以执行计算机程序产品,从而执行根据本公开的实施例的方法。服务器、终端和第三设备中的至少两个可以执行计算机程序产品,从而以分布式方式执行根据本公开的实施例的方法。
232.例如,服务器(例如,云服务器、ai服务器等)可以执行存储在服务器中的计算机程序产品,并且可以控制与服务器通信的终端执行根据本公开的实施例的方法。
233.作为另一示例,第三设备可以执行计算机程序产品,并且可以控制与第三设备通信的终端执行根据本公开的实施例的方法。作为特定示例,第三设备可以远程控制终端设备或远程控制设备以发送或接收打包图像。
234.在第三设备执行计算机程序产品的情况下,第三设备可以从服务器下载计算机程序产品,并且可以执行所下载的计算机程序产品。第三设备可以执行在其中预先加载的计算机程序产品,并且可以执行根据本公开的实施例的方法。
235.虽然已经参考各种示例性实施例说明和描述了本公开,但是应当理解,各种示例性实施例旨在是说明性的,而不是限制性的。本领域的普通技术人员将理解,在不脱离本公开(包括所附权利要求及其等同物)的范围的情况下,可以进行形式和细节上的各种改变。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献