用户意图识别模型的训练方法、服务器及显示设备与流程

2022-03-16 00:07:07 来源：中国专利 TAG：

1.本技术涉及显示设备技术领域，尤其涉及一种用户意图识别模型的训练方法、服务器及显示设备。

背景技术：

2.随着人工智能的快速发展，深度学习的方法在文本分类中已经得到广泛的应用。与此同时，随着语音助手业务在智能设备，如显示设备上的需求快速增长，显示设备的控制器或显示设备的服务器上设置的领域定位模块需要不断迭代更新来符合业务需求。目前，领域定位模块可通过基于深度学习模型，对语音助手接收到的用户请求进行文本分类，根据分类结果定位一个业务模块对用户请求进行处理，从而识别并响应用户意图。
3.相关技术中，领域定位模块基于textcnn、textrnn等网络结构建立深度学习模型，这种深度学习模型需要大量数据对深度学习模型进行训练以提高深度学习模型的分类精度，然而，当业务模块新增时，往往难以立即获取新增业务的大量数据，导致深度学习模型容易陷入过拟合的状态，泛化性降低，使得模型精度下降。

技术实现要素：

4.为解决上述技术问题，本技术提供了一种用户意图识别模型的训练方法、服务器及显示设备。
5.第一方面，本技术提供了一种用户意图识别模型的训练方法，该方法包括：
6.将训练样本集中的样本分为多个训练组，每个所述训练组包括支撑集和查询集；
7.将所述训练组输入用户意图识别模型，分别提取支撑集的样本特征和查询集的样本特征；
8.通过余弦函数计算所述支撑集的样本特征和查询集的样本特征之间的相似度；
9.根据所述相似度计算所述用户意图识别模型的损失函数；
10.通过多个所述训练组优化所述损失函数，直至所述用户意图识别模型收敛。
11.在一些实施例中，所述支撑集和查询集中全部类别的样本数量均相同。例如，支撑集包括c个类别的样本，每个类别的样本数量为k，查询集也可包括c个类别的样本，每个类别的样本数量为k，从而实现c way-k shot训练方式进行采样，能够充分利用样本数据。
12.在一些实施例中，所述提取支撑集的样本特征，包括：
13.通过嵌入层对所述支撑集中的样本进行处理，得到第一向量；
14.通过长短记忆神经网络层提取所述第一向量的上下文信息，得到所述第一向量对应的第一修正向量；
15.通过注意力层提取所述第一修正向量的关键句子特征。
16.在一些实施例中，所述提取查询集的样本特征包括：
17.通过嵌入层对所述查询集中的样本进行处理，得到第二向量；
18.通过长短记忆神经网络层提取所述第二向量的上下文信息，得到所述第二向量对
应的第二修正向量；
19.通过注意力层提取所述第二修正向量的关键句子特征。
20.第二方面，本技术实施例提供了一种服务器，该服务器可被配置为执行第一方面所述的用户意图识别模型的训练方法。
21.第三方面，本技术实施例提供了一种服务器，该服务器可被配置为：
22.通过用户意图识别模型对来自显示设备的用户请求进行处理，得到所述用户请求的类别标签；
23.根据所述类别标签对应的业务模块对所述用户请求进行处理，得到响应结果；
24.向显示设备发送所述响应结果；
25.其中，所述用户意图识别模型基于第一方面所述的方法训练得到。
26.第四方面，本技术实施例提供了一种显示设备，该显示设备包括：
27.显示器；
28.控制器，与所述显示器连接，所述控制器被配置为：
29.响应于接收到用户输入的语音命令，对所述语音命令进行文本识别，得到用户请求；
30.通过用户意图识别模型对用户请求进行处理，得到所述用户请求的类别标签；
31.根据所述类别标签对应的业务模块对所述用户请求进行处理，得到响应结果；
32.控制显示器显示所述响应结果；
33.其中，所述用户意图识别模型基于第一方面所述的方法训练得到。
34.本技术提供的用户意图识别模型的训练方法及显示设备的有益效果包括：
35.本技术实施例基于小样本分类的方式对用户意图识别模型进行训练，能够充分利用样本数据，采用的余弦计算相似度，并结合relu激活函数；在高维特征的情况下，利用余弦计算相似度，可知，相似性越高，值越接近1，正交时为0，相反时为-1；结合relu激活函数，保证特征向量在正交和相反时，值为0，相似性越高，值越接近1；在这一定程度上对计算高维空间的特征相似度有比较好的效果，此外，基于小样本分类的方式，使用少量数据就能训练，并且对原有意图类别干扰性小，对新增意图类别说法具有一定的泛化性，新增类别的准确率和召回比较高。
附图说明
36.为了更清楚地说明本技术的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
37.图1中示例性示出了根据一些实施例的显示设备与控制装置之间操作场景的示意图；
38.图2中示例性示出了根据一些实施例的显示设备200的硬件配置框图；
39.图3中示例性示出了根据一些实施例的控制装置100的硬件配置框图；
40.图4中示例性示出了根据一些实施例的显示设备200中软件配置示意图；
41.图5中示例性示出了根据一些实施例的显示设备200中应用程序的图标控件界面显示示意图；
42.图6中示例性示出了根据一些实施例的用户意图识别模型的训练整体流程示意图；
43.图7中示例性示出了根据一些实施例的用户意图识别模型的结构示意图；
44.图8中示例性示出了根据一些实施例的用户意图识别模型的训练方法的流程示意图；
45.图9中示例性示出了根据一些实施例的支撑集的特征提取方法的流程示意图；
46.图10中示例性示出了根据一些实施例的查询集的特征提取方法的流程示意图。
具体实施方式
47.为使本技术的目的、实施方式和优点更加清楚，下面将结合本技术示例性实施例中的附图，对本技术示例性实施方式进行清楚、完整地描述，显然，所描述的示例性实施例仅是本技术一部分实施例，而不是全部的实施例。
48.基于本技术描述的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术所附权利要求保护的范围。此外，虽然本技术中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。
49.需要说明的是，本技术中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本技术的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。
50.本技术中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明(unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换，例如能够根据本技术实施例图示或描述中给出那些以外的顺序实施。
51.此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
52.本技术中使用的术语“模块”，是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。
53.本技术中使用的术语“遥控器”，是指电子设备(如本技术中公开的显示设备)的一个组件，通常可在较短的距离范围内无线控制电子设备。一般使用红外线和/或射频(rf)信号和/或蓝牙与电子设备连接，也可以包括wifi、无线usb、蓝牙、动作传感器等功能模块。例如：手持式触摸遥控器，是以触摸屏中用户界面取代一般遥控装置中的大部分物理内置硬键。
54.本技术中使用的术语“手势”，是指用户通过一种手型的变化或手部运动等动作，用于表达预期想法、动作、目的/或结果的用户行为。
55.图1中示例性示出了根据实施例中显示设备与控制装置之间操作场景的示意图。如图1中示出，用户可通过移动终端300和控制装置100操作显示设备200。
56.在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式等，通过无线或其他有线方式来控制显
示设备200。用户可以通过遥控器上按键，语音输入、控制面板输入等输入用户指令，来控制显示设备200。如：用户可以通过遥控器上音量加减键、频道控制键、上/下/左/右的移动按键、语音输入按键、菜单键、开关机按键等输入相应控制指令，来实现控制显示设备200的功能。
57.在一些实施例中，也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。该应用程序通过配置可以在与智能设备关联的屏幕上，在直观的用户界面(ui)中为用户提供各种控制。
58.在一些实施例中，移动终端300可与显示设备200安装软件应用，通过网络通信协议实现连接通信，实现一对一控制操作的和数据通信的目的。如：可以实现用移动终端300与显示设备200建立控制指令协议，将遥控控制键盘同步到移动终端300上，通过控制移动终端300上用户界面，实现控制显示设备200的功能。也可以将移动终端300上显示音视频内容传输到显示设备200上，实现同步显示功能。
59.如图1中还示出，显示设备200还与服务器400通过多种通信方式进行数据通信。可允许显示设备200通过局域网(lan)、无线局域网(wlan)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。示例的，显示设备200通过发送和接收信息，以及电子节目指南(epg)互动，接收软件程序更新，或访问远程储存的数字媒体库。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。通过服务器400提供视频点播和广告服务等其他网络服务内容。
60.显示设备200，可以液晶显示器、oled显示器、投影显示设备。具体显示设备类型，尺寸大小和分辨率等不作限定，本领技术人员可以理解的是，显示设备200可以根据需要做性能和配置上一些改变。
61.显示设备200除了提供广播接收电视功能之外，还可以附加提供计算机支持功能的智能网络电视功能，包括但不限于，网络电视、智能电视、互联网协议电视(iptv)等。
62.图2中示例性示出了根据示例性实施例中显示设备200的硬件配置框图。
63.在一些实施例中，显示设备200中包括控制器250、调谐解调器210、通信器220、检测器230、输入/输出接口255、显示器275，音频输出接口285、存储器260、供电电源290、用户接口265、外部装置接口240中的至少一种。
64.在一些实施例中，显示器275，用于接收源自第一处理器输出的图像信号，进行显示视频内容和图像以及菜单操控界面的组件。
65.在一些实施例中，显示器275，包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件。
66.在一些实施例中，显示视频内容，可以来自广播电视内容，也可以是说，可通过有线或无线通信协议接收的各种广播信号。或者，可显示来自网络通信协议接收来自网络服务器端发送的各种图像内容。
67.在一些实施例中，显示器275用于呈现显示设备200中产生且用于控制显示设备200的用户操控ui界面。
68.在一些实施例中，根据显示器275类型不同，还包括用于驱动显示的驱动组件。
69.在一些实施例中，显示器275为一种投影显示器，还可以包括一种投影装置和投影
屏幕。
70.在一些实施例中，通信器220是用于根据各种通信协议类型与外部设备或外部服务器进行通信的组件。例如：通信器可以包括wifi芯片，蓝牙通信协议芯片，有线以太网通信协议芯片等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。
71.在一些实施例中，显示设备200可以通过通信器220与外部控制装置100或内容提供设备之间建立控制信号和数据信号发送和接收。
72.在一些实施例中，用户接口265，可用于接收控制装置100(如：红外遥控器等)红外控制信号。
73.在一些实施例中，检测器230是显示设备200用于采集外部环境或与外部交互的信号。
74.在一些实施例中，检测器230包括光接收器，用于采集环境光线强度的传感器，可以通过采集环境光可以自适应性显示参数变化等。
75.在一些实施例中，检测器230还可以包括图像采集器，如相机、摄像头等，可以用于采集外部环境场景，以及用于采集用户的属性或与用户交互手势，可以自适应变化显示参数，也可以识别用户手势，以实现与用户之间互动的功能。
76.在一些实施例中，检测器230还可以包括温度传感器等，如通过感测环境温度。
77.在一些实施例中，显示设备200可自适应调整图像的显示色温。如当温度偏高的环境时，可调整显示设备200显示图像色温偏冷色调，或当温度偏低的环境时，可以调整显示设备200显示图像偏暖色调。
78.在一些实施例中，检测器230还可声音采集器等，如麦克风，可以用于接收用户的声音。示例性的，包括用户控制显示设备200的控制指令的语音信号，或采集环境声音，用于识别环境场景类型，使得显示设备200可以自适应适应环境噪声。
79.在一些实施例中，如图2所示，输入/输出接口255被配置为，可进行控制器250与外部其他设备或其他控制器250之间的数据传输。如接收外部设备的视频信号数据和音频信号数据、或命令指令数据等。
80.在一些实施例中，外部装置接口240可以包括，但不限于如下：可以高清多媒体接口hdmi接口、模拟或数据高清分量输入接口、复合视频输入接口、usb输入接口、rgb端口等任一个或多个接口。也可以是上述多个接口形成复合性的输入/输出接口。
81.在一些实施例中，如图2所示，调谐解调器210被配置为，通过有线或无线接收方式接收广播电视信号，可以进行放大、混频和谐振等调制解调处理，从多个无线或有线广播电视信号中解调出音视频信号，该音视频信号可以包括用户所选择电视频道频率中所携带的电视音视频信号，以及epg数据信号。
82.在一些实施例中，调谐解调器210解调的频点受到控制器250的控制，控制器250可根据用户选择发出控制信号，以使的调制解调器响应用户选择的电视信号频率以及调制解调该频率所携带的电视信号。
83.在一些实施例中，广播电视信号可根据电视信号广播制式不同区分为地面广播信号、有线广播信号、卫星广播信号或互联网广播信号等。或者根据调制类型不同可以区分为数字调制信号，模拟调制信号等。或者根据信号种类不同区分为数字信号、模拟信号等。
84.在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。这样，机顶盒将接收到的广播电视信号调制解调后的电视音视频信号输出给主体设备，主体设备经过第一输入/输出接口接收音视频信号。
85.在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250可以控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器275上显示ui对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。
86.在一些实施例中，所述对象可以是可选对象中的任何一个，例如超链接或图标。与所选择的对象有关操作，例如：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。用于选择ui对象用户命令，可以是通过连接到显示设备200的各种输入装置(例如，鼠标、键盘、触摸板等)输入命令或者与由用户说出语音相对应的语音命令。
87.如图2所示，控制器250包括随机存取存储器251(random access memory，ram)、只读存储器252(read-only memory,rom)、视频处理器270、音频处理器280、其他处理器253(例如：图形处理器(graphics processing unit，gpu)、中央处理器254(central processing unit，cpu)、通信接口(communication interface)，以及通信总线256(bus)中的至少一种。其中，通信总线连接各个部件。
88.在一些实施例中，ram 251用于存储操作系统或其他正在运行中的程序的临时数据。
89.在一些实施例中，rom 252用于存储各种系统启动的指令。
90.在一些实施例中，rom 252用于存储一个基本输入输出系统，称为基本输入输出系统(basic input output system，bios)。用于完成对系统的加电自检、系统中各功能模块的初始化、系统的基本输入/输出的驱动程序及引导操作系统。
91.在一些实施例中，在收到开机信号时，显示设备200电源开始启动，cpu运行rom 252中系统启动指令，将存储在存储器的操作系统的临时数据拷贝至ram 251中，以便于启动或运行操作系统。当操作系统启动完成后，cpu再将存储器中各种应用程序的临时数据拷贝至ram 251中,然后，以便于启动或运行各种应用程序。
92.在一些实施例中，cpu处理器254，用于执行存储在存储器中操作系统和应用程序指令。以及根据接收外部输入的各种交互指令，来执行各种应用程序、数据和内容，以便最终显示和播放各种音视频内容。
93.在一些示例性实施例中，cpu处理器254，可以包括多个处理器。多个处理器可包括一个主处理器以及一个或多个子处理器。主处理器，用于在预加电模式中执行显示设备200一些操作，和/或在正常模式下显示画面的操作。一个或多个子处理器，用于在待机模式等状态下一种操作。
94.在一些实施例中，图形处理器253，用于产生各种图形对象，如：图标、操作菜单、以及用户输入指令显示图形等。包括运算器，通过接收用户输入各种交互指令进行运算，根据显示属性显示各种对象。以及包括渲染器，对基于运算器得到的各种对象，进行渲染，上述渲染后的对象用于显示在显示器上。
95.在一些实施例中，视频处理器270被配置为将接收外部视频信号，根据输入信号的标准编解码协议，进行解压缩、解码、缩放、降噪、帧数转换、分辨率转换、图像合成等等视频处理，可得到直接可显示设备200上显示或播放的信号。
96.在一些实施例中，视频处理器270，包括解复用模块、视频解码模块、图像合成模块、帧数转换模块、显示格式化模块等。
97.其中，解复用模块，用于对输入音视频数据流进行解复用处理，如输入mpeg-2,则解复用模块进行解复用成视频信号和音频信号等。
98.视频解码模块，则用于对解复用后的视频信号进行处理，包括解码和缩放处理等。
99.图像合成模块，如图像合成器，其用于将图形生成器根据用户输入或自身生成的gui信号，与缩放处理后视频图像进行叠加混合处理，以生成可供显示的图像信号。
100.帧数转换模块，用于对转换输入视频帧数，如将60hz帧数转换为120hz帧数或240hz帧数，通常的格式采用如插帧方式实现。
101.显示格式化模块，则用于将接收帧数转换后视频输出信号，改变信号以符合显示格式的信号，如输出rgb数据信号。
102.在一些实施例中，图形处理器253可以和视频处理器可以集成设置，也可以分开设置，集成设置的时候可以执行输出给显示器的图形信号的处理，分离设置的时候可以分别执行不同的功能，例如gpu frc(frame rate conversion))架构。
103.在一些实施例中，音频处理器280，用于接收外部的音频信号，根据输入信号的标准编解码协议，进行解压缩和解码，以及降噪、数模转换、和放大处理等处理，得到可以在扬声器中播放的声音信号。
104.在一些实施例中，视频处理器270可以包括一颗或多颗芯片组成。音频处理器，也可以包括一颗或多颗芯片组成。
105.在一些实施例中，视频处理器270和音频处理器280，可以单独的芯片，也可以于控制器一起集成在一颗或多颗芯片中。
106.在一些实施例中，音频输出，在控制器250的控制下接收音频处理器280输出的声音信号，如：扬声器286，以及除了显示设备200自身携带的扬声器之外，可以输出至外接设备的发声装置的外接音响输出端子，如：外接音响接口或耳机接口等，还可以包括通信接口中的近距离通信模块，例如：用于进行蓝牙扬声器声音输出的蓝牙模块。
107.供电电源290，在控制器250控制下，将外部电源输入的电力为显示设备200提供电源供电支持。供电电源290可以包括安装显示设备200内部的内置电源电路，也可以是安装在显示设备200外部电源，在显示设备200中提供外接电源的电源接口。
108.用户接口265，用于接收用户的输入信号，然后，将接收用户输入信号发送给控制器250。用户输入信号可以是通过红外接收器接收的遥控器信号，可以通过网络通信模块接收各种用户控制信号。
109.在一些实施例中，用户通过控制装置100或移动终端300输入用户命令，用户输入接口则根据用户的输入，显示设备200则通过控制器250响应用户的输入。
110.在一些实施例中，用户可在显示器275上显示的图形用户界面(gui)输入用户命令，则用户输入接口通过图形用户界面(gui)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接
收用户输入命令。
111.在一些实施例中，“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(graphic user interface，gui)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、widget等可视的界面元素。
112.存储器260，包括存储用于驱动显示设备200的各种软件模块。如：第一存储器中存储的各种软件模块，包括：基础模块、检测模块、通信模块、显示控制模块、浏览器模块、和各种服务模块等中的至少一种。
113.基础模块用于显示设备200中各个硬件之间信号通信、并向上层模块发送处理和控制信号的底层软件模块。检测模块用于从各种传感器或用户输入接口中收集各种信息，并进行数模转换以及分析管理的管理模块。
114.例如，语音识别模块中包括语音解析模块和语音指令数据库模块。显示控制模块用于控制显示器进行显示图像内容的模块，可以用于播放多媒体图像内容和ui界面等信息。通信模块，用于与外部设备之间进行控制和数据通信的模块。浏览器模块，用于执行浏览服务器之间数据通信的模块。服务模块，用于提供各种服务以及各类应用程序在内的模块。同时，存储器260还用存储接收外部数据和用户数据、各种用户界面中各个项目的图像以及焦点对象的视觉效果图等。
115.图3示例性示出了根据示例性实施例中控制装置100的配置框图。如图3所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口、存储器、供电电源。
116.控制装置100被配置为控制显示设备200，以及可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。如：用户通过操作控制装置100上频道加减键，显示设备200响应频道加减的操作。
117.在一些实施例中，控制装置100可是一种智能设备。如：控制装置100可根据用户需求安装控制显示设备200的各种应用。
118.在一些实施例中，如图1所示，移动终端300或其他智能电子设备，可在安装操控显示设备200的应用之后，可以起到控制装置100类似功能。如：用户可以通过安装应用，在移动终端300或其他智能电子设备上可提供的图形用户界面的各种功能键或虚拟按钮，以实现控制装置100实体按键的功能。
119.控制器110包括处理器112和ram 113和rom 114、通信接口130以及通信总线。控制器用于控制控制装置100的运行和操作，以及内部各部件之间通信协作以及外部和内部的数据处理功能。
120.通信接口130在控制器110的控制下，实现与显示设备200之间控制信号和数据信号的通信。如：将接收到的用户输入信号发送至显示设备200上。通信接口130可包括wifi芯片131、蓝牙模块132、nfc模块133等其他近场通信模块中至少之一种。
121.用户输入/输出接口140，其中，输入接口包括麦克风141、触摸板142、传感器143、按键144等其他输入接口中至少一者。如：用户可以通过语音、触摸、手势、按压等动作实现用户指令输入功能，输入接口通过将接收的模拟信号转换为数字信号，以及数字信号转换
为相应指令信号，发送至显示设备200。
122.输出接口包括将接收的用户指令发送至显示设备200的接口。在一些实施例中，可以红外接口，也可以是射频接口。如：红外信号接口时，需要将用户输入指令按照红外控制协议转化为红外控制信号，经红外发送模块进行发送至显示设备200。再如：射频信号接口时，需将用户输入指令转化为数字信号，然后按照射频控制信号调制协议进行调制后，由射频发送端子发送至显示设备200。
123.在一些实施例中，控制装置100包括通信接口130和输入输出接口140中至少一者。控制装置100中配置通信接口130，如：wifi、蓝牙、nfc等模块，可将用户输入指令通过wifi协议、或蓝牙协议、或nfc协议编码，发送至显示设备200。
124.存储器190，用于在控制器的控制下存储驱动和控制控制设备200的各种运行程序、数据和应用。存储器190，可以存储用户输入的各类控制信号指令。
125.供电电源180，用于在控制器的控制下为控制装置100各元件提供运行电力支持。可以电池及相关控制电路。
126.在一些实施例中，系统可以包括内核(kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构，它们让用户可以管理文件、运行程序并使用系统。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(ipc)。内核启动后，再加载shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。
127.参见图4，在一些实施例中，将系统分为四层，从上至下分别为应用程序(applications)层(简称“应用层”)，应用程序框架(application framework)层(简称“框架层”)，安卓运行时(android runtime)和系统库层(简称“系统运行库层”)，以及内核层。
128.在一些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是操作系统自带的窗口(window)程序、系统设置程序、时钟程序、相机应用等；也可以是第三方开发者所开发的应用程序，比如嗨见程序、k歌程序、魔镜程序等。在具体实施时，应用程序层中的应用程序包不限于以上举例，实际还可以包括其它应用程序包，本技术实施例对此不做限制。
129.框架层为应用程序层的应用程序提供应用编程接口(application programming interface，api)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心，这个中心决定让应用层中的应用程序做出动作。应用程序通过api接口，可在执行中访问系统中的资源和取得系统的服务。
130.如图4所示，本技术实施例中应用程序框架层包括管理器(managers)，内容提供者(content provider)等，其中管理器包括以下模块中的至少一个：活动管理器(activity manager)用与和系统中正在运行的所有活动进行交互；位置管理器(location manager)用于给系统服务或应用提供了系统位置服务的访问；文件包管理器(package manager)用于检索当前安装在设备上的应用程序包相关的各种信息；通知管理器(notification manager)用于控制通知消息的显示和清除；窗口管理器(window manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。
131.在一些实施例中，活动管理器用于：管理各个应用程序的生命周期以及通常的导航回退功能，比如控制应用程序的退出(包括将显示窗口中当前显示的用户界面切换到系
统桌面)、打开、后退(包括将显示窗口中当前显示的用户界面切换到当前显示的用户界面的上一级用户界面)等。
132.在一些实施例中，窗口管理器用于管理所有的窗口程序，比如获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕，控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。
133.在一些实施例中，系统运行库层为上层即框架层提供支撑，当框架层被使用时，安卓操作系统会运行系统运行库层中包含的c/c 库以实现框架层要实现的功能。
134.在一些实施例中，内核层是硬件和软件之间的层。如图4所示，内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、wifi驱动、usb驱动、hdmi驱动、传感器驱动(如指纹传感器，温度传感器，触摸传感器、压力传感器等)等。
135.在一些实施例中，内核层还包括用于进行电源管理的电源驱动模块。
136.在一些实施例中，图4中的软件架构对应的软件程序和/或模块存储在图2或图3所示的第一存储器或第二存储器中。
137.在一些实施例中，对于具备触控功能的显示设备，以分屏操作为例，显示设备接收用户作用于显示屏上的输入操作(如分屏操作)，内核层可以根据输入操作产生相应的输入事件，并向应用程序框架层上报该事件。由应用程序框架层的活动管理器设置与该输入操作对应的窗口模式(如多窗口模式)以及窗口位置和大小等。应用程序框架层的窗口管理根据活动管理器的设置绘制窗口，然后将绘制的窗口数据发送给内核层的显示驱动，由显示驱动在显示屏的不同显示区域显示与之对应的应用界面。
138.在一些实施例中，如图5中所示，应用程序层包含至少一个应用程序可以在显示器中显示对应的图标控件，如：直播电视应用程序图标控件、视频点播应用程序图标控件、媒体中心应用程序图标控件、应用程序中心图标控件、游戏应用图标控件等。
139.在一些实施例中，直播电视应用程序，可以通过不同的信号源提供直播电视。例如，直播电视应用程可以使用来自有线电视、无线广播、卫星服务或其他类型的直播电视服务的输入提供电视信号。以及，直播电视应用程序可在显示设备200上显示直播电视信号的视频。
140.在一些实施例中，视频点播应用程序，可以提供来自不同存储源的视频。不同于直播电视应用程序，视频点播提供来自某些存储源的视频显示。例如，视频点播可以来自云存储的服务器端、来自包含已存视频节目的本地硬盘储存器。
141.在一些实施例中，媒体中心应用程序，可以提供各种多媒体内容播放的应用程序。例如，媒体中心，可以为不同于直播电视或视频点播，用户可通过媒体中心应用程序访问各种图像或音频所提供服务。
142.在一些实施例中，应用程序中心，可以提供储存各种应用程序。应用程序可以是一种游戏、应用程序，或某些和计算机系统或其他设备相关但可以在智能电视中运行的其他应用程序。应用程序中心可从不同来源获得这些应用程序，将它们储存在本地储存器中，然后在显示设备200上可运行。
143.在一些实施例中的硬件或软件架构可以基于上述实施例中的介绍，在一些实施例中可以是基于相近的其他硬件或软件架构，可以实现本技术的技术方案即可。
144.在一些实施例中，应用程序中心内可设置有语音助手应用，语音助手应用可接收
用户语音，根据语音识别出用户请求，进而对用户请求进行分析，得到用户意图，根据用户意图执行相应的动作，例如，对显示设备进行控制，或播放用户意图对应的响应结果，如相应的音频或视频。
145.在一些实施例中，语音助手应用还可设置在其他设备上，如音箱设备。
146.在一些实施例中，显示设备的控制器可预先训练一个用户意图识别模型，根据该模型从用户请求中识别出用户意图。
147.在一些实施例中，训练一个用户意图识别模型需要将大量的标签数据输入到该模型，根据标签学习文本分类，即通过深度学习，提取出相同标签的样本特征，根据样本特征学习对样本进行分类，在训练结束后，可输入用户请求到该模型，通过该模型识别出用户请求归类后的标签，再根据标签选择相应的业务模块对用户请求进行处理。
148.然而，在很多场景下，收集大量标签数据是非常昂贵、困难、甚至不可能的，而显示设备功能的日益更新，会产生很多新的业务模块，随之带来的是用户意图识别模型需要加入新的标签数据进行训练，如果标签数据过少，将容易导致识别结果泛化性达不到预期目标。
149.为解决上述技术问题，本技术实施例预先训练一个基于小样本学习的用户意图识别模型，该模型可利用数量较少的样本达到较优的分类效果，进而提高用户意图识别的准确性。
150.参见图6，通过标签数据可进行模型训练及预测，其中，当进行训练时，可将标签数据进行采样，采样可选用c way k shot的方式，根据采样后的数据进行模型训练后可得到模型文件，进一步的，根据模型训练结果，可验证模型的分类效果，进而修正模型；当进行预测时，可将标签数据进行采样，采样可选用c way k shot的方式，将采样后的数据和用户请求输入到训练得到的模型中，可实现用户请求的类别预测。
151.在一些实施例中，可预先构建一个用户意图识别模型，然后再利用标签数据进行模型训练。
152.参见图7，本技术实施例构建的用户意图识别模型可包括input layer(输入层)、embedding layer(嵌入层)、双向lstm(long short term，长短记忆神经网络)层、attention layer(注意力层)、similarity layer(关系层)和output layer(输出层)，其中，嵌入层、双向lstm层和注意力层可组成编码层，用于提取特征，将标签数据输入到用户意图识别模型的输入层后，依次经过输入层、编码层和关系层的处理，在输出层可输出标签数据中的标签，完成一次训练。
153.用户意图识别模型的具体训练方法可参见图8，为根据一些实施例的用户意图识别模型的训练方法的流程示意图，该方法可包括如下步骤：
154.步骤s110：将训练样本集中的样本分为多个训练组，每个所述训练组包括支撑集和查询集。
155.在一些实施例中，训练样本集可取自图6所示的标签数据，每条标签数据可作为训练样本集的一个样本，标签可为人工添加的分类标识，用于确定业务模块。业务模块可为能够对样本或用户请求在某个领域内进行响应的功能模块，如百科模块、影视模块、音乐模块等模块。
156.在一些实施例中，根据标签，可从训练样本集中随机抽取c个类别，在这c个类别中
各随机抽取k个样本，组成support(支撑)集，也可称为supportset(支撑集)，从训练样本集剩余的样本中随机抽取一些类别，在这些类别中各随机抽取k个样本，组成query(查询)集，也可称为queryset(查询集)。支撑集和查询集组成一个训练组。
157.从训练样本集剩余的样本中可继续抽取样本，形成下一组训练组，依次类推，直至将训练样本集分为多个训练组，每个训练组均包括支撑集和查询集，其中，在一个训练组中，全部类别的样本数量均相同。
158.在一些实施例中，支撑集的c＝3，k＝5，查询集的类别数量同样可为3，k＝5。支撑集和查询集的一个例子如下：
159.support:{
160.相声搜索,查一下民间经典的搞笑相声
161.相声搜索,查一下民间相声影片集
162.相声搜索,查一下民间相声全集
163.相声搜索,查一下李寅飞大师的相声大全
164.相声搜索,查一下朱德刚搞笑相声全集
165.影视搜索,生病在家想看四川的片儿给我播放一个
166.影视搜索,生病在家想看宁夏的电影给我播放一个
167.影视搜索,生病在家想看天津的电视剧给我播放一个
168.影视搜索,生病在家想看天津的影片给我播放一个
169.影视搜索,生病在家想看台湾的影片给我播放一个
170.歌曲搜索,赵雷无法长大音乐
171.歌曲搜索,赵麟唱一首歌曲
172.歌曲搜索,赵鹏的歌悲伤
173.歌曲搜索,赵鹏去求告白气球
174.歌曲搜索,赵薇歌曲情深深雨蒙蒙
175.}
176.query:{
177.相声搜索,马树春的相声给我放出来
178.相声搜索,马志明表演过的最火的相声有那些
179.相声搜索,马志明的相声
180.相声搜索,马季评分最高的相声播一个
181.相声搜索,黄铁良很不错的相声哪里能找到
182.影视搜索,高仓健演过的获得过戛纳国际电影节的影片
183.影视搜索,获得过四川电视节金熊猫奖的电视连续剧
184.影视搜索,找一下获得过金鹰节最具人气演员奖的影片
185.影视搜索,邓超近两年演的电影找一个超清的播放
186.影视搜索,超想看青春方面的影片帮我找一部获得过最佳新人奖的
187.歌曲搜索,龚玥梦里水乡
188.歌曲搜索,马其顿语的中国古典乐曲赏析
189.歌曲搜索,魔法城堡音乐视频
190.歌曲搜索,重返十七岁的歌
191.歌曲搜索,醉赤壁林俊杰的歌
192.}
193.其中，相声搜索、相声搜索、歌曲搜索为标签，用于确定进行响应的业务模块。
194.步骤s120：将所述训练组输入用户意图识别模型，分别提取支撑集的样本特征和查询集的样本特征。
195.当对用户意图识别模型启动一次训练时，可将一组训练组中的支撑集和查询集分别输入到用户意图识别模型的输入层。
196.在一些实施例中，用户意图识别模型的编码层可分别对支撑集和查询集进行并行处理。
197.在一些实施例中，输入层的x1、x2、
…
x
t
可表示为支撑集的样本，输入层将支撑集{x1,x2,...x
t
}输出至编码层进行处理。
198.在一些实施例中，编码层包括嵌入层、双向lstm层和注意力层，参见图9，编码层对支撑集的处理可包括步骤s1201-s1203。
199.步骤s1201：通过嵌入层对所述支撑集中的样本进行处理，得到第一向量。
200.在一些实施例中，嵌入层可将支撑集的每个样本分别表示为一个第一向量，得到第一向量表示的集合{e1,e2,...e
t
}，嵌入层将该集合输出至双向lstm层。
201.步骤s1202：通过长短记忆神经网络层提取所述第一向量的上下文信息，得到所述第一向量对应的第一修正向量。
202.在一些实施例中，双向lstm层可提取每个样本的上下文信息，其中，上下文信息可表示为或例如，e1的上下文信息可表示为e2的上下文信息可表示为
203.双向lstm层，相当于两层神经网络，一层是从句子的开头作为输入，另一层是从句子的最后一个词语作为输入；最后将这两层进行拼接处理，即可得到上下文信息，其中，句子可指样本。
204.例如，将进行拼接后，得到上下文信息：第一修正向量h1，将进行拼接后，得到第一修正向量h2。
205.查询集对应的第一修正向量的集合可表示为h，例如，h＝[h1,h2
…
ht]，双向lstm层将集合h输出至注意力层。
[0206]
步骤s1203：通过注意力层提取所述第一修正向量的关键句子特征。
[0207]
在一些实施例中，attention层可利用attention机制提取句子的关键特征，计算公式如下：
[0208]
m＝tanh(h)
[0209]
α＝softmax(w
t
m)
[0210]
r＝hα2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0211]
(1)式中，m代表隐藏层状态表示；α代表经过softmax归一化之后的概率，作为注意力机制的权重；r代表第一修正向量。dw代表预训练的词向量维度，w
t
是一个训练学习的参数的转置，最后被用来表征supportset的关键句子特征为：
[0212]
h'＝tanh(r)
ꢀꢀꢀ
(2)
[0213]
在一些实施例中，该关键句子特征可作为样本特征，即句子的特征表示，其中，句子可指样本。
[0214]
在一些实施例中，输入层的x1、x2、
…
x
t
可表示为查询集的样本，将查询集经输入层输出到编码层后，可得到queryset的关键句子特征。
[0215]
参见图10，编码层对查询集的处理可包括步骤s1211-s1213。
[0216]
步骤s1211：通过嵌入层对所述查询集中的样本进行处理，得到第二向量。
[0217]
步骤s1212：通过长短记忆神经网络层提取所述第二向量的上下文信息，得到所述第二向量对应的第二修正向量。
[0218]
步骤s1213：通过注意力层提取所述第二修正向量的关键句子特征。
[0219]
在一些实施例中，步骤s1211-s1213的具体过程与步骤s1201-s1203的区别在于处理对象不同，即步骤s1201-s1203的处理对象是支撑集的样本，步骤s1211-s1213的处理对象是查询集的样本，步骤s1211-s1213的具体算法可参考步骤s1201-s1203，在此不再赘述。
[0220]
步骤s130：通过余弦函数计算所述支撑集的样本特征和查询集的样本特征之间的相似度。
[0221]
在一些实施例中，可通过余弦函数计算所述支撑集和查询集之间的距离，计算公式如下：
[0222][0223]
(3)式中，i＝1，2，...c，xi为supportset中的样本，如xj为queryset中的样本，d
θ
表示关系衡量网络模块，表示特征提取网络模块；表示表示支撑集的特征表示；表示表示查询集的特征表示；c表示连接；其中支撑集和查询集的特征表示通过公式(2)的结果获得。
[0224]
进一步的，可通过relu(线性整流)函数将所述距离映射到预设范围内，得到所述支撑集和查询集之间的相似度。在一些实施例中，预设范围可包括0-1。
[0225]
步骤s140：根据所述相似度计算所述用户意图识别模型的损失函数。
[0226]
在一些实施例中，可通过mse(meansquareerror，均方差)函数来计算模型损失函数，计算公式如下：
[0227][0228]
(4)式中，yi表示支撑集标签；yj表示表示查询集标签。
[0229]
在一些实例中，使用softmax归一化之后，得到概率最大的预测结果作为输出y^，最后得到输入样本对应的预测标签。
[0230]
步骤s150：通过多个所述训练组优化所述损失函数，直至所述用户意图识别模型收敛。
[0231]
在一些实施例中，将多个训练组的数据依次输入到用户意图识别模型进行迭代训练，利用梯度进行反向传播，更新用户意图识别模型的训练参数，直至迭代次数达到设定的阈值，并且验证集的损失不再下降，精确度也不再上升时，判定用户意图识别模型收敛，停止训练对用户意图识别模型，将用户意图识别模型进行保存。
[0232]
在一些实施例中，在训练过程中，可使用l2正则和dropout(丢弃)方法减小过拟合。
[0233]
在一些实施例中，在训练好用户意图识别模型后，可将该用户意图识别模型存储至显示设备的控制器内，显示设备在通过语音助手应用接收到用户的语音命令后，可对语音命令进行文本识别，得到用户请求，将用户请求作为query输入到用户意图识别模型中，通过用户意图识别模型对用户请求进行文本分类，输出用户请求的类别标签，根据类别标签对应的业务模块对所述用户请求进行处理，得到响应结果，控制显示器显示该响应结果。
[0234]
在一些实施例中，在训练好用户意图识别模型后，可将该用户意图识别模型存储至服务器内，显示设备与服务器通信连接，显示设备在通过语音助手应用接收到用户的语音命令后，可对语音命令进行文本识别，得到用户请求，将用户请求发送到服务器，服务器将用户请求作为query输入到用户意图识别模型中，通过用户意图识别模型对用户请求进行文本分类，输出用户请求的类别标签，根据类别标签对应的业务模块对所述用户请求进行处理，得到响应结果，服务器将响应结果发送到显示设备，使显示设备显示该响应结果。
[0235]
由上述实施例可见，本技术实施例基于小样本分类的方式对用户意图识别模型进行训练，与传统的深度学习相比较，在训练过程中，采用c way-k shot的训练方式，能够充分利用样本数据。关系衡量层采用的余弦计算相似度，并结合relu激活函数；在高维特征的情况下，利用余弦计算相似度，可知，相似性越高，值越接近1，正交时为0，相反时为-1；结合relu激活函数，保证特征向量在正交和相反时，值为0，相似性越高，值越接近1；在这一定程度上对计算高维空间的特征相似度有比较好的效果，此外，基于小样本分类的方式，使用少量数据就能训练，并且对原有意图类别干扰性小，对新增意图类别说法具有一定的泛化性，新增类别的准确率和召回比较高。
[0236]
由于以上实施方式均是在其他方式之上引用结合进行说明，不同实施例之间均具有相同的部分，本说明书中各个实施例之间相同、相似的部分互相参见即可。在此不再详细阐述。
[0237]
需要说明的是，在本说明书中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或暗示这些实体或操作之间存在任何这种实际的关系或顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的电路结构、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种电路结构、物品或者设备所固有的要素。在没有更多限制的情况下，有语句“包括一个
……”
限定的要素，并不排除在包括要素的电路结构、物品或者设备中还存在另外的相同要素。
[0238]
本领域技术人员在考虑说明书及实践这里发明的公开后，将容易想到本技术的其他实施方案。本技术旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本技术的真正范围和精神由权利要求的内容指出。以上的本技术实施方式并不构成对本技术保护范围的限定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：相似度阈值获取方法、语音家电及计算机可读存储介质与流程

用户意图识别模型的训练方法、服务器及显示设备与流程

相关文献

最热文献