一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种意图识别系统及方法与流程

2021-11-22 18:16:00 来源:中国专利 TAG:


1.本发明涉及自然语言处理领域,尤其涉及一种意图识别系统及方法。


背景技术:

2.互联网和移动互联网的发展,为用户在线购物提供了方便,这些电子商务平台、产品平台、服务平台等为了提高用户体验,虽然都会提供在线人工的服务,但是人工成本会比较高,对于用户数量比较大的平台,人工的服务一直满足不了买家用户的需求,在人工服务出现瓶颈的时候,还可能出现多个买家同时发来咨询消息的情况下,经常会造成人工服务难以及时回复,从而造成用户体验的下降甚至会丢失用户。
3.因此,为了解决人工客服成功高昂、服务不及时的情况,“智能客服”“智能机器人”“聊天机器人”这类聊天系统开始出现,从而可以通过软件服务由计算机自动解答买家用户发送来的各种问题。
4.智能客服核心需要解决的是如何识别出用户的意图,从而给予恰当的回复,或者让用户满意的答复,用户说“这个药品不对,我不要了”,计算机系统需要正确理解为“客户需要退货”,才能给出正确的答复。
5.因此,意图识别是聊天系统中重要的核心功能,当用户输入句子时,意图识别系统会识别用户的意图,根据不同的意图采取不同的回复策略,在一些特殊领域如医药对话场景中,在限定的意图下,需要抽取词槽,才能更精准地理解用户意图,因此意图识别也为词槽抽取提供了支持。
6.现有技术的意图识别系统需要大量的训练数据,才能得到一个鲁棒性较高的模型或者系统,而在实际场景中,尤其是一些过于专业的领域或者比较偏冷的知识领域,积累大量的数据几乎不可能,这给意图准确识别造成困难。
7.在当前流行的bert模型,需要在海量的语料的基础上进行自监督学习,若在缺乏数据的小量样本学习的情况下,准确率也下降,其泛化能力比较弱。


技术实现要素:

8.本发明为解决现有技术中存在的技术问题,提出一种基于生成对抗网络的系统,用来增强bert在小样本情况下意图识别的准确率。
9.为了实现以上目的,本发明提出了一种意图识别系统,包括数据处理模块、表征模块、特征抽取模块、目标函数模块,其中:
10.数据处理模块用以对输入文本进行处理,得到输入数据;
11.表征模块用以对输入数据进行映射,得到字向量、字位置向量、字所在的句子索引向量;
12.特征抽取模块用以对字向量、字位置向量、字所在的句子索引向量进行分析,得到模型分析需要的特征;
13.目标函数模块设置合适意图识别系统的目标函数,用以评价意图识别系统。
14.进一步地,所述数据处理模块用以将文本进行处理,得到输入数据包括:
15.将输入文本转化成训练数据格式的训练文本;
16.对部分训练文本进行标注,得到不同意图的标签数据。
17.进一步地,表征模块用以对输入数据进行映射,得到字向量、字位置向量、字所在的句子索引向量,包括:
18.对输入的句子进行分字;
19.对每个字、每个字的位置信息和字所在的句子索引信息分别用x维的语义向量进行表示,得到字向量、字位置向量、字所在的句子索引向量;
20.将字向量、字位置向量、字所在的句子索引向量相加,得到每个字的综合表征向量。
21.进一步地,特征抽取模块包括抽取单元、生成单元,噪声生成单元以及判别单元,其中:
22.所述抽取单元用以对字向量、字位置向量、字所在的句子索引向量进行分析;
23.噪声生成单元用以随机产生噪声;
24.生成单元用以根据噪声生成单元产生的噪声,生成假样本;
25.所述判别单元用以对抽取单元以及生成单元输出的特征进行判断。
26.进一步地,所述判别单元为三层的神经网络,加上一层的全连接层构成;
27.所述生成单元为三层的神经网络,加上一层的全连接层构成。
28.进一步地,所述抽取单元由多层的编码器串联而成,最后一层的编码器获取得到的特征输出至判别单元,其中,每个编码器的结构为由依次连接的自注意力层、归一化层、前馈神经网络层以及归一化层组成。
29.进一步地,所述目标函数为损失函数,所述损失函数由判别单元和生成单元的损失加权求和得到,其中:
30.判别单元的损失由真实样本损失log损失,假样本log损失和真实样本的交叉熵组成,其损失函数的公式为:
31.d_loss=

log(1

drc)

log(drf) label*drl/有标签样本数
32.drf为真实无标签样本的输出特征,drc为真实无标签样本的置信度,drl为真实有标签样本的分类特征;
33.生成单元的损失由假样本的log损失加上真假样本的平方误差,其损失函数的公式为:
34.g_loss=

log(1

dfc) (drf

dff)*(drf

dff)/假样本数
35.dff为无标签假样本的特征,dfc为假样本的置信度用,dfl为假样本的分类特征。
36.本发明还公开一种意图识别方法,应用于意图识别系统,包括步骤:
37.对数对输入文本进行处理,得到输入数据;
38.对输入数据进行映射,得到字向量、字位置向量、字所在的句子索引向量;
39.对字向量、字位置向量、字所在的句子索引向量进行分析,得到模型分析需要的特征;
40.设置目标函数,用以评价意图识别系统;
41.所述的意图识别系统为权利要求1

7任一所述的意图识别系统。
42.本发明还公开一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如所述的意图识别方法。
43.本发明还公开一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如所述的意图识别方法。
44.本发明公开的方法和系统中所述模块,在实际应用中,即可以在一台目标服务器上部署多个模块,也可以每一模块独立部署在不同的目标服务器上,特别的,根据需要,为了提供更强大的计算处理能力,也可以根据需要将模块部署到集群目标服务器上。
45.由此可见,本发明采用半监督学习方式,对有标签的句子和无标签的句子进行特征进行抽取,只需要小量数据就可以训练一个准确率很高的意图识别系统。此外,还设计了一个生成单元用于产生和句子近似的噪声,再设计一个判别器对噪声和真实样本进行判断,同时对于真实样本的标签进行类别标签的判断,极大的减少了人工标注成本,适合公司标注人员较少,或者数据量大无法过多标注的实际场景。
46.为了对本发明有更清楚全面的了解,下面结合附图,对本发明的具体实施方式进行详细描述。
附图说明
47.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
48.图1为本技术实施例的一种意图识别系统的结构示意图。
49.图2为本技术实施例的一种特征抽取模块结构示意图。
50.其中,数据处理模块1、表征模块2、特征抽取模块3、目标函数模块4。
具体实施方式
51.请参阅图1,图1示出了一种意图识别系统的结构示意图,包括数据处理模块、表征模块、特征抽取模块、目标函数模块,其中各个模块的功能以及相互关系如下:
52.数据处理模块用以对输入文本进行处理,得到输入数据;
53.表征模块用以对输入数据进行映射,得到字向量、字位置向量、字所在的句子索引向量;
54.特征抽取模块用以对字向量、字位置向量、字所在的句子索引向量进行分析,得到模型分析需要的特征;
55.目标函数模块设置合适意图识别系统的目标函数,用以评价意图识别系统。
56.在中文的文本中,由于整个句子的各个词都是连接在一起的,因此,要很好的理解语义,进行意图分析,只是对词进行分析是不够的,因此,需要挖掘和抽取出字所在位置以及字所在的句子的相关信息,综合分析,才能更好地进行理解。
57.本技术实施例中,为了充分挖掘语义信息,将字、字位置、字所在的句子索引信息结合起来,从而可以为进行更深度地挖掘信息,从而有助于更进一步的意图分析,作为一种
优选的实施方式,所述特征抽取模块的具体实现方式如下:
58.对输入的句子进行分字,本实施例采用分字而不是分词,可以避免因为分词错误带来的噪声。
59.对每个字、每个字的位置信息和字所在的句子索引信息分别都用x维的语义向量进行表示,即可得到字向量、字位置向量、字所在的句子索引向量,这里对x维的取值,可以根据实际情况,结合其他技术特征比如神经网络、数据结构化的统一处理等其他各种情况来进行设定,然后将这三个向量相加(即对字向量、字位置向量、字所在的句子索引向量相加),得到每个字的综合表征向量,本实施例中,x取值为768的语义向量进行表示,则每个字的综合表征也是768维度。
60.将输入文本转化成训练数据格式的训练文本,对文本进行结构化处理,对于有标签的文本,可以使用监督学习的方式,也可以使用自监督学习方式,输入的文本不需要人工标注就可以转为训练数据格式。
61.本实施例中历史聊天文本数据,是将人工标注的和未标注的数据进行一起训练,把历史聊天的一部分文本数据进行人工标注,得到不同意图的标签数据。还有部分数据是无标签的数据也参与训练,无标签的数据用unk作为标签,让模型从未标注的样本中学习和见识到更多的特征,进一步提升系统的准确性和鲁棒性。
62.请参阅图2,为了更好地提取到语义特征,本技术的特征抽取模块,设计了一种独创结构的神经网络结构,包括抽取单元、生成单元,噪声生成单元以及判别单元,其中:
63.所述抽取单元用以对字向量、字位置向量、字所在的句子索引向量进行分析,本实施例中,基于特征抽取模型如bert输入的是由句子拼接而成,所以每个字要么来自于第一句话,用0表示,或者是来着于第二句话,则可以用1表示。
64.噪声生成单元用以随机产生噪声;
65.生成单元用以根据噪声生成单元产生的噪声,生成假样本;
66.所述判别单元用以对抽取单元以及生成单元输出的特征进行判断。
67.下面对本技术的神经网络结构进一步展开说明。
68.本技术实施例中,抽取单元由多层的编码器串联而成,每一层编码器的结构都相同。具体而言,本实施例中的每个编码器的结构为由依次连接的自注意力层、归一化层、前馈神经网络层以及归一化层组成,第一层的编码器用以对字向量、字位置向量、字所在的句子索引向量进行特征抽取,第二层的编码器又对第一层的编码器输出的结果进行分析,直到最后一层,最后一层的编码器抽取得到的特征输出至判别单元。
69.噪声生成单元用以随机产生噪声,这个噪声作为生成单元产生假样本的来源,作为一种实施方式,为了提高生成单元的假样本质量,生成单元也是设计为一个神经网络结构,可以根据训练需要或者质量的需要,选择一些成熟的神经网络,或者自行根据需要设计一个新的神经网络结构。本技术实施例中,结合本技术的适用场景和效率以及精准度,本技术自行设计的神经网络为一个三层的神经网络,加上一层的全连接层构成。
70.本技术的判别单元结构类似所述噪声生成单元,也是一个三层的神经网络,加上一层的全连接层构成的神经网络,判断单元同时接收噪声生成单元产生的假样本和特征抽取单元得到的真实样本,用于判别样本是真实的样本还是生成器生成的假样本,如果是真实的样本,判断它具体是哪个意图。
memory)、随机存取存储器(ram,random access memory)、磁盘或光盘等。
89.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的条件下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献