一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于人工智能的意图识别方法、装置、设备及存储介质与流程

2022-02-20 14:18:20 来源:中国专利 TAG:


1.本技术涉及人工智能技术的语音分析技术领域,具体而言,本技术涉及一种基于人工智能的意图识别方法、装置、设备及存储介质。


背景技术:

2.人机交互的重点是计算机接收并理解人的意图,可分为感知系统和认知系统,深度学习等概率模型擅长解决熟能生巧类的经验性问题,比如通过图像识别心情,通过声音提取文字,当今的感知系统已经拥有足以覆盖大多数场景需求的准确率。
3.意图识别可近似等效为一种分类问题,意图识别模型已经广泛应用在意图识别、情感分析和文本分类等任务中。意图识别模型的最终使用效果很大程度上取决于训练数据集的质量,对于现有的意图识别模型而言,其在识别含有上下文前后偏差及用户情绪的音频时,意图识别的准确性较低,影响整体的用户使用效果。


技术实现要素:

4.本技术的主要目的为提供一种基于人工智能的意图识别方法、装置、设备及存储介质,以提高意图识别的准确性,进而提高整体的用户使用效果。
5.为了实现上述发明目的,本技术提供一种基于人工智能的意图识别方法,其包括以下步骤:
6.获取用户输入的音频;
7.确定所述音频的情绪信息,并对所述情绪信息进行编码,得到情绪编码;
8.将所述音频转换为文本信息,提取所述文本信息的上下文信息,对所述上下文信息进行编码,得到所述文本信息的上下文编码;其中,所述上下文编码用于反映所述文本信息的上下文信息;
9.将所述上下文编码、情绪编码及文本信息输入预先训练好的意图识别模型,得到所述文本信息的意图。
10.优选地,所述将所述上下文编码、情绪编码及文本信息输入预先训练好的意图识别模型,得到所述文本信息的意图,包括:
11.预测所述文本信息的多个意图;
12.对所述文本信息进行编码,得到文本向量;
13.对所述多个意图进行编码,得到多个编码向量;
14.分别计算所述文本向量与所述多个编码向量的相似度;
15.将所述上下文编码、情绪编码及所述相似度输入所述意图识别模型的全连接层进行组合,得到标签;
16.查询所述标签对应的意图作为所述文本信息的意图。
17.进一步地,所述将所述上下文编码、情绪编码及文本信息输入预先训练好的意图识别模型之前,还包括:
18.获取文本信息样本,对所述文本信息样本进行分类,得到多个文本信息信息样本;
19.分别确定每个文本信息信息样本对应的意图,并将同种意图进行合并,得到每个文本信息信息样本对应的目标意图;
20.获取每个所述文本信息样本的上下文编码及情绪编码;
21.将所述文本信息样本、每个所述文本信息样本的上下文编码、情绪编码及目标意图输入预先构建的神经网络模型进行训练,得到训练好的意图识别模型。
22.进一步地,所述将所述文本信息样本、每个所述文本信息样本的上下文编码、情绪编码及目标意图输入预先构建的神经网络模型进行训练之后,还包括:
23.利用预设的损失函数计算每次训练后的所述神经网络模型的损失值;
24.判断所述损失值是否低于预设损失值;
25.若是,则判定所述神经网络模型的训练结果满足要求,将训练结果满足要求的神经网络模型作为所述训练好的意图识别模型。
26.优选地,所述将所述上下文编码、情绪编码及文本信息输入预先训练好的意图识别模型,得到所述文本信息的意图,包括:
27.将所述上下文编码、情绪编码及文本信息输入预先训练好的意图识别模型,预测得到多个参考意图及每个参考意图的概率值;其中,所述概率值用于预测所述文本信息属于所述参考意图的概率;
28.根据所述概率值计算每个参考意图的方差;
29.选取方差最大的参考意图作为所述文本信息的意图。
30.优选地,所述确定所述音频的情绪信息,包括:
31.获取所述音频对应的频谱;
32.将所述音频对应的频谱分成谐音频谱和非谐音频谱;其中,所述谐音频谱中的频率为基音的频率的整数倍;
33.根据所述谐音频谱的特征信息和所述非谐音频谱的特征信息确定所述音频所表达的情绪信息;其中,所述特征信息包括频谱的能量。
34.优选地,所述根据所述谐音频谱的特征信息和所述非谐音频谱的特征信息确定所述音频所表达的情绪信息的步骤,包括:
35.分别获取所述谐音频谱的能量和所述非谐音频谱的能量;
36.根据所述谐音频谱的能量和所述非谐音频谱的能量确定所述音频所表达的情绪信息。
37.本技术还提供一种基于人工智能的意图识别装置,其包括:
38.获取模块,用于获取用户输入的音频;
39.确定模块,用于确定所述音频的情绪信息,并对所述情绪信息进行编码,得到情绪编码;
40.转换模块,用于将所述音频转换为文本信息,提取所述文本信息的上下文信息,对所述上下文信息进行编码,得到所述文本信息的上下文编码;其中,所述上下文编码用于反映所述文本信息的上下文信息;
41.输入模块,用于将所述上下文编码、情绪编码及文本信息输入预先训练好的意图识别模型,得到所述文本信息的意图。
42.本技术还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
43.本技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述方法的步骤。
44.本技术所提供的一种基于人工智能的意图识别方法、装置、设备及存储介质,通过获取用户输入的音频,确定音频的情绪信息,并对情绪信息进行编码,得到情绪编码,将音频转换为文本信息,提取文本信息的上下文信息,对上下文信息进行编码,得到文本信息的上下文编码,将上下文编码、情绪编码及文本信息输入预先训练好的意图识别模型,得到文本信息的意图。本技术基于文本信息的上下文编码、用户的情绪编码确定用户的意图,克服了实际业务场景由于上下文前后偏差及用户情绪导致的意图识别偏差,保证了意图识别模型的识别准确性,提高了意图识别模型的鲁棒性。
附图说明
45.图1为本技术一实施例的基于人工智能的意图识别方法的流程示意图;
46.图2为本技术一实施例的基于人工智能的意图识别装置的结构示意框图;
47.图3为本技术一实施例的计算机设备的结构示意框图。
48.本技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
49.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
50.本技术提出一种基于人工智能的意图识别方法,本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
51.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
52.本技术提出的一种基于人工智能的意图识别方法,以服务器为执行主体,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
53.该基于人工智能的意图识别方法用于解决现有的意图识别模型在识别含有上下文前后偏差及用户情绪的音频时,意图识别的准确性较低,影响整体的用户使用效果的技术问题。参考图1,其中一个实施例中,该基于人工智能的意图识别方法包括如下步骤:
54.s11、获取用户输入的音频;
55.s12、确定所述音频的情绪信息,并对所述情绪信息进行编码,得到情绪编码;
56.s13、将所述音频转换为文本信息,提取所述文本信息的上下文信息,对所述上下文信息进行编码,得到所述文本信息的上下文编码;其中,所述上下文编码用于反映所述文本信息的上下文信息;
57.s14、将所述上下文编码、情绪编码及文本信息输入预先训练好的意图识别模型,得到所述文本信息的意图。
58.本技术提出多模态、多维度数据来提升意图识别效果,在获取到用户输入的音频时,对于音频的任意一句话,服务器能给出用户说该句话的音频特征等结构化数据,知识库任务图等系统可以给出用户说该句话的上下文编码。
59.具体的,服务器首先将用户输入的音频转换为文本信息,然后对文本信息进行分割得到多个子句,对子句中的每个字符分别进行字符粒度的语义提取,并结合字符在文本信息中的上下文信息,得到每个字符对应的字符向量,根据每个字符对应的字符向量组合为所述文本信息的上下文编码,该上下文编码用于表征文本信息中的上下文信息,以对文本信息进行人工智能识别时,考虑文本信息的上下文信息。其中,字符表示数据和信息的字母、数字或其他符号。在电子计算机中,每一个字符与一个二进制编码相对应。
60.在一个实施例中,对文本信息进行分割时,可对文本信息中的字符进行序列标注处理,得到文本信息中的字符对应的语义标签,根据各个字符的语义标签,将文本信息分割为一个或多个子句,得到文本信息的子句。其中,语义标签可以是预先制定的起始、中止或中间等句子跨度指示符。可基于序列标注技术对文本信息中的每个字符进行序列标注处理,得到文本信息中的每个字符对应的语义标签,根据语义标签的连接关系,将对应的相邻字符进行拼接,得到文本信息中的一个或多个子句。
61.其中,对所述上下文信息进行编码是将文本信息的字符转换为计算机可以进行运算的数字。字符的字符初始向量表示字符的语义和字符所在的子句和在该子句中的位置,是一个稠密向量。字符对应的字符向量是字符初始向量结合了字符所在文本信息中的上下文信息。
62.在一实施例中,确定每个字符所在的子句和在该子句中的位置,对每个字符进行字符粒度的编码和位置编码,得到子句中的每个字符对应的字符初始向量,该字符初始向量只能简单表达字符的字面意思,没有结合上下文信息,为了更准确表达字符的语义,针对一个字符,可以根据该字符对应的字符初始向量和文本信息中的其他字符对应的字符初始向量,来确定该字符的上下文信息,并将该字符的字符初始向量和上下文信息进行融合,得到字符对应的字符向量。这样可以针对整个文本信息的内容来对每个字符进行针对性的编码,得到的字符向量更加符合字符所在文本信息中的语义,从而可以提高最终意图识别结果的准确性。
63.需要说明的是,本实施例可以使用bert模型确定文本信息的上下文信息以及将字符初始向量与字符的上下文信息进行融合。bert采用transformer的编码器作为主体模型结构。transformer舍弃了rnn的循环式网络结构,完全基于注意力机制来对一段文本进行建模。transformer所使用的注意力机制的核心思想是计算一句话中的每个词对于这句话中所有词的相互关系,然后认为这些词与词之间的相互关系在一定程度上反应了这句话中不同词之间的关联性以及重要程度。再利用这些相互关系来调整每个词的重要性(权重)就可以获得每个词新的表征。这个新的表征不但蕴含了该词本身,还蕴含了其他词与这个词
的关系,因此和单纯的词向量相比是一个更加全局的表达。transformer通过对输入的文本不断进行这样的注意力机制层和普通的非线性层交叠来得到最终的文本表达。
64.此外,本实施例可将音频分割为多段子音频,然后确定每段子音频的情绪信息,该情绪信息可以情绪指数进行表示,如将开心的情绪指数表示为1,将悲伤的情绪指数表示为0,然后对每段子音频的情绪信息进行编码,得到情绪编码,以表征音频的情绪变化情况。
65.最后将上下文编码、情绪编码及文本信息输入预先训练好的意图识别模型,输出得到文本信息的意图。例如,智能客服打电话场景下,获取用户输入的音频,将该音频转换为文本信息,并给出情绪预测,得到情绪信息,作为意图识别模型的一维输入,将上下文编码、情绪编码及文本信息输入预先训练好的意图识别模型,以得到文本信息的意图。其中,提取文本信息产生时的上下文编码,可以是智能客服执行某业务任务时的步骤编码。
66.本技术所提供的一种基于人工智能的意图识别方法,通过获取用户输入的音频,确定音频的情绪信息,并对情绪信息进行编码,得到情绪编码,将音频转换为文本信息,提取文本信息的上下文信息,对上下文信息进行编码,得到文本信息的上下文编码,将上下文编码、情绪编码及文本信息输入预先训练好的意图识别模型,得到文本信息的意图。本技术基于文本信息的上下文编码、用户的情绪编码确定用户的意图,克服了实际业务场景由于上下文前后偏差及用户情绪导致的意图识别偏差,保证了意图识别模型的识别准确性,提高了意图识别模型的鲁棒性。
67.在一实施例中,在步骤s14中,所述将所述上下文编码、情绪编码及文本信息输入预先训练好的意图识别模型,得到所述文本信息的意图,可具体包括:
68.s141、预测所述文本信息的多个意图;
69.s142、对所述文本信息进行编码,得到文本向量;
70.s143、对所述多个意图进行编码,得到多个编码向量;
71.s144、分别计算所述文本向量与所述多个编码向量的相似度;
72.s145、将所述上下文编码、情绪编码及所述相似度输入所述意图识别模型的全连接层进行组合,得到标签;
73.s146、查询所述标签对应的意图作为所述文本信息的意图。
74.本实施例预测文本信息的意图时,可猜测文本信息可能的多个意图,并对文本信息进行编码,得到文本向量,对多个意图进行编码,得到多个编码向量,分别计算文本向量与多个编码向量的相似度,将上下文编码、情绪编码及相似度输入意图识别模型的全连接层进行组合,得到标签,查询所述标签对应的意图作为所述文本信息的意图。
75.以智能客服打电话询问电影评价为例。用户说的话可能是3个意图,比如意图“very positive”:意图id:7,相似意图“it is a fatastic movie”(情绪编码2:兴奋)、“it bring me happiness”(情绪编码3:高兴)等等、对话状态编码123,还有意图:medium,对应id:5,以及意图:very negtive,对应id:相似意图“this is a fantastic movie”经过查词表变为token,进入意图识别模型的输入端,经过全连接层变维,得到相似问对应的含原句语义信息的编码向量[4,3,2,1]。同样方法分别拿到3个意图的编码:“very positive”编码为8542(与向量4321同向,即相似度最高、语义最接近)、“medium”编码为3255、“very negtive”编码为2221。然后分别计算所述文本向量与所述多个编码向量的相似度:【4321和8542】、【4321和3255】、【4321和2221】,这样得到“this is a fantastic movie”与三个意图
的3个相似度:0.8(very positive),0.15(medium),0.05(very negtive)。把情绪编码2(兴奋)、对话状态编码123(话务员正在问观影感受),与所有意图的相似度(0.8,0.15,0.05)一起进入意图识别模型的全连接层进行组合,通过sigmiod回归到标签(1,0,0)上,该标签表示的意思就是:输入的相似意图“this is a fantastic movie”应该属于意图“very positive”,以得到意图“very positive”。
[0076]
在一实施例中,所述将所述上下文编码、情绪编码及文本信息输入预先训练好的意图识别模型之前,还可包括:
[0077]
获取文本信息样本,对所述文本信息样本进行分类,得到多个文本信息信息样本;
[0078]
分别确定每个文本信息信息样本对应的意图,并将同种意图进行合并,得到每个文本信息信息样本对应的目标意图;
[0079]
获取每个所述文本信息样本的上下文编码及情绪编码;
[0080]
将所述文本信息样本、每个所述文本信息样本的上下文编码、情绪编码及目标意图输入预先构建的神经网络模型进行训练,得到训练好的意图识别模型。
[0081]
本实施例获取文本信息样本,对文本信息样本进行分类,分类方法可以是聚类加人工,并给每个分类设置一个意图,比如意图:“我已经结婚”。分配意图id:342,并对应相似问:“我结婚了”(对应情绪编码3:高兴),“我小孩都3岁了(对应情绪编码1:不耐烦)”,上下文编码455(智能客服询问性别年龄完毕,目前正在问是否结婚),自此,意图分类的数据已经准备好了。比如有4个意图:已经结婚、没结婚、单身、不是单身。那么相似问“我都结婚了”会分属于2个意图:已经结婚、不是单身。这极增了单分类模型的训练难度。所以4个意图应该缩减为2个意图:已经结婚、单身。即意图标注只面向语言本身的语义,模型给出识别结果后,再把识别的意图和业务数据做逻辑,来达到4种意图的效果。
[0082]
具体的,确定相似问重叠较多的两个意图,查找办法可以是人工复检、或者分类模型的error analyze结果,比如发现相近两个意图为“已经结婚”和“不是单身”,他们俩重叠的相似问有“我都结婚了”、“领证了已经”等等,然后合并意图“已经结婚”和“不是单身”为一个意图,即在分类模型训练回归的循环中,不断清洗数据。
[0083]
然后获取每个所述文本信息样本的上下文编码及情绪编码,将文本信息样本、每个所述文本信息样本的上下文编码、情绪编码及意图输入预先构建的神经网络模型进行训练,在训练结果满足要求后,得到训练好的意图识别模型。
[0084]
在一实施例中,所述将所述文本信息样本、每个所述文本信息样本的上下文编码、情绪编码及目标意图输入预先构建的神经网络模型进行训练之后,还包括:
[0085]
利用预设的损失函数计算每次训练后的所述神经网络模型的损失值;
[0086]
判断所述损失值是否低于预设损失值;
[0087]
若是,则判定所述神经网络模型的训练结果满足要求,将训练结果满足要求的神经网络模型作为所述训练好的意图识别模型。
[0088]
在本实施例中,在对神经网络模型每次训练后,可利用预设的损失函数计算每次训练完成后的神经网络模型的损失值,并在损失值满足预设阈值或小于预设损失值时,即满足要求,则表明神经网络模型达到训练要求,完成所述神经网络模型的训练,以提高意图识别模型的识别效果。其中,损失函数用来评价神经网络模型的预测值和真实值不一样的程度,损失函数越好,通常神经网络模型的性能越好。
[0089]
当任一个神经网络模型的损失值不小于预设损失值时,可根据损失值在神经网络模型的神经网络结构中进行前向传递,调整神经网络模型的相关参数,基于重新设置的相关参数对调整后的神经网络模型进行重新训练,直至神经网络模型的损失值小于预设损失值为止,至此所有神经网络模型训练结束。
[0090]
在一实施例中,所述将所述上下文编码、情绪编码及文本信息输入预先训练好的意图识别模型,得到所述文本信息的意图,包括:
[0091]
将所述上下文编码、情绪编码及文本信息输入预先训练好的意图识别模型,预测得到多个参考意图及每个参考意图的概率值;其中,所述概率值用于预测所述文本信息属于所述参考意图的概率;
[0092]
根据所述概率值计算每个参考意图的方差;
[0093]
选取方差最大的参考意图作为所述文本信息的意图。
[0094]
本技术提出不使用测试集每个用例的意图置信度,而是使用测试机每个用例在所有意图上的概率值取方差,方差越大,说明可信度越高。这样做的原因是提升拒识效果。因为人机交互时,计算机是封闭域,而人是开放域,所以多数情况其实是要机器人准确的拒识人的输入的,拒识的内容属于开放域,并没有参加过模型的训练(模型使用有限的,即封闭域中数据训练的),所以拒识内容进入意图识别模型,得到的所有意图上的置信度是随机的,所以拒识内容的置信度分布的方差,大概率的要小于该识别的内容的置信度分布的方差。
[0095]
具体的,将所述上下文编码、情绪编码及文本信息输入预先训练好的意图识别模型,预测得到多个参考意图及每个参考意图的概率值(3维预测输出向量含义为:very positive、medium、very negtive):“this is a fantastic movie”;期待命中意图7;预测输出(0.8,0.15,0.05);“very bad”;期待命中意图3;预测输出(0.75,0.05,0.2);“just so so”;期待命中意图5;预测输出(0.13,0.85,0.02)。根据所述概率值计算每个参考意图的方差,具体用模型预测输出的向量内部取方差作为置信度。比如上述3条测试用例的输出,(0.8,0.15,0.05)的方差为0.07,(0.75,0.05,0.2)方差为0.02,(0.13,0.85,0.02)方差为0.08,方差越大置信度越高,选取方差最大的参考意图作为所述意图。
[0096]
在一实施例中,所述确定所述音频的情绪信息,包括:
[0097]
获取所述音频对应的频谱;
[0098]
将所述音频对应的频谱分成谐音频谱和非谐音频谱;其中,所述谐音频谱中的频率为基音的频率的整数倍;
[0099]
根据所述谐音频谱的特征信息和所述非谐音频谱的特征信息确定所述音频所表达的情绪信息;其中,所述特征信息包括频谱的能量。
[0100]
在本实施例中,音频可以是一段音乐,例如一首歌,也可以是一段语音,例如一段演讲。可以将时域特征的音频转化为频域特征的音频,从而得到音频所对应的频谱。将时域特征的音频转化为频域特征的音频的方法例如可以是对音频进行短时傅里叶变换,得到音频对应的频谱。通过短时傅里叶变换,可以将音频由时域信号转换为容易分析的频域信号。例如,在对音频信号进行处理的时候,进行短时傅里叶变换(stft)。
[0101]
音频对应的频谱一般是由谐音频谱和非谐音频谱混合而成,可以采用中值滤波的方式将音频对应的频谱分成谐音频谱和非谐音频谱。理想的谐音在通过短时傅里叶变换得
到的频谱上是一根横线,非谐音是一根竖线。谐音频谱的特征信息和非谐音频谱的特征信息可以是频谱的节奏、能量,质心和峰度等信息。通过将音频对应的频谱分成谐音频谱和非谐音频谱,并根据谐音频谱的特征信息和非谐音频谱的特征信息确定音频所表达的情绪信息,使得可以自动标注音频表达的情绪信息,无需人工标注,较精确的识别出音频所表达的情绪,提高了确定的音频表达的情绪信息准确性。
[0102]
例如,若特征信息包括频谱的节奏,则分别获取谐音频谱的节奏和非谐音频谱的节奏,当谐音频谱的节奏和非谐音频谱的节奏都较快时,则认为该音频所表达的情绪信息为欢快的。此外,还可结合谐音频谱的节奏和非谐音频谱的能量确定音频所表达的情绪信息;或结合谐音频谱的能量和非谐音频谱的节奏确定音频所表达的情绪信息,以精细化分析音频所表达的情绪信息,在此不做具体限定。在一实施例中,所述根据所述谐音频谱的特征信息和所述非谐音频谱的特征信息确定所述音频所表达的情绪信息的步骤,可具体包括:
[0103]
分别确定谐音频谱的能量和非谐音频谱的能量;
[0104]
基于谐音频谱的能量和非谐音频谱的能量确定所述音频所表达的情绪信息。
[0105]
具体的,可以对谐音频谱和非谐音频谱分别进行短时傅里叶变换之后,即分别得到谐音频谱和非谐音频谱的短时傅里叶变换的值以后,得到谐音频谱和非谐音频谱的幅度值,分别计算谐音频谱和非谐音频谱的幅度值的绝对值的平方之和,以分别得到谐音频谱和非谐音频谱的能量,然后根据谐音频谱的能量和非谐音频谱的能量确定音频所表达的情绪信息,从而根据谐音频谱和非谐音频谱的能量共同确定音频所表达的情绪信息,在数据量比较小的时候也能比较准确地识别音频的激烈程度。例如,假设谐音频谱的能量很高,非谐音频谱的能量也很高,都超过一定阈值,则可以认为该音频所表达的情绪信息为激昂亢奋的。又如,假设谐音频谱的能量很低,非谐音频谱的能量也很低,都低于一定阈值,则可以认为该音频所表达的情绪信息为平静的。
[0106]
在一实施例中,所述将所述音频转换为文本信息,包括:
[0107]
确定所述音频的时间轴顺序;
[0108]
根据所述音频的时间轴顺序将所述音频中含有的语音转换为文本以生成文本信息。
[0109]
本实施例通过语音至文本(speech to test,stt)功能或算法将音频转换成子文本信息,根据该音频的时间轴顺序,依次提取语音,并将提取的语音转换为子文本信息,将转换生成的各子文本信息合成文本信息。其中,语音为音频中具有实质意义的音频片段,如一句话。
[0110]
参照图2,本技术实施例中还提供一种基于人工智能的意图识别装置,包括:
[0111]
获取模块11,用于获取用户输入的音频;
[0112]
确定模块12,用于确定所述音频的情绪信息,并对所述情绪信息进行编码,得到情绪编码;
[0113]
转换模块13,用于将所述音频转换为文本信息,提取所述文本信息的上下文信息,对所述上下文信息进行编码,得到所述文本信息的上下文编码;其中,所述上下文编码用于反映所述文本信息的上下文信息;
[0114]
输入模块14,用于将所述上下文编码、情绪编码及文本信息输入预先训练好的意
图识别模型,得到所述文本信息的意图。
[0115]
本技术提出多模态、多维度数据来提升意图识别效果,在获取到用户输入的音频时,对于音频的任意一句话,服务器能给出用户说该句话的音频特征等结构化数据,知识库任务图等系统可以给出用户说该句话的上下文编码。
[0116]
具体的,服务器首先将用户输入的音频转换为文本信息,然后对文本信息进行分割得到多个子句,对子句中的每个字符分别进行字符粒度的语义提取,并结合字符在文本信息中的上下文信息,得到每个字符对应的字符向量,根据每个字符对应的字符向量组合为所述文本信息的上下文编码,该上下文编码用于表征文本信息中的上下文信息,以对文本信息进行人工智能识别时,考虑文本信息的上下文信息。其中,字符表示数据和信息的字母、数字或其他符号。在电子计算机中,每一个字符与一个二进制编码相对应。
[0117]
在一个实施例中,对文本信息进行分割时,可对文本信息中的字符进行序列标注处理,得到文本信息中的字符对应的语义标签,根据各个字符的语义标签,将文本信息分割为一个或多个子句,得到文本信息的子句。其中,语义标签可以是预先制定的起始、中止或中间等句子跨度指示符。可基于序列标注技术对文本信息中的每个字符进行序列标注处理,得到文本信息中的每个字符对应的语义标签,根据语义标签的连接关系,将对应的相邻字符进行拼接,得到文本信息中的一个或多个子句。
[0118]
其中,对所述上下文信息进行编码是将文本信息的字符转换为计算机可以进行运算的数字。字符的字符初始向量表示字符的语义和字符所在的子句和在该子句中的位置,是一个稠密向量。字符对应的字符向量是字符初始向量结合了字符所在文本信息中的上下文信息。
[0119]
在一实施例中,确定每个字符所在的子句和在该子句中的位置,对每个字符进行字符粒度的编码和位置编码,得到子句中的每个字符对应的字符初始向量,该字符初始向量只能简单表达字符的字面意思,没有结合上下文信息,为了更准确表达字符的语义,针对一个字符,可以根据该字符对应的字符初始向量和文本信息中的其他字符对应的字符初始向量,来确定该字符的上下文信息,并将该字符的字符初始向量和上下文信息进行融合,得到字符对应的字符向量。这样可以针对整个文本信息的内容来对每个字符进行针对性的编码,得到的字符向量更加符合字符所在文本信息中的语义,从而可以提高最终意图识别结果的准确性。
[0120]
需要说明的是,本实施例可以使用bert模型确定文本信息的上下文信息以及将字符初始向量与字符的上下文信息进行融合。bert采用transformer的编码器作为主体模型结构。transformer舍弃了rnn的循环式网络结构,完全基于注意力机制来对一段文本进行建模。transformer所使用的注意力机制的核心思想是计算一句话中的每个词对于这句话中所有词的相互关系,然后认为这些词与词之间的相互关系在一定程度上反应了这句话中不同词之间的关联性以及重要程度。再利用这些相互关系来调整每个词的重要性(权重)就可以获得每个词新的表征。这个新的表征不但蕴含了该词本身,还蕴含了其他词与这个词的关系,因此和单纯的词向量相比是一个更加全局的表达。transformer通过对输入的文本不断进行这样的注意力机制层和普通的非线性层交叠来得到最终的文本表达。
[0121]
此外,本实施例可将音频分割为多段子音频,然后确定每段子音频的情绪信息,该情绪信息可以情绪指数进行表示,如将开心的情绪指数表示为1,将悲伤的情绪指数表示为
0,然后对每段子音频的情绪信息进行编码,得到情绪编码,以表征音频的情绪变化情况。
[0122]
最后将上下文编码、情绪编码及文本信息输入预先训练好的意图识别模型,输出得到文本信息的意图。例如,智能客服打电话场景下,获取用户输入的音频,将该音频转换为文本信息,并给出情绪预测,得到情绪信息,作为意图识别模型的一维输入,将上下文编码、情绪编码及文本信息输入预先训练好的意图识别模型,以得到文本信息的意图。其中,提取文本信息产生时的上下文编码,可以是智能客服执行某业务任务时的步骤编码。
[0123]
如上所述,可以理解地,本技术中提出的所述基于人工智能的意图识别装置的各组成部分可以实现如上所述基于人工智能的意图识别方法任一项的功能,具体结构不再赘述。
[0124]
参照图3,本技术实施例中还提供一种计算机设备,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作系统、计算机程序和数据库。该内存器为存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储音频、文本信息等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的意图识别方法。
[0125]
上述处理器执行上述的基于人工智能的意图识别方法,包括:
[0126]
获取用户输入的音频;
[0127]
确定所述音频的情绪信息,并对所述情绪信息进行编码,得到情绪编码;
[0128]
将所述音频转换为文本信息,提取所述文本信息的上下文信息,对所述上下文信息进行编码,得到所述文本信息的上下文编码;其中,所述上下文编码用于反映所述文本信息的上下文信息;
[0129]
将所述上下文编码、情绪编码及文本信息输入预先训练好的意图识别模型,得到所述文本信息的意图。
[0130]
本技术一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种基于人工智能的意图识别方法,包括步骤:
[0131]
获取用户输入的音频;
[0132]
确定所述音频的情绪信息,并对所述情绪信息进行编码,得到情绪编码;
[0133]
将所述音频转换为文本信息,提取所述文本信息的上下文信息,对所述上下文信息进行编码,得到所述文本信息的上下文编码;其中,所述上下文编码用于反映所述文本信息的上下文信息;
[0134]
将所述上下文编码、情绪编码及文本信息输入预先训练好的意图识别模型,得到所述文本信息的意图。
[0135]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取
存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双速据率sdram(ssrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0136]
综上所述,本技术的最大有益效果在于:
[0137]
本技术所提供的一种基于人工智能的意图识别方法、装置、设备及存储介质,通过获取用户输入的音频,确定音频的情绪信息,并对情绪信息进行编码,得到情绪编码,将音频转换为文本信息,提取文本信息的上下文信息,对上下文信息进行编码,得到文本信息的上下文编码,将上下文编码、情绪编码及文本信息输入预先训练好的意图识别模型,得到文本信息的意图。本技术基于文本信息的上下文编码、用户的情绪编码确定用户的意图,克服了实际业务场景由于上下文前后偏差及用户情绪导致的意图识别偏差,保证了意图识别模型的识别准确性,提高了意图识别模型的鲁棒性。
[0138]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
[0139]
以上所述仅为本技术的优选实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献