一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于多头注意力机制与卷积相融合的情感预警系统和方法与流程

2022-02-22 17:53:11 来源:中国专利 TAG:


1.本发明属于自然语言处理技术领域,具体涉及一种基于多头注意力机制与卷积相融合的情感预警系统和方法。


背景技术:

2.情感分析无处不在,它是一种基于自然语言处理的分类技术。其主要解决的问题是给定一段话,判断这段话的情感倾向。例如在亚马逊网站或者推特网站中,人们会发表评论,谈论某个商品、事件或人物。商家可以利用情感分析工具知道用户对自己的产品的使用体验和评价。
3.当需要大规模的情感分析时,肉眼的处理能力就变得十分有限了。情感分析的本质就是根据已知的文字和情感符号,推测文字是正面的还是负面的。处理好了情感分析,可以大大提升人们对于事物的理解效率,也可以利用情感分析的结论为其他人或事物服务,比如基金公司可以利用人们对于某家公司、某个行业、某件事情的看法态度来辅助预测未来股票的涨跌。
4.目前大部分的情感预警方案,即对文本进行预测情感以及预警反馈,都是对整个文本做一个总体的情感预测,并没有进行细粒度的情感预测。与传统情感分析不同,细粒度情感分析旨在识别一个句子中可能包含的多个不同方面,并对不同方面推断出它的情感倾向。因此急需一个基于细粒度的、准确率高的情感预警方案。


技术实现要素:

5.本发明所要解决的技术问题是针对上述现有技术的不足,提供一种基于多头注意力机制与卷积相融合的情感预警系统和方法。
6.为实现上述技术目的,本发明采取的技术方案为:
7.一种基于多头注意力机制与卷积相融合的情感预警系统,包括:
8.文本监测获取模块,用于实时获取并监测待检测的评论文本信息;
9.预处理模块,用于对文本监测模块中获取的文本进行预处理;
10.情感分析模块,用于利用bert-dpcnn模型和多头子注意力模型对预处理后的文本进行细粒度情感分析;
11.警报模块,用于当检测文本信息达到警报阈值时生成警报信息进行反馈。
12.一种基于多头注意力机制与卷积相融合的情感预警方法,包括:
13.步骤1、实时获取并监测待检测的评论文本信息;
14.步骤2、对步骤1获取的文本进行预处理;
15.步骤3、利用bert-dpcnn模型和多头子注意力模型对步骤2预处理后的文本进行细粒度情感分析,包括基于多头子注意力模型提取方面项以及基于bert-dpcnn模型预测文本情感极性;
16.步骤4、当检测文本信息达到警报阈值时生成警报信息进行反馈。
17.为优化上述技术方案,采取的具体措施还包括:
18.上述的步骤1所述实时获取并监测待检测的评论文本信息,包括:
19.通过selenium chromedriver操作浏览器内核获取客户通过客户端填写发布的评论数据。
20.上述的步骤2,对步骤1获取的文本进行如下预处理:
21.文本去噪,去除标点符号,去除停用词,去除url,去除不必要的标签,统计词频生成词典,标记数据。
22.上述的标记数据的标注的格式如下:
23.标注方案:y
ae
={ba,ia,bp,ip,o},用于提取句子中所包含的方面项;
24.ba和ia分别表示方面术语的开始和内部,bp和ip分别表示意见词的开头和内部,o表示其他词;
25.对于情感预测任务,使用标签集:y
as
={pos,neg,neu}来标记方面的积极、消极和中性的情感极性;
26.预处理后文本包含pos,neg,neu三种情感极性,pos、neg和neu分别表示积极、消极和中性的情感极性,对应标记为1,-1,0。
27.上述的步骤3所述多头自注意力模型和bert-dpcnn模型通过如下方法训练:
28.步骤(1)爬取网上评论文本数据作为训练数据并进行预处理,预处理包括:文本去噪,去除标点符号,去除停用词,去除url,去除不必要的标签,统计词频生成词典,标记数据。
29.预处理后文本包含pos,neg,neu三种情感极性,pos、neg和neu分别表示积极、消极和中性的情感极性,对应标记为1,-1,0;
30.步骤(2)对标注好的文本使用多头自注意力模型提取对应文本的方面项aspect,具体为:
31.步骤(3)得到方面项aspect之后,将其与标注好情感极性,经过bert-dpcnn模型进行特征提取,获取语义信息,最后经过一层softmax取得该方面的情感极性,即:
32.通过单层transformer block的bert得到的特征向量,然后经过dpcnn提取语义信息,通过softmax得到一个概率分布:y
1as
,y
2as
,...,y
nas
,根据其概率分布得到方面的情感极性;
33.步骤(4)分类结果评优,优化多头自注意力模型和bert-dpcnn模型。
34.上述的步骤(2)所述对标注好的文本使用多头自注意力模型提取对应文本的方面项aspect,具体为:
35.步骤(2.1)将标注好的文本,对应中文词典转换为词典中对应的id值,即输入的embedding;
36.步骤(2.2)将id值加上一个位置编码向量positional encoding,其维度和embedding维度一样;这时输入的向量为:
37.token embedding=embedding positional embedding
38.对于token embedding,通过一个3头的self-attention,以此从多个角度获取句子语义信息,此时输出向量为q1;
39.步骤(2.3)经过一层通道数为1,kernal_size为3,卷积核个数为300的卷积层;
40.步骤(2.4)采用max-pooling进行局部下采样获取关键语义信息q2,最终的语义信息q为q1与q2的并集;
41.步骤(2.5)通过方面提取器获取该句子的方面值:
42.q通过softmax层给每个方面分配一个概率分布:y
1ae
,y
2ae
,...,y
nae
,其中概率分布的顶值表示它是否是任何方面术语或意见术语的一部分,此时得到该句子的方面项。
43.上述的bert-dpcnn模型只含有单层transformer block。
44.上述的步骤4所述当检测文本信息达到警报阈值时生成警报信息进行反馈,包括:
45.监控步骤3得到的各个方面的情感,如果任何一个方面的情感是消极的结果,则发送该方面评论文本以及用户信息,用于报警、整改。
46.本发明具有以下有益效果:
47.本发明可在全网对各种评论信息,包括外卖评论、酒店评论、微博评论、影视评论等进行实时情感预警。基于本发明可以有效的预测评论中所表达的每个方面的情感趋向,及时生成预警信息以便进行整改或者舆论控制。
附图说明
48.图1情感预警系统组成模块图;
49.图2情感预警方法流程图;
50.图3情感预警系统工作流程图。
具体实施方式
51.以下结合附图对本发明的实施例作进一步详细描述。
52.如图1所示,一种基于多头注意力机制与卷积相融合的情感预警系统,包括:
53.文本监测获取模块,用于实时获取并监测待检测的评论文本信息;
54.预处理模块,用于对文本监测模块中获取的文本进行预处理;
55.情感分析模块,用于利用bert-dpcnn模型和多头子注意力模型对预处理后的文本进行细粒度情感分析;
56.警报模块,用于当检测文本信息达到警报阈值时生成警报信息进行反馈。
57.一种基于多头注意力机制与卷积相融合的情感预警方法,包括:
58.步骤1、实时获取并监测待检测的评论文本信息;
59.步骤2、对步骤1获取的文本进行预处理;
60.步骤3、利用bert-dpcnn模型和多头子注意力模型对步骤2预处理后的文本进行细粒度情感分析;
61.基于多头子注意力模型提取方面项以及基于bert-dpcnn模型预测文本情感极性。
62.步骤4、当检测文本信息达到警报阈值时生成警报信息进行反馈。
63.实施例中,步骤1所述实时获取并监测待检测的评论文本信息,包括:
64.通过selenium chromedriver操作浏览器内核获取客户通过客户端填写发布的评论数据。
65.实施例中,如图3所示,所述步骤2,对步骤1获取的文本进行如下预处理:
66.文本去噪,去除标点符号,去除停用词,去除url,去除不必要的标签,统计词频生成词典,标记数据。通过对文本信息进行预处理,数据集基本排除了影响情感分析的常见干扰。
67.实施例中,所述标记数据的标注的格式如下:
68.标注方案:y
ae
={ba,ia,bp,ip,o},用于提取句子中所包含的方面项;
69.ba和ia分别表示方面术语的开始和内部,bp和ip分别表示意见词的开头和内部,o表示其他词。
70.对于情感预测任务,使用标签集:y
as
={pos,neg,neu}来标记方面的积极、消极和中性的情感极性;
71.给定一个输入句子x={w
1,w2,
...wn},目标是预测两个标签序列y
ae
={y1,y2,...yn}和y
as
={y1,y2,...,yn},其中yi∈y
ae
,yi∈y
as
分别为1≤i≤n。
72.预处理后文本包含pos,neg,neu三种情感极性,pos、neg和neu分别表示积极、消极和中性的情感极性,对应标记为1,-1,0。
73.实施例中,步骤3所述多头自注意力模型和bert-dpcnn模型通过如下方法训练:
74.步骤(1)爬取网上评论文本数据作为训练数据并进行预处理,预处理同样包括:文本去噪,去除标点符号,去除停用词,去除url,去除不必要的标签,统计词频生成词典,标记数据。
75.预处理后文本包含pos,neg,neu三种情感极性,pos、neg和neu分别表示积极、消极和中性的情感极性,对应标记为1,-1,0。
76.步骤(2)对标注好的文本使用多头自注意力模型提取对应文本的方面项aspect,具体为:
77.步骤(2.1)将标注好的文本,对应中文词典转换为词典中对应的id值,即输入的embedding;
78.步骤(2.2)将id值加上一个位置编码向量positional encoding,其维度和embedding维
79.度一样;这时输入的向量为:
80.token embedding=embedding positional embedding
81.对于token embedding,通过一个3头的self-attention,以此从多个角度获取句子语义信息,此时输出向量为q1;
82.步骤(2.3)经过一层通道数为1,kernal_size为3,卷积核个数为300的卷积层;
83.步骤(2.4)采用max-pooling进行局部下采样获取关键语义信息q2;为了防止在卷积过程中丢掉关键信息,最终的语义信息q为q1与q2的并集。
84.步骤(2.5)通过方面提取器获取该句子的方面值:
85.q通过softmax层给每个方面分配一个概率分布:y
1ae
,y
2ae
,...,y
nae
,其中概率分布的顶值表示它是否是任何方面术语或意见术语的一部分,此时得到该句子的方面项。
86.提取原理:通过多头自注意力模型给每个方面分配一个概率分布:y
1ae
,y
2ae
,...,y
nae
,其中概率分布的项值表示它是否是任何方面术语或意见术语的一部分,此时得到该句子的方面项;
87.步骤(3)得到方面项aspect之后,将其与标注好情感极性,经过bert-dpcnn模型进
行特征提取,获取语义信息,最后经过一层softmax取得该方面的情感极性,即:
88.通过单层transformer block的bert得到的特征向量,然后经过dpcnn提取语义信息,通过softmax得到一个概率分布:y1as,y2as,...,ynas,根据其概率分布得到方面的情感极性。
89.步骤(4)分类结果评优,优化多头自注意力模型和bert-dpcnn模型。
90.实施例中,所述bert-dpcnn模型只含有单层transformer block。
91.实施例中,步骤4所述当检测文本信息达到警报阈值时生成警报信息进行反馈,包括:
92.监控步骤3得到的各个方面的情感,如果任何一个方面的情感是消极的结果,则发送该方面评论文本以及用户信息,用于报警、整改,其中判断依据是消极文本标签为-1。
93.本发明系统的整体流程如图3所示:
94.1.用户在该系统提交评论,触发预警系统;
95.2.文本监测获取模块获取评论数据,用于分析;
96.3.预处理模块将获取的文本进行预处理;
97.4.情感分析模块中,预处理好的文本通过自注意力模型,得到该句子所提到的方面;
98.5.通过bert-dpcnn模型得到情感极性;
99.6.警报模块判断该句子是否包含消极方面;
100.7.有消极方面时,进行反馈。
101.以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献