一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于文本情感分析的对比优化编解码模型及方法

2023-01-06 03:21:25 来源:中国专利 TAG:


1.本发明涉及文本情感分析技术领域,具体涉及一种用于文本情感分析的对比优化编解码模型及方法。


背景技术:

2.文本情感分析为自然语言处理中的关键任务之一,其目的是利用模型提取文本感情倾向,为后续的处理、研判和决策提供支撑。传统文本情感分析方法主要分为基于规则模版与基于机器学习两种:基于规则模版的方法需要针对特定任务构建规则模版,泛化性较差且可移植性较低:基于机器学习的方法需要构造合适的特征与分类器,可以获得较好的灵活性与精准度。但该方法需要构造高质量的特征工程,特征选取质量直接决定最终效果,需要较高的成本与精力。
3.针对传统方法的不足,现阶段主要采用深度学习方法进行文本情感分析。通过构建大规模深度神经网络,可以获得更强的特征学习与上下文语义感知能力。但由于中文文本存在一文多义与语义模糊,现阶段主流的深度学习模型无法准确分离一文多义文本的情感倾向;且目前的方法忽视了整体语义关系与词元原始特征的结合,只关注整体语义关系或词元原始特征,限制了语义模糊文本的特征提取;同时无法将上下文语义关系进行有效互补与融合,影响了文本情感分析的准确度。


技术实现要素:

4.因此,本发明为了解决现有技术中的以上缺陷,提供一种用于文本情感分析的对比优化编解码模型与方法,以实现一文多义文本的语义分离,同时增强整体语义与词元特征的结合,以及提高模型对模糊语义的捕捉能力。
5.一方面,本发明提供一种用于文本情感分析的对比优化编解码模型,包括:编码对比层:通过预处理分词模块对文本进行预处理分词,将通过自注意力模块和前馈编码模块将预处理分词后的文本编码为序列表征向量,并计算有监督对比学习损失;自适应特征强化层:对序列表征向量进行局部语义抽取与强化,得到相应的特征强化向量;解码输出层;将特征强化向量进行解码,得到解码结果并最终输出模型判定的文本情感类别,并对模型判定的文本情感类别与数据集标签计算分类损失;以及优化分析层:有监督对比学习损失和分类损失的联合损失为模型联合优化损失,通过模型联合优化损失与小批量随机梯度下降方法更新模型各项参数矩阵与自适应系数后,使用优化模型对输入的文本进行情感分析。
6.其中,所述自注意力模块将向量作为输入,计算文本序列中上下文语义之间关联程度,得到注意力序列,其中,为信息文本批量大小,为序列字
符长度,为词向量维度。
7.进一步,所述前馈编码模块将注意力序列作为输入,进行维度转化与随机丢弃;根据不同的丢弃率对同一注意力序列进行两次编码得到序列表征向量与。
8.另一发明,本发明提供一种用于文本情感分析的对比优化编解码方法,包括:数据集构建阶段:构建待分析文本的文本分类数据集并进行标签化;编码对比阶段:将通过预处理分词模块预处理分词后的文本编码为序列表征向量,并计算有监督对比学习损失;自适应特征强化阶段:对序列表征向量进行局部语义抽取与强化,得到相应的特征强化向量;解码输出阶段:对特征强化向量进行解码,得到解码结果并最终输出模型判定的文本情感类别,并对模型判定的文本情感类别与数据集标签计算分类损失,优化分析阶段:监督对比学习损失和分类损失的联合损失为模型联合优化损失,通过模型联合优化损失与小批量随机梯度下降方法更新模型各项参数矩阵与自适应系数后,使用优化模型对输入的文本进行情感分析。
9.与现有技术相比,本发明的有益效果是:本发明通过中文文本索引字典对信息文本进行分词和数字索引转化处理;进而使用注意力机制与前馈编码模块将数字索引转化为相应的的序列表征向量;随后通过构建正负样本对实施有监督对比学习,计算有监督对比学习损失;接着将序列表征向量输入至自适应特征强化层从左至右、从右至左分别进行特征强化与提取得到局部特征向量,将两个局部特征向量进行自适应加权求和,得到特征强化向量送至解码输出层;然后解码输出层通过特征降维与归一化指数计算得到最终分类结果;接着使用交叉熵函数计算分类损失;随后通过联合损失与小批量随机梯度下降优化模型各项参数;最后优化完毕后冻结参数不再更新,用模型对输入的信息文本进行分析。
10.本发明利用单字级特征作为模型输入,有效避免分词错误带来的不利影响;通过有监督对比优化模型编码能力,实现一文多义文本的语义分离;同时通过设计一种自适应提取序列前后特征的长短期记忆网络进行局部特征强化与上下文语义关系融合,增强整体语义与词元特征的结合,提高模型对模糊语义的捕捉能力,有效提升信息文本分析精确度。
附图说明
11.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
12.图1为本发明的用于文本情感分析的对比优化编解码方法流程示意图;图2为本发明的用于文本情感分析的对比优化编解码模型示意图;图3为本发明的自注意力模块示意图;图4为本发明的前馈编码模块示意图;
图5为本发明的实验效果图,其中(a)为普通编码模型与本发明提供的用于文本情感分析的对比优化编解码模型的测试精度对比图,(b)为普通编码模型与本发明提供的用于文本情感分析的对比优化编解码模型的训练损失对比图。
具体实施方式
13.下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
14.此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
15.实施例1如图1所示,本实施例提供一种用于文本情感分析的对比优化编解码方法,其包括:数据集构建:构建待分析文本的文本分类数据集并进行标签化;编码对比阶段:将通过预处理分词模块预处理分词后的文本编码为序列表征向量,并计算有监督对比学习损失;自适应特征强化阶段:对序列表征向量进行局部语义抽取与强化,得到相应的特征强化向量;解码输出阶段:对特征强化向量进行解码,得到解码结果并最终输出模型判定的文本情感类别,并对模型判定的文本情感类别与数据集标签计算分类损失,优化分析阶段:有监督对比学习损失和分类损失的联合损失为模型联合优化损失,通过模型联合优化损失与小批量随机梯度下降方法更新模型各项参数矩阵与自适应系数后,使用优化模型对输入的文本进行情感分析。
16.在本实施例中,利用单字级特征作为模型输入,有效避免分词错误带来的不利影响;并通过有监督对比优化模型编码能力,实现一文多义文本的语义分离;同时通过设计一种自适应提取序列前后特征的长短期记忆网络进行局部特征强化与上下文语义关系融合,增强整体语义与词元特征的结合,提高模型对模糊语义的捕捉能力,有效提升信息文本分析精确度。
17.具体地,所述数据集构建包括:s0:构建待分析文本的文本分类数据集,并进行标签化:将消极情绪文本标注为0,积极情绪文本标注为1;将标签设置完毕的数据集按比例划分为训练集、验证集与测试集,具体地,训练集:验证集:测试集=7:2:1,训练集用于模型训练优化各项参数,验证集用于训练阶段评估训练效果,测试集用于对模型进行测试检验。
18.所述预处理分词阶段包括:s1: 通过预处理分词模块对文本进行预处理分词得到文本序列;所述预处理分词为:选取同一批量大小中最长的文本长度作为本批量的固定长度,将其他不足固定长度的文本补0至固定长度。在本实施例中,优选批量最大长度为512个字,若超出最大长度则舍弃多余部分文本。
19.进一步地,在所述编码对比阶段,编码对比层用于将文本编码为序列表征向量
,以及对向量语义空间进行对比优化,其中为信息文本批量大小,为序列字符长度,为词向量维度,具体包括:s2.1:将文本映射为词向量、编码向量、句间分隔向量,将上述三种向量相加得到最终输入向量,s2.2:将输入向量传输至自注意力模块,计算文本序列中上下文语义之间关联程度,得到注意力序列,其中,为信息文本批量大小,为序列字符长度,为词向量维度,、与为注意力权重矩阵,与相乘得到注意力权重变量、,为向量的维度;s2.3:将注意力序列传输至前馈编码模块,进行维度转化与随机丢弃;根据不同的丢弃率对同一注意力序列进行两次编码得到序列表征向量与与与为具有单隐藏层的全连接层;其中,丢弃率大小依据经验设置;具体地,同一文本序列经过丢弃率不同的前馈编码模块,得到的序列表征向量会存在细微不同,例如表1的与示例,其中丢弃率分别设置为与::;
表1 同一序列使用不同丢弃率的编码示例s2.4:将序列表征向量、及批量大小中具有相同标签的共同组成正样本对,剩余样本构成负样本对计算有监督对比学习,其中,是数据集样本总数,为超参数,计算公式如下:。
20.进一步地,在所述自适应特征强化阶段,所述自适应特征强化层对序列表征向量进行局部语义抽取与强化,得到相应的特征强化向量,具体包括:s3.1:将隐藏状态与细胞状态初始化为0,当前时刻输入为,此时为从左至右遍历取得的文本表征向量,通过运算得到、、、四种候选状态:其中,为相应的权重系数矩阵,为上一时刻的隐藏状态,;s3.2:根据、、、四种候选状态得到传输状态、与局部特征向量
其中,为权重系数矩阵,为哈德玛积;s3.3:将隐藏状态 与细胞状态初始化为0,当前时刻输入为,为从右至左遍历取得的文本表征向量,按照公式(10)-(16)计算得到局部特征向量;s3.4:对局部特征向量与进行自适应加权求和得到特征强化向量,其中,为自适应系数,由模型优化学习得到。
21.进一步地,在所述解码输出阶段时,所述解码输出层用于将特征强化向量进行解码,得到解码结果,其中,其中,为信息文本批量大小,为序列字符长度,为词向量维度,为信息文本标签类别数量;在本实施例中优选为2,并优选为768,最终输出模型判定的文本情感类别:s4.1:使用最大池化操作在dim=1维度上将降维成;s4.2:线性投影将解码映射为,其中,为投影权重系数矩阵,为投影偏差;s4.3:将输入至归一化指数函数,输出模型判定的信息文本情感类别输入至归一化指数函数,输出模型判定的信息文本情感类别s4.4:对模型判定的信息文本情感类别与数据集标签进行损失计算,得到分类损失,
其中,为信息文本批量大小,为数据集大小,为当前计算的样本;进一步地,在所述优化分析阶段时,包括:s5.1:计算模型联合优化损失,其为有监督对比学习损失与分类损失的联合损失,;s5.2:通过模型联合优化损失与小批量随机梯度下降方法更新模型各项参数矩阵与自适应系数;s5.3:冻结更新优化完毕的模型参数,使用模型对输入的信息文本进行情感分析。
22.在本实施例中,当接收到待分析文本后,首先使用待分析文本的训练集对该对比优化编解码参数进优选,优化后冻结更新优化完毕的模型参数,使用具有该优化模型参数的对比优化编解码对接收到待分析文本的测试集进行测试分析,可知本发明的模型在实现文本情感分析的同时通过自适应提取序列前后特征的长短期记忆网络进行局部特征强化与上下文语义关系融合,增强整体语义与词元特征的结合,提高模型对模糊语义的捕捉能力。
23.也就是说,该用于文本情感分析的对比优化编解码方法,通过中文文本索引字典对信息文本进行分词和数字索引转化处理,使用自注意力模块与前馈编码模块将数字索引转化为相应的的序列表征向量,随后通过构建正负样本对实施有监督对比学习,计算有监督对比学习损失;接着将序列表征向量输入至自适应特征强化层从左至右、从右至左分别进行特征强化与提取得到局部特征向量,将两个局部特征向量进行自适应加权求和,得到特征强化向量送至解码输出层;然后解码输出层通过特征降维与归一化指数计算得到最终分类结果,再使用交叉熵函数计算分类损失;通过联合损失与小批量随机梯度下降优化模型各项参数;最后优化完毕后冻结参数不再更新,用模型对输入的信息文本进行分析。
24.实施例2如图2所示,本实施例提供一种用于文本情感分析的对比优化编解码模型,其包括:编码对比层:通过预处理分词模块对文本进行预处理分词,将通过自注意力模块和前馈编码模块将预处理后的文本编码为序列表征向量,并计算有监督对比学习损失;自适应特征强化层:对序列表征向量进行局部语义抽取与强化,得到相应的特征强化向量;以及解码输出层;将特征强化向量进行解码,得到解码结果并最终输出模型判定的文本情感类别,并对模型判定的文本情感类别与数据集标签计算分类损失;优化分析层:有监督对比学习损失和分类损失的联合损失为模型联合优化损失,通过模型联合优化损失与小批量随机梯度下降方法更新模型各项参数矩阵与自适应系数后,使用优化模型对输入的文本进行情感分析。
25.具体地,所述编码对比层包括:构建待分析文本的文本分类数据集并进行标签化,对文本进行预处理分词得到文本序列的预处理分词阶段;以及将预处理后的文本编码为序
列表征向量,并计算有监督对比学习损失的编码对比阶段;其中,所述编码对比阶段包括:s2.1:将待分析文本映射为词向量、编码向量、句间分隔向量,三种向量相加得到输入向量,s2.2:将输入向量传输至自注意力模块,计算文本序列中上下文语义之间关联程度,得到注意力序列,其中,为信息文本批量大小,为序列字符长度,为词向量维度,、与为注意力权重矩阵,与相乘得到注意力权重变量、,为向量的维度;s2.3:将注意力序列传输至前馈编码模块,进行维度转化与随机丢弃;根据不同的丢弃率对同一注意力序列进行两次编码得到序列表征向量与,其中,为具有单隐藏层的全连接层;s2.4:将序列表征向量、及批量大小中具有相同标签的共同组成正样本对,剩余样本构成负样本对计算有监督对比学习,
其中,是数据集样本总数,为超参数,计算公式如下:。
26.具体地,如图3所示,所述自注意力模块将向量作为输入,计算文本序列中上下文语义之间关联程度,得到注意力序列,其中,为信息文本批量大小,为序列字符长度,为词向量维度。
27.计算过程如公式(2)-(5)所示。其中,、与为注意力权重矩阵,与相乘得到注意力权重变量、、,为向量的维度。
28.进一步,如图4所示,所述前馈编码模块将注意力序列作为输入,进行维度转化与随机丢弃;根据不同的丢弃率()对同一注意力序列进行两次编码得到序列表征向量与,计算如公式(6)-(7)所示。其中为具有单隐藏层的全连接层,丢弃率大小依据经验设置,本实施例优选设置丢弃率为与。
29.进一步地,所述自适应特征强化层对输入的序列表征向量进行局部语义抽取与强化,得到相应的特征强化向量,包括:s3.1:将隐藏状态 与细胞状态初始化为0,当前时刻输入为,此时为从左至右遍历取得的文本表征向量,运算得到、、、四种候选状态:其中为相应的权重系数矩阵,为上一时刻的隐藏状态,;
s3.2:根据、、、四种候选状态得到传输状态、与局部特征向量,其中,为权重系数矩阵,为哈德玛积;s3.3:将隐藏状态 与细胞状态初始化为0,当前时刻输入;其中为信息文本批量大小,为序列字符长度,为词向量维度此时为从右至左遍历取得的文本表征向量,按照公式(10)-(16)计算得到局部特征;s3.4:对局部特征向量与进行自适应加权求和得到特征强化向量,其中,为自适应系数,由模型优化学习得到。
30.所述解码输出层的解码输出阶段包括:s4.1:使用最大池化操作在dim=1维度上,将特征强化向量降维成;s4.2:通过线性投影将解码,其中,为信息文本标签类别数量,为投影权重系数矩阵,为投影偏差s4.3:将输入至归一化指数函数,输出模型判定的信息文本情感类别,s4.4:对模型判定的信息文本情感类别与数据集标签进行损失计算,得到分类损失
其中,,为信息文本批量大小,为当前计算的样本所述优化分析包括:s5.1:模型联合优化损失为有监督对比学习损失与分类损失的联合损失,;s5.2:通过模型联合优化损失与小批量随机梯度下降方法更新模型各项参数矩阵与自适应系数;s5.3:冻结更新优化完毕的模型参数,使用模型对输入的信息文本进行情感分析本实施例所述的用于文本情感分析的对比优化编解码模型用于实现实施例1所述的用于文本情感分析的对比优化编解码方法,本分析模型利用单字级特征作为模型输入,有效避免分词错误带来的不利影响;通过有监督对比优化模型编码能力,实现一文多义文本的语义分离;同时通过设计一种自适应提取序列前后特征的长短期记忆网络进行局部特征强化与上下文语义关系融合,增强整体语义与词元特征的结合,提高模型对模糊语义的捕捉能力,有效提升信息文本分析精确度。
31.对比例如图5(a)所示,该图为测试精度实验结果示意图,其中,横坐标为训练轮次,纵坐标为精准度,连续线条为本发明所述的用于文本情感分析的对比优化编解码模型的实验结果,断点线条为现有技术中的普通编解码模型的实验结果;如图5(b)所示,该图为训练损失实验结果示意图,其中,横坐标为训练轮次,纵坐标为损失值,连续线条为本发明所述的用于文本情感分析的对比优化编解码模型的实验结果,断点线条为现有技术中的普通编解码模型的实验结果。对比可知,本发明提供的用于文本情感分析的对比优化编解码模型的精确度和损失要明显优于普通编解码模型;实验证明本发明的用于文本情感分析的对比优化编解码模型具有更好的语义提取与分析能力。
32.显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献