一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

情感信息提取方法、装置及设备与流程

2023-02-10 17:14:14 来源:中国专利 TAG:


1.本说明书涉及情感分析技术领域,尤其涉及一种情感信息提取方法、装置及设备。


背景技术:

2.随着电商的蓬勃发展,买家能方便地在电子商务平台上购买商品或服务,并发表对商品或者服务的评论。如果能从该评论数据中抽取出用户对商品或服务评论中所表达的情感信息,则可以更加快速有效地帮助其他买家寻求优质产品、或帮助生产者分析产品的优缺点。
3.早期的情感信息提取工作集中于asc,asc研究的前提是主体词已经被提供。然而在大多数情况下这个条件不太容易满足。主体、情感词以及主体情感倾向的三元抽取(aste)是基于实体的情感分析(absa)所提出的方法之一,该方法主要是从评论句中抽取主体词、情感词和主体情感倾向来形成三元组。三元组所表达的情感信息能提供可解释的情感证据,比语句级别的情感分析更可靠,由此也可以帮助平台建立更准确的产品推荐、或帮助商家更全面的分析产品特征。


技术实现要素:

4.本说明书实施方式提供一种情感信息提取方法、装置及设备,可以大幅提高情感信息提取的准确性及效率。
5.本说明书实施方式提供一种情感信息提取方法,包括:遍历指定语句中的词,以提取所述指定语句对应的词组;其中,所述词组至少包括所述指定语句中的至少一个词,且所述词组中的各词在所述指定语句中的词位连续;基于所述词组在各词组类型下的预测值,确定所述词组所属的词组类型;所述词组类型包括主体、观点;以词组类型为主体的词组作为主体词组、词组类型为观点的词组作为观点词组,并对所述主体词组与所述观点词组进行配对,得到主体-观点词组对;预测所述主体-观点词组对的情感倾向,以利用所述主体-观点词组对及对应的情感倾向表征所述指定语句的情感信息。
6.本说明书实施方式提供一种情感信息提取装置,包括:词组提取模块,用于遍历指定语句中的词,以提取所述指定语句对应的词组;其中,所述词组至少包括所述指定语句中的至少一个词,且所述词组中的各词在所述指定语句中的词位连续;词组类型确定模块,用于基于所述词组在各词组类型下的预测值,确定所述词组所属的词组类型;所述词组类型包括主体、观点;词组配对模块,用于以词组类型为主体的词组作为主体词组、词组类型为观点的词组作为观点词组,并对所述主体词组与所述观点词组进行配对,得到主体-观点词组对;情感倾向预测模块,用于预测所述主体-观点词组对的情感倾向,以利用所述主体-观点词组对及对应的情感倾向表征所述指定语句的情感信息。
7.本说明书实施方式提供一种电子设备,所述设备包括至少一个处理器以及存储计算机可执行指令的存储器,所述处理器执行所述指令时实现任意一个或多个实施例所述方法的步骤。
8.本说明书实施方式提供一种提取用于表征情感信息的三元组的方法,在执行三元组抽取时充分考虑了表征主体或观点的完整词组在指定语句中的相互作用,以表征主体或观点的完整词组的语义作为情感信息提取的输入,可以进一步确保情感倾向预测的一致性,进而提高情感信息提取的准确性。进一步的,通过主体抽取算法、观点提取算法双通道进行词组类型预测,再结合两个通道的预测结果进行主体词组和观点词组的提取,可以更准确地区分表征主体及观点的词组,提高表征主体或观点的完整词组提取的准确性,并降低后续情感倾向预测时所基于的数据量,提高整体数据处理的效率。
附图说明
9.所包括的附图用来提供对本说明书实施方式的进一步的理解,其构成了说明书的一部分,用于例示本说明书的实施方式,并与文字描述一起来阐释本说明书的原理。显而易见地,下面描述中的附图仅仅是本说明书的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。在附图中:
10.图1为本说明书实施方式提供的一个情感信息提取流程示意图;
11.图2为本说明书实施方式提供的情感信息提取结果比对示意图;
12.图3为本说明书实施方式提供的情感信息提取结果比对示意图;
13.图4为本说明书实施方式提供的一种情感信息提取方法的流程示意图;
14.图5为本说明书实施方式提供的一种情感信息提取装置的模块结构示意图;
15.图6为本说明书实施方式提供的一种电子设备的模块结构示意图。
具体实施方式
16.为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施方式中的附图,对本说明书实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本说明书一部分实施方式,而不是全部的实施方式。基于本说明书中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施方式,都应当属于本说明书保护的范围。
17.如图1所示,在一个场景示例中,用户可以通过用户客户端上的浏览器访问电子商务平台的网站或者登录电子商务平台的应用程序,购买商品或服务,并发表对商品或者服务的评论。例如,评论语句为“did not enjoy the new windows 8and touchscreen functions”。电子商务平台的服务器可以获取该评论语句,并从该评论语句中抽取出用户对商品或服务评论中所表达的情感信息。
18.本场景示例中,可以从评论语句中提取主体词组、观点词组以及情感倾向,形成三元组,利用该三元组来表达评论语句中所包含的情感信息。其中,词组可以包括评论语句中的至少一个词。
19.主体可以是指用户具体评论的对象或特性,如商品或服务的某个属性等。主体词组可以为评论语句中描述评论的对象或特性的词组。假设评论语句“did not enjoy the new windows 8and touchscreen functions”所针对的商品为电脑,则“windows 8”、“touchscreen functions”为描述电脑的系统属性、屏幕属性的主体词组。
20.观点可以是指用户对对象或特性的评论。观点词组可以为评论语句中用户对主体
进行评论的词组。如“not enjoy”即为对主体“windows 8”、“touchscreen functions”进行评论的观点词组。
21.情感倾向可以用来描述用户对主体评论的情感极性特征。例如,可以将用户对主体的评论分为鲜明的情感倾向或中性的情感倾向;进一步的,还可以将鲜明的情感倾向细分为积极的情感倾向、消极的情感倾向。例如,评论语句“did not enjoy the new windows 8and touchscreen functions”中所体现出的用户对主体“windows 8”、“touchscreen functions”的情感倾向可以认为是消极的情感倾向。当然,情感倾向的类型和划分方式可以根据需要配置,这里不做限定。
22.服务器可以枚举评论语句中词位连续的词所形成的所有可能词组。如图1所示,图1中从左侧数第二栏示出了评论语句“did not enjoy the new windows 8and touchscreen functions”中词位连续的词所形成的所有可能词组。并可以提取评论语句中每一个词在当前评论语句中的特征,以词组的开始词的特征、结束词的特征和词组宽度特征来表征对应词组的特征。
23.然后,可以将词组的特征作为ate(aspect term extraction,情感目标抽取)和ote(opinion target expression,属性词提取)模型的输入,以分别得到词组在ate模型下的预测分数和在ote模型下的预测分数。假设ate模型配置有分类标签target、invalid,ote模型配置有分类标签opinion、invalid。其中,target表征词组类型为主体,opinion表征词组类型为观点,invalid为无效(词组不属于主体或观点)。相应的,ate模型可以输出词组在target下的第一预测分数,以及ote模型可以输出词组在opinion下的第二预测分数。可以结合词组在ate模型下的第一预测分数以及在ote模型下的第二预测分数来确定词组所属的词组类型。为了便于表述,可以将词组类型确定为主体的词组描述为主体词组,将词组类型为观点的词组描述为观点词组。如图1所示,通过上述方式确定的主体词组为“windows 8”、“touchscreen functions”、
……
;观点词组为“not enjoy”、“new”、
……

24.可以将主体词组与观点词组进行配对,得到主体-观点词组对。如将“windows 8”、“touchscreen functions”和“not enjoy”、“new”进行配对,得到(windows 8,not enjoy)、(touchscreen functions,not enjoy)、(windows 8,new)、(touchscreen functions,new)。所述主体-观点词组对的特征可以利用主体-观点词组对中的主体词组的特征、观点词组的特征、主体词组与观点词组之间的距离特征表征。
25.可以将主体-观点词组对的特征作为输入,使用前馈神经网络来预测主体-观点词组对的情感倾向。如图1所示,可以得到各主体-观点词组对(windows 8,not enjoy)、(windows8,new)、(touchscreen functions,not enjoy)、(touchscreen functions,new)、
……
的情感倾向negative(负向)、invalid(无效)、negative(负向)、invalid(无效)、
……
。其中,invalid表示主体-观点词组对预测出的情感倾向是无效的或错误的。
26.可以将主体-观点词组对与对应的情感倾向作为三元组,以用来表征评论语句中的情感信息。对于图1中的示例,最终得到的三元组为(windows 8,not enjoy,negative)和(touchscreen functions,not enjoy,negative)、
……

27.图2为对人工标注的示例评论语句的情感信息提取结果比对示意图。图2中的第一行为人工标注的示例评论语句,第二行为利用本场景示例的方案抽取的三元组中所包含的主体词组及观点词组结果,第三行为利用gts模型抽取的三元组中所包含的主体词组及观
transformers)语言模型作为指定语句的编码器,实现对指定语句的分词处理,并得到每一单词在指定语句中的特征表示。当然,实际场景中也可以采用其他的算法对指定语句进行分词处理。
35.如图1所示,图1的左侧第一列即为对“did not enjoy the new windows 8and touchscreen functions”进行分词处理后,得到的各个单词。服务器可以遍历指定语句中的词,以提取所述指定语句对应的词组。如可以枚举指定语句中词位连续的词所形成的所有可能词组。相应的,提取的各词组至少可以包括所述指定语句中的至少一个词,且所述词组中的各词在所述指定语句中的词位连续。
36.一些实施例中,对于任一词组,所述词组的特征可以利用该词组中的开始词的特征、结束词的特征及词组宽度特征表征。所述开始词为在词组中的词位信息为首位的单词,所述结束词为在词组中的词位信息为末尾的单词。所述词组宽度特征可以利用词组所包含的单词数量表征。通过上述方式来表征词组的特征,可以使得词组特征表征更加简洁准确,同时也可以降低后续数据处理量,提高整体处理效率。
37.另一些实施例中,还可以利用词组所包含的单词数量相对指定语句中所包含的单词总量的占比表征所述词组宽度特征。词组宽度占比太大,该词组在指定语句中单独表征主体或观点的可能性则相对较小,或者即使词组中包含表征主体或观点的词,但该词组中还包含其他噪声词的可能性也较大。通过进一步以词组所包含的单词数量相对指定语句中所包含的单词总量的占比来表征词组宽度特征,还可以进一步过滤掉词组宽度占比异常的词组,进而提高主体词组及观点词组提取的准确性。
38.当然,所述词组的特征还可以通过其他方式表征,如利用词组中各单词的特征来表征。
39.s404:基于所述词组在各词组类型下的预测值,确定所述词组所属的词组类型;所述词组类型包括主体、观点。
40.可以将词组的特征作为输入,以基于预测词组在各词组类型下的预测值,确定相应词组所属的词组类型。所述预测值可以用于表征词组属于相应词组类型的概率。所述词组类型至少可以包括主体、观点。其中,主体可以是指指定语句中用户具体评论的对象或特性,如商品或服务的某个属性等。主体词组可以为评论语句中描述评论的对象或特性的词组。观点可以是指指定语句中用户对对象或特性的评论。观点词组可以为评论语句中用户对主体进行评论的词组。
41.对于任一词组,可以利用主体抽取算法对词组的特征进行处理,得到相应词组在词组类型为主体下的第一预测分数。以及,利用观点抽取算法对词组的特征进行处理,得到相应词组在词组类型为观点下的第二预测分数。所述主体抽取算法如可以采用ate,所述观点抽取算法如可以采用ote。当然,也可以采用其他类型的主体抽取算法或观点抽取算法。通过该方式,可以得到同一词组在主体词提取以及观点词提取两种情况下的预测结果,可以结合该两种预测结果来确定相应词组的词组类型,大幅提高词组所属的词组类型确定的准确性。
42.可以利用双通道剪枝策略对上述两个预测结果进行结果修剪处理,以剔除无效或错误的分类结果,并结合两种预测结果,筛选出主体词组及观点词组。
43.例如,可以先筛选出第一预测分数大于第一指定阈值的词组,作为主体类型下的
候选词组;以及筛选出第二预测分数大于第二指定阈值的词组,作为观点类型下的候选词组。第一指定阈值及第二指定阈值可以根据实际情况调整。还可以结合指定语句的长度来确定两种词组类型下的候选词组的数量,进而调整第一指定阈值及第二指定阈值。
44.若某词组存在于两种类型下的候选词组中,则可以结合该词组在两种词组类型下的预测分数,将预测分数较大的词组类型确定为该词组所属的词组类型。若某词组仅存在于主体类型下的候选词组中,则可以将该词组确定为主体词组;或某词组仅存在于观点类型下的候选词组中,则可以将该词组确定为观点词组。
45.当然,上述处理方式仅为优选举例说明,具体实施时还可以采用其他类型的双通道剪枝策略,如训练双通道剪枝模型,以利用训练的模型对两个训练结果进行处理,得到相应词组的最终词组类型筛选结果等。
46.s406:以词组类型为主体的词组作为主体词组、词组类型为观点的词组作为观点词组,并对所述主体词组与所述观点词组进行配对,得到主体-观点词组对。
47.通过上述方式得到主体词组及观点词组后,可以将任一主体词组与任一观点词组进行配对,得到主体-观点词组对。所述主体-观点词组对的特征可以利用主体-观点词组对中的主体词组的特征、观点词组的特征、主体词组与观点词组之间的距离特征表征。
48.对于任一主体-观点词组对,可以提取主体-观点词组对中的主体词组的开始词、结束词在指定语句中的第一词位信息、第二词位信息,及提取主体-观点词组对中的观点词组的开始词、结束词在指定语句中的第三词位信息、第四词位信息。可以以第二词位信息与第三词位信息的差值的绝对值,作为第一词位距离;及以第一词位信息与第四词位信息的差值的绝对值,作为第二词位距离。利用第一词位距离与第二词位距离中数值较小的词位距离值表征主体词组与观点词组之间的距离特征。
49.通常可能存在指定语句中包含多个主体词组与观点词组的情况,而每一个主体词组与观点词组并非均是存在对应关系的,即并非每一个观点词组都是用来评价某一个主体的,也并非是每一个主体都用一个观点词组来评价的。基于主体词组与观点词组之间的距离特征构建主体-观点词组对的特征,可以使得主体-观点词组对的特征进一步体现指定语句中表征主体的词组与表征观点的词组之间的相互作用特征,进而可以提高主体-观点词组对所对应的情感倾向预测的准确性。例如,没有关联的主体词组与观点词组,则情感倾向可以输出不是有效的预测(invalid,无效)。
50.当然,所述主体词组与观点词组之间的距离特征还可以采用其他方式表征,如以第二词位信息与第三词位信息的平均值,作为第一词位距离;及以第一词位信息与第四词位信息的平均值,作为第二词位距离;再结合第一词位距离与第二词位距离来表征主体词组与观点词组之间的距离特征。所述主体-观点词组对的特征也可以通过其他方式表征,如仅利用主体-观点词组对中的主体词组的特征及观点词组的特征来表征等。
51.s408:预测所述主体-观点词组对的情感倾向,以利用所述主体-观点词组对及对应的情感倾向表征所述指定语句的情感信息。
52.可以将主体-观点词组对的特征作为输入,使用前馈神经网络来预测主体-观点词组对的情感倾向。当然,也可以使用其他情感倾向预测算法来预测主体-观点词组对的情感倾向。所述情感倾向可以根据需求预先配置,如可以包括正向、负向、中性、无效等。对于预测结果为无效或错误的主体-观点词组对,可以剔除。对于预测结果为其他类型的情感倾向
的主体-观点词组对,可以将主体-观点词组对与对应的情感倾向进行关联,得到表征指定语句的情感信息的三元组-(主体词组,观点词组,情感倾向)。
53.当然,所属领域技术人员在本说明书实施例的技术精髓启示下,还可能有其它变更实施方式,但只要其实现的功能和效果相同或相似,均应涵盖于本说明书保护范围内。上述情感信息抽取方法也可以应用于其他设备,如业务终端、智能终端等。
54.上述实施例提供的方案,在执行三元组抽取时充分考虑了表征主体或观点的完整词组在指定语句中的相互作用。以表征主体或观点的完整词组的语义作为情感信息提取的输入项,可以进一步确保情感倾向预测的一致性,进而提高情感信息提取的准确性。同时,通过主体抽取算法、观点提取算法双通道进行词组类型预测,再结合两个通道的预测结果进行主体词组和观点词组的提取,可以更准确地区分表征主体及观点的词组,提高表征主体或观点的完整词组被提取的准确性,并还可以降低后续情感倾向预测时所基于的数据量,提高整体数据处理效率。
55.如图5所示,本说明书实施方式还提供一种情感信息提取装置,包括如下模块。词组提取模块502,用于遍历指定语句中的词,以提取所述指定语句对应的词组;其中,所述词组至少包括所述指定语句中的至少一个词,且所述词组中的各词在所述指定语句中的词位连续。词组类型确定模块504,用于基于所述词组在各词组类型下的预测值,确定所述词组所属的词组类型;所述词组类型包括主体、观点。词组配对模块506,用于以词组类型为主体的词组作为主体词组、词组类型为观点的词组作为观点词组,并对所述主体词组与所述观点词组进行配对,得到主体-观点词组对。情感倾向预测模块508,用于预测所述主体-观点词组对的情感倾向,以利用所述主体-观点词组对及对应的情感倾向表征所述指定语句的情感信息。
56.一些实施例中,所述词组类型确定模块504可以包括:第一预测单元,用于利用主体抽取算法对所述词组进行处理,得到所述词组在词组类型为主体下的第一预测分数;第一预测单元,用于利用观点词抽取算法对所述词组进行处理,得到所述词组在词组类型为观点下的第二预测分数;词组类型确定单元,用于基于所述第一预测分数及第二预测分数确定所述词组所属的词组类型。
57.本实施方式提供的所述装置中,所涉及的功能模块实现的功能和效果,可以与其它实施方式对照解释,不再赘述。
58.如图6所示,本说明书实施方式还提供一种电子设备,所述电子设备可以包括至少一个处理器以及存储计算机可执行指令的存储器,所述处理器执行所述指令时实现上述任意一个或者多个实施例所述方法的步骤。所述存储器包括但不限于随机存取存储器(random access memory,ram)、只读存储器(read-only memory,rom)、缓存(cache)、硬盘(hard disk drive,hdd)或者存储卡(memory card)。在本实施方式中,所述电子设备中计算机程序指令实现的具体功能,可以参照其它实施方式对照解释。
59.上面对本说明书的各种实施方式的描述以描述的目的提供给本领域技术人员。其不旨在是穷举的、或者不旨在将本发明限制于单个公开的实施方式。如上所述,本说明书的各种替代和变化对于上述技术所属领域技术人员而言将是显而易见的。因此,虽然已经具体讨论了一些另选的实施方式,但是其它实施方式将是显而易见的,或者本领域技术人员相对容易得出。本说明书旨在包括在此已经讨论过的本发明的所有替代、修改、和变化,以
及落在上述申请的精神和范围内的其它实施方式。
60.本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。虽然通过实施方式描绘了本说明书,本领域技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献