观点抽取方法、装置、电子设备及计算机存储介质与流程

2023-02-04 11:42:32 来源：中国专利 TAG：

1.本技术实施例涉及计算机技术领域，尤其涉及一种观点抽取方法、装置、电子设备及计算机存储介质。

背景技术：

2.随着互联网技术的发展，人们越来越多地在网上进行生产和生活活动。在此过程中，对生产或生活活动中涉及到的事物或信息发表观点、进行评论成为不可或缺的一部分。
3.例如，电子商务场景中，电子商务平台可能每天会产生千万条包含用户观点的数据如评论数据等，其中有内容的该类数据可达20％以上。而在其它场景，如问答社区场景、寻医问药场景、多媒体播放场景、技术交互社区场景，等等多种场景中，有内容的该类数据占比更多。在这些场景中，包含用户观点的数据是信息消费用户做出决策的重要参考，也是信息提供用户了解信息消费用户反馈的重要渠道。
4.因此，如何高效、快速地对这些有内容的包含用户观点的数据进行处理，获取有效信息，成为亟待解决的问题。

技术实现要素：

5.有鉴于此，本技术实施例提供一种观点抽取方案，以至少部分解决上述问题。
6.根据本技术实施例的第一方面，提供了一种观点抽取方法，包括：根据待抽取文本对应的编码向量，抽取所述待抽取文本中的属性词；根据抽取的属性词对应的向量序列与所述待抽取文本的编码向量，得到所述属性词对应的观点词；基于所述属性词对应的向量序列和所述观点词对应的向量序列，获得所述待抽取文本对应的属性类别和观点极性。
7.根据本技术实施例的第二方面，提供了一种观点抽取装置，包括：提取模块，用于根据待抽取文本对应的编码向量，抽取所述待抽取文本中的属性词；观点模块，用于根据抽取的属性词对应的向量序列与所述待抽取文本的编码向量，得到所述属性词对应的观点词；获取模块，用于基于所述属性词对应的向量序列和所述观点词对应的向量序列，获得所述待抽取文本对应的属性类别和观点极性。
8.根据本技术实施例的第三方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面所述的观点抽取方法对应的操作。
9.根据本技术实施例的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的观点抽取方法。
10.根据本技术实施例提供的观点抽取方案，通过对待抽取文本进行属性词提取、观点词提取、以及获得属性类别和观点极性，可以获得有效表征待抽取文本的属性观点四元组，即(属性词，观点词，属性类别，观点极性)，基于该属性观点四元组，即可确定待抽取文本所携带的有效信息。
11.此外，本技术实施例提供的观点抽取方案中，将获得该属性观点四元组的任务处理为级连任务，依次获得属性词、观点词、属性类别和观点极性。由此，对待抽取文本进行一次编码获得对应的编码向量即可，无需像传统的多分支任务时，每个分支处理均需对待抽取文本进行编码，大大提高了编码向量的利用率，降低了数据处理负担，提高了数据处理速度。
12.可见，通过本技术实施例提供的观点抽取方案，实现了高效、快速地对有内容的待抽取文本的处理，并可获取准确、有效的观点信息。
附图说明
13.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。
14.图1为根据本技术实施例一的一种观点抽取方法的步骤流程图；
15.图2a为根据本技术实施例二的一种观点抽取方法的步骤流程图；
16.图2b为图2a所示实施例使用的一种观点抽取神经网络模型结果及其处理过程的示意图；
17.图3为根据本技术实施例三的一种观点抽取装置的结构框图；
18.图4为根据本技术实施例四的一种电子设备的结构示意图。
具体实施方式
19.为了使本领域的人员更好地理解本技术实施例中的技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本技术实施例一部分实施例，而不是全部的实施例。基于本技术实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本技术实施例保护的范围。
20.下面结合本技术实施例附图进一步说明本技术实施例具体实现。
21.实施例一
22.参照图1，示出了根据本技术实施例一的一种观点抽取方法的步骤流程图。
23.本实施例的数据处理方法包括以下步骤：
24.步骤s102：根据待抽取文本对应的编码向量，抽取待抽取文本的属性词。其中，待抽取文本可以是针对任意适当对象(包括但不限于：商品、多媒体、博客文章等)的、包含用户观点的数据，包括但不限于评论数据。本技术实施例中，待抽取文本的最终形式为文本数据，基于此，若原始数据为非文本数据，可将其先转换为文本数据即可。
25.对待抽取文本的编码可采用适当方式实现，如通过编码器对待抽取文本对应的文本向量进行编码，获得对应的编码向量等。
26.本技术实施例中，在获得了待抽取文本对应的编码向量后，会对其进行属性词提取。以针对商品的待抽取文本为例，“衣服料子不错，滑滑的”，其中“衣服料子”或“料子”为属性词；再例如，“米粉味道正宗”，则“米粉味道”或者“味道”为属性词。可见，所述属性词可用于表征文本中的目标对象的属性。在实际应用中，本领域技术人员可根据实际应用需求
和具体的文本中的目标对象情况，设定待抽取文本的属性词范围。基于编码向量对待抽取文本的属性词提取可采用适当方式实现，包括但不限于神经网络模型如指针网络模型或seq2seq网络模型等。基于此种情况，提取出的属性词通常为向量序列形式。
27.步骤s104：根据抽取的属性词对应的向量序列与所述待抽取文本的编码向量，得到所述属性词对应的观点词。
28.一般来说，一个待抽取文本中通常包括至少一个属性词，针对每个属性词对应有至少一个观点词。所述观点词用于表征用户对待抽取文本对应的目标对象的某种属性所持有的观点。例如，“衣服料子不错，滑滑的”，其中“衣服料子”或“料子”为属性词，“不错”为对应的观点词；再例如，“米粉味道正宗”，则“米粉味道”或者“味道”为属性词，“正宗”为对应的观点词。因此，在获得了属性词后，可基于属性词的向量序列和待抽取文本的编码向量获得属性词对应的观点词，通常也为向量序列。因综合考虑了属性词和整个待抽取文本的信息，因此，获得的属性词对应的观点词将更为准确。
29.在一种可行方式中，可以将抽取的属性词对应的向量序列与待抽取文本的编码向量进行融合，获得待抽取文本对应的融合特征向量；再对待抽取文本对应的融合特征向量进行属性词对应的观点词的提取，获得观点词对应的向量序列。通过特征融合，可以将提取的特征向量与原编码向量合并成一个比原编码向量特征更具有表达力的特征。本技术实施例中，在进行特征融合之后，可以获得更具表达力的待抽取文本对应的特征向量。例如，属性词位于待抽取文本对应的整个向量序列的第2、3位，则可将第2、3位的编码向量与整个编码向量进行融合，获得融合后的特征向量。通过特征融合，可以使得融合后的特征向量既能充分表征待抽取文本的整体特征，又可有效表征待抽取文本所具有属性和所表达观点的针对性特征，由此，使得后续最终获得的属性类别和观点极性也更为精准。基于待抽取文本对应的融合特征向量对待抽取文本的观点词提取可采用适当方式实现，包括但不限于神经网络模型如指针网络模型或seq2seq网络模型等。基于此种情况，提取出的观点词通常也为向量序列形式。
30.与属性词类似，本技术实施例中，在获得观点词对应的位置后，确定其在待抽取文本对应的融合特征向量中的位置，即可获得观点词对应的向量序列。
31.步骤s106：基于所述属性词对应的向量序列和所述观点词对应的向量序列，获得所述待抽取文本对应的属性类别和观点极性。
32.待抽取文本对应的属性类别和观点极性需要分别基于待抽取文本的属性词和观点词进行分类获得，本技术实施例中，基于属性词对应的向量序列和观点词对应的向量序列进行分类获得。此外，在采用融合特征向量进行观点词提取的情况下，因融合特征向量不仅可有效表达属性词或观点词的特征，而且充分融合了待抽取文本的整体特征，增加了属性词和观点词与待抽取文本整体的联系，因此，使得获得的属性类别和观点极性也更为准确。
33.根据本实施例，通过对待抽取文本进行属性词提取、观点词提取、以及获得属性类别和观点极性，可以获得有效表征待抽取文本的属性观点四元组，即(属性词，观点词，属性类别，观点极性)，基于该属性观点四元组，即可确定待抽取文本所携带的有效信息。
34.此外，本实施例中，将获得该属性观点四元组的任务处理为级连任务，依次获得属性词、观点词、属性类别和观点极性。由此，对待抽取文本进行一次编码获得对应的编码向
量即可，无需像传统的多分支任务时，每个分支处理均需对待抽取文本进行编码，大大提高了编码向量的利用率，降低了数据处理负担，提高了数据处理速度。
35.可见，通过本实施例，实现了高效、快速地对有内容的待抽取文本的处理，并可获取准确、有效的观点信息。
36.本实施例的观点抽取方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、移动终端(如手机、pad等)和pc机等。
37.实施例二
38.本实施例的观点抽取方法，结合一种示例性的神经网络模型，本实施例中称为观点抽取神经网络模型进行说明。其中，图2a为一种观点抽取方法的步骤流程图，图2b为图2a所示观点抽取方法使用的一种观点抽取神经网络模型结果及其处理过程的示意图。
39.以下，首先对图2b中所示的观点抽取神经网络模型进行结构说明。
40.该观点抽取神经网络模型用于对待抽取文本进行属性观点抽取，其包括：用于生成编码向量的编码器部分、用于进行属性词提取的第一提取部分、用于进行观点词提取的第二提取部分、用于进行特征向量融合的融合层部分、和用于输出属性类别和观点极性的分类输出部分。在一种可选的具体实现方式中，所述编码器部分为bert编码器，所述第一提取部分为第一指针网络，所述第二提取部分为第二指针网络，所述融合层部分为基于多头注意力机制的融合层部分。需要说明的是，在实际应用中，上述多种可选方式可择一或择部分采用，也可全部采用。
41.具体到图2b所示观点抽取神经网络模型可见，其包括依次相连的bert编码器(shared bert encoder)、通过第一指针网络实现的属性词提取部分(aspectterms extractor)、基于多头注意力机制的融合层部分(concat)、通过第二指针网络实现的观点词提取部分(opinionterms extractor)，以及包括池化层(pooling)和属性分类器(category classifier)及观点极性分类器(polarity classifier)的分类输出部分。由该观点抽取神经网络模型可见，本技术实施例中，将属性词提取、观点词提取、属性类别确定及观点极性确定在内的多个任务解析为级连任务，通过一个观点抽取神经网络模型实现。与传统的至少需要三个神经网络模型来分别实现属性词提取、观点词提取，以及属性类别确定及观点极性确定的方式相比，节约了模型实现成本、提高了模型训练和推理效率和速度。
42.在图2b所示的观点抽取神经网络模型中，通过bert编码器进行编码，可使得编码后输出的编码向量能够更为有效地表征待抽取文本的特征；通过指针网络实现属性词提取和观点词提取，一方面指针网络规模小，参数少，可有效提升训练和推理效率，另一方面，其可直接输出相应的向量序列，无需后续处理，既节约了图2b所示观点抽取神经网络模型的实现成本，也提高了模型训练和推理效率；而将融合层部分实现为基于多头注意力机制，则可使得融合后的特征向量具有更强的表达能力。
43.基于此，本实施例的观点抽取方法包括以下步骤：
44.步骤s202：使用训练样本，对用于进行属性观点抽取的观点抽取神经网络模型进行多任务联合训练。
45.多任务联合训练是把多个任务放在一起学习，即对多个任务的目标一起联合建模并进行训练的方式。传统的属性观点抽取任务需要至少使用三个模型，一个模型用于进行
属性词提取，其需对待抽取文本进行编码后，再基于编码向量进行属性词提取；另一个模型用于进行观点词提取，其需对待抽取文本进行编码后，再基于编码向量进行观点词提取；再一个模型用于分类，其仍需对待抽取文本进行编码后，再基于编码向量进行分类，获得最终的属性类别和观点极性。可见，该传统的任务实现需要多个模型，且对于一个待抽取文本，需要对待抽取文本进行拼接，并且需要反复编码，不仅增加训练成本，也使得推理延时较高。本技术实施例的观点抽取神经网络模型通过其结构，并采用多任务联合训练的方式，只需进行一次编码，将多个任务通过级连方式处理，有效解决了该传统方式的问题。
46.在对本技术实施例的观点抽取神经网络模型进行训练时，具体地，可以使用训练样本，基于与所述编码器部分对应的第一损失函数、与所述第一提取部分对应的第二损失函数、与所述第二提取部分对应的第三损失函数、和分类输出部分对应的第四损失函数，对所述观点抽取神经网络模型进行多任务联合训练。
47.其中，如果所述第一提取部分为第一指针网络，所述第二损失函数为二元交叉熵损失函数；如果所述第一提取部分为第二指针网络，所述第三损失函数为二元交叉熵损失函数；如果所述分类输出部分为多分类输出，所述第四损失函数为交叉熵损失函数。
48.仍以图2b所示观点抽取神经网络模型为例，在对其训练时，将多个级连任务当成普通的多任务学习，进行联合训练。其中，属性类别和观点极性的分类输出一起训练，因此，该观点抽取神经网络模型的训练包括三个任务的训练。
49.首先，获取训练样本，该训练样本可以为任意适当的包含用户观点的文本数据，图2b中示例为“快递很给力，味道很正宗而且够辣”，并且，在该文本数据的头部添加分类标志[cls]，在尾部添加分隔符[sep]。本领域技术人员应当明了的是，输入观点抽取神经网络模型的文本数据实现为向量形式。
[0050]
接着，将训练样本输入bert编码器(图2b中示意为shared bert encoder)，获得bert编码器输出的样本编码向量，图2b中示意为h
t
。
[0051]
然后，将样本编码向量h
t
输入属性词提取的指针网络(图2b中示意为aspectterms extractor)，输出对应的向量序列，其中，用1标出提取出的属性词的头尾字符，其他位置标为0(如图2b中所示)。图2b中，提取出的属性词包括“快递”和“味道”，其中，“快递”对应的向量序列如图2b中所示的“味道”对应的向量序列可参照同样方式获得，在图2b中未示出。
[0052]
再然后，通过基于多头注意力机制的融合层(图2b中示意为concat)对属性词对应的向量序列与所述编码向量进行多头注意力计算，实现两者的特征融合，获得融合特征向量，图2b中示意为k
t
。
[0053]
再接着，将融合特征向量k
t
输入用于进行观点词提取的指针网络，图2b中示意为“opinionterms extractor”，输出对应的向量序列，其中，用1标出提取出的属性词的头尾字符，其他位置标为0(如图2b中所示)。图2b中，针对属性词“快递”提取出的观点词为“很给力”，其对应的向量序列如图2b中所示的
[0054]
进而，将属性词对应的向量序列和观点词对应的向量序列输入池化层，图2b中示意为“pooling”，进行池化处理。
[0055]
然后，再将进行了池化处理后的特征向量输入分类器，图2b中分别示意为“category classifier”和“polarity classifier”，分类器可采用全连接多分类结构。最终输出与训练样本的文本数据对应的属性类别“物流”和观点极性“正面”。
[0056]
在训练阶段，获得了最终的输出后，即可基于该输出及模型各部分对应的损失函数进行模型参数的调整。该过程迭代进行，直至达到最终的终止条件，例如，达到预设的模型训练次数等。
[0057]
其中，bert编码器可采用常规的损失函数，例如，二分类损失函数或负对数似然函数等；进行属性词提取的指针网络和进行观点词提取的指针网络均可采用二元交叉熵损失函数；属性类别分类和观点极性分类为多分类，训练时使用交叉熵损失函数进行训练。通过采用适当的损失函数，不仅可以提升模型训练效率，还可使得训练获得的模型可进行更为精准的属性类别的确定和观点极性的确定。
[0058]
可选地，训练过程中，还可以对上述损失函数进行梯度下降，以使模型尽快收敛。
[0059]
通过上述过程，实现了对本技术实施例中的观点抽取神经网络模型的训练，训练获得的观点抽取神经网络模型可在一定时期内长期使用，无需每次执行属性观点信息的抽取时均进行训练。基于训练完成的观点抽取神经网络模型，可进行后续推理阶段的应用。
[0060]
步骤s204：获取文本形式的待抽取文本，并将其转换为对应的待抽取文本输入向量，输入用于进行属性观点抽取的观点抽取神经网络模型。
[0061]
如前所述，原始待抽取文本可能为文本形式，也可能为非文本形式，如为音频、视频或图片等形式，当为非文本形式时，可采用任意适当方式将其转换为文本形式。
[0062]
进而，将文本形式的待抽取文本转换为对应的输入向量，以输入经过步骤s202训练获得的观点抽取神经网络模型进行处理。
[0063]
步骤s206：对待抽取文本输入向量进行编码，获得待抽取文本对应的编码向量。
[0064]
例如，通过如图2b所示的bert编码器对输入向量进行编码，获得编码向量h
t
。
[0065]
步骤s208：根据待抽取文本对应的编码向量，抽取待抽取文本的属性词。
[0066]
例如，图2b中，在获得编码向量h
t
后，输入“aspectterms extractor”,通过头尾字符的匹配，抽取出待抽取文本中所有的属性词，例如图2b中“快递”、“味道”。
[0067]
步骤s210：将抽取的属性词对应的向量序列与所述编码向量进行融合，获得所述待抽取文本对应的融合特征向量。
[0068]
例如，图2b中，以其中的一个属性词“味道”为例，将属性词“味道”对应位置的向量序列和完整的编码向量h
t
进行多头注意力计算，得到融合了属性词信息的融合特征向量k
t
。
[0069]
步骤s212：对所述待抽取文本对应的融合特征向量进行观点词提取，获得属性词对应的观点词的向量序列。
[0070]
例如，图2b中，将融合特征向量k
t
输入“opinionterms extractor”，通过头尾字符的匹配，抽取出属性词“味道”对应的所有观点词，如图2b中所示的“很正宗”、“够辣”。根据融合特征向量k
t
，获得该观点词对应的向量序列
[0071]
步骤s214：基于所述属性词对应的向量序列和所述观点词对应的向量序列，获得所述待抽取文本对应的属性类别和观点极性。
[0072]
例如，图2b中，将(属性词，观点词)两元组对应位置的向量序列，即输
入池化层进行池化，得到两元组的向量表征；再将该向量表征输入图2b中的“category classifier”和“polarity classifier”，通过选择最高置信度的类别，进行属性类别和观点极性分类，获得最终的、与待抽取文本对应的属性类别和观点极性。
[0073]
步骤s216：根据所述属性词、所述观点词、所述属性类别和所述观点极性，生成所述待抽取文本对应的属性观点信息。
[0074]
上述步骤s214-s216可重复执行，直至遍历完待抽取文本中的所有属性词和观点词，得到所有的四元组。
[0075]
因待抽取文本的属性观点信息通常可由(属性词，观点词，属性类别，观点极性)，即(aspectterms,opinionterms,category,polarity)的四元组表征，通过本技术实施例的观点抽取神经网络模型，在获取到属性类别和观点极性后，结合之前获得的属性词和观点词，即可生成该四元组，也即生成待抽取文本对应的属性观点信息，以对待抽取文本进行有效的内容解析。
[0076]
需要说明的是，本技术实施例中的属性类别还可以包括“其它属性”这一类别，这是因为，在某些情况下，待抽取文本中可能包含预先设定的“属性类别”之外的类别所对应的属性词和观点词，通过设置“其它属性”，基于观点抽取神经网络模型先进行属性词和观点词提取，进而再分类，可以将预先设定的“属性类别”之外的(属性词，观点词)分类至“其它属性”。由此，为用户自定义属性词和/或属性类别提供了可能。
[0077]
根据本实施例，通过对待抽取文本进行属性词提取、观点词提取、以及获得属性类别和观点极性，可以获得有效表征待抽取文本的属性观点四元组，即(属性词，观点词，属性类别，观点极性)，基于该属性观点四元组，即可确定待抽取文本所携带的有效信息。
[0078]
此外，本实施例中，将获得该属性观点四元组的任务处理为级连任务，依次获得属性词、观点词、属性类别和观点极性。一方面，对待抽取文本进行一次编码获得对应的编码向量即可，无需像传统的多分支任务时，每个分支处理均需对待抽取文本进行编码，大大提高了编码向量的利用率，降低了数据处理负担，提高了数据处理速度；另一方面，通过特征融合，可以使得融合后的特征向量既能充分表征待抽取文本的整体特征，又可有效表征待抽取文本所具有属性和所表达观点的针对性特征，由此，使得最终获得的属性类别和观点极性也更为精准。
[0079]
可见，通过本实施例，实现了高效、快速地对有内容的待抽取文本的处理，并可获取准确、有效的观点信息。
[0080]
本实施例的观点抽取方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、移动终端(如手机、pad等)和pc机等。
[0081]
实施例三
[0082]
参照图3，示出了根据本技术实施例三的一种观点抽取装置的结构框图。
[0083]
本实施例的观点抽取装置包括：提取模块302，用于根据待抽取文本对应的编码向量，抽取所述待抽取文本的属性词；观点模块304，用于根据抽取的属性词对应的向量序列与所述待抽取文本的编码向量，得到所述属性词对应的观点词；获取模块306，用于基于所述属性词对应的向量序列和所述观点词对应的向量序列，获得所述待抽取文本对应的属性类别和观点极性。
[0084]
可选地，本实施例的观点抽取装置还包括：生成模块308，用于根据所述属性词、所
述观点词、所述属性类别和所述观点极性，生成所述待抽取文本对应的属性观点信息。
[0085]
可选地，本实施例的观点抽取装置通过观点抽取神经网络模型实现；所述观点抽取神经网络模型包括：用于生成编码向量的编码器部分、用于进行属性词提取的第一提取部分、用于进行观点词提取的第二提取部分、用于进行特征向量融合的融合层部分、和用于输出属性类别和观点极性的分类输出部分。
[0086]
可选地，所述编码器部分为bert编码器，所述第一提取部分为第一指针网络，所述第二提取部分为第二指针网络。
[0087]
可选地，所述融合层部分为基于多头注意力机制的融合层部分。
[0088]
可选地，本实施例的观点抽取装置还包括：训练模块310，用于在所述提取模块302根据待抽取文本的编码向量，抽取所述待抽取文本的属性词之前，使用训练样本，对观点抽取神经网络模型进行多任务联合训练。
[0089]
可选地，训练模块310，用于使用训练样本，基于与所述编码器部分对应的第一损失函数、与所述第一提取部分对应的第二损失函数、与所述第二提取部分对应的第三损失函数、和分类输出部分对应的第四损失函数，对所述观点抽取神经网络模型进行多任务联合训练。
[0090]
可选地，如果所述第一提取部分为第一指针网络，所述第二损失函数为二元交叉熵损失函数；如果所述第一提取部分为第二指针网络，所述第三损失函数为二元交叉熵损失函数；如果所述分类输出部分为多分类输出，所述第四损失函数为交叉熵损失函数。
[0091]
本实施例的观点抽取装置用于实现前述多个方法实施例中相应的观点抽取方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的观点抽取装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。
[0092]
实施例四
[0093]
参照图4，示出了根据本技术实施例四的一种电子设备的结构示意图，本技术具体实施例并不对电子设备的具体实现做限定。
[0094]
如图4所示，该电子设备可以包括：处理器(processor)402、通信接口(communications interface)404、存储器(memory)406、以及通信总线408。
[0095]
其中：
[0096]
处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。
[0097]
通信接口404，用于与其它电子设备或服务器进行通信。
[0098]
处理器402，用于执行程序410，具体可以执行上述观点抽取方法实施例中的相关步骤。
[0099]
具体地，程序410可以包括程序代码，该程序代码包括计算机操作指令。
[0100]
处理器402可能是中央处理器cpu，或者是特定集成电路asic(application specific integrated circuit)，或者是被配置成实施本技术实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个cpu；也可以是不同类型的处理器，如一个或多个cpu以及一个或多个asic。
[0101]
存储器406，用于存放程序410。存储器406可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。
[0102]
程序410具体可以用于使得处理器402执行以下操作：根据待抽取文本对应的编码
向量，抽取所述待抽取文本的属性词；根据抽取的属性词对应的向量序列与所述待抽取文本的编码向量，得到所述属性词对应的观点词；基于所述属性词对应的向量序列和所述观点词对应的向量序列，获得所述待抽取文本对应的属性类别和观点极性。
[0103]
在一种可选的实施方式中，程序410还用于使得处理器402根据所述属性词、所述观点词、所述属性类别和所述观点极性，生成所述待抽取文本对应的属性观点信息。
[0104]
在一种可选的实施方式中，程序410还用于使得处理器402通过观点抽取神经网络模型实现所述观点抽取方法；所述观点抽取神经网络模型包括：用于生成编码向量的编码器部分、用于进行属性词提取的第一提取部分、用于进行观点词提取的第二提取部分、用于进行特征向量融合的融合层部分、和用于输出属性类别和观点极性的分类输出部分。
[0105]
在一种可选的实施方式中，所述编码器部分为bert编码器，所述第一提取部分为第一指针网络，所述第二提取部分为第二指针网络。
[0106]
在一种可选的实施方式中，所述融合层部分为基于多头注意力机制的融合层部分。
[0107]
在一种可选的实施方式中，程序410还用于使得处理器402在所述根据待抽取文本对应的编码向量，抽取所述待抽取文本的属性词之前，使用训练样本，对所述观点抽取神经网络模型进行多任务联合训练。
[0108]
在一种可选的实施方式中，程序410还用于使得处理器402在所述使用训练样本，对所述观点抽取神经网络模型进行多任务联合训练时：使用训练样本，基于与所述编码器部分对应的第一损失函数、与所述第一提取部分对应的第二损失函数、与所述第二提取部分对应的第三损失函数、和分类输出部分对应的第四损失函数，对所述观点抽取神经网络模型进行多任务联合训练。
[0109]
在一种可选的实施方式中，如果所述第一提取部分为第一指针网络，所述第二损失函数为二元交叉熵损失函数；如果所述第一提取部分为第二指针网络，所述第三损失函数为二元交叉熵损失函数；如果所述分类输出部分为多分类输出，所述第四损失函数为交叉熵损失函数。
[0110]
程序410中各步骤的具体实现可以参见上述观点抽取方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。
[0111]
通过本实施例的电子设备，实现了高效、快速地对有内容的待抽取文本的处理，并可获取准确、有效的观点信息。
[0112]
需要指出，根据实施的需要，可将本技术实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本技术实施例的目的。
[0113]
上述根据本技术实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如cd rom、ram、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如asic或fpga)的记录介质上的这样的软件处理。可以理解，计算机、处理
器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，ram、rom、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的观点抽取方法。此外，当通用计算机访问用于实现在此示出的观点抽取方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的观点抽取方法的专用计算机。
[0114]
本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术实施例的范围。
[0115]
以上实施方式仅用于说明本技术实施例，而并非对本技术实施例的限制，有关技术领域的普通技术人员，在不脱离本技术实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本技术实施例的范畴，本技术实施例的专利保护范围应由权利要求限定。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

观点抽取方法、装置、电子设备及计算机存储介质与流程

相关文献

最热文献