一种文本分析方法、装置及存储介质与流程

2022-02-21 11:12:15 来源：中国专利 TAG：

1.本技术涉及数据分析领域，涉及但不限于一种文本分析方法、装置及存储介质。
背景技术：
：：2.在情感分析的过程中，无论是基于语句规则，还是基于机器学习的神经网络实现文本的情感分析，对于文中过多出现正面情感词，但实际却是中性或者是负面情感的情况，经常会造成神经网络的误判；以及在文本没有明显情感词的情况下，基于机器学习的神经网络也会难以判断该文本的情感；如此，使得该神经网络对于文本的情感分析的准确度不够高。技术实现要素：3.有鉴于此，本技术实施例提供一种文本分析方法、装置及存储介质，至少解决文本没有明显情感词，系统也会难以判断的问题。4.本技术实施例的技术方案是这样实现的：5.本技术实施例提供一种文本分析方法，所述方法包括：6.获取待分析文本；7.采用已训练的神经网络对所述待分析文本包含的情感类别进行分类，得到情感类别结果；其中，所述已训练的神经网络为根据转折类文本和隐式情感类文本训练得到的；8.输出所述情感类别结果。9.本技术实施例提供一种文本分析装置，所述装置包括：10.第一获取模块，用于获取待分析文本；11.第一分类模块，用于采用已训练的神经网络对所述待分析文本包含的情感类别进行分类，得到情感类别结果；其中，其中，所述已训练的神经网络为根据转折类文本和隐式情感类文本训练得到的；12.第一输出模块，用于输出所述情感类别结果。13.本技术实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，该计算机可执行指令配置为执行上述提供的文本分析方法。14.本技术实施例提供一种文本分析方法、装置及存储介质，其中，对于获取的待分析文本；首先，采用已训练的神经网络对所述待分析文本包含的情感类别进行分类，得到情感类别结果；该已训练的神经网络为根据转折类文本和隐式情感类文本训练得到的；最后，输出所述情感类别结果；如此，通过将隐式情感类文本句和转折类文本一起输入到神经网络中，对神经网络进行训练，得到已训练的神经网络，采用该已训练的神经网络对待分析文本的情感类别进行分析，能够更加准确地确定待分析文本的情感极性。附图说明15.在附图(其不一定是按比例绘制的)中，相似的附图标记可在不同的视图中描述相似的部件。具有不同字母后缀的相似附图标记可表示相似部件的不同示例。附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例。16.图1a为本技术实施例文本分析方法的实现流程示意图；17.图1b为本技术实施例文本分析网络训练的实现流程示意图；18.图2a为本技术实施例文本分析方法的另一实现流程示意图；19.图2b为本技术实施例文本分析方法的另一实现流程示意图；20.图3为申请实施例实现文本分析方法的系统框架图；21.图4为本技术实施例实现隐式情感分析的框架图；22.图5a为本技术实施例隐式情感分析的另一框架图；23.图5b为本技术实施例隐式情感分析的又一框架图；24.图6为本技术实施例实现转折语句分析的框架图；25.图7为本技术实施例实现文本表示的框架图；26.图8为本技术实施例实现情感极性分析的框架图；27.图9为本技术实施例文本分析装置的结构示意图。具体实施方式28.应当理解，此处所描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。29.在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本技术的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。30.终端可以以各种形式来实施。例如，本技术中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(personaldigitalassistant，pda)、便捷式媒体播放器(portablemediaplayer，pmp)、导航装置、可穿戴设备、智能手环、计步器等移动终端，以及诸如数字tv、台式计算机等固定终端。31.后续描述中将以移动终端为例进行说明，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本技术的实施方式的构造也能够应用于固定类型的终端。32.本技术实施例提供一种文本分析方法，图1a为本技术实施例文本分析方法的实现流程示意图，如图1a所示，所述方法包括以下步骤：33.步骤s111，获取待分析文本。34.这里，待分析文本可以是任意类型的文本；比如，新闻类文本。35.步骤s112，采用已训练的神经网络对所述待分析文本包含的情感类别进行分类，得到情感类别结果。36.这里，已训练的神经网络为根据转折类文本和隐式情感类文本训练得到的.已训练的神经网络是通过如下过程得到的：37.首先，从获取的样本文本中确定转折类文本；然后，从样本文本中确定隐式情感类文本；并将隐式情感类文本和转折类文本输入神经网络，以得到所述样本文本所属的样本情感类别结果；最后，采用所述样本情感类别结果的损失，对所述神经网络的网络参数进行调整，以使调整后的神经网络的情感类别结果的损失满足收敛条件。样本情感类别结果的损失可以是基于该样本情感类别结果和样本文本中的标记文本(比如，确定出的转折类文本和隐式情感类文本)确定的，用于表征该样本情感类别结果和样本文本中的标记文本之间的差异。在一些可能的实现方式中，采用样本情感类别结果的损失对神经网络的权重进行调整，以使调整后的神经网络的情感类别结果的准确度大于等于预设准确度阈值。38.步骤s113，输出所述情感类别结果。39.这里，情感类别结果即是对待分析文本进行分析后，得到的该待分析文本所属的情感类别。40.在本技术实施例中，采用这样通过将隐式情感类文本句和转折类文本一起输入到神经网络中，对神经网络进行训练，得到的已训练的神经网络，能够精准的识别出待分析文本所属的情感类别，提高了对待分析文本进行情感分析的准确度。41.本技术实施例提供一种文本分析方法，其中，已训练的神经网络的训练过程，如图1b所示，图1b为本技术实施例文本分析网络训练的实现流程示意图，结合图1b所示的步骤进行以下说明：42.步骤s101，从获取的样本文本中确定转折类文本。43.这里，样本文本可以是任意类型的文本，比如，新闻类文本、运动类文本、娱乐类文本或者社交应用中的聊天类文本等。从样本文本中确定包含转折类词语的转折类文本，在一些可能的实现方式中，从所述样本文本中，查找与在转折词词库中的转折词相匹配的转折类文本，比如，可以先对样本文本词语划分，比如，按照两个字的长度对该样本文本进行词语划分，得到长度为两个字的文本集合，然后，从该文本集合中查找包含于转折词词库中的转折类词语，并将该转折类词语所在的句子作为所述转折类文本。比如，样本文本中包括5句话，其中第四句话中包含转折类词语，那么确定第四句话为转折类文本。44.步骤s102，从样本文本中确定隐式情感类文本。45.这里，隐式情感类文本可以理解为是包含隐式情感词语的文本，或者是结合语境的情况下表达的情感极性，与文本中词语的情感极性不一致的文本。比如，“他可“聪明”啊，讲的头头是道”中虽然“聪明”的情感极性为正向，但是在该语境中，实则为讽刺，所以该文本的情感极性为负向。在一些可能的实现方式中，通过对样本文本进行句子划分，并采用向量表示每一个句子；然后，将每一个句子的向量输入训练好的分类模型，实现对这些句子的分类，从而得到隐式情感类文本。46.步骤s103，根据所述隐式情感类文本和所述转折类文本，对待训练神经网络进行训练，得到已训练的神经网络。47.在一些可能的实现方式中，步骤s103可以通过以下过程实现：48.首先，将所述隐式情感类文本和所述转折类文本输入神经网络，以得到所述样本文本所属的样本情感类别结果。49.这里，采用隐式情感类文本的向量化表示和转折类文本的向量化表示，对样本文本中无标记的文本对应的向量进行调整，将调整后的向量和样本文本输入到神经网络中，并得到初步的样本情感类别结果。样本情感类别结果为样本文本属于每一情感类别的概率。50.然后，采用所述样本情感类别结果的损失，对所述神经网络的网络参数进行调整，以使调整后的神经网络的情感类别结果的损失满足收敛条件。51.这里，基于该样本情感类别结果和样本文本中的标记文本(比如，确定出的转折类文本和隐式情感类文本)，确定样本情感类别结果的损失。在一些可能的实现方式中，采用样本情感类别结果的损失对神经网络的权重进行调整，以使调整后的神经网络的情感类别结果的准确度大于等于预设准确度阈值。52.在本技术实施例中，将隐式情感类文本句和转折类文本一起输入到神经网络中，对神经网络进行训练，从而使得训练好的神经网络能够更加准确地分析输入文本的情感极性，显著提高了情感分析的准确率。53.在一些实施例中，为了才能够样本文本中准确的标注出隐式情感类文本，所述步骤s102可以通过以下步骤实现，如图2a所示，图2a为本技术实施例文本分析方法的另一实现流程示意图，结合图1b进行以下说明：54.步骤s201，对样本文本进行特征提取，得到特征集合。55.这里，可以采用神经网络对样本文本进行特征提取，得到特征集合；其中，特征集合由多个表征一个句子的向量组成。56.步骤s202，确定所述特征集合中的每一特征所属的类别，得到类别集合。57.这里，将特征集合输入到训练好的分类器中，以得到每一个特征所述的类别；该类别包含隐式情感类和显示情感类，至少包括：开心、悲伤、愤怒、平静、激动和忧愁等。在一个具体例子中，将表征一个句子的向量集合输入到训练好的分类器中，确定该句子是隐式情感类语句还是显示情感类语句。58.步骤s203，确定所述类别集合中的类别为隐式情感类别的第一特征子集合。59.这里，从该类别集合中，确定类别为隐式情感类别的特征，得到第一特征子集合。60.步骤s204，将所述第一特征子集合所属的文本确定为所述隐式情感类文本。61.这里，第一特征子集合中包含多个句子的向量，将这多个句子确定为所述隐式情感类文本。62.步骤s205，将所述隐式情感类文本和所述转折类文本输入神经网络，以得到样本文本所属的样本情感类别结果。63.步骤s206，采用所述样本情感类别结果的损失，对所述神经网络的网络参数进行调整，以使调整后的神经网络的样本情感类别结果的损失满足收敛条件。64.在本技术实施例中，通过采用分类器对向量化表示的样本文本进行分类，确定出隐式情感类文本，从而将样本文本准确的分类为隐式情感类文本和显式情感类文本。65.在一些实施例中，基于隐式情感类文本的上下文的情感极性，确定隐式情感类文本的情感极性，在步骤s204之后，所述方法还包括以下步骤，如图2b所示，图2b为本技术实施例文本分析方法的另一实现流程示意图，结合图2a进行以下说明：66.步骤s221，确定所述类别集合中类别为显式情感类的第二特征子集合。67.这里，可以直接从类别集合中确定类别为显式情感类的特征，得到第二特征子集合；该第二特征子集合中存储的是显式情感类的句子的向量化表示。68.步骤s222，从所述第二特征子集合中确定与隐式情感类别的特征之间间隔的文本数小于预设文本数的显示情感类的目标特征。69.这里，从第二特征子集合中确定与隐式情感类别的特征在文本中的间隔的文本数小于预设文本数的目标特征，比如，在多个表示显式情感类的句子中，确定与隐式情感类的句子的间隔较小的一些目标句子，以得到这些目标句子的向量化表示，即目标特征。70.步骤s223，根据所述隐式情感类别的特征和所述目标特征，确定所述隐式情感类文本的情感极性。71.这里，如果该隐式情感类别的特征对应的文本的情感极性，与目标特征对应的文本的情感极性，可能相同或相反。72.在一些可能的实现方式中，首先，根据所述隐式情感类别的特征和所述目标特征，确定所述隐式情感类文本与所述目标特征对应的目标文本的逻辑关系。73.这里，所述逻辑关系包括顺承关系和中立关系，其中，中立关系包括相反和无关。比如，如果隐式情感类别的特征包含于目标特征，确定隐式情感类文本与目标文本的逻辑关系为顺承关系。在一个具体例子中，隐式情感类别的特征包含于目标特征可以理解为，目标特征对应的文本句子对应的语义包括了隐式情感类文本的语义(比如，隐式情感类文本为“一只狗在雪地中接飞盘玩”，目标特征对应的文本句子对应的语义为“一个动物正在寒冷室外玩塑料玩具”)，这样情况下，说明该目标特征对应的文本句子与该隐式情感类文本之间是没有转折的，即二者是顺承的，从而说明二者的情感极性一致。另外，如果隐式情感类别的特征未包含于目标特征，确定隐式情感类文本与目标文本的逻辑关系为中立关系；在一个具体例子中，隐式情感类别的特征未包含于目标特征可以理解为，目标特征对应的文本句子对应的语义不能包括隐式情感类文本的语义，比如，目标特征对应的文本句子对应的语义与隐式情感类文本的语义相矛盾(比如，隐式情感类文本为“一只狗在雪地中接飞盘玩”，目标特征对应的文本句子对应的语义为“一只猫在雪地中接飞盘玩”)，或者，目标特征对应的文本句子对应的语义与隐式情感类文本的语义无关(比如，隐式情感类文本为“一只狗在雪地中接飞盘玩”，目标特征对应的文本句子对应的语义为“小朋友在吃饭”)。74.然后，根据所述逻辑关系，确定所述隐式情感类文本的情感极性。75.这里，如果该逻辑关系表明目标文本与隐式情感类文本之间没有出现转折，且目标文本与隐式情感类文本是连贯的，是逻辑通顺的，那么说明该隐式情感类文本的情感极性与目标文本的情感极性相同；如果该逻辑关系表明目标文本与隐式情感类文本之间出现转折，或者目标文本与隐式情感类文本是不连贯的，或是逻辑不通顺的，说明该隐式情感类文本的情感极性与目标文本的情感极性不同。在一些可能的实现方式中，如果所述逻辑关系为顺承关系，将所述目标文本的情感极性确定为所述隐式情感类文本的情感极性；其中，顺承关系可以理解为目标文本与隐式情感类文本之间没有出现转折，且目标文本与隐式情感类文本是连贯的，是逻辑通顺的；如果所述逻辑关系为中立关系，根据所述隐式情感类文本的特征和所述目标特征，确定所述隐式情感类文本的情感极性；其中，中立关系可以理解为目标文本与隐式情感类文本之间出现转折，或者目标文本与隐式情感类文本是不连贯的，或是逻辑不通顺的；这种情况下，通过分析隐式情感类文本的特征表征的含义(比如，一句话表征的含义)和该隐式情感类文本的上下文的特征(即目标特征)表征的含义，来分析该隐式情感类文本的情感极性。76.步骤s224，将所述隐式情感类文本的情感极性、所述隐式情感类文本和所述转折类文本输入神经网络，以得到所述样本文本所属的样本情感类别结果。77.这里，采用隐式情感类文本的向量化表示和转折类文本的向量化表示，输入到神经网络中，以对神经网络中输入的无标记文本的向量化表示进行调整，这样，不仅丰富了输入的样本的多样性，还可以保证输入样本的准确性。78.在一些可能的实现方式中，首先，确定所述样本文本中除所述隐式情感类文本和所述转折类文本之外的无标记文本。79.这里，因为已经在样本文本中查找到了隐式情感类文本和转折类文本，并为这两类文本批注标记；这样，就可以从该样本文本中确定出无标记文本。80.其次，确定所述无标记文本对应的第一向量。81.这里，向量化表示该无标记文本，该第一向量中包括多个向量，其中，一个句子采用一个向量来表示。比如，如果无标记文本中包括10个句子，那么第一向量中可以包括10个向量。82.再次，确定所述隐式情感类文本对应的第二向量。83.这里，向量化表示该隐式情感类文本，该第二向量中包括多个向量，其中，一个句子采用一个向量来表示。比如，如果隐式情感类文本中包括10个句子，那么第二向量中可以包括10个向量。84.再次，确定所述转折类文本对应的第三向量。85.这里，向量化表示该转折类文本，该第三向量中包括多个向量，其中，一个句子采用一个向量来表示。比如，如果转折类文本中包括10个句子，那么第二向量中可以包括10个向量。86.再次，根据所述第二向量和所述第三向量，对所述第一向量进行调整，得到更新的第一向量。87.这里，因为第二向量和第三向量均为有标记的向量，采用这样有标记的向量对无标记的第一向量进行调整，使得更新的第一向量中具有伪标签，从而能够更新的第一向量中样本类型的丰富性，以及更新的第一向量的准确性。88.最后，将所述更新的第一向量和所述隐式情感类文本的情感极性输入所述神经网络，以得到所述样本文本所属的样本情感类别结果。89.这里，将更新的第一向量和隐式情感类文本的情感极性作为训练样本，对神经网络进行训练，得到样本情感类别结果；然后，确定该样本情感类别结果与更新的第一向量的伪标签、第二向量的标签和第三向量的标签之间的损失；最后，基于该损失对神经网络的权重和通道数等网络参数进行调整，以使训练好的神经网络输出的情感类别结果的精确度大于预设精确度阈值，即满足收敛条件；这样，将隐式情感类文本句和转折类文本一起输入到神经网络中，对神经网络进行训练，从而使得训练好的神经网络能够更加准确地分析输入文本的情感极性。90.在一些实施例中，进行情感分析的实现方式为：基于人为规定一组规则，借助情感词典等方法对文本中词组、符号等进行极性判断，最后组合成最终的情感结果。91.在一个具体例子中，首先，定义两个极化词列表和每个词对应的分数(例如：优秀3、美好4等正面词表和难过-4和差劲-5等负面词表)；然后，对于给定文本计算正面词的数量和负面词的数量以及相对应的分数；最终得分大于一个阈值则为正面情感否则为负面情感。92.这样基于规则的方法对于文本出现隐式情感句会有较大的可能判断错文本的情感极性，这是因为隐式情感句不会出现明显的情感词，是一种基于语境的情感句子。而对于情感转折的句子，虽然可以定义规则进行一定程度的避免，但是当转折词后没有出现情感词或者前后情感词数量差距过大，也会出现误判。93.在一些实施例中，进行情感分析的实现方式还可以为：基于自动学习的技术方不依赖人为制定的规则，而是靠算法模型从数据中学习判断文本的情感极性。94.在一个具体例子中，首先，在训练过程，把数据和相对应的标签输入到模型当中，使模型学习到数据之间内在的规律；然后，在预测过程则只有文本数据输入到模型之中，让文本预测相对应的标签。95.这样自动学习的方式旨在让模型能够像人类一样能够理解文本，但实际使用还是难以达到，对于上述基于规则方法出现的问题，自动学习还是不能够较好的解决。96.基于此，本技术实施例提供一种文本分析方法，如图3所示，图3为申请实施例实现文本分析方法的系统框架图，该系统包括以下模块：97.新闻文本模块301，用于输入原始新闻文本，并将该新闻文本输入到文本处理模块302。98.文本处理模块302，用于为输入发原始新闻文本进行数据清洗，将清洗后的文本输入到隐式情感处理模块303和转折处理模块304。99.隐式情感处理模块303，用于使用文本蕴含的技术来进行隐式情感句识别。100.在一些可能的实现方式中，隐式情感处理模块303主要是为了在识别分析出隐式情感句对于文章整体情感的影响，帮助模型判断。整个隐式情感句处理模块的流程如图4所示，图4为本技术实施例实现隐式情感分析的框架图，对输入的文本数据进行隐式情感分析的过程如下：101.首先，对于文本数据401(即样本文本)进行向量化文本表示，以实现文本表示402。102.其次，将文本表示后的向量输入分类模块403，在分类模型403中，识别该文本数据401中的隐式情感句，并输出隐式情感句404(即隐式情感类文本)。103.这里，隐式情感句的识别是在双向转换器的编码(bidirectionalencoderrepresentationfromtransformers，bert)的基础上进行，如图5a所示，图5a为本技术实施例隐式情感分析的另一框架图，其中，图5a中输入的句子501为单个句子，经过中间神经网络502，输出一个分类标签。tok1至tokn为输入句子的标记(token)，e1至en表示输入嵌入，t1至tn表示不同token的上下文表示，c是用作输出类别的向量，cls是用于分类输出的特殊符号。104.再次，将隐式情感句404输入文本蕴含模型405，在文本蕴含模型405中，对输入的隐式情感句404与上下文句子的关系进行逻辑推理，以确定该逻辑关系所属的分类标签，并将该类型和隐式情感句的文本向量输入深度学习模型406中，以使深度学习模型406输出输入文本属于各类别的概率。105.这里，把文本向量化之后输入到文本蕴含模型进行隐式情感句的识别，识别出的隐式情感句输入到文本蕴含模型中进行逻辑推理，若隐式情感句与上下文的显式情感句有逻辑关系，那么情感极性在相当大的程度上是一致的，最后把得到的隐式情感句向量化表示之后输入到深度学习模型中。106.在一些实施例中，文本蕴含模块405的实现是在bert的基础上进行，如图5b所示，图5b为本技术实施例隐式情感分析的又一框架图，其中，图5b中输入的句子511和512为两个句子，经过中间神经网络513，输出每个句子的分类标签。tok1至tokn为输入句子511的标记，tok11至tok1n为输入句子512的标记；e1·至en·表示句子512的输入嵌入，e1至en表示句子511的输入嵌入；t1至tn表示句子511中不同token的上下文表示，t1·至tn·表示句子512中不同token的上下文表示；c是用作输出类别的向量，cls是用于分类输出的特殊符号。sep是用于分隔非连续token序列的特殊符号。文本蕴含模块405的输出标签为蕴含、矛盾和中立。文本蕴含模块有助于模型对于前后文的推理判断，增强模型情感分析能力。107.首先使用图5a的模型对整篇文本进行隐式情感句的识别，取出隐式情感句。每篇文章的隐式情感句会出现不一致的情况，可以先统计一定篇数文本的隐式情感句数量和长度，取最大值或者设定一个阈值作为每篇识别隐式情感句的最大数量和长度，然后送入模型进行识别。若数量达到阈值，则停止识别，若数量不够，则用补丁补齐向量。然后用图5b的结构对识别出的隐式情感句与其上下两句分别做文本蕴含处理。文本蕴含需要输入两句话，这两句话的长度也需要固定，隐式句的长度由隐式句识别模型决定，上下文句子的长度也可以统计取最大值或者设定一个阈值，由于输入长度固定，则输出向量的长度也会固定。最后把所有向量t输入到深度学习模型406中。108.转折处理模块304，用于在识别分析出隐式情感句对于文章整体情感的影响，帮助模型判断。109.这里，如图6所示，图6为本技术实施例实现转折语句分析的框架图，对输入的文本数据进行转折分析的过程如下：110.首先，对于文本数据601与转折词词典602进行对比，以识别出转折句603(即转折类文本)。111.然后，对于识别出的转折句603进行文本表示604，将文本表示后的向量输入到深度学习模型605中。112.在本技术实施例中，转折句分析识别主要借助转折词典，识别出含有转折词的句子。最后把转折句用bert进行文本表示后输入到深度学习模块。转折句的输入长度也是如同隐式处理模块，对长度设定一定阈值或取最大值，不够的情况下，用补丁补齐；超过的情况下，对超过部分进行截取，然后把转折句的向量输入到betr模型中获取文本表示向量，拼接到最后的深度学习模型中。113.文本表示模块305，用于把文字转换成模型能够理解的向量形式，是影响系统性能的重要因素。114.这里，如图7所示，图7为本技术实施例实现文本表示的框架图，对输入的文本数据进行文本表示的过程如下：115.首先，将用于进行预训练的文本数据701输入bert模型702中，得到初步文本向量；基于隐式情感模块703得到的隐式情感句的文本向量(即第二向量)和转折处理模块704得到的转折句的文本向量(即第一向量)，对初步文本向量进行调整，以得到最终的文本向量表示705。116.在本技术实施例中，文本表示模块将在大量的文本数据上进行预训练，然后使用隐式情感句和转折句进行微调，得到最终的文本表示向量。其中，微调向量的方式是在bert的基础上增加两个预训练任务(隐式情感句任务和转折句任务)。117.其中，隐式情感句任务：训练时，在训练文本中取和隐式情感句相同数量句子进行训练，比如：118.输入(input)＝这块电池不[mask]用[0119]标签(label)＝隐式(isimplicit)[0120]输入(input)＝今天好开[mask][0121]标签(label)＝非隐式(notimplicit)[0122]转折句任务：训练时，在训练文本中取和转折句相同数量句子进行训练。[0123]输入(input)＝虽然他学习很认真，但是成绩[mask]不理想[0124]标签(label)＝转折(isturn)[0125]输入(input)＝难道你认为没有[mask]样一回事[0126]标签(label)＝非转折(notturn)[0127]这样使模型能够学习到隐式情感句和转折句的表达方式。[0128]深度学习模块306，用于使用bilstm attention对文本进行综合的情感极性分析，将得到的情感分析结果(即分类类别输出在情感分析结果输出模块307)。[0129]这里，如图8所示，图8为本技术实施例实现情感极性分析的框架图，对输入的文本数据进行文本表示的过程如下：[0130]首先，在嵌入层中输入文本x，表示为x＝(x1,x2,…,xt)，其中，xi表示文本向量。[0131]其次，将文本向量输入到双向lstm层801中，输出任一个文本向量xi对应的隐藏状态hi。[0132]这里，在双向lstm层801中，隐藏状态[0133]再次，双向lstm层801将输出结果输入到双向lstm层802中的，以更新隐藏状态hi。[0134]最后，将双向lstm层802中输出的隐藏状态输入到注意力(attention)层803中，以对每一个隐藏状态进行加权，如下公式所示，ei＝tanh(whhi bh),ei∈[-1,1]，其中，ai表示每一个类别的概率，wh和bn表示权重向量。[0135]最后，将注意力层803输出的加权后的向量输入到归一化(softmax)层804，在该归一化层804中对输入的向量进行分类，以输出每一输入的文本句子属于不同类别的概率。[0136]这里，把文本的向量输入到bilstm中得到向量h_i，经过注意力(attention)层之后得到向量r，最后用softmax得到各类别的概率。深度学习模型的embedding层是由隐式处理模块的向量加上转折处理模块的向量加上整篇文本的向量，整篇文章的向量也需要统计取最大值或者设定一个阈值，这三个向量是在序列长度上进行拼接，由于之前已经限定了向量长度，所以最后输入的向量长度是固定的。[0137]在本技术实施例中提供的文本分析方法可以通过以下两个阶段完成，即第一阶段是先进行系统预训练流程，比如，首先，在运行整个系统之前，先完成bert模型的预训练任务；然后，使用大规模的无标记的文本数据进行预训练，得到一个通用的文本表示向量，这些文本数据可以从百度百科，新闻网站等爬取清洗得到。最后，使用小规模的有标记的隐式情感句和转折句对之前的文本表示进行微调，小规模的标记数据需要人工进行标注。第二阶段是，系统训练流程，比如，系统训练时，输入的文本分别进入文本表示模块、隐式情感处理模块、转折处理模块，之后转折句再输入到文本表示模块得到转折句的向量表示，隐式情感句则把得到的向量直接输入到bilstm，最后把这些向量作为bilstm的embedding层输入到模型中得到结果。[0138]在本技术实施例中深度学习模块将使用bilstm attention作为最终进行文本极性分析的模型，在这之上加入隐式情感处理模块、转折处理模块和文本表示模块。隐式情感处理模型使用文本蕴含的技术来进行隐式情感句识别，转折处理模块使用转折词典进行转折句识别，文本表示模块以bert为基础，增加两个预训练子任务，对文本表示向量进行微调。这三个模块都是为了使最终的深度学习模型能够学习到隐式情感句和转折句的表达方式，提高情感分析准确率。[0139]本技术实施例提供一种文本分析装置，图9为本技术实施例文本分析装置的结构示意图，如图9所示，所述装置900包括：[0140]第一获取模块901，用于获取待分析文本；[0141]第一分类模块902，用于采用已训练的神经网络对所述待分析文本包含的情感类别进行分类，得到情感类别结果；其中，所述已训练的神经网络为根据转折类文本和隐式情感类文本训练得到的；[0142]第一输出模块903，用于输出所述情感类别结果。[0143]在上述装置中，所述装置，还包括：[0144]第一确定模块，用于从获取的样本文本中确定转折类文本；[0145]第二确定模块，用于从所述样本文本中确定隐式情感类文本；[0146]第一输入模块，用于根据所述隐式情感类文本和所述转折类文本，对待训练神经网络进行训练，得到所述已训练的神经网络。[0147]在上述装置中，所述第一确定模块，用于：[0148]从所述样本文本中，查找与在转折词词库中的转折词相匹配的转折类文本。[0149]在上述装置中，所述第二确定模块，包括：[0150]第一提取子模块，用于对所述样本文本进行特征提取，得到特征集合；[0151]第一确定子模块，用于确定所述特征集合中的每一特征所属的类别，得到类别集合；[0152]第二确定子模块，用于确定所述类别集合中的类别为隐式情感类别的第一特征子集合；[0153]第三确定子模块，用于将所述第一特征子集合所属的文本确定为所述隐式情感类文本。[0154]在上述装置中，所述装置还包括：[0155]第三确定模块，用于确定所述类别集合中类别为显式情感类的第二特征子集合；[0156]第四确定模块，用于从所述第二特征子集合中确定与隐式情感类别的特征之间间隔的文本数小于预设文本数的显示情感类的目标特征；[0157]第五确定模块，用于根据所述隐式情感类别的特征和所述目标特征，确定所述隐式情感类文本的情感极性；[0158]第二输入模块，用于将所述隐式情感类文本的情感极性、所述隐式情感类文本和所述转折类文本输入神经网络，以得到所述样本文本所属的样本情感类别结果。[0159]在上述装置中，所述第五确定模块，包括：[0160]第四确定子模块，用于根据所述隐式情感类别的特征和所述目标特征，确定所述隐式情感类文本与所述目标特征对应的目标文本的逻辑关系；[0161]第五确定子模块，用于根据所述逻辑关系，确定所述隐式情感类文本的情感极性。[0162]在上述装置中，所述第四确定子模块，包括：[0163]第一确定单元，用于如果所述隐式情感类别的特征包含于所述目标特征，确定所述隐式情感类文本与所述目标文本的逻辑关系为顺承关系；[0164]第二确定单元，用于如果所述隐式情感类别的特征未包含于所述目标特征，确定所述隐式情感类文本与所述目标文本的逻辑关系为中立关系。[0165]在上述装置中，所述第五确定子模块，包括：[0166]第三确定单元，用于如果所述逻辑关系为顺承关系，将所述目标文本的情感极性确定为所述隐式情感类文本的情感极性；[0167]第四确定单元，用于如果所述逻辑关系为中立关系，根据所述隐式情感类文本的特征和所述目标特征，确定所述隐式情感类文本的情感极性。[0168]在上述装置中，所述第一输入模块，包括：[0169]第六确定子模块，用于确定所述样本文本中除所述隐式情感类文本和所述转折类文本之外的无标记文本；[0170]第七确定子模块，用于确定所述无标记文本对应的第一向量；[0171]第八确定子模块，用于确定所述隐式情感类文本对应的第二向量；[0172]第九确定子模块，用于确定所述转折类文本对应的第三向量；[0173]第一调整子模块，用于根据所述第二向量和所述第三向量，对所述第一向量进行调整，得到更新的第一向量；[0174]第一输入子模块，用于将所述更新的第一向量和所述隐式情感类文本的情感极性输入所述神经网络，以得到所述样本文本所属的样本情感类别结果。[0175]本技术实施例提供的文本分析网络训练装置，该装置包括所包括的各模块、以及各模块所包括的各子模块和各单元，可以通过终端中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(cpu)、微处理器(mpu)、数字信号处理器(dsp)或现场可编程门阵列(fpga)等。[0176]需要说明的是，以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本技术装置实施例中未披露的技术细节，请参照本技术方法实施例的描述而理解。[0177]对应地，本技术实施例提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，该计算机可执行指令配置为执行本技术其他实施例提供的文本分析方法，或者用于引起处理器执行时，实现文本分析方法。[0178]需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。[0179]上述本技术实施例序号仅仅为了描述，不代表实施例的优劣。[0180]通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器等)执行本技术各个实施例所描述的方法。[0181]本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。[0182]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。[0183]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。[0184]以上仅为本技术的优选实施例，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的
技术领域：
：，均同理包括在本技术的专利保护范围内。当前第1页12当前第1页12

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：安全领域实体识别方法、装置及电子设备与流程

一种文本分析方法、装置及存储介质与流程

相关文献

最热文献