一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文档分类方法及装置与流程

2022-08-13 13:21:45 来源:中国专利 TAG:
1.本说明书涉及数据处理
技术领域
:,特别涉及文档分类方法及装置。
背景技术
::2.文档分类是对文档进行智能识别,从而确定文档的类别,判断该文档是否是目标类别。现有技术中,通常采用基于文本截取的深度学习方法进行文档分类,如对于较长的文档,如3000字以上的文档,因此现有技术一般从文档的前面部分或者中间部分截取部分文本,通过lstm(longshort-termmemory,长短期记忆网络)、cnn(convolutionalneuralnetworks,卷积神经网络)等神经网络模型对截取的部分文本进行分类,以确定输入文档的类别。3.但由于文档较长,无法全部输入神经网络模型,而从文档中截取的部分文本会造成文本信息缺失,影响文档分类的准确性。因此亟需一种文档分类方法以解决上述问题。技术实现要素:4.有鉴于此,本技术实施例提供了一种文档分类方法,以解决现有技术中存在的技术缺陷。本技术实施例同时提供了一种文档分类装置,一种计算设备,以及一种计算机可读存储介质。5.根据本技术实施例的第一方面,提供了一种文档分类方法,包括:6.对待处理文档进行分割,得到多个文本;7.将所述多个文本分别输入特征提取模型,确定每个文本的类别特征;8.对所述多个文本的类别特征进行组合,得到所述待处理文档的类别特征向量;9.将所述类别特征向量输入分类模型,确定所述待处理文档的类别10.根据本技术实施例的第二方面,提供了一种文档分类装置,包括:11.分割模块,被配置为对待处理文档进行分割,得到多个文本;12.第一确定模块,被配置为将所述多个文本分别输入特征提取模型,确定每个文本的类别特征;13.组合模块,被配置为对所述多个文本的类别特征进行组合,得到所述待处理文档的类别特征向量;14.第二确定模块,被配置为将所述类别特征向量输入分类模型,确定所述待处理文档的类别。15.根据本技术实施例的第三方面,提供了一种计算设备,包括:16.存储器和处理器;17.所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述文档分类方法的步骤。18.根据本技术实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述文档分类方法的步骤。19.根据本技术实施例的第五方面,提供了一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现所述文档分类方法的步骤。20.本技术提供的文档分类方法,对待处理文档进行分割,得到多个文本;将所述多个文本分别输入特征提取模型,确定每个文本的类别特征;对所述多个文本的类别特征进行组合,得到所述待处理文档的类别特征向量;将所述类别特征向量输入分类模型,确定所述待处理文档的类别。上述方法先将待处理文档分割成比较短的文本,适用于长文档处理,并且先确定每个文本的类别特征,然后将多个文本的类别特征组合得到待处理文档的类别特征向量,则可以认为该类别特征向量融合了待处理文档全文的类别信息,即该类别特征向量不仅能够体现待处理文档中各部分内容的类别特征,还能够体现待处理文档中各部分内容之间的关联,因此将该类别特征向量输入分类模型进行分类,能够给分类模型提供更多的信息,使得分类模型的分类结果更加准确,即提高了文档分类的准确率。附图说明21.图1是本技术实施例提供的一种执行文档分类方法的系统的系统架构图;22.图2是本技术一实施例提供的一种文档分类方法的流程图;23.图3是本技术一实施例提供的一种分类模型的训练方法的流程图;24.图4是本技术一实施例提供的一种确定文本的类别特征的方法的流程图;25.图5是本技术一实施例提供的另一种确定文本的类别特征的方法的流程图;26.图6是本技术一实施例提供的又一种确定文本的类别特征的方法的流程图;27.图7是本技术一实施例提供的一种确定待处理文档的类别特征向量的方法的流程图;28.图8是本技术一实施例提供的一种分割待处理文档的方法的流程图;29.图9是本技术一实施例提供的一种应用于合同文档识别的文档分类方法的处理流程图;30.图10是本技术一实施例提供的一种文档分类方法的处理过程示意图;31.图11是本技术一实施例提供的一种文档分类装置的结构示意图;32.图12是本技术一实施例提供的一种计算设备的结构框图。具体实施方式33.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本技术内涵的情况下做类似推广,因此本技术不受下面公开的具体实施的限制。34.在本技术一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术一个或多个实施例。在本技术一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本技术一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。35.应当理解,尽管在本技术一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。36.首先,对本技术一个或多个实施例涉及的名词术语进行解释。37.特征提取模型:用于对输入的文本进行特征提取,得到输入文本的类别特征。38.类别特征:用于表征文本所属类别的特征。39.分类模型:用于对输入的文档进行分类,确定文档所属的类别。40.类别特征向量:可以用来确定文档所属类别的特征向量,不仅能够表征文档中各部分内容的类别特征,还能够表征文档中各部分内容之间的关联。41.词单元:对输入文本做任何实际处理前,都需要将其分割成诸如字、标点符号、数字或字母等语言单元,这些语言单元被称为词单元。对于英文文本,词单元可以是一个单词、一个标点符号、一个数字等;对于中文文本,最小的词单元可以是一个字、一个标点符号、一个数字等。42.wordembeddinglayer(嵌入层):用于对输入的文本进行嵌入式编码处理的层,可以通过一个映射或者一个函数生成文本在新的空间上的表达,该表达可以是文本的词嵌入向量。43.词嵌入:是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量的处理过程。44.词嵌入向量:对词单元进行词嵌入处理后得到的向量。45.wordattentionlayer(词级注意力层):可以包括注意力机制,以词单元为单位进行注意力计算。46.word2vec:进行词嵌入处理的一种方法,是mikolov在bengionnlm(neuralnetworklanguagemodel,神经网络语言模型)的基础上构建的一种高效的词向量训练方法。即通过使用该方法可以对文本进行词嵌入处理,得到文本的词嵌入向量。47.注意力机制:在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息,上述机制通常被称为注意力机制。在神经网络模型中,注意力机制通过允许模型动态地关注有助于当前任务的输入的某些部分,可以提高对任务处理的效率。48.注意力计算:对于某个时刻的输出y,它在输入x上各个部分的注意力,这里的注意力也就是权重,即输入x的各个部分对某时刻输出y贡献的权重。49.特征向量:融合文本中词单元的词嵌入向量后得到的向量,第一词单元的特征向量中融入了第一词单元与文本中词单元之间的关系,融合了该文本全文的语义信息。50.增强特征向量:融合文本与其他文本的特征向量后得到的向量,文本的增强特征向量中融入了该文本与自身及其他文本之间的关系,融合了文档全文的语义信息。51.bert(bidirectionalencoderrepresentationsfromtransformer,基于转换器的双向编码表征)模型:是一种动态词向量技术,采用双向transformer模型,对无标记数据集进行训练,综合考虑前后文特征信息,可以更好地解决一词多义等问题。52.lightgbm模型:是一种梯度提升框架,它使用决策树作为基学习器,支持高效率的并行训练,并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。53.对数损失:即log-likelihoodloss(对数似然损失),也称logisticloss(逻辑斯谛回归损失)或cross-entropyloss(交叉熵损失),是在概率估计上定义的。它常用于multi-nominal(多项)逻辑斯谛回归和神经网络,以及一些期望极大算法的变体,可用于评估分类器的概率输出。54.tf-idf(termfrequency-inversedocumentfrequency,词频-逆文档频率):是一种用于资讯检索与文本挖掘的常用加权技术,可以用来评估一个词单元对于一个文本集或文本库中某个文本的重要程度。词单元的重要性随着它在文本中出现的次数成正比增加,但同时会随着它在文本库中出现的频率成反比下降。55.n-gram:是一种统计语言模型,用来根据前(n-1)个item来预测第n个item。56.接下来对本技术提供的文档分类方法的应用场景进行说明。57.文档分类是对文档进行智能化识别,确定文档所属的预设分类类别。应用于合同文档分类的场景下,合同文档分类即是对文档进行智能识别,从而判断该文档是否属于合同。当前合同文档分类的方法主要有三种。第一种,基于规则的方法:人工设计分类规则,通过规则匹配确定文档是否是合同,以实现合同文档的识别;第二种,基于传统机器学习的方法:人工构建词库和文档的特征,如tf-idf、n-gram、关键词等,通过机器学习模型(如svm(supportvectormachines,支持向量机)、xgboost(extremegradientboosting,极限梯度提升)、lr(logisticregression,逻辑回归)等)实现合同文档识别;第三种,基于文本截取的深度学习方法:对于字符内容比较多的文档,如3000字的长文档,一般从文档的前面部分或者中间部分截取部分文本,通过lstm、cnn等神经网络模型对所截取的部分文本进行处理,以确定文档的类别。58.但基于规则的方法,需要用户设计大量规则,构建成本较大且费事费力;基于传统机器学习的方法需要人工构建词库和特征,特征工程复杂且难以完全构建,影响识别准确性;基于深度学习的方法,由于文本较长,无法全部输入神经网络模型,而截取文档中部分文本会造成文本信息缺失,影响识别准确性。59.基于此,本技术提供了一种文档分类方法,无需复杂的规则设计与复杂的特征提取,方便快捷,能够有效提高文档的识别准确率。该文档分类方法的具体实现可以参见下述各个实施例的相关描述。60.参见图1,图1是本技术一实施例提供的一种执行文档分类方法的系统的系统架构图。61.该系统可以包括执行文档分类方法的服务端101、训练特征提取模型的第一训练端102和训练分类模型的第二训练端103。并且,该服务端、第一训练端和第二训练端可以集成于同一个计算设备中,也可以在相互独立的不同计算设备中。示例性地,服务端、第一训练端和第二训练端分别是三个相互独立的计算设备;或者,第一训练端和第二训练端集成在同一个计算设备中,服务端在另一个计算设备中;或者,服务端和第一训练端集成在同一个计算设备中,第二训练端在另一个计算设备中;或者,服务端、第一训练端和第二训练端集成在同一个计算设备中,本技术实施例对此不作限定。62.并且,上述计算设备可以是终端,也可以是服务器,该终端可以是任何一种可与用户进行人机交互的电子产品,该服务器可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心,本技术实施例对此不做限定。63.以服务端、第一训练端和第二训练端集成在同一个计算设备中为例,对本技术实施例提供的文档分类方法进行简单介绍。64.第一训练端通过样本文档训练特征提取模型,且能够通过特征提取模型输出样本文档的类别特征向量,然后将该样本文档的类别特征向量发送至第二训练端,然后第二训练端通过样本文档的类别特征向量训练分类模型。65.服务端对待处理文档分割得到多个文本,然后将多个文本发送至第一训练端,通过第一训练端的特征提取模型确定每个文本的类别特征,再将多个文本的类别特征发送至服务端,由服务端对多个文本的类别特征进行组合,得到待处理文档的类别特征向量,再将该待处理文档的类别特征向量发送至第二训练端,通过第二训练端的分类模型确定待处理文档的类别。66.本技术实施例提供的文档分类方法,先将待处理文档分割成比较短的文本,适用于长文档处理,并且先确定每个文本的类别特征,然后将多个文本的类别特征组合得到待处理文档的类别特征向量,则可以认为该类别特征向量融合了待处理文档全文的类别信息,即该类别特征向量不仅能够体现待处理文档中各部分内容的类别特征,还能够体现待处理文档中各部分内容之间的关联,因此将该类别特征向量输入分类模型进行分类,能够给分类模型提供更多的信息,使得分类模型的分类结果更加准确,即提高了文档分类的准确率。67.在本技术中,提供了一种文档分类方法。本技术同时涉及一种文档分类装置、一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。68.图2示出了根据本技术一实施例提供的一种文档分类方法的流程图,具体包括以下步骤:69.步骤202:对待处理文档进行分割,得到多个文本。70.其中,待处理文档是需要进行分类以确定类别的文档,或者说是需要进行识别以确定是否属于目标类别的文档。该目标类别是用户想要获取的文档所属的类别,例如该目标类别可以是合同、专利文件、简历等等。71.在一些实施例中,若待处理文档是长文档,即待处理文档包括的字符内容比较多,待处理文档的数据量比较大,则无法直接将待处理文档输入特征提取模型进行处理,因此,需要将待处理文档划分为包括字符内容较少的多个文本。72.作为一种示例,待处理文档可以是图片格式的文档,如待处理文档的格式是pdf(portabledocumentformat,可携带文档格式),或者待处理文档可以是doc、docx、txt等可编辑格式的文档,本技术实施例对待处理文档的格式不进行限定。73.在一些实施例,对待处理文档进行分割之前,可以先获取待处理文档的字符内容,然后按照分割策略对字符内容进行分割,可以得到多个文本。针对不同格式的待处理文档可以采用对应的字符识别方法识别字符内容并进行获取,如对于图片格式的文档,可以采用ocr(光学字符识别)技术识别待处理文档中的字符内容,本技术实施例对字符识别方法不进行限定。74.作为一种示例,分割策略可以包括按段分割、按句分割、按章节分割、按页分割等,本技术实施例对分割策略不做限定。并且,在实际使用时,由于按页分割可能会出现将一句完整的内容分在两个文本的情况,因此,可以将按页分割与其他分割方式结合使用,以确保分割得到的每个文本的内容都是完整。也即是,使用该分割策略对待处理文档进行分割,能够确保分割得到的每个文本的内容均是完整的。75.示例性地,在按页分割的情况下,可以通过判断每页的最后一个字符是否是结束符号,如句号、感叹号等,以确定如何对字符内容进行分割。例如,若当前页的最后一个字符是句号,则将当前页的字符内容确定为一个文本,若当前页的最后一个字符不是结束符号,则从当前页的下一页中查找结束符号,将下一页中第一个结束符号之前的字符内容划分到当前页中,即将当前页的字符内容和下一页中该第一个结束符号之前的字符内容确定为一个文本;或者将下一页中第一段的字符内容划分到当前页中,即将当前页的字符内容和下一页中第一段的字符内容确定为一个文本。76.在本技术实施例中,不是对整个待处理文档进行处理,而是将待处理文档划分为多个短文本,以便于模型处理,解决了长文档处理困难的问题。77.步骤204:将多个文本分别输入特征提取模型,确定每个文本的类别特征。78.其中,特征提取模型用于对输入的文本进行特征提取,类别特征用于表征文本的类别。79.在一些实施例中,特征提取模型可以包括输入层、嵌入层和输出层,输出层还进一步包括词级注意力层和全连接层。其中,输入层用于对文本进行分词处理,得到词单元;嵌入层用于对输入的词单元进行词嵌入处理,得到词单元的词嵌入向量;词级注意力层用于对同一个文本中词单元的词嵌入向量进行注意力计算,得到融合该文本上下文语义信息的特征向量;全连接层用于基于每个文本的特征向量或增强特征向量确定每个文本的类别特征,即确定每个文本所属的类别。80.作为一种示例,将待处理文档进行分割后的多个文本分别输入特征提取模型,针对任一文本,可以先通过输入层对该文本进行分词处理,得到该文本的多个词单元,然后将该文本的多个词单元输入嵌入层,得到每个词单元的词嵌入向量,然后将多个词单元的词嵌入向量输入词级注意力层,可以得到该文本中每个词单元的特征向量,该特征向量融合了该文本中词单元的语义信息,然后将该文本中多个词单元的特征向量进行拼接,能够得到该文本的特征向量。即经过词级注意力层之后,能够得到每个文本的特征向量,将每个文本的特征向量输入全连接层,可以确定每个文本的分类结果,该分类结果可以称为该文本的类别特征。81.在另一些实施例中,为了加强整个待处理文档中各部分文本之间的关联性,该特征提取模型的输出层还可以包括文本级注意力层,该文本级注意力层用于对多个文本的特征向量进行注意力计算,得到融合了待处理文档的上下文语义信息的增强特征向量。82.作为一种示例,将待处理文档进行分割后的多个文本分别输入特征提取模型,针对任一文本,可以先通过输入层对该文本进行分词处理,得到该文本的多个词单元,然后将该文本的多个词单元输入嵌入层,得到每个词单元的词嵌入向量,然后将多个词单元的词嵌入向量输入词级注意力层,得到每个文本融合自身各个词单元语义特征的特征向量后,可以将多个文本的特征向量输入文本级注意力层,能够得到每个文本融合了自身及其他文本语义信息的增强特征向量,将每个文本的增强特征向量输入全连接层进行处理,可以得到每个文本的类别特征。83.作为一种示例,特征提取模型可以包括bert模型,由于bert模型能够提取到文本融合全文语义信息后的特征向量,因此基于bert模型提取文本的类别特征能够得到更加准确的结果。84.作为另一种示例,特征提取模型还可以是bert模型的变形,如roberta、tinybert、albert、ernie(enhancedlanguagerepresentationwithinformativeentities,使用信息实体增强语言表示)等,这些模型的结构和训练方式有差异,针对不同任务效果不同,但都可以用来对文本进行特征提取。85.另外,本技术实施例使用的特征提取模型可以通过如下方式训练得到:86.获取样本文档集,该样本文档集中每个样本文档携带类别标签,标签1表示目标类别,标签2表示非目标类别。将每个文档分割成多个文本,将每个文本和该文本所属的文档的类别标签作为一条训练数据,然后对样本文档集中多个文档进行同样处理后得到多条训练数据,将多条训练数据输入特征提取模型进行训练,针对每条训练数据,特征提取模型可以预测一个分类结果,该分类结果用于表示特征提取模型预测的该条训练数据中文本的类别,将该类别转换为向量的形式,得到类别特征,且将该条训练数据中的类别标签转换为向量的形式,通过损失函数确定预测的类别和类别标签的损失值,若该损失值小于损失阈值,则停止训练,认为该特征提取模型已经训练完成,若该损失值大于或等于损失阈值,基于损失值对特征提取模型的参数进行调整并继续训练,直至损失值小于损失阈值。87.本技术实施例中,将多个文本分别输入特征提取模型,得到每个文本的类别特征,能够对文档中各部分的内容先进行初步的类别划分,且使用bert模型能够得到融合文本各部分语义信息的增强特征向量,提高了确定文本的类别特征的准确率。88.步骤206:对多个文本的类别特征进行组合,得到待处理文档的类别特征向量。89.在一些实施例中,对多个文本的类别特征进行组合,可以是对多个类别特征进行拼接,得到待处理文档的类别特征向量;也可以对多个类别特征进行注意力计算,得到每个文本的增强类别特征,将增强类别特征进行拼接,得到待处理文档的类别特征向量。90.作为一种示例,若每个文本的类别特征是一维向量,则类别特征向量的维度与文档分割得到的文本的数量相同,若每个文本的类别特征均是多维向量,可以先将多个类别特征调整至相同维度,然后将多个类别特征拼接得到类别特征向量。91.本技术实施例中,待处理文档的类别特征向量是根据文本的类别特征通过注意力计算或者拼接得到的,由于类别特征能够反映待处理文档中文本的类别信息,注意力计算或拼接还可以体现文档中文本之间的关联,因此该类别特征向量能够为后续文档分类提供更多的分类依据,进而提高文档分类的准确性。92.步骤208:将类别特征向量输入分类模型,确定待处理文档的类别。93.在一些实施例中,将待处理文档的类别特征向量输入训练完成的分类模型,通过构建决策树可以确定出该待处理文档的类别。94.作为一种示例,分类模型可以包括lightgbm模型,并且该分类模型的损失函数可以是对数损失函数。示例性地,该对数损失函数可以是二元对数损失函数,该二元对数损失函数用于对lightgbm模型的参数进行优化。95.作为一种示例,该分类模型的损失函数也可以是交叉熵损失。本技术实施例对分类模型的损失函数不进行限定。96.示例性地,分类模型可以包括多个决策树,将待处理文档的类别特征向量输入每个决策树,基于每个决策树可以确定一个预测概率,将该多个预测概率相加并进行归一化处理,可以得到该待处理文档对应的类别概率,基于该类别概率确定该待处理文档的类别。例如,在该分类模型中,概率越接近1,表示文档是合同的可能性越大,概率越接近0,表示文档是非合同的可能性越大。假设确定的待处理文档对应的类别概率是0.9,则可以确定该待处理文档是合同。97.本技术提供的文档分类方法,对待处理文档进行分割,得到多个文本;将所述多个文本分别输入特征提取模型,确定每个文本的类别特征;对所述多个文本的类别特征进行组合,得到所述待处理文档的类别特征向量;将所述类别特征向量输入分类模型,确定所述待处理文档的类别。上述方法先将待处理文档分割成比较短的文本,适用于长文档处理,并且先确定每个文本的类别特征,然后将多个文本的类别特征组合得到待处理文档的类别特征向量,则可以认为该类别特征向量融合了待处理文档全文的类别信息,即该类别特征向量不仅能够体现待处理文档中各部分内容的类别特征,还能够体现待处理文档中各部分内容之间的关联,因此将该类别特征向量输入分类模型进行分类,能够给分类模型提供更多的信息,使得分类模型的分类结果更加准确,即提高了文档分类的准确率。另外,上述方法避免复杂的人工构建词库和特征工程,且并不是根据文档中一部分文本确定文档的类别,解决了文本信息缺失的问题,进而减少了对分类准确性的影响。98.图3是本技术一实施例提供的一种分类模型的训练方法的流程图。具体包括以下步骤:99.步骤302:获取多个样本文档,其中,每个样本文档对应一个类别特征向量。100.步骤304:基于多个类别特征向量构建第一决策树,并基于第一决策树确定每个样本文档的预测概率。101.步骤306:基于每个样本文档的预测概率和多个类别特征向量构建第二决策树,并基于第二决策树确定每个样本文档的预测概率,以此类推,直到达到停止条件,将构建的多个决策树确定为分类模型。102.也就是说,分类模型可以认为是多个决策树组成的模型,且每个决策树可以认为是一个计算公式,多个计算公式结合作为分类模型的参数,用于对分类模型的输入进行分类。实际上,构建多个决策树是通过调整决策树的参数使得基于多个决策树确定的最终的预测类别与样本文档的类别标签无限接近甚至相同。103.作为一种示例,每个样本文档对应的类别特征向量是用于表示该样本文档类别的特征,该类别特征向量中每一维表示一个类别特征。104.另外,在构建决策树之前,可以设置待构建的决策树的预设数量,以及设置每个决策树的预设深度,该预设深度是决策树包括的层数。并且,预设数量和预设深度均可以由用户根据实际需求设置,也可以由设备默认设置,还可以根据实际情况调整,本技术实施例对此不做限定。105.作为一种示例,假设包括m个样本文档,且每个样本文档的类别特征向量是n维,每一维表示一种类别特征,并且对于每一维类别特征来说,其包括0和1两种取值,其中0表示不是合同,1表示是合同,每个样本文档的初始预测概率可以设置为0.5,表示每个样本文档是合同和非合同的概率相同。在构建第一决策树时,对于每个类别特征向量中的x1特征,可以得到以下几种划分方式:x1《2,x1《1,x1《0,通过损失函数,基于m个样本文档的初始预测概率确定每种划分方式的增益gain,同理,对于每个类别特征向量中的x2特征重复上述步骤,一直到所有的类别特征遍历完,从计算得到的所有增益中选择增益最大的划分方式作为分裂点,将m个样本文档按照增益最大的划分方式划分,然后重复上述步骤,直到达到预设深度。并且,在构建决策树过程中,若叶子节点只有一个样本文档,则可以计算该叶子节点的节点值。106.其中,x1《2,x1《1,x1《0仅是一种举例,表示类别特征向量中的x1特征可以按照这几种方式进行划分,且0、1、2可以表示不同的含义,可以根据用户需求设置或者由设备默认设置,并不对本技术实施例中x1特征的划分方式进行限定。107.实际上,可以根据特征的类型不同采用不同的划分方式对特征进行划分。例如,假设x1特征表示的是样本文档的格式,且样本文档的格式包括单栏、双栏和混合栏,则对x1特征的划分可以包括以下几种划分方式:x1是否小于2,若是,表示样本文档的格式是单栏,若否,表示样本文档的格式是非单栏,即按照样本文档的格式是否是单栏进行划分;x1是否小于1,若是,表示样本文档的格式是双栏,若否,表示样本文档的格式是非双栏,即按照样本文档的格式是否是双栏进行划分;x1是否小于0,若是,表示样本文档的格式是混合栏,若否,表示样本文档的格式是非混合栏,即按照样本文档的格式是否是混合栏进行划分。其中选取的0、1、2与样本文档的格式之间的关系可以根据实际需求设置,本技术实施例对此不做限定。108.以计算x1《1这种划分方式的增益为例,先确定按照x1《1划分之后,“x1《1”这一分支包括的样本文档集a,和“x1≥1”这一分支包括的样本文档集b,通过损失函数根据样本文档集a中样本文档的初始预测概率确定样本文档集a的损失值,且通过损失函数根据样本文档集b中样本文档的初始预测概率确定样本文档集b的损失值,且通过损失函数根据m个样本文档的初始预测概率确定m个样本文档的损失值,基于这三种损失值确定按照x1《1的方式划分时的增益。109.作为一种示例,构建完第一决策树后,每个样本文档都被划分至一个叶子节点,每个叶子结点对应有一个节点值,基于该叶子节点的节点值可以确定该叶子节点对应的样本文档的预测概率,然后基于每个样本文档的预测概率,按照上述构建第一决策树的方式构建第二决策树,并基于第二决策树确定每个样本文档的预测概率。以此类推,直至构建的决策树的数量大于或等于预设数量;或者,每个样本文档携带有类别标签,基于当前构建的决策树确定每个样本文档的预测概率,基于该预测概率确定的每个样本文档的预测类别与类别标签相同,则停止构建决策树,将当前构建的多个决策树确定为训练完成的分类模型。110.需要说明的是,本技术实施例中提到的分类模型均采用上述步骤302-步骤306的方式训练得到。111.本技术实施例通过样本文档的类别特征向量构建多个决策树,并根据决策树确定每个样本文档的预测概率,在根据预测概率和预测标签确定满足决策树构建停止条件时,停止构建决策树,将构建的所有决策树确定为分类模型,能够得到可以预测文档类别的分类模型,便于对待处理文档进行分类。112.图4示出了根据本技术一实施例提供的一种确定文本的类别特征的方法的流程图,具体包括以下步骤:113.步骤402:通过输入层,对每个文本进行分词处理,得到每个文本的词单元。114.本技术实施例中,特征提取模型包括输入层、嵌入层和输出层,输入层用于对输入进行分词处理。115.在一些实施例中,对文本进行分词处理的过程中,若文本是中文文本,可以将一个字划分为一个词单元,将一个短语划分为一个词单元,将一个标点符号划分为一个词单元;若文本是外文文本,可以将一个单词划分为一个词单元,或者,将一个短语划分为一个词单元,或者,将一个外文字符划分为一个词单元;若文本中有数字,可以将数字单独划分为一个词单元。116.在本技术实施例中,可以采用基于词典、基于词频度统计、基于规则等任意一种分词方法对每个文本进行分词处理。在一些实施例中,基于词典的分词方法可以包括正向最大匹配,逆向最大匹配,最少词切分法和双向匹配法。基于规则的分词方法可以包括基于hmm(hiddenmarkovmodel,隐马尔科夫模型)的分词方法。或者,在本技术实施例中,若文本是中文文本,还可以将每个字划分为一个词单元。117.以正向最大匹配的分词方法为例,对于任一文本,按照文本的阅读顺序正向获取该文本的m个字符作为匹配字段,将该匹配字段与词典中的词进行匹配,若词典中存在与该匹配字段相同的词,则认为匹配成功,将该匹配字段作为一个词单元切分出来。若词典中不存在与该匹配字段相同的词,则认为匹配失败,将该匹配字段的最后一个字符去掉,剩下的字符作为新的匹配字段,进而再次匹配,直到剩余字符串的长度为零,可以认为完成了一轮匹配,然后从文本中取出下一组m个字符作为匹配字段进行匹配处理,直到该文本中所有字符均被切分完为止。118.其中,m可以是词典中最长的词包含字符的数量,也可以根据经验预设的,本技术实施例对此不作限定。119.以逆向最大匹配的分词方法为例,对于任一文本,按照文本的阅读顺序逆向获取该文本的m个字符作为匹配字段,将该匹配字段与逆序词典中的词进行匹配,若逆序词典中存在与该匹配字段相同的词,则匹配成功,将该匹配字段作为一个词单元切分出来。若逆序词典中不存在与该匹配字段相同的词,则认为匹配失败,去掉匹配字段最前面的一个字符,将剩下的字符作为新的匹配字段,继续匹配,直到剩余字符的长度为零,可以认为完成了一轮匹配,然后从文本中取出下一组m个字符作为匹配字段进行匹配处理,直到该文本中所有字符均被切分完为止。其中,逆序词典中每个词按照逆序方式存放。120.作为一种示例,可以先将文本进行倒排处理,生成逆序文本,然后根据逆序词典对逆序文本用正向最大匹配的分词法处理,也可以实现分词效果。121.例如,以匹配字段是“履行义务”为例,通过上述分词方法,可以得到词单元“履行”、“义务”。122.本技术实施例中,通过对文本进行分词处理,能够得到便于特征提取模型处理的词单元,以便于特征提取模型进行后续处理。123.步骤404:通过嵌入层,对每个文本的词单元分别进行词嵌入处理,得到每个文本中词单元的词嵌入向量。124.在一些实施例中,可以通过特征提取模型的嵌入层对词单元进行词嵌入处理,即将多个文本的词单元输入词嵌入层,得到每个文本中词单元的词嵌入向量。125.作为一种示例,可以对每个文本的词单元进行随机初始化处理,得到每个词单元的词嵌入向量;或者,可以通过one-hot(独热)编码的方式对每个文本的词单元进行词嵌入处理,得到每个词单元的词嵌入向量;或者,可以通过word2vec编码的方式对每个文本的词单元进行词嵌入处理,得到每个词单元的词嵌入向量。126.步骤406:针对任一文本,通过输出层,基于该文本中词单元的词嵌入向量,确定该文本的类别特征。127.在本技术实施例中,确定每个文本中词单元的词嵌入向量后,可以将同一个文本中多个词单元的词嵌入向量进行组合,得到该文本的词嵌入向量,基于该文本的词嵌入向量可以确定该文本的类别特征。128.在一些实施例中,针对任一文本,可以按照多个词单元在该文本中的顺序对多个词嵌入向量进行拼接,得到该文本的词嵌入向量;或者,可以将多个词单元的词嵌入向量相加,得到该文本的词嵌入向量。129.例如,以文本是“双方必须按照合约履行义务”为例,通过上述两个步骤分别确定了词单元“双方”、“必须”、“按照”、“合约”、“履行”、“义务”的词嵌入向量,假设“双方”的词嵌入向量是001,“必须”的词嵌入向量是000,“按照”的词嵌入向量是001,“合约”的词嵌入向量是010,“履行”的词嵌入向量是100,“义务”的词嵌入向量是110,可以按照该多个词单元在文本中的顺序对该多个词嵌入向量进行拼接,得到该文本的词嵌入向量。按照拼接方式不同,可以得到两种文本的词嵌入向量,一种是001000001010100110,另一种是6×3的矩阵130.在一些实施例中,该输出层可以包括全连接层,该全连接层可以称为fullyconnectedlayer,且该全连接层中包括激活函数。示例性地,该激活函数可以是sigmoid函数。该sigmoid函数可以对输入进行归一化处理,以将输入的变量映射到0,1之间。131.作为一种示例,对于任一文本,可以将该文本的词嵌入向量输入全连接层,通过全连接层的参数对词嵌入向量进行转换,得到该文本与每种类别的相关性分值,再通过激活函数对相关性分值进行处理,可以确定该文本属于每种类别的概率,将最大概率对应的类别确定为该文本所属的类别,将该类别转换为向量表示得到该文本的类别特征。132.示例性地,假设文本的类别包括合同和非合同两种,合同用1表示,非合同用0表示,则该文本的类别特征可以是一维向量0或1;或者,该文本的类别特征可以是n(n≥2)维向量,若该文本是合同,其类别特征可以是00.......01,其中包括n-1个0,若该文本是非合同,其类别特征可以是00......00,其中包括n个0。133.例如,假设文本的类别包括合同和非合同两种,合同用1表示,非合同用2表示,则该文本的类别特征可以是1或2。134.需要说明的是,在本技术实施例中,对于每个文本执行的操作相同,为了便于描述,仅以任一文本为例对确定文本的类别特征的过程进行描述。135.需要说明的是,步骤402-步骤406是上述步骤204的一种具体实现方式。136.本技术实施例中,通过特征提取模型对文本中的词单元进行词嵌入处理,且根据词单元的词嵌入向量确定文本的词嵌入向量,能够得到可以准确反映文本的语义特征的词嵌入向量,用更加准确的词嵌入向量确定文本的类别,可以提高模型确定文本类别的准确率。137.图5示出了根据本技术一实施例提供的另一种确定文本的类别特征的方法的流程图,具体包括以下步骤:138.步骤502:针对任一文本,通过词级注意力层,将该文本的第一词单元的词嵌入向量与该文本中每个词单元的词嵌入向量进行注意力计算,确定该文本的特征向量。139.其中,第一词单元是该文本中的任一词单元。特征提取模型的输出层包括词级注意力层和全连接层。140.在本技术实施例中,词单元的词嵌入向量是仅针对单个词单元的,单纯的向量拼接虽然可以得到表征文本语义的特征向量,但得到的该特征向量忽略了文本中词单元之间的联系,因此,可以通过词级注意力层对多个词嵌入向量进行进一步处理,得到考虑了文本中词单元之间关联关系的特征向量作为文本的特征向量。141.在一些实施例中,将文本中多个词单元的词嵌入向量输入词级注意力层,将每个第一词单元的词嵌入向量与该文本中包括第一词单元的每个词单元的词嵌入向量进行注意力计算,可以得到注意力矩阵,该注意力矩阵中的元素是第一词单元与文本中词单元的相关性取值。然后基于注意力矩阵确定每个词单元对应的多个权重值,根据每个词单元对应的多个权重值与每个词单元的词嵌入向量,确定该文本的特征向量。142.作为一种示例,对第一词单元和该文本中每个词单元进行注意力计算可以是确定第一词单元和该文本中每个词单元之间的相似度。143.示例性地,假设文本包括4个词单元甲、乙、丙、丁,则可以将词单元甲的词嵌入向量和自身(即词单元甲的词嵌入向量)进行注意力计算,得到a11,将词单元甲的词嵌入向量和词单元乙的词嵌入向量进行注意力计算,得到词单元甲和词单元乙的相关性取值a12作为注意力矩阵第一行第二列的元素,将词单元甲的词嵌入向量和词单元丙的词嵌入向量进行注意力计算,得到词单元甲和词单元丙的相关性取值a13作为注意力矩阵第一行第三列的元素,将词单元甲的词嵌入向量和词单元丁的词嵌入向量进行注意力计算,得到词单元甲和词单元丁的相关性取值a14作为注意力矩阵第一行第四列的元素,以此类推,对其他词单元进行相同处理,可以得到注意力矩阵。例如,假设注意力矩阵是144.其中,该注意力矩阵的行数和列数相同,且均等于该文本中词单元的数量。并且,该注意力矩阵中第i行第j列的元素aij表示的是文本中第i个词单元和第j个词单元之间的相关性取值,其中,i与j均是大于0的整数。145.作为一种示例,基于注意力矩阵确定每个词单元对应的多个权重值的具体实现可以包括:146.按行对注意力矩阵中的相关性取值进行归一化处理,得到归一化相关性取值,则第i行第j列的相关性取值是第i个词单元相对于第j个词单元的权重值,可以得到该文本中每个词单元对应的多个权重值;147.或者,按列对注意力矩阵中的相关性取值进行归一化处理,得到归一化相关性取值,则第i列第j行的相关性取值是第i个词单元相对于第j个词单元的权重值,可以得到该文本中每个词单元对应的多个权重值。148.继续上述举例,按行对上述注意力矩阵中的相关性取值进行归一化处理。例如,假设对第一行的相关性取值进行归一化处理后,可以得到a11,a12,a13和a14,则可以确定a11是词单元“甲”相对于自身的权重值,a12是词单元“甲”相对于词单元“乙”的权重值,a13是词单元“甲”相对于词单元“丙”的权重值,a14是词单元“甲”相对于词单元“丁”的权重值,以此类推,可以确定文本中每个词单元相对于自身及其他词单元的权重值,即每个词单元对应的多个权重值。149.同理,按列进行归一化处理,也可以得到每个词单元对应的多个权重值。150.作为一种示例,根据每个词单元对应的多个权重值与每个词单元的词嵌入向量,确定该文本的特征向量的具体实现可以包括:根据每个词单元对应的多个权重值与每个词单元的词嵌入向量,确定每个词单元的特征向量;基于每个词单元的特征向量和预设权重矩阵,确定文本的特征向量。151.其中,预设权重矩阵是词级注意力层中已有的通用矩阵,通过对特征提取模型进行训练可以确定。152.在一种实现方式中,可以基于多个词单元的词嵌入向量组成词嵌入向量矩阵;基于每个词单元对应的多个权重值组成该词单元对应的第一权重矩阵,基于词嵌入向量矩阵和每个词单元对应的第一权重矩阵确定该词单元的特征向量。153.继续上述举例,针对词单元甲、乙、丙、丁,每个词单元对应4个权重值,且每个权重值与该4个词单元中的一个词单元对应,即在该4个权重值中,有1个权重值与该词单元自身对应,其他3个权重值与除该词单元之外的其余词单元对应。例如,词单元“甲”对应4个权重值,分别是权重值a11、权重值a12、权重值a13和权重值a14,且权重值a11与词单元“甲”对应,权重值a12与词单元“乙”对应,权重值a13与词单元“丙”对应,权重值a14与词单元“丁”对应。假设文本中每个词单元的词嵌入向量是m维向量,则基于该4个词单元的词嵌入向量可以得到4×m的词嵌入向量矩阵。针对词单元“甲”,其对应的4个权重值可以组成一个4×1的第一权重矩阵,可以将该4×1的第一权重矩阵的转置与该4×m的词嵌入向量矩阵相乘,则可以得到一个1×m的矩阵,该1×m的矩阵是词单元“甲”的特征向量。同理,可以分别确定词单元“乙”、“丙”、“丁”的特征向量。154.在另一种实现方式中,针对第一词单元,可以将该第一词单元对应的每个权重值与该权重值对应的词单元的词嵌入向量进行加权融合,得到该第一词单元的特征向量。155.继续上述举例,针对词单元甲、乙、丙、丁,每个词单元对应有4个权重值,且每个权重值与该4个词单元中的一个词单元对应,即在该4个权重值中,有1个权重值与该词单元自身对应,其他3个权重值与除该词单元之外的其余词单元对应。针对词单元“甲”,其对应4个权重值分别为a11,a12,a13和a14,可以将a11与“甲”的词嵌入向量相乘,将a12与“乙”的词嵌入向量相乘,将a13与“丙”的词嵌入向量相乘,将a14与“丁”的词嵌入向量相乘,将4个乘积相加作为词单元“甲”的特征向量,如此可以分别确定词单元“乙”、“丙”、“丁”的特征向量。156.示例性地,确定每个词单元的特征向量后,基于多个词单元的特征向量组成特征向量矩阵,基于特征向量矩阵和预设权重矩阵,确定文本的特征向量。157.继续上述举例,假设确定了4个词单元的特征向量,将该4个词单元的特征向量组成4×m的特征向量矩阵,将4×1的预设权重矩阵的转置与该4×m的特征向量矩阵相乘,则可以得到1×m的矩阵,则该矩阵是文本的特征向量,融合了该文本中所有词单元的语义特征。158.步骤504:通过全连接层,基于该文本的特征向量确定该文本的类别特征。159.在一些实施例中,可以将文本的特征向量输入全连接层,该全连接层可以称为fullyconnectedlayer,且该全连接层中包括激活函数。示例性地,该激活函数可以是sigmoid函数。该sigmoid函数可以对输入进行归一化处理,以将输入的变量映射到0,1之间。160.作为一种示例,对于任一文本,将该文本的特征向量输入全连接层,通过全连接层的参数对特征向量进行转换,得到该文本与每种类别的相关性分值,再通过激活函数对相关性分值进行处理,可以确定该文本属于每种类别的概率,将最大概率对应的类别确定为该文本所属的类别,将该类别转换为向量表示得到该文本的类别特征。161.需要说明的是,步骤502-步骤504是上述步骤406的一种具体实现方式。162.本技术实施例中,通过词级注意力层对文本中第一词单元与该文本中每个词单元进行注意力计算,考虑到了文本中词单元之间的关系,能够得到可以准确反映文本的上下文语义关系以及文本中词单元语义的特征向量,用更加准确的特征向量表征文本,进而确定文本的类别,可以提高模型确定文本类别的准确率。163.图6示出了根据本技术一实施例提供的又一种确定文本的类别特征的方法的流程图,具体包括以下步骤:164.步骤602:通过文本级注意力层,将该文本的特征向量与多个文本中每个文本的特征向量进行注意力计算,确定该文本的增强特征向量。165.在本技术实施例中,特征提取模型的输出层还包括文本级注意力层。166.在本技术实施例中,文本的特征向量是仅针对单个文本的,单纯的拼接虽然可以得到表征文档语义的特征向量,但得到的该特征向量忽略了文档中文本之间的联系,因此,可以通过文本级注意力层对多个特征向量进行进一步处理,得到考虑了文档中文本之间关联关系的特征向量作为文本的增强特征向量。167.在一些实施例中,将多个文本的特征向量输入文本级注意力层,将每个文本的特征向量与多个文本中包括该文本自身的每个文本的特征向量进行注意力计算,可以得到注意力矩阵,该注意力矩阵中的元素是该文本与多个文本中每个文本的相关性取值。然后基于注意力矩阵确定每个文本对应的多个权重值,根据每个文本对应的多个权重值与每个文本的特征向量,确定每个文本的增强特征向量。168.作为一种示例,对该文本和多个文本中包括该文本的每个文本进行注意力计算可以是确定该文本和多个文本中每个文本之间的相似度。169.示例性地,假设待处理文档被分割成了4个文本x、y、z和w,则可以将文本x的特征向量和自身(即文本x的特征向量)进行注意力计算,得到b11,文本x的特征向量和文本y的特征向量进行注意力计算,得到文本x和文本y的相关性取值b12作为注意力矩阵第一行第二列的元素,将文本x的特征向量和文本z的特征向量进行注意力计算,得到文本x和文本z的相关性取值b13作为注意力矩阵第一行第三列的元素,将文本x的特征向量和文本w的特征向量进行注意力计算,得到文本x和文本w的相关性取值b14作为注意力矩阵第一行第四列的元素,以此类推,对其他文本进行相同处理,可以得到注意力矩阵。例如,假设注意力矩阵是170.其中,该注意力矩阵的行数和列数相同,且均等于待处理文档分割得到的文本的数量。并且,该注意力矩阵中第i行第j列的元素bij表示的是文档中第i个文本和第j个文本之间的相关性取值,其中,i与j均是大于0的整数。171.作为一种示例,基于注意力矩阵确定每个文本对应的多个权重值的具体实现可以包括:172.按行对注意力矩阵中的相关性取值进行归一化处理,得到归一化相关性取值,则第i行第j列的相关性取值是第i个文本相对于第j个文本的权重值,可以得到每个文本对应的多个权重值;173.或者,按列对注意力矩阵中的相关性取值进行归一化处理,得到归一化相关性取值,则第i列第j行的相关性取值是第i个文本相对于第j个文本的权重值,可以得到每个文本对应的多个权重值。174.继续上述举例,按行对上述注意力矩阵中的相关性取值进行归一化处理。例如,假设对第一行的相关性取值进行归一化处理后,可以得到b11,b12,b13和b14,则可以确定b11是文本x相对于自身的权重值,b12是文本x相对于文本y的权重值,b13是文本x相对于文本z的权重值,b14是文本x相对于文本w的权重值,以此类推,可以确定每个文本对应的多个权重值。175.在一种实现方式中,根据每个文本对应的多个权重值与每个文本的特征向量,确定每个文本的增强特征向量的具体实现可以包括:基于多个文本的特征向量组成特征向量矩阵;基于每个文本对应的多个权重值组成该文本对应的第二权重矩阵,基于特征向量矩阵和每个文本对应的第二权重矩阵确定该文本的增强特征向量。176.继续上述举例,针对文本x、y、z、w,每个文本对应有4个权重值,且每个权重值与该4个文本的一个文本对应,即在该4个权重值中,有1个权重值与该文本自身对应,其他3个权重值与除该文本之外的其余文本对应。例如,文本x对应有4个权重值,分别是权重值b11、权重值b12、权重值b13和权重值b14,且权重值b11与文本x对应,权重值b12与文本y对应,权重值b13与文本z对应,权重值b14与文本w对应。假设每个文本的特征向量是m维向量,则基于该4个文本的特征向量可以得到一个4×m的特征向量矩阵。针对文本x,其对应的4个权重值可以组成一个4×1的第二权重矩阵,可以将该4×1的第二权重矩阵的转置与该4×m的特征向量矩阵相乘,则可以得到一个1×m的矩阵,该1×m的矩阵是文本x的增强特征向量。同理,可以分别确定文本y、文本z、文本w的增强特征向量。177.在另一种实现方式中,根据每个文本对应的多个权重值与每个文本的特征向量,确定每个文本的增强特征向量的具体实现可以包括:针对第一文本,将该第一文本对应的每个权重值与该权重值对应的文本的特征向量进行加权融合,得到该第一文本的增强特征向量。178.继续上述举例,针对文本x、y、z、w,每个文本对应有4个权重值,且每个权重值与该4个文本的一个文本对应,即在该4个权重值中,有1个权重值与该文本自身对应,其他3个权重值与除该文本之外的其余文本对应。针对文本x,其对应的4个权重值分别为b11,b12,b13和b14,可以将b11与文本x的特征向量相乘,将b12与文本y的特征向量相乘,将b13与文本z的特征向量相乘,将b14与文本w的特征向量相乘,将4个乘积相加作为文本x的增强特征向量。如此可以分别确定文本y、文本z、文本w的增强特征向量。179.步骤604:通过全连接层,基于该文本的增强特征向量确定该文本的类别特征。180.在一些实施例中,可以将文本的增强特征向量输入全连接层,该全连接层中包括激活函数。作为一种示例,对于任一文本,将该文本的增强特征向量输入全连接层,通过全连接层的参数对增强特征向量进行转换,得到该文本与每种类别的相关性分值,再通过激活函数对相关性分值进行处理,可以确定该文本属于每种类别的概率,将最大概率对应的类别确定为该文本所属的类别,将该类别转换为向量表示得到该文本的类别特征。181.需要说明的是,步骤602-步骤604是上述步骤504的一种具体实现方式。182.本技术实施例中,在确定文本的能够准确反映文本的上下文语义关系以及文本中词单元语义的特征向量后,可以通过文本级注意力层对文本的特征向量进行处理,得到每个文本融合了自身及其他文本特征后的增强特征向量,该增强特征向量考虑了文本之间的关联关系,则不仅能够准确地表征文本,还能够表征文本之间的关联关系,基于该增强特征向量确定文本的类别,能够让文本类别的确定考虑到整个文档内容的关联关系,因此可以提高确定文本类别的准确率。183.图7示出了根据本技术一实施例提供的一种确定待处理文档的类别特征向量的方法的流程图,具体包括以下步骤:184.步骤702:按照多个文本在待处理文档中的先后顺序,对多个文本的类别特征进行拼接,得到待处理文档的类别特征向量。185.在一种可能的实现方式中,对待处理文档进行分割得到的多个文本在待处理文档中必然存在先后顺序,为了使得得到的类别特征向量能够更加准确地表征待处理文档,可以按照多个文本在待处理文档中的先后顺序,对多个文本的类别特征进行拼接,得到待处理文档的类别特征向量。186.作为一种示例,可以通过增加特征维度的方式对类别特征进行拼接。示例性地,假设待处理文档分割得到3个文本,文本1的类别特征是00,文本2的类别特征是01,文本3的类别特征是01,则可以拼接得到待处理文档的类别特征向量是000101。或者,假设文本1的类别特征是1,文本2的类别特征是2,文本3的类别特征是1,则可以拼接得到待处理文档的类别特征向量是121。187.作为另一种示例,可以按照矩阵的形式对类别特征进行拼接。示例性地,假设待处理文档分割得到3个文本,文本1的类别特征是00,文本2的类别特征是01,文本3的类别特征是01,则可以拼接得到待处理文档的类别特征向量是188.需要说明的是,上述仅是将类别特征拼接得到待处理文档的类别特征向量的示例,在实际应用中,可以设置类别特征向量的标准维度,在拼接得到的类别特征向量的维度不足标准维度时,用0补充以使得类别特征向量的维度达到标准维度。例如,假设设置的类别特征向量的维度是20,合同类的文本的类别特征用1表示,非合同类的文本的类别特征用2表示,假设待处理文档划分得到18个文本,且该18个文本的类别特征按照顺序分别是111111111122222111,则拼接得到该待处理文档的类别特征向量是11111111112222211100。189.在另一种可能的实现方式中,可以将每个文本的类别特征与自身的类别特征以及除自身之外的其他文本的类别特征进行注意力计算,可以得到注意力矩阵,该注意力矩阵中的元素是该文本与自身及其他文本的相关性取值。然后基于注意力矩阵确定每个文本对应的多个权重值,根据每个文本对应的多个权重值与每个文本的类别特征,确定待处理文档的类别特征向量。190.示例性地,假设待处理文档被分割成了4个文本x、y、z和w,则可以将文本x的类别特征和自身(即文本x的类别特征)进行注意力计算,得到c11,文本x的类别特征和文本y的类别特征进行注意力计算,得到文本x和文本y的相关性取值c12作为注意力矩阵第一行第二列的元素,将文本x的类别特征和文本z的类别特征进行注意力计算,得到文本x和文本z的相关性取值c13作为注意力矩阵第一行第三列的元素,将文本x的类别特征和文本w的类别特征进行注意力计算,得到文本x和文本w的相关性取值c14作为注意力矩阵第一行第四列的元素,以此类推,对其他文本进行相同处理,可以得到注意力矩阵。例如,假设注意力矩阵是191.其中,该注意力矩阵的行数和列数相同,且均等于待处理文档分割得到的文本的数量。并且,该注意力矩阵中第i行第j列的元素cij表示的是文档中第i个文本和第j个文本之间的相关性取值,其中,i与j均是大于0的正整数。192.作为一种示例,基于注意力矩阵确定每个文本对应的多个权重值的具体实现可以包括:193.按行对注意力矩阵中的相关性取值进行归一化处理,得到归一化相关性取值,则第i行第j列的相关性取值是第i个文本相对于第j个文本的权重值,可以得到每个文本对应的多个权重值;194.或者,按列对注意力矩阵中的相关性取值进行归一化处理,得到归一化相关性取值,则第i列第j行的相关性取值是第i个文本相对于第j个文本的权重值,可以得到每个文本对应的多个权重值。195.继续上述举例,按行对上述注意力矩阵中的相关性取值进行归一化处理。例如,假设对第一行的相关性取值进行归一化处理后,可以得到c11,c12,c13和c14,则可以确定c11是文本x相对于自身的权重值,c12是文本x相对于文本y的权重值,c13是文本x相对于文本z的权重值,c14是文本x相对于文本w的权重值,以此类推,可以确定每个文本相对于自身以及其他文本的权重值,即每个文本对应的多个权重值。196.同理,按列进行归一化处理,也可以得到每个文本对应的多个权重值。197.作为一种示例,根据每个文本对应的多个权重值与每个文本的类别特征,确定待处理文档的类别特征向量的具体实现可以包括:根据每个文本对应的多个权重值与每个文本的类别特征,确定每个文本的增强类别特征;基于每个文本的增强特征向量和预设权重矩阵,确定待处理文档的类别特征向量。198.在一种实现方式中,可以基于多个文本的类别特征组成类别特征矩阵;基于每个文本对应的多个权重值组成该文本对应的第三权重矩阵,基于类别特征矩阵和每个文本对应的第三权重矩阵确定该文本的增强类别特征。199.继续上述举例,针对文本a、b、c、d,每个文本对应4个权重值,且每个权重值与除该文本之外的一个文本对应,假设每个文本的类别特征是m维向量,则基于该4个文本的类别特征可以得到4×m的类别特征矩阵。针对文本a,其对应的4个权重值可以组成一个4×1的第三权重矩阵,可以将该4×1的第三权重矩阵的转置与该4×m的类别特征矩阵相乘,则可以得到一个1×m的矩阵,该1×m的矩阵是文本a的类别特征向量。同理,可以分别确定文本b、文本c和文本d的增强类别特征。200.在另一种实现方式中,针对第一文本,将该第一文本对应的每个权重值与该权重值对应的文本的类别特征进行加权融合,得到该第一文本的增强类别特征。201.继续上述举例,针对文本x、y、z、w,每个文本对应有4个权重值,且每个权重值与该4个文本的一个文本对应,即在该4个权重值中,有1个权重值与该文本自身对应,其他3个权重值与除该文本之外的其余文本对应。例如,文本x对应有4个权重值,分别是权重值c11、权重值c12、权重值c13和权重值c14,且权重值c11与文本x对应,权重值c12与文本y对应,权重值c13与文本z对应,权重值c14与文本w对应。针对文本x,其对应的4个权重值分别为c11,c12,c13和c14,可以将c11与文本x的类别特征相乘,将c12与文本y的类别特征相乘,将c13与文本z的类别特征相乘,将c14与文本w的类别特征相乘,将4个乘积相加作为文本x的增强类别特征。如此可以分别确定文本y、文本z、文本w的增强类别特征。202.示例性地,确定每个文本的增强类别特征后,基于多个文本的增强类别特征组成增强类别特征矩阵,基于增强类别特征矩阵和预设权重矩阵,确定待处理文档的类别特征向量。203.继续上述举例,假设确定了4个文本的增强类别特征,将该4个文本的增强类别特征组成4×m的增强类别特征矩阵,将4×1的预设权重矩阵的转置与该4×m的增强类别特征矩阵相乘,可以得到1×m的矩阵,则该矩阵是待处理文档的类别特征向量,融合了待处理文档中所有文本的类别特征。204.需要说明的是,步骤702是步骤206的一种具体实现方式。205.步骤704:将类别特征向量输入分类模型,确定待处理文档的类别。206.需要说明的是,步骤704的具体实现可以参见步骤208的相关描述,本实施例在此不再赘述。207.本技术实施例中,按照多个文本在待处理文档中的先后顺序,对多个文本的类别特征进行拼接,能够得到符合待处理文档的行文逻辑,能够表征待处理文档中文本之间关联关系的类别特征向量,则基于该类别特征确定待处理文档的类别,不仅能够考虑到待处理文档的整体语义,还能够考虑到待处理文档上下文的关系,确定的类别会更加准确。208.图8示出了根据本技术一实施例提供的一种分割待处理文档的方法的流程图,具体包括以下步骤:209.步骤802:基于字符识别算法对待处理文档的内容进行识别,获取待处理文档的字符内容。210.其中,字符识别算法用于识别文档中的字符内容。例如,该字符识别算法可以是ocr算法或者pdf解析工具。211.在一些实施例中,可以通过pdf解析工具对待处理文档进行解析;或者,可以通过ocr算法对待处理文档进行字符识别;或者,可以将pdf解析工具和ocr算法融合起来对待处理文档进行字符识别,通过这几种方式均能够确定待处理文档的字符内容。212.作为一种示例,虽然基于ocr算法的字符识别整体效果比较好,但ocr算法可能存在特殊字符识别错误或者将一些符号错误识别为字等类似的问题。而pdf解析工具虽然识别字符比较准确,但是单独使用无法还原待处理文档的版式信息。因此,可以将这两种方式融合使用,即可解决ocr算法对特殊字符识别错误的问题,又可解决pdf解析工具无法还原待处理版式信息的问题,提升了字符内容识别的效果。213.步骤804:按照预设分割策略,对字符内容进行分割,得到多个文本。214.其中,预设分割策略可以是人工按照经验设置的用于将字符内容划分为多个文本的策略。215.在一些实施例中,预设分割策略可以是按照待处理文档的章节对待处理文档进行分割;或者,预设分割策略可以是按照待处理文档的段落对待处理文档进行分割;或者,预设分割策略可以是按照特定字符数量对字符内容进行划分,且在划分时需要保证文本内容的完整性;或者,可以将按照章节、按照段落和按照特定字符数量这三种方式相结合待处理文档进行分割。216.作为一种示例,可以按照章节编号,将第一章划分为一个文本,第二章划分为一个文本,以此类推;或者,可以按照段落,将第一段划分为一个文本,第二段划分为一个文本,以此类推;或者,先按照章节划分得到h个文本,再在每个文本中按照段落进行划分;或者,先按照段落划分得到k个文本,再在每个文本中按照特定字符数量进行划分;或者,先按照章节划分得到s个文本,再在每个文本中按照段落划分得到子文本,再在每个子文本中按照特定字符数量进行划分。217.需要说明的是,步骤802-步骤804是步骤202的一种具体实现方式。218.本技术实施例中,在对待处理文档进行分类之前,先通过ocr算法和pdf解析工具对待处理文档进行字符识别,得到待处理文档的字符内容,然后将待处理文档的字符内容按照预设分割策略进行分割,得到多个文本,解决了长文档无法直接输入模型进行分类处理的问题。219.下述结合附图9,以本技术提供的文档分类方法在合同文档识别问题上的应用为例,对所述文档分类方法进行进一步说明。其中,图9示出了本技术一实施例提供的一种应用于合同文档识别的文档分类方法的处理流程图,具体包括以下步骤:220.步骤902:基于字符识别算法对待处理文档的内容进行识别,获取待处理文档的字符内容。221.其中,该字符识别算法用于识别文档中的字符内容。222.以待处理文档是pdf文档为例,可以先通过ocr算法和pdf解析工具结合的方法对待处理文档的内容进行识别,即提取出待处理文档中的字符内容。223.步骤904:按照预设分割策略,对字符内容进行分割,得到多个文本。224.继续上述举例,可以按照bert模型能够处理的最大文本长度分割,且要保证句子的完整性。例如,最大长度是510,则可以将每510个字符划分为一个文本,但若到达第510个字符时是半句话,则从不足510个字符的该句话的结尾处分割。225.例如,参见图10,图10是本技术一实施例提供的一种文档分类方法的处理过程示意图。在图10中,输入bert模型的是n个文本。226.步骤906:将多个文本分别输入特征提取模型,对每个文本进行分词处理,得到每个文本的词单元。227.例如,特征提取模型可以是bert模型。228.步骤908:对每个文本的词单元分别进行词嵌入处理,得到每个文本中词单元的词嵌入向量。229.步骤910:针对任一文本,通过特征提取模型的词级注意力层,将该文本的第一词单元的词嵌入向量与该文本中每个词单元的词嵌入向量进行注意力计算,确定该文本的特征向量。230.步骤912:将该文本的特征向量与多个文本中每个文本的特征向量进行注意力计算,确定该文本的增强特征向量。231.步骤914:将该文本的增强特征向量输入特征提取模型的全连接层,确定该文本的类别特征。232.步骤916:按照多个文本在待处理文档中的先后顺序,对多个文本的类别特征进行拼接,得到待处理文档的类别特征向量。233.例如,参见图10,通过bert模型进行处理后,能够得到n个类别特征,将该n个类别特征按顺序拼接,可以得到待处理文档的类别特征向量。234.步骤918:将待处理文档的类别特征向量输入分类模型,确定待处理文档的类别。235.例如,分类模型可以是lightgbm,参见图10,将类别特征向量输入该lightgbm模型,可以得到该待处理文档是合同的概率和非合同的概率,若是合同的概率大于非合同的概率,则确定该待处理文档的类别是合同,若是合同的概率小于非合同的概率,则确定该待处理文档的类别不是合同,若是合同的概率和非合同的概率相同,则需要重新确定该待处理文档的类别。236.本技术提供的文档分类方法,对待处理文档进行分割,得到多个文本;将多个文本分别输入特征提取模型,确定每个文本的类别特征;对多个文本的类别特征进行组合,得到待处理文档的类别特征向量;将类别特征向量输入分类模型,可以确定该待处理文档是否是合同。上述方法先将待处理文档分割成比较短的文本,适用于长文档处理,并且先确定每个文本的类别特征,然后将多个文本的类别特征组合得到待处理文档的类别特征向量,则可以认为该类别特征向量融合了待处理文档全文的类别信息,即该类别特征向量不仅能够体现待处理文档中各部分内容的类别特征,还能够体现待处理文档中各部分内容之间的关联,因此将该类别特征向量输入分类模型进行分类,能够给分类模型提供更多的信息,使得分类模型的分类结果更加准确,即提高了识别合同文档的准确率。另外,提高了识别准确率,进而会提高用户的使用体验,用户对该方法的使用频率就会提高,进而会提高合同审核等后续任务的转化率。237.与上述方法实施例相对应,本技术还提供了文档分类装置实施例,图11示出了本技术一实施例提供的一种文档分类装置的结构示意图。如图11所示,该装置包括:238.分割模块1102,被配置为对待处理文档进行分割,得到多个文本;239.第一确定模块1104,被配置为将所述多个文本分别输入特征提取模型,确定每个文本的类别特征;240.组合模块1106,被配置为对所述多个文本的类别特征进行组合,得到所述待处理文档的类别特征向量;241.第二确定模块1108,被配置为将所述类别特征向量输入分类模型,确定所述待处理文档的类别。242.在本技术一种可能的实现方式中,所述特征提取模型包括输入层、嵌入层和输出层,第一确定模块1104进一步被配置为:243.通过所述输入层,对所述每个文本进行分词处理,得到每个文本的词单元;244.通过所述嵌入层,对每个文本的词单元分别进行词嵌入处理,得到每个文本中词单元的词嵌入向量;245.针对任一文本,基于该文本中词单元的词嵌入向量,确定该文本的类别特征。246.在本技术一种可能的实现方式中,所述输出层包括词级注意力层和全连接层,第一确定模块1104进一步被配置为:247.针对任一文本,通过所述词级注意力层,将该文本的第一词单元的词嵌入向量与该文本中每个词单元的词嵌入向量进行注意力计算,确定该文本的特征向量,其中,所述第一词单元是该文本中的任一词单元;248.通过所述全连接层,基于该文本的特征向量确定该文本的类别特征。249.在本技术一种可能的实现方式中,所述输出层还包括文本级注意力层,第一确定模块1104进一步被配置为:250.通过所述文本级注意力层,将该文本的特征向量与多个文本中每个文本的特征向量进行注意力计算,确定该文本的增强特征向量;251.通过所述全连接层,基于该文本的特征向量确定该文本的类别特征,包括:252.通过所述全连接层,基于该文本的增强特征向量确定该文本的类别特征。253.在本技术一种可能的实现方式中,组合模块1106进一步被配置为:254.按照所述多个文本在所述待处理文档中的先后顺序,对所述多个文本的类别特征进行拼接,得到所述待处理文档的类别特征向量。255.在本技术一种可能的实现方式中,所述特征提取模型包括bert模型。256.在本技术一种可能的实现方式中,所述装置还包括分类模型训练模块,所述分类模型训练模块被配置为:257.获取多个样本文档,其中,每个样本文档对应一个类别特征向量;258.基于多个类别特征向量构建第一决策树,并基于所述第一决策树确定每个样本文档的预测概率;259.基于每个样本文档的预测概率和多个类别特征向量构建第二决策树,并基于第二决策树确定每个样本文档的预测概率,以此类推,直到达到停止条件,将构建的多个决策树确定为分类模型。260.在本技术一种可能的实现方式中,所述分类模型包括lightgbm模型,且所述分类模型的损失函数是对数损失函数。261.在本技术一种可能的实现方式中,分割模块1102进一步被配置为:262.基于字符识别算法对所述待处理文档的内容进行识别,获取所述待处理文档的字符内容,其中,所述字符识别算法用于识别文档中的字符内容;263.按照预设分割策略,对所述字符内容进行分割,得到所述多个文本。264.本技术提供的文档分类装置,对待处理文档进行分割,得到多个文本;将所述多个文本分别输入特征提取模型,确定每个文本的类别特征;对所述多个文本的类别特征进行组合,得到所述待处理文档的类别特征向量;将所述类别特征向量输入分类模型,确定所述待处理文档的类别。如此,先将待处理文档分割成比较短的文本,适用于长文档处理,并且先确定每个文本的类别特征,然后将多个文本的类别特征组合得到待处理文档的类别特征向量,则可以认为该类别特征向量融合了待处理文档全文的类别信息,即该类别特征向量不仅能够体现待处理文档中各部分内容的类别特征,还能够体现待处理文档中各部分内容之间的关联,因此将该类别特征向量输入分类模型进行分类,能够给分类模型提供更多的信息,使得分类模型的分类结果更加准确,即提高了文档分类的准确率。265.上述为本实施例的一种文档分类装置的示意性方案。需要说明的是,该文档分类装置的技术方案与上述的文档分类方法的技术方案属于同一构思,文档分类装置的技术方案未详细描述的细节内容,均可以参见上述文档分类方法的技术方案的描述。此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。266.图12示出了根据本技术一实施例提供的一种计算设备1200的结构框图。该计算设备1200的部件包括但不限于存储器1210和处理器1220。处理器1220与存储器1210通过总线1230相连接,数据库1250用于保存数据。267.计算设备1200还包括接入设备1240,接入设备1240使得计算设备1200能够经由一个或多个网络1260通信。这些网络的示例包括公用交换电话网(pstn,publicswitchedtelephonenetwork)、局域网(lan,localareanetwork)、广域网(wan,wideareanetwork)、个域网(pan,personalareanetwork)或诸如因特网的通信网络的组合。接入设备120可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic,networkinterfacecontroller))中的一个或多个,诸如ieee802.11无线局域网(wlan,wirelesslocalareanetwork)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb,universalserialbus)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc,nearfieldcommunication)接口,等等。268.在本技术的一个实施例中,计算设备1200的上述部件以及图12中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图12所示的计算设备结构框图仅仅是出于示例的目的,而不是对本技术范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。269.计算设备1200可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或pc(personalcomputer)的静止计算设备。计算设备1200还可以是移动式或静止式的服务器。270.其中,处理器1220用于执行所述文档分类方法的计算机可执行指令。271.上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的文档分类方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述文档分类方法的技术方案的描述。272.本技术一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于文档分类方法。273.上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文档分类方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文档分类方法的技术方案的描述。274.本技术一实施例还提供一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现所述文档分类方法的步骤。275.上述对本技术特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。276.所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。277.需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本技术所必须的。278.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。279.以上公开的本技术优选实施例只是用于帮助阐述本技术。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本技术的内容,可作很多的修改和变化。本技术选取并具体描述这些实施例,是为了更好地解释本技术的原理和实际应用,从而使所属
技术领域
:技术人员能很好地理解和利用本技术。本技术仅受权利要求书及其全部范围和等效物的限制。当前第1页12当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献