文档向量化方法、装置、计算设备和计算机可读存储介质与流程

2022-03-19 18:39:02 来源：中国专利 TAG：

1.本发明涉及自然语言处理技术领域，具体地涉及一种文档向量化方法、装置、计算设备和计算机可读存储介质。

背景技术：

2.在对多字节集合构成的文档进行识别、分析、分类等处理时，通常需要先将文档转化为计算机可识别的文档表示。
3.传统的文档表示方式包括基于词-向量转化(word to vector，简称 word2vec)模型或全局向量(global vectors，简称glove)模型等工具，将文档转化为对应的向量。然而，使用传统的文档表示方法在后续的文档分析、识别、分类等场景中使用时，会导致文档分析、识别、分类的效果较差。在处理字节数较多的长文档时，这一问题尤为明显。
4.因此，如何高效地训练和生成高质量的长文档表示，能够有效地改善文档分析、识别、分类的结果，成为当前亟需解决的问题。

技术实现要素：

5.本发明解决的技术问题是如何高效地训练和生成高质量的长文档表示，能够有效地改善文档分析、识别、分类的结果。
6.为解决上述技术问题，本发明实施例提供一种文档向量化方法，所述方法包括：将目标文档转化为所述目标文档的向量；将所述目标文档的向量输入神经主题模型中，得到所述目标文档的主题向量；其中，所述神经主题模型包括：分类层，所述分类层是基于样本文档及所述样本文档的分类结果训练得到的，并且在训练后得到第一参数集；主题向量生成层，所述主题向量生成层在所述第一参数集的控制下，将所述目标文档的向量转化为目标文档的主题向量。
7.可选的，所述分类层用于根据所述样本文档的主题向量对所述样本文档进行分类，所述分类层包括全连接层和归一化指数函数，所述全连接层用于根据所述样本文档的主题向量对所述样本文档进行分类，所述归一化指数函数用于将所述全连接层得到的分类结果进行归一化。
8.可选的，所述神经主题模型还包括概述内容提取层，所述概述内容提取层用于根据所述样本文档的向量得到所述样本文档的概述内容，所述概述内容提取层是基于所述样本文档的向量和所述样本文档的概述内容训练得到的，并且在训练后对所述第一参数集进行更新；所述主题向量生成层在更新后的第一参数集的控制下，将所述目标文档的向量转化为目标文档的主题向量。
9.可选的，所述主题向量生成层还用于输出主题向量矩阵，所述主题向量矩阵是基于样本文档训练得到的、包含若干个主题对应的主题向量的矩阵；通过所述概述内容提取层，根据所述样本文档的向量和所述主题向量矩阵，得到所述样本文档的概述内容。
10.可选的，所述神经主题模型的损失函数根据所述分类层的损失函数、所述概述内
容提取层的损失函数、所述主题向量生成层的损失函数中的单个损失函数或者多个损失函数计算得到；所述分类层的损失函数closs表示为：
[0011][0012]
其中，cj为真实的文档的类别标签，tj为所述分类层得到的文档的类别概率，j的取值范围为[0,n]，n为大于等于1的正整数；所述概述内容提取层的损失函数gloss表示为：
[0013][0014]
其中，yi为真实的概述内容的标签，yi的取值为0或1，pi为所述概述内容提取层预测出的词包含在文档中的概率，i的取值范围为[0,k]，k的取值为大于等于1的正整数。
[0015]
可选的，所述得到所述目标文档的主题向量之后，所述方法还包括：计算所述目标文档的主题向量和其他文档的主题向量之间的欧式距离或余弦距离；根据所述欧式距离或所述余弦距离，计算所述目标文档与所述其他文档之间的相似度。
[0016]
可选的，所述方法还包括：构建预设词典，所述预设词典中包括一个或多个单词；所述将目标文档转化为所述目标文档的向量，包括：根据所述预设词典中的词在所述目标文档中出现的词频，将所述目标文档转化为所述目标文档的向量。
[0017]
本发明实施例还提供一种文档向量化装置，所述装置包括：初步向量化模块，用于将目标文档转化为所述目标文档的向量；主题向量化模块，用于将目标文档的向量输入神经主题模型中，得到所述目标文档的主题向量；其中，所述神经主题模型包括：分类层，所述分类层是基于样本文档及所述样本文档的分类结果训练得到的，并且在训练后得到第一参数集；主题向量生成层，所述主题向量生成层在所述第一参数集的控制下，将所述目标文档的向量转化为目标文档的主题向量。
[0018]
本发明实施例还提供一种计算设备，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行任一项所述方法的步骤。
[0019]
本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行任一项所述方法的步骤。
[0020]
相较于现有技术，本发明实施例提供的第一种改进的神经主题模型(也即ntm)，该改进的ntm中主题向量生成层用于生成输入的文档的主题向量。相比于现有的ntm，该改进的ntm在生成输入文档的主题向量时，受到分类层根据文档的向量或者文档主题的向量对文档进行分类的限制，从而能够以分类结果的边界限制输出的文档的主题向量，得到更满足分类需求或者说更具有针对性的文档的主题向量，从而能够为后续的文档分析、识别、分类场景均无法提供高质量的文档表示。
[0021]
进一步，本发明实施例还提供第二种改进的神经主题模型，相比于现有的ntm，该改进的ntm在生成输入文档的主题向量时，受到分类层对文档进行分类的限制，还受到概述内容提取层提取文档的概述内容的限制。分类层和概述内容提取层能够修正主题向量生成层生成的主题向量的调整范围，得到更满足分类需求或者说更具有针对性的文档的主题向量，从而能够为后续的文档分析、识别、分类场景均无法提供高质量的文档表示。
附图说明
[0022]
图1是本发明实施例的一种文档向量化方法的流程示意图；
[0023]
图2为本发明实施例的一种神经主题模型的结构示意图；
[0024]
图3为本发明实施例提供的第三种ntm的结构示意图；
[0025]
图4为本发明实施例的一种文档向量化装置的结构示意图。
具体实施方式
[0026]
如背景技术所言，当前的文档表示质量不佳，影响后续的分析、识别、分类的结果。
[0027]
具体表现在，当前在对有文件名/标题，以及文档目录结构的文档(长文档)进行分析时，需要将这些文档根据内容的差异进行分类，例如，将不同的文档放在不同的分类目录下。可以采用计算各个文档的文档表示，以计算文档的相似度，从而根据文档的相似度，对文档进行分类。
[0028]
当前有两种主流的生成文档表示的方法：
[0029]
第一种文档表示方法：基于线性操作的文档表示方法。该方法使用词向量训练工具，如词-向量转化(word to vector，简称word2vec)模型，全局向量(global vectors，简称glove)模型等工具，对整个语料训练词向量；然后使用文档中词向量的线性操作，例如加和平均，加权平均等操作，来生成整个文档的向量作为该文档的表示。
[0030]
该方法的优点是：(1)生成的文档表示考虑了该文档中所有的词，不会有信息的丢失；(2)训练词向量和生成文档向量的速度比较快。
[0031]
该方法的缺点是：在上述模型生成文档表示的时候不需要训练，因此针对某特定任务来说，生成文档表示的质量是有限的。
[0032]
第二种文档表示方法：基于神经网络的文档表示模型生成文档表示，该类模型可以包括卷积神经网络(convolutional neural networks，简称cnn)、长短期记忆(long short-term memory，简称lstm)网络、预训练的基于转向器的双向编码表示的(bidirectional encoder representations fromtransformers，简称bert)语言模型以及基于bert派生出的各类模型等。
[0033]
该方法的优点是：通过复杂的神经网络模型能够抓取文档中更加丰富的语义信息，同时也能够针对下游任务(如文档的分类、匹配等任务)，有针对性地生成高质量的文档表示。
[0034]
该方法的缺点至少包括：(1)生成文档表示的时间比较慢，需要庞大的硬件资源来运行神经网络模型；(2)网络容量有限，例如bert每次只能处理一定长度的文档，如果文档太长，需要将文档的部分内容进行丢弃，这会导致文档信息的丢失；或者需要对文档中的内容先裁剪再进行拼接，甚至使用更复杂的网络，在实际项目中部署不太现实；(3)在做长文档相似度匹配任务的时候，应该尽量多的保留文档的文本信息，此外也需要保证文档向量生成的方式统一。因此基于神经网络的文档表示方法在处理长文档相似度匹配任务的时候，在实际项目中没有得到好的匹配效果，有时匹配效果甚至不如第一种文档表示方法的效果好。
[0035]
综上，当前两种主流的生成文档的表示方法，其对于后续的文档分析、识别、分类
场景均无法提供高质量的文档表示。
[0036]
为解决上述问题，本发明实施例提供了一种文档向量化方法，该方法包括：将目标文档转化为所述目标文档的向量；将所述目标文档的向量输入神经主题模型中，得到所述目标文档的主题向量；其中，所述神经主题模型包括：分类层，所述分类层是基于样本文档及所述样本文档的分类结果训练得到的，并且在训练后得到第一参数集；主题向量生成层，所述主题向量生成层在所述第一参数集的控制下，将所述目标文档的向量转化为目标文档的主题向量。
[0037]
由此，能够提供了一种改进的ntm，能够修正生成的主题向量的调整范围，使其更满足分类需求或者说更具有针对性，从而能够为后续的文档分析、识别、分类场景提供高质量的文档表示。
[0038]
为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。
[0039]
请参见图1，图1为本发明实施例的一种文档向量化方法的流程图，该方法可以由终端执行，所述终端可以包括电脑、手机、服务器或服务器集群等具备计算和数据处理功能的设备，所述方法包括如下步骤s101和步骤s102，详述如下。
[0040]
步骤s101，将目标文档转化为所述目标文档的向量。
[0041]
其中，目标文档是要进行向量化表示的文档，为包含若干个字符的字符串。所述目标文档可以通过电子文档的相关软件(如word、wps、txt等软件)承载，也可以通过数据流(如二进制流等)的方式提供给终端。
[0042]
目标文档的向量是将目标文档中的部分或者全部字符采用向量的形式表示。
[0043]
在一个具体实施例中，可以使用常用的基于词-向量转化的工具，如 word2vec、glove等，将目标文档中的所有词转化为词向量，得到目标文档的向量。由此，得到的目标文档的向量能够反映目标文档的所有内容，不存在信息丢失。
[0044]
进一步，将目标文档中的所有词转化为词向量，可以包括：终端可以将目标文档输入词袋(bag of words，简称bow)模型进行编码，得到目标文档的各个词的向量，将目标文档中各个词的向量称为文档向量，记作向量d。其中，经过bow模型编码得到的向量也可以称为bow向量。bow模型是基于预设词典进行编码的，用于生成文档向量的预设词典可以通过经验或者大量历史处理的文档进行词收集，得到包含若干个词的集合。
[0045]
在另一个具体实施例中，可以通过关键词识别或者语义识别的模型或者工具，识别所述目标文档中的关键词或者关键语义信息对应的词，仅将目标文档中的关键词或者关键语义信息对应的词转化为词向量，得到目标文档的向量。由此，能够仅针对目标文档中的重要内容进行向量转化，而忽略目标文档中不重要的一些信息，减少后续处理过程中的计算量，提高处理效率。
[0046]
步骤s102，将所述目标文档的向量输入神经主题模型中，得到所述目标文档的主题向量。
[0047]
神经主题模型(neural topic model，简称ntm)是一种自主型学习算法，用于将文档语料库组织成主题。目标文档的主题向量是ntm根据目标文档的向量进行主题提取，得到的目标文档的主题对应的词向量。
[0048]
常用的ntm包括：隐含狄利克雷分布(latent dirichlet allocation，简称 lda)、
增强主题模型(embedded topic model，简称etm)和多粒度主题模型(multi-grain topic model)等。需要说明的是，本发明实施例中的神经主题模型包括但不限于前述的例子，任何可以根据输入的文档的向量获取该文档的主题向量的模型，均可以用于本发明实施例的方法中。
[0049]
图1中步骤s102中的神经主题模型的结构图请参见图2，该神经主题模型20可以包括分类层201和主题向量生成层202，其中：
[0050]
分类层201：基于样本文档及所述样本文档的分类结果训练得到的，并且在训练后得到第一参数集。
[0051]
主题向量生成层202：在所述第一参数集的控制下，将所述目标文档的向量转化为目标文档的主题向量。
[0052]
样本文档为用于训练ntm的样本，其为与目标文档格式一致的文档。在基于样本文档对ntm进行模型训练时，终端还对样本文档进行分类得到分类结果。文档的分类结果，也即该文档所属的类别。可以根据需要对文档进行分类，如商业文档、技术文档等等分类。
[0053]
可选的，分类层201包括一个或多个分类器。可选的，如下的2个实施例(实施例一和实施例二)给出了ntm中分类层201的两种情况：
[0054]
实施例一：分类层201以样本文档的向量以及为样本文档标注的类别作为训练样本，分类层201经过训练学习到对输入的文档(如目标文档)的向量进行分类的能力。第一参数集为分类层201经过训练得到的一组参数，该组参数用于表示分类层201对输入的文档的向量进行分类的能力。
[0055]
实施例二：样本文档的向量经过主题向量生成层202得到样本文档的主题向量，分类层201以样本文档的主题向量及其标注的类别作为训练样本，分类层201经过训练学习对输入的文档的主题向量(如目标文档的主题向量) 进行分类的能力。第一参数集为分类层201经过训练得到的一组参数，该组参数用于表示分类层201对输入的文档的主题向量进行分类的能力。可选的，在主题向量生成层202的中间层连接所述分类层。
[0056]
通过如上实施例一或实施例二得到第一参数集之后，将第一参数集发送给主题向量生成层202，主题向量生成层202在第一参数集(也即分类层201 的分类能力)的控制下，生成目标文档的主题向量。主题向量生成层202实现现有的ntm的功能，也即根据输入的文档的向量，得到该文档的主题向量，本发明实施例在现有的ntm之外引入了文档分类任务。
[0057]
通过图1和图2所述的文档向量化方法，提供了第一种改进的ntm，相比于现有的ntm，该改进的ntm在生成输入文档的主题向量时，受到分类层对文档进行分类的限制。分类层能够修正主题向量生成层生成的主题向量的调整范围，得到更满足分类需求或者说更具有针对性的文档的主题向量，从而能够为后续的文档分析、识别、分类场景提供高质量的文档表示。
[0058]
并且，本方法采用的神经主题模型属于轻量级模型。长文档内容作为输入，文档的标题作为训练目标。模型会为每篇文档生成主题向量。这样既保证了文档输入的完整性，又可以通过任务监督的方法迭代训练模型。由于使用了完整的文档信息，训练速度快，得到的文档表示能够有效提高文档匹配的准确率。
[0059]
在一个实施例中，图2中的分类层201用于根据所述样本文档的主题向量对所述
样本文档进行分类，也即，如上述实施例二所述的情况。可选的，所述分类层201可以包括全连接层和归一化指数函数(如softmax函数)，所述全连接层用于根据所述样本文档的主题向量对所述样本文档进行分类，所述归一化指数函数用于将所述全连接层得到的分类结果进行归一化。
[0060]
在一个实施例中，请继续参见图2，所述神经主题模型20还可以包括概述内容提取层203，所述概述内容提取层203基于所述样本文档的向量和所述样本文档的概述内容训练得到，并且在训练后对所述第一参数集进行更新。所述概述内容提取层203用于根据所述样本文档的向量得到所述样本文档的概述内容。所述主题向量生成层202在更新后的第一参数集的控制下，将所述目标文档的向量转化为目标文档的主题向量。
[0061]
其中，概述内容提取层203以样本文档的向量及其对应的概述内容为训练样本训练得到，用于根据输入的文档的向量(如目标文档的向量)提取文档的概述内容。可选的，文档的概述内容至少可以包括文档的摘要或者文档的标题等对文档的信息进行简要概述的内容。
[0062]
概述内容提取层203通过样本训练，学习到对输入的文档的向量进行概述内容提取的能力，并以该能力对分类层201得到的第一参数集进行修正，得到更新后的第一参数集。通过更新后的第一参数集控制主题向量生成层202 生成输入的文档的主题向量的过程。
[0063]
本实施例中，提供了第二种改进的ntm，相比于现有的ntm，该改进的ntm在生成输入文档的主题向量时，受到分类层对文档进行分类的限制，还受到概述内容提取层提取文档的概述内容的限制。分类层和概述内容提取层能够修正主题向量生成层生成的主题向量的调整范围，得到更满足分类需求或者说更具有针对性的文档的主题向量，从而能够为后续的文档分析、识别、分类场景提供高质量的文档表示。
[0064]
概述内容提取层还可以用于根据概述内容生成完整的文档。也即实现第二种改进的ntm中的概述内容提取层的逆功能。此时，以样本文档标注的概述内容作为输入样本，以样本文档的向量(例如，样本文档的bow向量)为输出样本，进行模型训练。
[0065]
需要说明的是，在通过第一种或者第二种改进的ntm生成目标文档的主题向量时，也可以以目标文档为样本继续完善分类层的分类能力和/或概述内容提取层提取概述内容的能力。
[0066]
在一个实施例中，图2中的所述主题向量生成层202还用于输出主题向量矩阵，所述主题向量矩阵是基于样本文档训练得到的、包含若干个主题对应的主题向量的矩阵，主题向量包含的主题数为预先定义的超参数；通过所述概述内容提取层203，根据所述样本文档的向量和所述主题向量矩阵，得到所述样本文档的概述内容。
[0067]
其中，主题向量矩阵在初始化的时候随机生成其中的参数，在模型训练过程中根据生成的主题向量的结果以及概述内容提取层提取的概述内容的结果不断调整主题向量矩阵中的参数，得到训练后的主题向量矩阵。
[0068]
在一个实施例中，所述神经主题模型的损失函数根据所述分类层的损失函数c
loss
、所述概述内容提取层的损失函数g
loss
、所述主题向量生成层的损失函数e
loss
中的单个损失函数或者多个损失函数得到。例如，以其中的两个或三个损失函数乘以各自的系数之和相加。
[0069]
在一个具体实施例中，针对如上第一种改进的ntm，其损失函数可以为分类层的损失函数c
loss
和主题向量生成层的损失函数e
loss
之和。
[0070]
在另一个具体实施例中，针对如上第二种改进的ntm，其损失函数可以为分类层的损失函数c
loss
、概述内容提取层的损失函数g
loss
和主题向量生成层的损失函数e
loss
之和。
[0071]
在另一个具体实施例中，针对如上第二种改进的ntm，其损失函数loss 可以通过如下公式表示：loss＝γ(e
loss
g
loss
)
×
(1/d) c
loss
。其中，d表示训练时的批尺寸(batch_size)的大小，γ为缩放因子，γ为预设值。
[0072]
其中，所述分类层的损失函数c
loss
可以采用如下公式(1)表示：
[0073][0074]
其中，cj为真实的文档的类别标签，tj为所述分类层得到的文档的类别概率，j的取值范围为[0,n]，n为大于等于1的正整数；所述概述内容提取层的损失函数g
loss
表示为如下公式(2)：
[0075][0076]
其中，yi为真实的概述内容的标签，yi的取值为0或1，pi为所述概述内容提取层预测出的词包含在文档中的概率，i的取值范围为[0,k]，k的取值为大于等于1的正整数。
[0077]
可选的，k为预设词典中包含的词的数量。
[0078]
需要说明的是，主题向量生成层的损失函数e
loss
的计算方法可以保持与现有的ntm的损失函数一致。
[0079]
在一个实施例中，请再次参见图1，步骤s102所述得到所述目标文档的主题向量之后，所述方法还可以包括：计算所述目标文档的主题向量和其他文档的主题向量之间的欧式距离或余弦距离；根据所述欧式距离或所述余弦距离，计算所述目标文档与所述其他文档之间的相似度。
[0080]
其中，其他文档为另外获取的文档。在计算两个文档的相似度时，可以将各个文档分别输入本发明实施例改进的ntm中，得到每一文档的主题向量。通过两个文档的主题向量之间的欧式距离(euclidean distance)或余弦距离(也称为余弦相似度)表示二者的相似度。
[0081]
需要说明的是，在计算文档的相似度时，除了使用欧式距离和余弦距离指纹，也可以采用其他常用的向量相似度的计算方法，这里不再赘述。
[0082]
在一个具体实施例中，终端获取各个文档的向量之后，将每一文档的向量作为目标文档的向量，通过改进后的ntm生成目标文档的主题向量。并将每一文档的主题向量存入数据库。在需要比较不同文档的相似度时，从数据库获取要比较的不同文档的主题向量，计算不同文档的主题向量之间的欧式距离或余弦距离，得到相似度的计算结果。
[0083]
在一个实施例中，请继续参见图1，所述方法还包括：构建预设词典，所述预设词典中包括一个或多个单词。图1中步骤s101所述将目标文档转化为所述目标文档的向量，可以包括：根据所述词典中的词在所述目标文档中出现的词频，将所述目标文档转化为所述目标文档的向量。
[0084]
其中，预设词典(vocabulary)的解释可参见图1中的说明。目标文档的向量是基于预设词典中的各个词在目标文档中的词频。进一步，该词典的词频可以为词频-逆文档频度(term frequency-inverse document frequency，简称tf-idf)。
[0085]
请参见图2和图3，图3为本发明实施例提供的第三种ntm的结构示意图。该ntm可以包括如图2中的分类层201、主题向量生成层202和概述内容提取层203。
[0086]
主题向量生成层202可以包括第一编码单元2021、正分布参数获取单元 2022、计算单元2023和主题向量维度确定单元2024，在主题向量生成层202 的训练阶段，各个单元实现以下功能：
[0087]
第一编码单元2021，其包括全连接网络和激活函数(如双曲正切函数-tanh 等)，其用于对输入的文档的向量进行编码。
[0088]
正分布参数获取单元2022，其包括两组全连接层(即第一组全连接层301 和第二组全连接层302)。对第一组全连接层301用于计算样本文档的向量对应的正态分部的方差的对数，以log(σ2)表示。其中，σ2为方差，log()表示对括号内数值求对数，对数的底数可以为自然常数或者10，或者其他大于1的正整数。第二组全连接层302用于计算目标文档的向量对应的正态分布的数学期望(也称为均值)，以μ表示。第一组全连接层301和第二组全连接层302 中的每一组都可以包括一个或多个全连接层。
[0089]
其中，前述主题向量生成层的损失函数e
loss
可以为正分布参数获取单元 2022的损失函数，其计算方法可以参见公式(3)：
[0090][0091]
其中，sum[]表示：对矩阵σ和矩阵μ中的所有元素根据[]中的公式进行计算，再对计算结果求和。
[0092]
计算单元2023，其实现以下步骤：对得到的log(σ2)进行变形，得到然后计算一个中间参数z＝μ ε
×
σ，ε为从标准正态分布中采样得到。
[0093]
主题向量维度确定单元2024，其包括全连接层和归一化指数函数(如 softmax函数)。前述得到的中间参数z输入主题向量维度确定单元2024中，得到初始化向量θ，初始化向量θ的维度等于主题向量生成层202输出的主题向量的维度。
[0094]
通过主题向量生成层202的上述各个单元，能够将训练阶段的样本文档的向量映射成维度与初始化向量θ的维度相同的主题向量矩阵φ。主题向量矩阵φ在初始化的时候随机生成其中的参数，在模型训练过程中不断调整参数，得到训练后的主题向量矩阵φ。将初始化向量θ与主题向量矩阵φ相乘得到输入的文档的主题向量t，其从主题向量生成层202的输出端303输出。
[0095]
概述内容提取层203实现以下步骤：步骤1，将主题向量矩阵φ和输入的文档的向量相乘得到概率矩阵β，概率矩阵β表示预设词典中每个词对应某个主题的概率值p。步骤2，将初始化向量θ和概率矩阵β相乘，得到预设词典中每个词出现在输入概述内容提取层203的文档中的概率值。由此能够从预设词典中选取概率值高于一定阈值的若干个词，作为该文档的概述内容作为概述内容提取层203的输出。其中，概述内容提取层203的损失函数g
loss
如上述公式(2)。
[0096]
图2中的分类层201可以包括全连接层2011和归一化指数函数2022，在输入的文
档的向量通过主题向量生成层202，并在其输出端得到文档的主题向量(记作t)之后，将t输入分类层201中，依次经过全连接层2011和归一化指数函数2022在分类层201的输出端305得到文档的分类结果，该分类结果可以以类别标签(class lable)表示。
[0097]
分类层201的训练过程可以包括：将已知类别标签的输入的文档输入待训练的分类层，输出分类层预测的类别标签，预测的类别标签用来与已知的类别标签比较，已知的类别标签就是该分类层的训练目标，训练的过程就是使得分类层输出的预测的类别标签接近已知的类别标签的过程，或者说是，使得分类层201的损失函数c
loss
收敛为极小值的过程。
[0098]
图3中的ntm的整体损失函数topic
loss
＝γ
×
(e
loss
g
loss
)
×
(1/d) c
loss
；其中， d表示训练时的批尺寸(batch_size)的大小，γ为缩放因子，γ为预设值。在通过样本文档的向量对ntm进行模型训练时，可以令整体损失函数topic
loss
逐步收敛为极小值。
[0099]
请参见图4，本发明实施例还提供一种文档向量化装置40，包括：初步向量化模块401，用于将目标文档转化为所述目标文档的向量；主题向量化模块402，用于将目标文档的向量输入神经主题模型中，得到所述目标文档的主题向量；其中，所述神经主题模型包括：分类层，所述分类层是基于样本文档及所述样本文档的分类结果训练得到的，并且在训练后得到第一参数集；主题向量生成层，所述主题向量生成层在所述第一参数集的控制下，将所述目标文档的向量转化为目标文档的主题向量。
[0100]
在一个实施例中，所述分类层用于根据所述样本文档的主题向量对所述样本文档进行分类，所述分类层包括全连接层和归一化指数函数，所述全连接层用于根据所述样本文档的主题向量对所述样本文档进行分类，所述归一化指数函数用于将所述全连接层得到的分类结果进行归一化。
[0101]
在一个实施例中，所述神经主题模型还包括概述内容提取层，所述概述内容提取层用于根据所述样本文档的向量得到所述样本文档的概述内容，所述概述内容提取层是基于所述样本文档的向量和所述样本文档的概述内容训练得到的，并且在训练后对所述第一参数集进行更新；所述主题向量生成层在更新后的第一参数集的控制下，将所述目标文档的向量转化为目标文档的主题向量。
[0102]
在一个实施例中，所述主题向量生成层还用于输出主题向量矩阵，所述主题向量矩阵是基于样本文档训练得到的、包含若干个主题对应的主题向量的矩阵；通过所述概述内容提取层，根据所述样本文档的向量和所述主题向量矩阵，得到所述样本文档的概述内容。
[0103]
在一个实施例中，所述神经主题模型的损失函数根据所述分类层的损失函数、所述概述内容提取层的损失函数、所述主题向量生成层的损失函数中的单个损失函数或者多个损失函数计算得到；所述分类层的损失函数通过如上公式(1)计算得到。所述概述内容提取层的损失函数通过如上公式(2) 计算得到。
[0104]
在一个实施例中，所述得到所述目标文档的主题向量之后，所述文档向量化装置40还可以包括：向量距离计算模块，用于计算所述目标文档的主题向量和其他文档的主题向量之间的欧式距离或余弦距离；相似度计算模块，用于根据所述欧式距离或所述余弦距离，计算所述目标文档与所述其他文档之间的相似度。
[0105]
可选的，所述文档向量化装置40还可以包括：词典构建模块，用于构建预设词典，
所述预设词典中包括一个或多个单词；所述初步向量化模块，还可以用于根据所述预设词典中的词在所述目标文档中出现的词频，将所述目标文档转化为所述目标文档的向量。
[0106]
关于上述文档向量化装置的工作原理、工作方式的更多内容，可以参照上述图1至图3中关于文档向量化方法的相关描述，这里不再赘述。
[0107]
进一步地，本发明实施例还公开一种计算机设备，包括存储器和处理器，存储器上存储有能够在处理器上运行的计算机指令，处理器运行计算机指令时执行上述图1至图3所示实施例中的文档向量化方法的技术方案。
[0108]
进一步地，本发明实施例还公开一种计算机可读存储介质(可简称为存储介质)，其上存储有计算机程序，计算机程序被处理器运行时执行上述图1 至图3所示实施例中的文档向量化方法技术方案。优选地，存储介质可以包括诸如非挥发性(non-volatile)存储器或者非瞬态(non-transitory)存储器等计算机可读存储介质。存储介质还可以包括rom、ram、磁盘或光盘等。
[0109]
应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在 a和b，单独存在b这三种情况。另外，本文中字符“/“，表示前后关联对象是一种“或”的关系。
[0110]
本技术实施例中出现的“多个”是指两个或两个以上。
[0111]
本技术实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本技术实施例中对设备个数的特别限定，不能构成对本技术实施例的任何限制。
[0112]
本技术实施例中出现的“连接”是指直接连接或者间接连接等各种连接方式，以实现设备间的通信，本技术实施例对此不做任何限定。
[0113]
应理解，本技术实施例中，处理器可以为中央处理单元(central processingunit，简称cpu)，该处理器还可以是其他通用处理器、数字信号处理器(digitalsignal processor，简称dsp)、专用集成电路(application specific integratedcircuit，简称asic)、现成可编程门阵列(field programmable gate array，简称 fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0114]
上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行计算机指令或计算机程序时，全部或部分地产生按照本技术实施例的流程或功能。计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。应理解，在本技术的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本技术实施例的实施过程构成任何限定。
[0115]
在本技术所提供的几个实施例中，应该理解到，所揭露的方法、装置和系统，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的；例如，单元的划
分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式；例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0116]
作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0117]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。
[0118]
上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等) 执行本技术各个实施例方法的部分步骤。
[0119]
虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

文档向量化方法、装置、计算设备和计算机可读存储介质与流程

相关文献

最热文献