文档向量化方法、装置、计算设备和计算机可读存储介质与流程

2022-03-19 18:39:02 来源：中国专利 TAG：

技术特征：
1.一种文档向量化方法，其特征在于，所述方法包括：将目标文档转化为所述目标文档的向量；将所述目标文档的向量输入神经主题模型中，得到所述目标文档的主题向量；其中，所述神经主题模型包括：分类层，所述分类层是基于样本文档及所述样本文档的分类结果训练得到的，并且在训练后得到第一参数集；主题向量生成层，所述主题向量生成层在所述第一参数集的控制下，将所述目标文档的向量转化为目标文档的主题向量。2.根据权利要求1所述的方法，其特征在于，所述分类层用于根据所述样本文档的主题向量对所述样本文档进行分类，所述分类层包括全连接层和归一化指数函数，所述全连接层用于根据所述样本文档的主题向量对所述样本文档进行分类，所述归一化指数函数用于将所述全连接层得到的分类结果进行归一化。3.根据权利要求1或2所述的方法，其特征在于，所述神经主题模型还包括概述内容提取层，所述概述内容提取层用于根据所述样本文档的向量得到所述样本文档的概述内容，所述概述内容提取层是基于所述样本文档的向量和所述样本文档的概述内容训练得到的，并且在训练后对所述第一参数集进行更新；所述主题向量生成层在更新后的第一参数集的控制下，将所述目标文档的向量转化为目标文档的主题向量。4.根据权利要求3所述的方法，其特征在于，所述主题向量生成层还用于输出主题向量矩阵，所述主题向量矩阵是基于样本文档训练得到的、包含若干个主题对应的主题向量的矩阵；通过所述概述内容提取层，根据所述样本文档的向量和所述主题向量矩阵，得到所述样本文档的概述内容。5.根据权利要求3所述的方法，其特征在于，所述神经主题模型的损失函数根据所述分类层的损失函数、所述概述内容提取层的损失函数、所述主题向量生成层的损失函数中的单个损失函数或者多个损失函数计算得到；所述分类层的损失函数c
loss
表示为：其中，c
j
为真实的文档的类别标签，t
j
为所述分类层得到的文档的类别概率，j的取值范围为[0,n]，n为大于等于1的正整数；所述概述内容提取层的损失函数g
loss
表示为其中，y
i
为真实的概述内容的标签，y
i
的取值为0或1，p
i
为所述概述内容提取层预测出的词包含在目标文档中的概率，i的取值范围为[0,k]，k的取值为大于等于1的正整数。6.根据权利要求1或2所述的方法，其特征在于，所述得到所述目标文档的主题向量之后，所述方法还包括：计算所述目标文档的主题向量和其他文档的主题向量之间的欧式距离或余弦距离；
根据所述欧式距离或所述余弦距离，计算所述目标文档与所述其他文档之间的相似度。7.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：构建预设词典，所述预设词典中包括一个或多个单词；所述将目标文档转化为所述目标文档的向量，包括：根据所述预设词典中的词在所述目标文档中出现的词频，将所述目标文档转化为所述目标文档的向量。8.一种文档向量化装置，其特征在于，所述装置包括：初步向量化模块，用于将目标文档转化为所述目标文档的向量；主题向量化模块，用于将目标文档的向量输入神经主题模型中，得到所述目标文档的主题向量；其中，所述神经主题模型包括：分类层，所述分类层是基于样本文档及所述样本文档的分类结果训练得到的，并且在训练后得到第一参数集；主题向量生成层，所述主题向量生成层在所述第一参数集的控制下，将所述目标文档的向量转化为目标文档的主题向量。9.一种计算设备，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至7任一项所述方法的步骤。10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1至7任一项所述方法的步骤。

技术总结
一种文档向量化方法、装置、计算设备和计算机可读存储介质，其中，所述方法包括：将目标文档转化为所述目标文档的向量；将所述目标文档的向量输入神经主题模型中，得到所述目标文档的主题向量；其中，所述神经主题模型包括：分类层，所述分类层是基于样本文档及所述样本文档的分类结果训练得到的，并且在训练后得到第一参数集；主题向量生成层，所述主题向量生成层在所述第一参数集的控制下，将所述目标文档的向量转化为目标文档的主题向量。由此，能够高效地训练和生成高质量的长文档表示，能够有效地改善文档分析、识别、分类的结果。分类的结果。分类的结果。

技术研发人员：郭顺陈成才
受保护的技术使用者：上海智臻智能网络科技股份有限公司
技术研发日：2021.11.12
技术公布日：2022/3/18

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

文档向量化方法、装置、计算设备和计算机可读存储介质与流程

相关文献

最热文献