文本处理方法、装置、计算机设备及存储介质与流程

2021-10-19 23:52:00 来源：中国专利 TAG：计算机装置文本特别方法

技术特征：
1.一种文本处理方法，其特征在于，所述方法包括：将多个样本文本输入初始语言模型，输出所述多个样本文本的文本特征，所述多个样本文本包括主场景的样本文本和副场景的样本文本；基于所述文本特征，对所述多个样本文本进行命名实体识别，得到所述多个样本文本中的预测实体和所述预测实体所对应的预测实体类型；基于所述文本特征，获取所述多个样本文本的预测场景类型，所述预测场景类型包括所述主场景和所述副场景；基于所述预测实体、所述预测实体类型和所述预测场景类型，对所述初始语言模型进行对抗学习，得到目标语言模型，所述目标语言模型用于提取表征所述主场景和所述副场景的样本文本之间的共性信息的文本特征，所述目标语言模型提取到的所述文本特征用于识别对应文本中的命名实体。2.根据权利要求1所述的方法，其特征在于，所述基于所述文本特征，获取所述多个样本文本的预测场景类型包括：将所述文本特征输入梯度反转层，通过所述梯度反转层对所述文本特征进行恒等变换，得到恒等变换后的特征；将所述恒等变换后的特征输入场景判别网络，通过所述场景判别网络分别对所述多个样本文本进行分类，输出所述多个样本文本的所述预测场景类型；其中，所述梯度反转层用于在前向传播中对所述文本特征进行恒等变换、在反向传播中更改所述场景判别网络回传的梯度符号。3.根据权利要求1所述的方法，其特征在于，所述基于所述预测实体、所述预测实体类型和所述预测场景类型，对所述初始语言模型进行对抗学习，得到目标语言模型包括：基于所述预测实体、所述预测实体类型和所述多个样本文本的实体标注信息，确定第一损失函数值；基于所述预测场景类型和所述多个样本文本的场景标注信息，确定第二损失函数值；基于所述第一损失函数值和所述第二损失函数值，确定本次迭代过程的目标损失函数值；响应于所述目标损失函数值不符合停止条件，迭代训练所述初始语言模型，直到所述目标损失函数值符合所述停止条件，得到所述目标语言模型。4.根据权利要求1所述的方法，其特征在于，所述将多个样本文本输入初始语言模型，输出所述多个样本文本的文本特征包括：对任一样本文本进行字符划分，得到所述任一样本文本的字符序列；将所述字符序列输入所述初始语言模型中的至少一个编码层；通过所述至少一个编码层对所述字符序列进行编码，将最后一个编码层输出的特征序列确定为所述任一样本文本的文本特征。5.根据权利要求1所述的方法，其特征在于，所述基于所述文本特征，对所述多个样本文本进行命名实体识别，得到所述多个样本文本中的预测实体和所述预测实体所对应的预测实体类型包括：对任一样本文本，将所述任一样本文本的文本特征输入第一全连接网络，输出所述任一样本文本中的第一字符，所述第一字符为所述预测实体的首位字符；
将所述任一样本文本的文本特征输入第二全连接网络，输出所述任一样本文本中的第二字符，所述第二字符为所述预测实体的末位字符；基于所述第一字符和所述第二字符，确定所述预测实体和所述预测实体类型。6.根据权利要求5所述的方法，其特征在于，所述将所述任一样本文本的文本特征输入第一全连接网络，输出所述任一样本文本中的第一字符包括：调用所述第一全连接网络对所述任一样本文本的文本特征进行加权处理，对加权后的特征进行指数归一化处理，得到至少一个第一概率，一个第一概率用于表示所述字符序列中的一个字符为第一字符的可能性；基于所述至少一个第一概率，确定所述任一样本文本中的第一字符。7.根据权利要求5所述的方法，其特征在于，所述通过将所述任一样本文本的文本特征输入第一全连接网络，输出所述任一样本文本中的第一字符包括：调用所述第一全连接网络对所述任一样本文本的文本特征进行加权处理，对加权后的特征进行指数归一化处理，得到至少一个第二概率，一个第二概率用于表示所述字符序列中的一个字符为与一种实体类型对应的第一字符的可能性；基于所述至少一个第二概率，确定所述任一样本文本中的第一字符和所述第一字符所对应的预测实体类型。8.根据权利要求6或7所述的方法，其特征在于，所述将所述任一样本文本的文本特征输入第二全连接网络，输出所述任一样本文本中的第二字符包括：将所述任一样本文本的文本特征和所述加权后的特征进行拼接，得到目标拼接特征；调用所述第二全连接网络对所述目标拼接特征进行加权处理，对加权后的特征进行指数归一化处理，得到至少一个第三概率，一个第三概率用于表示所述字符序列中的一个字符为第二字符的可能性；基于所述至少一个第三概率，确定所述任一样本文本中的第二字符。9.根据权利要求6或7所述的方法，其特征在于，所述将所述任一样本文本的文本特征输入第二全连接网络，输出所述任一样本文本中的第二字符包括：将所述任一样本文本的文本特征和所述加权后的特征进行拼接，得到目标拼接特征；调用所述第二全连接网络对所述目标拼接特征进行加权处理，对加权后的特征进行指数归一化处理，得到至少一个第四概率，一个第四概率用于表示所述字符序列中的一个字符为与一种实体类型对应的第二字符的可能性；基于所述至少一个第四概率，确定所述任一样本文本中的第二字符和所述第二字符所对应的预测实体类型。10.根据权利要求1所述的方法，其特征在于，所述主场景的样本文本为内容项文本，所述副场景的样本文本包括资讯文本、应用程序描述文本或者物品描述文本中的至少一项。11.一种文本处理装置，其特征在于，所述装置包括：输入输出模块，用于将多个样本文本输入初始语言模型，输出所述多个样本文本的文本特征，所述多个样本文本包括主场景的样本文本和副场景的样本文本；实体识别模块，用于基于所述文本特征，对所述多个样本文本进行命名实体识别，得到所述多个样本文本中的预测实体和所述预测实体所对应的预测实体类型；获取模块，用于基于所述文本特征，获取所述多个样本文本的预测场景类型，所述预测
场景类型包括所述主场景和所述副场景；对抗学习模块，用于基于所述预测实体、所述预测实体类型和所述预测场景类型，对所述初始语言模型进行对抗学习，得到目标语言模型，所述目标语言模型用于提取表征所述主场景和所述副场景的样本文本之间的共性信息的文本特征，所述目标语言模型提取到的所述文本特征用于识别对应文本中的命名实体。12.根据权利要求11所述的装置，其特征在于，所述获取模块用于：将所述文本特征输入梯度反转层，通过所述梯度反转层对所述文本特征进行恒等变换，得到恒等变换后的特征；将所述恒等变换后的特征输入场景判别网络，通过所述场景判别网络分别对所述多个样本文本进行分类，输出所述多个样本文本的所述预测场景类型；其中，所述梯度反转层用于在前向传播中对所述文本特征进行恒等变换、在反向传播中更改所述场景判别网络回传的梯度符号。13.根据权利要求11所述的装置，其特征在于，所述对抗学习模块用于：基于所述预测实体、所述预测实体类型和所述多个样本文本的实体标注信息，确定第一损失函数值；基于所述预测场景类型和所述多个样本文本的场景标注信息，确定第二损失函数值；基于所述第一损失函数值和所述第二损失函数值，确定本次迭代过程的目标损失函数值；响应于所述目标损失函数值不符合停止条件，迭代训练所述初始语言模型，直到所述目标损失函数值符合所述停止条件，得到所述目标语言模型。14.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求10任一项所述的文本处理方法。15.一种存储介质，其特征在于，所述存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求10任一项所述的文本处理方法。

技术总结
本申请公开了一种文本处理方法、装置、计算机设备及存储介质，属于计算机领域。本申请通过对主场景和副场景两种不同的样本文本，分别进行文本特征的提取、命名实体识别以及场景类型的预测，得到样本文本的预测实体、预测实体类型和预测场景类型，通过预测场景类型来判别提取到的文本特征是否能够表征主场景与副场景的样本文本之间的共性信息，基于对抗学习的思想对初始语言模型进行参数调整，得到目标语言模型，这一目标语言模型提取出的文本特征能够表征多场景文本的共性信息，且能够用于精准识别跨场景文本中的命名实体，而并不局限于某一特定场景的文本，从而提高了文本处理的准确度，提升了模型的泛化能力。提升了模型的泛化能力。提升了模型的泛化能力。

技术研发人员：吴坤
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：2020.12.24
技术公布日：2021/10/18

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：目标跟踪方法、装置、设备及存储介质与流程
下一篇：图像处理方法、装置、设备和存储介质与流程

文本处理方法、装置、计算机设备及存储介质与流程

相关文献

最热文献