标签预测方法、装置及电子设备与流程

2023-10-21 15:14:48 来源：中国专利 TAG：

技术特征：
1.一种标签预测方法，其特征在于，包括：获取待预测用户数据，所述待预测用户数据属于第一类用户数据；将所述待预测用户数据分别与预先获取的第二类用户数据中的各第二用户数据构成多个预测样本对；将所述多个预测样本对分别输入数据融合模型进行处理，得到所述数据融合模型输出的各预测样本对的相似度，其中，所述数据融合模型是利用预先获取的训练样本集中的各样本对预先构建的初始数据融合模型进行训练得到的，所述训练样本集包括多个样本对，每个样本对包括两个不同类别的用户数据，且每个样本对标注有真值，所述真值用于表示样本对是否对应同一用户；基于所述各预测样本对的相似度和所述各第二用户数据的标签，确定所述待预测用户数据的标签。2.根据权利要求1所述的方法，其特征在于，所述基于所述各预测样本对的相似度和所述各第二用户数据的标签，确定所述待预测用户数据的标签，包括：以所述各预测样本对的相似度作为对应预测样本对中的第二用户数据的标签值的权重，对所述各第二用户数据的标签值进行加权，得到加权标签值；将所述加权标签值确定为所述待预测用户数据的标签值。3.根据权利要求1所述的方法，其特征在于，所述初始数据融合模型包括第一数据处理模块、第二数据处理模块、第一跨模态处理模块、第二跨模态处理模块和特征融合模块；其中，所述将所述多个预测样本对分别输入数据融合模型进行处理，得到所述数据融合模型输出的各预测样本对的相似度，包括：通过所述第一数据处理模块对输入的样本对中的一个用户数据进行特征提取处理，以及，通过所述第二数据处理模块对输入的样本对中的另一个用户数据进行特征提取处理；通过所述第一跨模态处理模块，基于注意力机制对所述第一数据处理模块的输出特征和所述第二数据处理模块的输出特征进行特征提取和融合处理；通过所述第二跨模态处理模块，基于注意力机制对所述第二数据处理模块的输出特征和所述第一数据处理模块的输出特征进行特征提取和融合处理；通过所述特征融合模块对所述第一跨模态处理模块的输出特征和所述第二跨模态处理模块的输出特征进行融合，并输出输入的样本对中的两个用户数据的相似度。4.根据权利要求3所述的方法，其特征在于，所述第一数据处理模块为问卷编码器，所述问卷编码器包括编码模块、向量规整模块、池化模块和拼接模块；所述输入的样本对中的一个用户数据为问卷调研数据；所述通过所述第一数据处理模块对输入的样本对中的一个用户数据进行特征提取处理，包括：通过所述编码模块对所述问卷调研数据进行编码，通过所述向量规整模块对所述编码模块的输出向量进行归一化处理，通过所述池化模块对所述编码模块的输出向量池化处理，以及通过所述拼接模块对所述向量规整模块的输出向量与所述池化模块的输出向量进行拼接。5.根据权利要求3所述的方法，其特征在于，所述第一跨模态处理模块包括第一自注意力模块、第一互注意力模块和第一前馈网络；所述通过所述第一跨模态处理模块，基于注意
力机制对所述第一数据处理模块的输出特征和所述第二数据处理模块的输出特征进行特征提取和融合处理，包括：通过所述第一自注意力模块对所述第一数据处理模块的输出特征进行数据内部特征提取处理，通过所述第一互注意力模块对所述第一自注意力模块的输出特征和所述第二数据处理模块的输出特征进行数据间特征提取处理，以及通过所述第一前馈网络对所述第一互注意力模块的输出特征进行连接处理；和/或，所述第二跨模态处理模块包括第二自注意力模块、第二互注意力模块和第二前馈网络；所述通过所述第二跨模态处理模块，基于注意力机制对所述第二数据处理模块的输出特征和所述第一数据处理模块的输出特征进行特征提取和融合处理，包括：通过所述第二自注意力模块对所述第二数据处理模块的输出特征进行数据内部特征提取处理，通过所述第二互注意力模块对所述第二自注意力模块的输出特征和所述第一数据处理模块的输出特征进行数据间特征提取处理，以及通过所述第二前馈网络对所述第二互注意力模块的输出特征进行连接处理。6.根据权利要求3至5中任一项所述的方法，其特征在于，所述训练样本集包括多个第一类样本对，所述第一类样本对包括一个第一用户数据和一个第二用户数据，所述第一用户数据属于第一类用户数据，所述第二用户数据属于第二类用户数据，所述第一类用户数据和所述第二类用户数据为不同来源的数据；所述第一数据处理模块用于对输入的第一类样本对中的第二用户数据进行处理，所述第二数据处理模块用于对输入的第一类样本对中的第一用户数据进行处理；所述将所述多个预测样本对分别输入数据融合模型进行处理之前，所述方法还包括：获取m个第一用户数据和n个第二用户数据，n和m均为大于1的整数；根据所述第一类用户数据与所述第二类用户数据之间的第一关联特征，确定与目标第二用户数据相似的l个目标第一用户数据，其中，所述目标第一用户数据为所述m个第一用户数据中的任一第一用户数据，所述目标第二用户数据为所述n个第二用户数据中的第二用户数据，l为正整数；将所述目标第二用户数据分别与所述l个目标第一用户数据构成l个第一类样本对；根据所述l个第一类样本对中各第一类样本对是否对应同一用户，确定所述l个第一类样本中各第一类样本对的真值。7.根据权利要求6所述的方法，其特征在于，所述第一类用户数据为用户业务行为数据，所述第二类用户数据为问卷调研数据，所述训练样本集还包括多个第二类样本对，所述第二类样本对包括一个第一用户数据和一个第三用户数据；所述第二数据处理模块还用于对输入的第二类样本对中的第三用户数据进行处理；所述将所述多个预测样本对分别输入数据融合模型进行处理之前，所述方法还包括：根据所述第一类样本对进行样本扩充，生成与所述第一类样本对中的第一用户数据对应的第三用户数据，并将每个所述第三用户数据与对应的第一用户数据构成所述第二类样本对，确定所述第二类样本对的真值；利用所述训练样本集中的各第一类样本和各第二类样本对对所述初始数据融合模型进行训练。8.根据权利要求7所述的方法，其特征在于，所述利用所述训练样本集中的各第一类样
本和各第二类样本对所述初始数据融合模型进行训练，包括：将所述训练样本集中的各第一类样本对输入所述初始数据融合模型，获得所述初始数据融合模型输出的第一模型预测值，其中，所述第一模型预测值用于表示输入的第一类样本对中的第一用户数据与第二用户数据的相似度；将所述训练样本集中的各第二类样本对输入共享数据融合模型，获得所述共享数据融合模型输出的第二模型预测值，其中，所述第二模型预测值用于表示输入的第二类样本对中的第一用户数据与第三用户数据的相似度，所述共享数据融合模型包括两个第三跨模态处理模块，所述第三跨模态处理模块与所述第二跨模态处理模块结构相同，且共享权值；基于所述第一模型预测值与所述第一类样本对的真值，确定第一损失值；基于所述第二模型预测值与所述第二类样本对的真值，确定第二损失值；根据所述第一损失值和所述第二损失值，确定加权损失值；基于所述加权损失值，调整所述初始数据融合模型的结构参数。9.根据权利要求7所述的方法，其特征在于，所述根据所述第一类样本对进行样本扩充，生成与所述第一类样本对中的第一用户数据对应的第三用户数据，并将每个所述第三用户数据与对应的第一用户数据构成所述第二类样本对，确定所述第二类样本对的真值，包括：分别统计所述多个第一类样本对中的正类样本对和负类样本对的特征均值，确定差值集；其中，所述正类样本对的真值为第一值，所述负类样本对的真值为第二值，所述第一值表示样本对对应同一用户，所述第二值表示样本对不对应同一用户；所述差值集包括每个正类样本对中的第一用户数据与所述负类样本对的特征均值的差值，和每个负类样本对中的第一用户数据与所述正类样本对的特征均值的差值；分别从第一高斯分布和第二高斯分布中提取第三用户数据，将从所述第一高斯分布中提取的第三用户数据与对应的第一用户数据构成第一样本对，并确定所述第一样本对的真值为所述第一值，以及将从所述第二高斯分布中提取的第三用户数据与对应的第一用户数据构成第二样本对，并确定所述第二样本对的真值为所述第二值；其中，所述第二类样本对包括所述第一样本对和所述第二样本对，所述第一高斯分布是根据所述第一类样本对中的第一用户数据与所述差值集中p个最小差值对应的p个第一用户数据的特征均值和协方差构建得到的，所述第二高斯分布是根据所述第一类样本对中的第一用户数据与所述差值集中q个最大差值对应的q个第一用户数据的特征均值和协方差构建得到的，p和q为正整数。10.一种标签预测装置，其特征在于，包括：第一获取模块，用于获取待预测用户数据，所述待预测用户数据属于第一类用户数据；第一处理模块，用于将所述待预测用户数据分别与预先获取的第二类用户数据中的各第二用户数据构成多个预测样本对；模型预测模块，用于将所述多个预测样本对分别输入数据融合模型进行处理，得到所述数据融合模型输出的各预测样本对的相似度，其中，所述数据融合模型是利用预先获取的训练样本集中的各样本对预先构建的初始数据融合模型进行训练得到的，所述训练样本集包括多个样本对，每个样本对包括两个不同类别的用户数据，且每个样本对标注有真值，所述真值用于表示样本对是否对应同一用户；第一确定模块，用于基于所述各预测样本对的相似度和所述各第二用户数据的标签，
确定所述待预测用户数据的标签。11.一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；其特征在于，所述处理器，用于读取存储器中的程序实现如权利要求1至9中任一项所述的标签预测方法中的步骤。12.一种计算机可读存储介质，用于存储计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的标签预测方法中的步骤。

技术总结
本申请公开了一种标签预测方法、装置及电子设备，涉及数据处理技术领域，以解决现有技术预测结果置信度较差的问题。该方法包括：获取待预测用户数据，待预测用户数据属于第一类用户数据；将待预测用户数据分别与预先获取的第二类用户数据中的各第二用户数据构成多个预测样本对；将多个预测样本对分别输入数据融合模型进行处理，得到各预测样本对的相似度，数据融合模型是利用训练样本集中的各样本对预先构建的初始数据融合模型进行训练得到的，训练样本集包括多个样本对，每个样本对包括两个不同类别的用户数据；基于各预测样本对的相似度和各第二用户数据的标签，确定待预测用户数据的标签。本申请实施例可提高标签预测结果的置信度。的置信度。的置信度。

技术研发人员：陈星宇徐红蕾郭叶黄志勇
受保护的技术使用者：中国移动通信集团有限公司
技术研发日：2022.12.09
技术公布日：2023/10/20

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

标签预测方法、装置及电子设备与流程

最热文献