一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

标签预测方法、装置及电子设备与流程

2023-10-21 15:14:48 来源:中国专利 TAG:


1.本技术涉及数据处理技术领域,尤其涉及一种标签预测方法、装置及电子设备。


背景技术:

2.用户标签是对用户属性、行为、兴趣等特征的抽象与描述,是构成用户画像的核心因素之一。用户标签可以帮助研发人员充分发掘不同用户人群之间的目标、行为和观点的差异,洞察其需求,进而服务于精准营销、个性化产品设计、用户体验优化等技术领域。
3.现有技术中,对于用户标签的预测通常是基于单一数据源的预测,然而,单一数据源中的数据特征较为局限,不能充分地反映用户全面的属性和行为,以此进行标签预测得到的结果的置信度较差。


技术实现要素:

4.本技术实施例提供一种标签预测方法、装置及电子设备,以解决现有用户标签预测方案的预测结果置信度较差的问题。
5.第一方面,本技术实施例提供了一种标签预测方法,包括:
6.获取待预测用户数据,所述待预测用户数据属于第一类用户数据;
7.将所述待预测用户数据分别与预先获取的第二类用户数据中的各第二用户数据构成多个预测样本对;
8.将所述多个预测样本对分别输入数据融合模型进行处理,得到所述数据融合模型输出的各预测样本对的相似度,其中,所述数据融合模型是利用预先获取的训练样本集中的各样本对预先构建的初始数据融合模型进行训练得到的,所述训练样本集包括多个样本对,每个样本对包括两个不同类别的用户数据,且每个样本对标注有真值,所述真值用于表示样本对是否对应同一用户;
9.基于所述各预测样本对的相似度和所述各第二用户数据的标签,确定所述待预测用户数据的标签。
10.可选地,所述基于所述各预测样本对的相似度和所述各第二用户数据的标签,确定所述待预测用户数据的标签,包括:
11.以所述各预测样本对的相似度作为对应预测样本对中的第二用户数据的标签值的权重,对所述各第二用户数据的标签值进行加权,得到加权标签值;
12.将所述加权标签值确定为所述待预测用户数据的标签值。
13.可选地,所述初始数据融合模型包括第一数据处理模块、第二数据处理模块、第一跨模态处理模块、第二跨模态处理模块和特征融合模块;
14.其中,所述将所述多个预测样本对分别输入数据融合模型进行处理,得到所述数据融合模型输出的各预测样本对的相似度,包括:
15.通过所述第一数据处理模块对输入的样本对中的一个用户数据进行特征提取处理,以及,通过所述第二数据处理模块对输入的样本对中的另一个用户数据进行特征提取
处理;
16.通过所述第一跨模态处理模块,基于注意力机制对所述第一数据处理模块的输出特征和所述第二数据处理模块的输出特征进行特征提取和融合处理;
17.通过所述第二跨模态处理模块,基于注意力机制对所述第二数据处理模块的输出特征和所述第一数据处理模块的输出特征进行特征提取和融合处理;
18.通过所述特征融合模块对所述第一跨模态处理模块的输出特征和所述第二跨模态处理模块的输出特征进行融合,并输出输入的样本对中的两个用户数据的相似度。
19.可选地,所述第一数据处理模块为问卷编码器,所述问卷编码器包括编码模块、向量规整模块、池化模块和拼接模块;所述输入的样本对中的一个用户数据为问卷调研数据;
20.所述通过所述第一数据处理模块对输入的样本对中的一个用户数据进行特征提取处理,包括:
21.通过所述编码模块对所述问卷调研数据进行编码,通过所述向量规整模块对所述编码模块的输出向量进行归一化处理,通过所述池化模块对所述编码模块的输出向量池化处理,以及通过所述拼接模块对所述向量规整模块的输出向量与所述池化模块的输出向量进行拼接。
22.可选地,所述第一跨模态处理模块包括第一自注意力模块、第一互注意力模块和第一前馈网络;所述通过所述第一跨模态处理模块,基于注意力机制对所述第一数据处理模块的输出特征和所述第二数据处理模块的输出特征进行特征提取和融合处理,包括:
23.通过所述第一自注意力模块对所述第一数据处理模块的输出特征进行数据内部特征提取处理,通过所述第一互注意力模块对所述第一自注意力模块的输出特征和所述第二数据处理模块的输出特征进行数据间特征提取处理,以及通过所述第一前馈网络对所述第一互注意力模块的输出特征进行连接处理;
24.和/或,所述第二跨模态处理模块包括第二自注意力模块、第二互注意力模块和第二前馈网络;所述通过所述第二跨模态处理模块,基于注意力机制对所述第二数据处理模块的输出特征和所述第一数据处理模块的输出特征进行特征提取和融合处理,包括:
25.通过所述第二自注意力模块对所述第二数据处理模块的输出特征进行数据内部特征提取处理,通过所述第二互注意力模块对所述第二自注意力模块的输出特征和所述第一数据处理模块的输出特征进行数据间特征提取处理,以及通过所述第二前馈网络对所述第二互注意力模块的输出特征进行连接处理。
26.可选地,所述训练样本集包括多个第一类样本对,所述第一类样本对包括一个第一用户数据和一个第二用户数据,所述第一用户数据属于第一类用户数据,所述第二用户数据属于第二类用户数据,所述第一类用户数据和所述第二类用户数据为不同来源的数据;所述第一数据处理模块用于对输入的第一类样本对中的第二用户数据进行处理,所述第二数据处理模块用于对输入的第一类样本对中的第一用户数据进行处理;
27.所述将所述多个预测样本对分别输入数据融合模型进行处理之前,所述方法还包括:
28.获取m个第一用户数据和n个第二用户数据,n和m均为大于1的整数;
29.根据所述第一类用户数据与所述第二类用户数据之间的第一关联特征,确定与目标第二用户数据相似的l个目标第一用户数据,其中,所述目标第一用户数据为所述m个第
一用户数据中的任一第一用户数据,所述目标第二用户数据为所述n个第二用户数据中的第二用户数据,l为正整数;
30.将所述目标第二用户数据分别与所述l个目标第一用户数据构成l个第一类样本对;
31.根据所述l个第一类样本对中各第一类样本对是否对应同一用户,确定所述l个第一类样本中各第一类样本对的真值。
32.可选地,所述第一类用户数据为用户业务行为数据,所述第二类用户数据为问卷调研数据,所述训练样本集还包括多个第二类样本对,所述第二类样本对包括一个第一用户数据和一个第三用户数据;所述第二数据处理模块还用于对输入的第二类样本对中的第三用户数据进行处理;
33.所述将所述多个预测样本对分别输入数据融合模型进行处理之前,所述方法还包括:
34.根据所述第一类样本对进行样本扩充,生成与所述第一类样本对中的第一用户数据对应的第三用户数据,并将每个所述第三用户数据与对应的第一用户数据构成所述第二类样本对,确定所述第二类样本对的真值;
35.利用所述训练样本集中的各第一类样本和各第二类样本对对所述初始数据融合模型进行训练。
36.可选地,所述利用所述训练样本集中的各第一类样本和各第二类样本对所述初始数据融合模型进行训练,包括:
37.将所述训练样本集中的各第一类样本对输入所述初始数据融合模型,获得所述初始数据融合模型输出的第一模型预测值,其中,所述第一模型预测值用于表示输入的第一类样本对中的第一用户数据与第二用户数据的相似度;
38.将所述训练样本集中的各第二类样本对输入共享数据融合模型,获得所述共享数据融合模型输出的第二模型预测值,其中,所述第二模型预测值用于表示输入的第二类样本对中的第一用户数据与第三用户数据的相似度,所述共享数据融合模型包括两个第三跨模态处理模块,所述第三跨模态处理模块与所述第二跨模态处理模块结构相同,且共享权值;
39.基于所述第一模型预测值与所述第一类样本对的真值,确定第一损失值;
40.基于所述第二模型预测值与所述第二类样本对的真值,确定第二损失值;
41.根据所述第一损失值和所述第二损失值,确定加权损失值;
42.基于所述加权损失值,调整所述初始数据融合模型的结构参数。
43.可选地,所述根据所述第一类样本对进行样本扩充,生成与所述第一类样本对中的第一用户数据对应的第三用户数据,并将每个所述第三用户数据与对应的第一用户数据构成所述第二类样本对,确定所述第二类样本对的真值,包括:
44.分别统计所述多个第一类样本对中的正类样本对和负类样本对的特征均值,确定差值集;其中,所述正类样本对的真值为第一值,所述负类样本对的真值为第二值,所述第一值表示样本对对应同一用户,所述第二值表示样本对不对应同一用户;所述差值集包括每个正类样本对中的第一用户数据与所述负类样本对的特征均值的差值,和每个负类样本对中的第一用户数据与所述正类样本对的特征均值的差值;
45.分别从第一高斯分布和第二高斯分布中提取第三用户数据,将从所述第一高斯分布中提取的第三用户数据与对应的第一用户数据构成第一样本对,并确定所述第一样本对的真值为所述第一值,以及将从所述第二高斯分布中提取的第三用户数据与对应的第一用户数据构成第二样本对,并确定所述第二样本对的真值为所述第二值;其中,所述第二类样本对包括所述第一样本对和所述第二样本对,所述第一高斯分布是根据所述第一类样本对中的第一用户数据与所述差值集中p个最小差值对应的p个第一用户数据的特征均值和协方差构建得到的,所述第二高斯分布是根据所述第一类样本对中的第一用户数据与所述差值集中q个最大差值对应的q个第一用户数据的特征均值和协方差构建得到的,p和q为正整数。
46.第二方面,本技术实施例还提供一种标签预测装置,包括:
47.第一获取模块,用于获取待预测用户数据,所述待预测用户数据属于第一类用户数据;
48.第一处理模块,用于将所述待预测用户数据分别与预先获取的第二类用户数据中的各第二用户数据构成多个预测样本对;
49.模型预测模块,用于将所述多个预测样本对分别输入数据融合模型进行处理,得到所述数据融合模型输出的各预测样本对的相似度,其中,所述数据融合模型是利用预先获取的训练样本集中的各样本对预先构建的初始数据融合模型进行训练得到的,所述训练样本集包括多个样本对,每个样本对包括两个不同类别的用户数据,且每个样本对标注有真值,所述真值用于表示样本对是否对应同一用户;
50.第一确定模块,用于基于所述各预测样本对的相似度和所述各第二用户数据的标签,确定所述待预测用户数据的标签。
51.可选地,所述第一确定模块包括:
52.加权处理单元,用于以所述各预测样本对的相似度作为对应预测样本对中的第二用户数据的标签值的权重,对所述各第二用户数据的标签值进行加权,得到加权标签值;
53.第一确定单元,用于将所述加权标签值确定为所述待预测用户数据的标签值。
54.可选地,所述初始数据融合模型包括第一数据处理模块、第二数据处理模块、第一跨模态处理模块、第二跨模态处理模块和特征融合模块;
55.其中,所述模型预测模块用于:
56.通过所述第一数据处理模块,对输入的样本对中的一个用户数据进行特征提取处理,以及,通过所述第二数据处理模块对输入的样本对中的另一个用户数据进行特征提取处理;
57.通过所述第一跨模态处理模块,基于注意力机制对所述第一数据处理模块的输出特征和所述第二数据处理模块的输出特征进行特征提取和融合处理;
58.通过所述第二跨模态处理模块,基于注意力机制对所述第二数据处理模块的输出特征和所述第一数据处理模块的输出特征进行特征提取和融合处理;
59.通过所述特征融合模块对所述第一跨模态处理模块的输出特征和所述第二跨模态处理模块的输出特征进行融合,并输出输入的样本对中的两个用户数据的相似度。
60.可选地,所述第一数据处理模块为问卷编码器,所述问卷编码器包括编码模块、向量规整模块、池化模块和拼接模块;所述输入的样本对中的一个用户数据为问卷调研数据;
61.所述第一数据处理模块用于:
62.通过所述编码模块对所述问卷调研数据进行编码,通过所述向量规整模块对所述编码模块的输出向量进行归一化处理,通过所述池化模块对所述编码模块的输出向量池化处理,以及通过所述拼接模块对所述向量规整模块的输出向量与所述池化模块的输出向量进行拼接。
63.可选地,所述第一跨模态处理模块包括第一自注意力模块、第一互注意力模块和第一前馈网络;所述第一跨模态处理模块用于:
64.通过所述第一自注意力模块对所述第一数据处理模块的输出特征进行数据内部特征提取处理,通过所述第一互注意力模块对所述第一自注意力模块的输出特征和所述第二数据处理模块的输出特征进行数据间特征提取处理,以及通过所述第一前馈网络对所述第一互注意力模块的输出特征进行连接处理;
65.和/或,所述第二跨模态处理模块包括第二自注意力模块、第二互注意力模块和第二前馈网络;所述第二跨模态处理模块用于:
66.通过所述第二自注意力模块对所述第二数据处理模块的输出特征进行数据内部特征提取处理,通过所述第二互注意力模块对所述第二自注意力模块的输出特征和所述第一数据处理模块的输出特征进行数据间特征提取处理,以及通过所述第二前馈网络对所述第二互注意力模块的输出特征进行连接处理。
67.可选地,所述训练样本集包括多个第一类样本对,所述第一类样本对包括一个第一用户数据和一个第二用户数据,所述第一用户数据属于第一类用户数据,所述第二用户数据属于第二类用户数据,所述第一类用户数据和所述第二类用户数据为不同来源的数据;所述第一数据处理模块用于对输入的第一类样本对中的第二用户数据进行处理,所述第二数据处理模块用于对输入的第一类样本对中的第一用户数据进行处理;
68.所述标签预测装置还包括:
69.第二获取模块,用于获取m个第一用户数据和n个第二用户数据,n和m均为大于1的整数;
70.第二确定模块,用于根据所述第一类用户数据与所述第二类用户数据之间的第一关联特征,确定与目标第二用户数据相似的l个目标第一用户数据,其中,所述目标第一用户数据为所述m个第一用户数据中的任一第一用户数据,所述目标第二用户数据为所述n个第二用户数据中的第二用户数据,l为正整数;
71.第二处理模块,用于将所述目标第二用户数据分别与所述l个目标第一用户数据构成l个第一类样本对;
72.第三确定模块,用于根据所述l个第一类样本对中各第一类样本对是否对应同一用户,确定所述l个第一类样本中各第一类样本对的真值。
73.可选地,所述第一类用户数据为用户业务行为数据,所述第二类用户数据为问卷调研数据,所述训练样本集还包括多个第二类样本对,所述第二类样本对包括一个第一用户数据和一个第三用户数据;所述第二数据处理模块还用于对输入的第二类样本对中的第三用户数据进行处理;
74.所述标签预测装置还包括:
75.样本扩充模块,用于根据所述第一类样本对进行样本扩充,生成与所述第一类样
本对中的第一用户数据对应的第三用户数据,并将每个所述第三用户数据与对应的第一用户数据构成所述第二类样本对,确定所述第二类样本对的真值;
76.训练模块,用于利用所述训练样本集中的各第一类样本和各第二类样本对对所述初始数据融合模型进行训练。
77.可选地,所述训练模块包括:
78.第一处理单元,用于将所述训练样本集中的各第一类样本对输入所述初始数据融合模型,获得所述初始数据融合模型输出的第一模型预测值,其中,所述第一模型预测值用于表示输入的第一类样本对中的第一用户数据与第二用户数据的相似度;
79.第二处理单元,用于将所述训练样本集中的各第二类样本对输入共享数据融合模型,获得所述共享数据融合模型输出的第二模型预测值,其中,所述第二模型预测值用于表示输入的第二类样本对中的第一用户数据与第三用户数据的相似度,所述共享数据融合模型包括两个第三跨模态处理模块,所述第三跨模态处理模块与所述第二跨模态处理模块结构相同,且共享权值;
80.第二确定单元,用于基于所述第一模型预测值与所述第一类样本对的真值,确定第一损失值;
81.第三确定单元,用于基于所述第二模型预测值与所述第二类样本对的真值,确定第二损失值;
82.第四确定单元,用于根据所述第一损失值和所述第二损失值,确定加权损失值;
83.调整单元,用于基于所述加权损失值,调整所述初始数据融合模型的结构参数。
84.可选地,所述样本扩充模块包括:
85.第五确定单元,用于分别统计所述多个第一类样本对中的正类样本对和负类样本对的特征均值,确定差值集;其中,所述正类样本对的真值为第一值,所述负类样本对的真值为第二值,所述第一值表示样本对对应同一用户,所述第二值表示样本对不对应同一用户;所述差值集包括每个正类样本对中的第一用户数据与所述负类样本对的特征均值的差值,和每个负类样本对中的第一用户数据与所述正类样本对的特征均值的差值;
86.第六确定单元,用于分别从第一高斯分布和第二高斯分布中提取第三用户数据,将从所述第一高斯分布中提取的第三用户数据与对应的第一用户数据构成第一样本对,并确定所述第一样本对的真值为所述第一值,以及将从所述第二高斯分布中提取的第三用户数据与对应的第一用户数据构成第二样本对,并确定所述第二样本对的真值为所述第二值;其中,所述第二类样本对包括所述第一样本对和所述第二样本对,所述第一高斯分布是根据所述第一类样本对中的第一用户数据与所述差值集中p个最小差值对应的p个第一用户数据的特征均值和协方差构建得到的,所述第二高斯分布是根据所述第一类样本对中的第一用户数据与所述差值集中q个最大差值对应的q个第一用户数据的特征均值和协方差构建得到的,p和q为正整数。
87.第三方面,本技术实施例还提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的标签预测方法中的步骤。
88.第四方面,本技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的标签预测
方法中的步骤。
89.在本技术实施例中,获取待预测用户数据,所述待预测用户数据属于第一类用户数据;将所述待预测用户数据分别与预先获取的第二类用户数据中的各第二用户数据构成多个预测样本对;将所述多个预测样本对分别输入数据融合模型进行处理,得到所述数据融合模型输出的各预测样本对的相似度,其中,所述数据融合模型是利用预先获取的训练样本集中的各样本对预先构建的初始数据融合模型进行训练得到的,所述训练样本集包括多个样本对,每个样本对包括两个不同类别的用户数据,且每个样本对标注有真值,所述真值用于表示样本对是否对应同一用户;基于所述各预测样本对的相似度和所述各第二用户数据的标签,确定所述待预测用户数据的标签。这样,通过将待预测用户数据与另一类用户数据组成预测样本对,并利用融合多类用户数据的特征的数据融合模型来对用户标签进行预测,能够充分挖掘用户全面的属性和行为,进而保证对用户标签进行预测的结果的置信度更高。
附图说明
90.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
91.图1是本技术实施例提供的标签预测方法的流程图;
92.图2是本技术实施例提供的数据融合流程图;
93.图3a是本技术实施例提供的数据融合模型的结构示意图;
94.图3b是本技术实施例提供的问卷编码器的结构示意图;
95.图4是本技术实施例提供的少样本情景下训练数据融合模型的示意图;
96.图5是本技术实施例提供的数据融合模型训练和用户标签预测的流程框架图;
97.图6是本技术实施例提供的标签预测装置的结构图;
98.图7是本技术实施例提供的电子设备的结构图。
具体实施方式
99.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
100.为使本技术实施例更为清楚,下面先对本技术涉及的相关技术知识进行如下介绍:
101.标签是对用户属性、行为、兴趣等特征的抽象与描述,是对用户数据进行大数据分析与挖掘后,生成的具有差异性特征的形容词,是构成用户画像的核心因素之一。用户标签可以帮助我们更准确、更全面地理解用户,同时充分发掘不同用户人群之间的目标、行为和观点的差异,洞察其需求,进而服务于精准营销、个性化产品设计、用户体验优化等多技术领域。
102.目前,用户数据研究领域中已经积累了大量多源数据,包括问卷调研数据、访谈数据、用户业务行为数据等。其中,用户业务行为数据的用户覆盖面广,数据类型较为丰富,但是却缺乏灵活的定性标签,难以提供多样化的分析服务。而问卷调研、访谈等数据,虽然用户覆盖面较小(故称之为小数据,以区别于用户大数据),但是由于可以定制化设计问卷题目,因此可以获得灵活多样的用户定性标签。
103.现有关于标签预测的技术方案一部分是基于单一数据源的预测,例如利用图神经网络和泊松图网络对图结构数据进行处理,构建有监督模型进行训练,进而实现对用户标签的预测;另一部分方案涉及到了多个数据源,这些不同的数据源之间在用户实体上都是一一对应的,主要通过用户id等强关联特征直接进行数据源之间的实体匹配,在此基础上,可以得到一定带真值的样本数据,后续同样也是构建有监督模型进行训练与标签预测。
104.但是上述方法存在如下问题:一是单一数据源中的数据特征较为局限,不能充分地反映用户全面的属性与行为,以此进行标签预测得到的结果置信度较差;二是在多源数据融合方面,实际应用中,由于不同来源的数据统计口径不一致的原因,不同数据源之间的用户实体可能不能一一对应,例如小数据源的用户实体只能映射到部分大数据源用户实体上,同时由于缺乏同一身份认证造成的数据孤岛等因素,使得很难通过用户id这类强关联特征直接进行所有实体之间的关联,这会进一步导致无法提供足量带真值的样本数据供用户标签预测模型进行有监督训练。
105.基于上述技术问题,本技术提供了一种基于深度学习模型进行大小数据融合进而实现用户标签预测的方法。针对大小数据融合中用户实体无法一一匹配的难点,本技术将用户匹配问题建模为二分类问题,使用基于双塔架构的神经网络模型进行大小数据融合的模型训练,训练完成后,对于输入的任意两类用户数据,模型可以输出这两类用户数据的相似度,还可以将此相似度作为权重,将小数据源中的用户标签扩展到大数据源用户上,实现对大数据源的用户标签预测。本技术通过用户数据相似度来实现用户实体软匹配,由此避免了直接使用用户id进行硬匹配导致的用户实体无法完全对应的问题。此外,为了应对大小数据融合模型训练过程中由于数据孤岛产生的真值样本较少等问题,本技术在大小数据融合模型训练的过程中采用对比学习的思想,通过数据增广并在模型损失函数中添加对比损失项的方式,实现了可以基于少样本进行学习的半监督模型训练架构,提升了模型的准确度。
106.本技术中涉及的大小数据融合主要是指结合问卷调研数据与用户业务行为大数据这类有着明显用户实体数量、类型差异的多源数据源,通过算法模型的方式,扩充用户的大数据标签体系,充分挖掘多源数据的潜在价值。
107.本技术旨在通过深度学习模型进行大小数据的融合,综合不同数据源各自的优点,打破数据孤岛,进而实现对用户标签的精准预测,丰富用户标签体系,助力行业业务能力的提升与盈利模式的优化。本技术提供的方法可用于各种大数据源与小数据源之间的融合,后续主要以问卷调研数据作为小数据源的代表,用户大数据(b域、o域、s域等)即用户业务行为数据作为大数据源的代表来举例描述本技术的应用场景。
108.参见图1,图1是本技术实施例提供的标签预测方法的流程图,如图1所示,包括以下步骤:
109.步骤101、获取待预测用户数据,所述待预测用户数据属于第一类用户数据。
110.上述待预测用户数据可以是待预测用户标签的用户数据,且可以是第一类用户数据,即为大数据源用户数据,如可以是从运营商获取的某个用户的业务行为数据。
111.相对地,本技术实施例中的第二类用户数据可以是指小数据源用户数据,如可以是针对某个用户在通信业务使用方面的问卷调研数据。
112.可选地,所述第一类用户数据为用户业务行为数据。
113.由于数据采集方式的限制,大数据源中的用户标签虽然丰富但却不够灵活,缺少用户研究与营销领域需要的定性标签;而小数据源中,由于问卷的题目与选项可以根据需要自行设计,所以获取的用户标签更加灵活准确,但是由于成本、用户参与度等因素的限制,问卷调研能够覆盖的用户面不够广,远低于大数据源用户。所以本技术通过对大小数据源进行融合,将小数据源中的用户标签映射到海量大数据源用户上,能够综合两种数据源的优势,实现对用户标签的精准预测。
114.步骤102、将所述待预测用户数据分别与预先获取的第二类用户数据中的各第二用户数据构成多个预测样本对。
115.上述预先获取的第二类用户数据可以是指预先获取的已知用户标签的多个第二用户数据的集合,如预先获取的多个用户的问卷调研数据,且能够基于各自的问卷调研数据确定所述多个用户的定性标签。所述预先获取的第二类用户数据也可以是指作为训练样本集中的各第一类样本对中的第二用户数据。
116.该步骤中,可以将所述待预测用户数据分别与预先获取的第二类用户数据中的各第二用户数据两两配对,构成多个预测样本对,以便后续对各预测样本对进行相似度检测和标签预测处理。
117.步骤103、将所述多个预测样本对分别输入数据融合模型进行处理,得到所述数据融合模型输出的各预测样本对的相似度,其中,所述数据融合模型是利用预先获取的训练样本集中的各样本对预先构建的初始数据融合模型进行训练得到的,所述训练样本集包括多个样本对,每个样本对包括两个不同类别的用户数据,且每个样本对标注有真值,所述真值用于表示样本对是否对应同一用户。
118.该步骤中,可以将构成的多个预测样本对中的各预测样本对分别输入训练好的数据融合模型,通过所述数据融合模型对各预测样本对进行相似度计算处理,进而获取所述数据融合模型输出的各预测样本对的相似度。
119.其中,所述数据融合模型可以是利用预先获取的训练样本集中的各样本对预先构建的初始数据融合模型进行训练得到的。本技术实施例中,考虑到待训练的数据融合模型的输入为多个数据源的用户数据构成的样本对,模型训练目标为预测样本对中的两个不同数据源用户数据是否匹配同一用户,因此可将其建模为二分类问题,采用双塔架构的深度学习神经网络模型进行处理,即所述初始数据融合模型可以是双塔架构的深度学习神经网络模型。
120.所述训练样本集中可以包括多个由两个用户数据构成的样本对,所述两个用户数据分别属于不同类别的用户数据,所述两个用户数据可以是来自不同数据源,且可以是不同规模的用户数据,例如,其中一个用户数据属于小数据源中的用户数据,如为收集的对用户进行问卷调研或访谈的数据,另一个用户数据属于大数据源中的用户数据,如为从运营商获取的用户业务行为数据。
121.所述训练样本集中的各样本的真值对可以根据其中两个用户数据是否属于同一用户实体来标注,具体地,若确定某个样本对中的两个用户数据属于同一用户实体,即为同一用户的不同类别的数据,则可以标注该样本对的真值为1,表示该样本对为正类样本对,若确定某个样本对中的两个用户数据不属于同一用户实体,即分别为不同用户的不同类别的数据,则可以标注该样本对的真值为0,表示该样本对为负类样本对。
122.所述训练样本集的获取过程,可以是预先收集大量的两类用户数据,将其中属于同一用户的两个不同类用户数据构成正类样本对,将一些不属于同一用户的两个不同类用户数据构成负类样本对,从而得到包括一定数量的正类样本对和负类样本对的训练样本集,将该训练样本集用于训练所需的数据融合模型,以通过该模型来对待识别的两个不同类用户数据进行融合,并预测这两个不同类用户数据的相似度,也即相当于预测这两个不同类用户数据属于同一用户的概率,进而基于相似度和其中一个用户数据的标签来预测另一个用户数据的标签。
123.可选地,所述初始数据融合模型包括第一数据处理模块、第二数据处理模块、第一跨模态处理模块、第二跨模态处理模块和特征融合模块;
124.其中,所述步骤103包括:
125.通过所述第一数据处理模块对输入的样本对中的一个用户数据进行特征提取处理,以及,通过所述第二数据处理模块对输入的样本对中的另一个用户数据进行特征提取处理;
126.通过所述第一跨模态处理模块,基于注意力机制对所述第一数据处理模块的输出特征和所述第二数据处理模块的输出特征进行特征提取和融合处理;
127.通过所述第二跨模态处理模块,基于注意力机制对所述第二数据处理模块的输出特征和所述第一数据处理模块的输出特征进行特征提取和融合处理;
128.通过所述特征融合模块对所述第一跨模态处理模块的输出特征和所述第二跨模态处理模块的输出特征进行融合,并输出输入的样本对中的两个用户数据的相似度。
129.一种实施方式中,待训练的数据融合模型即初始数据融合模型的框架图可如图3a所示,即包括两部分结构大致相同的模块,其中一部分包括第一数据处理模块和第一跨模态处理模块,主要用于对输入的样本对中的一个用户数据进行处理,另一部分包括第二数据处理模块和第二跨模态处理模块,主要用于对输入的样本对中的另一个用户数据进行处理,且该初始数据融合模型还包括特征融合模块,用于对这两部分模块的输出进行融合,进而输出用于表示输入的样本对中的两个用户数据的相似度的模型预测值。
130.其中,所述第一数据处理模块和所述第二数据处理模块主要用于对输入的用户数据进行初步特征提取处理,映射成特征向量,具体结构可根据需处理的用户数据的特征进行相应设计;所述第一跨模态处理模块和所述第二跨模态处理模块可以的结构可以基本相同,并且都采用注意力机制,以对各自的用户数据的内部特征和两个用户数据间的隐含特征进行挖掘;所述特征融合模块则对所述第一跨模态处理模块的输出特征和所述第二跨模态处理模块的输出特征进行融合,以得到输入的两个用户数据的融合特征,并输出输入的样本对中的两个用户数据的相似度。
131.这样,通过以上结构的初始数据融合模型,能够保证最终训练好的数据融合模型能够很好的用于对两类不同大小数据源的用户数据进行融合和相似度计算。
132.此外,在构建好待训练的初始数据融合模型后,可以利用所获取的训练样本集中的各样本对所述初始数据融合模型进行迭代训练,直至得到精度满足要求的数据融合模型。
133.具体地,可以在每次训练过程中,将所述训练样本集中的一个样本对输入所述初始数据融合模型,其中,一个用户数据输入所述第一数据处理模块进行处理,另一个用户数据输入所述第二数据处理模块进行处理;经所述第一数据处理模块的输出特征被送入所述第一跨模态处理模块,经所述第二数据处理模块的输出特征被送入所述第二跨模态处理模块,同时,经所述第二数据处理模块的输出特征还可送入所述第一跨模态处理模块,经所述第一数据处理模块的输出特征还可送入所述第二跨模态处理模块,具体地,可以如图3a所示,经所述第二数据处理模块的输出特征可以通过一个多层感知机(multilayer perceptron,mlp)处理后送入所述第一跨模态处理模块,经所述第一数据处理模块的输出特征也可以通过一个mlp处理后送入所述第二跨模态处理模块;经所述第一跨模态处理模块的输出特征和经所述第二跨模态处理模块的输出特征再一并输入所述特征融合模块进行处理,所述特征融合模块也可以是一个多层感知机mlp,该mlp的输出即为模型预测值。
134.然后,可基于模型预测值与输入样本对的真值,确定模型损失值,并基于模型损失值调整模型结构参数,也即更新模型权重,通过反复的迭代训练过程,完成模型训练,得到训练好的数据融合模型。
135.需说明的是,本技术可对所述训练样本集划分训练集与测试集,如将所述训练样本集中70%的样本对作为训练集,另外30%的样本对作为测试集,对所述数据融合模型进行训练与测试,并可使用交叉熵损失函数来计算模型预测值与真值之间的差值,并以此更新模型权重,通过反复迭代,完成模型训练。最终得到的数据融合模型可以用于后续不同数据源用户数据之间的相似度判断。
136.可选地,所述第一数据处理模块为问卷编码器,所述问卷编码器包括编码模块、向量规整模块、池化模块和拼接模块;所述输入的样本对中的一个用户数据为问卷调研数据;
137.所述通过所述第一数据处理模块对输入的样本对中的一个用户数据进行特征提取处理,包括:
138.通过所述编码模块对所述问卷调研数据进行编码,通过所述向量规整模块对所述编码模块的输出向量进行归一化处理,通过所述池化模块对所述编码模块的输出向量池化处理,以及通过所述拼接模块对所述向量规整模块的输出向量与所述池化模块的输出向量进行拼接。
139.一种实施方式中,所述第一数据处理模块可以被设计为问卷编码器(encoder),以对问卷调研数据进行编码处理,即输入所述数据融合模型的两个用户数据中的其中一个可以是用户的问卷调研数据。
140.问卷调研数据的用户规模较小,因而可以称之为小数据源,由于问卷调研数据为文本类型,故可首先使用一个问卷编码器对其进行编码。所述问卷编码器的具体结构可以如图3b所示,包括编码模块、向量规整模块、池化模块和拼接模块,其中,所述编码模块可以是基于bert的预训练模型,所述池化模块可以是平均池化模块。
141.这样,首先可使用基于bert的预训练模型对问卷的问题、选项及用户作答进行编码;考虑到问卷中包含多道问题,每个问题包含多个选项,而且不同问题包含的选项个数可
能不同,此外用户还可能同时选择多个选项,所以为了规范问卷编码器的输出向量长度,可使用向量规整模块与平均池化模块对同一个问题下的多个选项以及用户作答数据进行处理,而后将一个用户在所有问题下的作答情况经过拼接模块拼接为一个二维张量,作为问卷编码器的输出。
142.这样,通过该实施方式,可以对用户问卷调研数据进行很好地编码处理,提取得到用户问卷调研数据的特征,便于后续作进一步分析处理。
143.可选地,所述第二数据处理模块用于对用户业务行为数据进行处理。
144.即一种实施方式中,所述第二数据处理模块可以被设计为预处理模块,以对用户业务行为数据进行预处理,即输入所述数据融合模型的两个用户数据中的另一个可以是用户业务行为数据,属于大数据源用户数据。
145.相比于小数据源,大数据源中的用户数据基本都是结构化数据,该实施方式中,可直接使用一个预处理模块对其进行处理,所述预处理模块中具体进行的处理操作可包括:缺失值处理、异常值处理、类别型特征映射等中的一个或多个。其中,所述缺失值处理可以是指对于缺失值使用均值或众数(出现多次的值)进行补全处理,所述异常值处理可以是指对于过大值或过小值,使用均值或众数填充/替代,所述类别型特征映射可以是指将文本型特征转换为数值。
146.这样,通过对用户业务行为数据进行预处理,可以将用户业务行为数据处理成适合后续分析处理的特征数据。
147.可选地,所述第一跨模态处理模块包括第一自注意力模块、第一互注意力模块和第一前馈网络;所述通过所述第一跨模态处理模块,基于注意力机制对所述第一数据处理模块的输出特征和所述第二数据处理模块的输出特征进行特征提取和融合处理,包括:
148.通过所述第一自注意力模块对所述第一数据处理模块的输出特征进行数据内部特征提取处理,通过所述第一互注意力模块对所述第一自注意力模块的输出特征和所述第二数据处理模块的输出特征进行数据间特征提取处理,以及通过所述第一前馈网络对所述第一互注意力模块的输出特征进行连接处理;
149.和/或,所述第二跨模态处理模块包括第二自注意力模块、第二互注意力模块和第二前馈网络;所述通过所述第二跨模态处理模块,基于注意力机制对所述第二数据处理模块的输出特征和所述第一数据处理模块的输出特征进行特征提取和融合处理,包括:
150.通过所述第二自注意力模对所述第二数据处理模块的输出特征进行数据内部特征提取处理,通过所述第二互注意力模块对所述第二自注意力模块的输出特征和所述第一数据处理模块的输出特征进行数据间特征提取处理,以及通过所述第二前馈网络对所述第二互注意力模块的输出特征进行连接处理。
151.一种实施方式中,所述初始数据融合模型中的两个跨模态处理模块都可以包括自注意力模块、互注意力模块和前馈网络,其中,自注意力模块的输入为对应数据处理模块的输出,互注意力模块的输入则包括自注意力模块的输出以及对侧数据源编码向量通过一个多层感知机mlp的输出,前馈网络可以是一个全连接神经网络,用于将互注意力模块的输出连接到所述特征融合模块如mlp的输入上。
152.这样,在所述第一数据处理模块和所述第二数据处理模块对输入各自的用户数据完成处理后,可分别将它们的输出展开为向量的形式,而后分别进入对应的跨模态处理模
块进行进一步处理。所述第一跨模态处理模块和所述第二跨模态处理模块可通过注意力机制,充分挖掘不同数据源内部以及不同数据源相互之间的隐含特征,进行多源数据的深度融合。两个用户数据编码向量通过跨模态处理模块的处理后,再一并输入一个多层感知机mlp进行再次融合,该多层感知机mlp的输出即为模型的预测值。
153.该实施方式中,能够通过跨模态处理模块中的自注意力模块和互注意力模块充分挖掘不同数据源内部以及不同数据源相互之间的隐含特征,实现多源数据的深度融合,进而保证模型预测结果的可信度。
154.可选地,所述训练样本集包括多个第一类样本对,所述第一类样本对包括一个第一用户数据和一个第二用户数据,所述第一用户数据属于第一类用户数据,所述第二用户数据属于第二类用户数据,所述第一类用户数据和所述第二类用户数据为不同来源的数据;所述第一数据处理模块用于对输入的第一类样本对中的第二用户数据进行处理,所述第二数据处理模块用于对输入的第一类样本对中的第一用户数据进行处理;
155.所述步骤103之前,所述方法还包括:
156.获取m个第一用户数据和n个第二用户数据,n和m均为大于1的整数;
157.根据所述第一类用户数据与所述第二类用户数据之间的第一关联特征,确定与目标第二用户数据相似的l个目标第一用户数据,其中,所述目标第一用户数据为所述m个第一用户数据中的任一第一用户数据,所述目标第二用户数据为所述n个第二用户数据中的第二用户数据,l为正整数;
158.将所述目标第二用户数据分别与所述l个目标第一用户数据构成l个第一类样本对;
159.根据所述l个第一类样本对中各第一类样本对是否对应同一用户,确定所述l个第一类样本中各第一类样本对的真值。
160.一种实施方式中,所述训练样本集中可以包括多个由第一用户数据和第二用户数据构成的第一类样本对,所述第一用户数据为第一类用户数据中的某个用户数据,所述第二用户数据为第二类用户数据中的某个用户数据,所述第一类用户数据和所述第二类用户数据为不同来源的数据,例如,所述第一类用户数据为大数据源用户数据,所述第二类用户数据为小数据源用户数据,更具体地,例如,所述第一类用户数据可以是运营商的用户业务行为数据,可以包括b域(即业务支撑系统(business support system)的数据域)、o域(即运营支撑系统(operation support system)的数据域)、s域(即管理支撑系统(management support system)的数据域)等用户大数据,所述第二类用户数据可以是问卷调研数据。
161.其中,问卷调研数据可包括问卷的题目、选项以及用户作答行为,对应字段如:问卷题目可以是“除了**信、**q等社交软件,日常您使用最频繁的线上应用有哪些?”,对应的问题选项包括“a.交友类”、“b.购物类”、“c.长视频类”、“d.短视频类”等,用户在这些选项上的作答行为如选择“a”、“c”等。运营商的用户业务行为数据包括b域、o域、s域等数据,对应字段如用户的每用户平均收入(average revenue per user,arpu)、平均每户每月上网流量(dataflow of usage,dou)、平均每户每月通话时长(minutes of usage,mou)、手机品牌、常驻地等。
162.相应地,在训练样本对包括所述第一类样本对的情况下,所述第一数据处理模块用于对输入的第一类样本对中的第二用户数据进行处理,所述第二数据处理模块用于对输
入的第一类样本对中的第一用户数据进行处理,例如,可以设计所述数据融合模型中的第一数据处理模块为对大数据源中的用户数据如用户业务行为数据进行处理的模块,设计所述数据融合模型中的第二数据处理模块为对小数据源中的用户数据如问卷调研数据进行处理的模块。
163.该实施方式中,可以获取若干第一用户数据和若干第二用户数据,所述第一用户数据属于所述第一类用户数据,所述第二用户数据属于所述第二类用户数据,例如,可以获取n个用户的调研问卷数据和以及m个用户的业务行为数据。
164.然后,可根据所述第一类用户数据与所述第二类用户数据之间的第一关联特征,对所述m个第一用户数据的每个第一用户数据,分别确定所述n个第二用户数据中与之相似的若干个第二用户数据,即对该第一用户数据的第一关联特征分别与所述n个第二用户数据的第一关联特征进行匹配,该第一用户数据与某个第二用户数据的匹配度大于一定值则认为二者相似。其中,所述第一关联特征可以是弱关联特征,如年龄、性别、城市、手机品牌、app使用行为等中的一个或多个。而现有技术中常使用的强关联特征,如用户id、手机号等,由于不同数据源采集方式不同以及隐私保护等因素的限制,很难直接大范围地用于多源数据用户匹配。
165.这样,对于每相似的第一用户数据和第二用户数据,可以构成样本对,即为第一类样本对,并可基于各第一类样本对中的用户数据是否对应同一用户实体,确定对应的真值。
166.该实施方式中,考虑到待训练的数据融合模型的训练样本由两个不同来源的用户数据两两配对构成,且大都是由大数据源用户数据(如第一类用户数据)与小数据源用户数据(如第二类用户数据)两两配对构成。而大数据源中的用户规模很大,如果对小数据源中所有的目标用户数据,将之与大数据源中所有的用户数据分别两两配对作为训练数据,那么训练样本量将会过大,更甚的是其中将会包含大量无意义的简单样本,因为绝大部分大数据源的用户数据与小数据源中的目标用户数据有着明显区别,这部分样本对于模型的训练几乎没有正向作用。因此,该实施方式中,可采用图2所示的架构训练大小数据融合模型。
167.具体地,为了剔除大量无意义样本对,可首先使用一个召回模块进行用户数据的预筛选,通过两个数据源之间可以匹配的弱关联特征,将第一类用户数据中与第二类用户数据中的目标用户数据匹配的若干相似用户数据过滤出来,而这些召回的相似用户数据将与目标用户数据两两配对构成第一类样本对,供大小数据融合模型训练使用。
168.例如,将第二类用户数据即小数据源用户数据中的用户数据记作q1,q2,

qm,将第一类用户数据即大数据源用户数据的用户数据记作d1,d2,
…dn
,则对于第二类用户数据中的每个目标用户数据qi(1≤i≤m),可基于弱关联特征从第一类用户数据中召回与之相似的若干用户数据,即目标用户数据qi的召回用户数据集合为{d
i_1
,d
i_2

,d
i_ni
}。
169.然后,可将召回模块返回的召回用户数据集合{d
i_1
,d
i_2

,d
i_ni
}中的各个用户数据与目标用户数据qi进行两两配对,构成训练样本对(qi,d
i_ji
),其中,1≤j≤ni。若qi与d
i_ji
属于一个真实的匹配用户,即对应同一用户实体,那么该样本对(qi,d
i_ji
)的真值就是1,反之则该样本对(qi,d
i_ji
)的真值为0。
170.该实施方式中,召回模块即两类用户数据间的相似匹配的使用缩减了用户数据规模,可以大大减少数据融合模型的训练时间,同时优化了训练样本对的构成,能在一定程度上提升数据融合模型的训练精度。
171.可选地,所述第一类用户数据为用户业务行为数据,所述第二类用户数据为问卷调研数据,所述训练样本集还包括多个第二类样本对,所述第二类样本对包括一个第一用户数据和一个第三用户数据;所述第二数据处理模块还用于对输入的第二类样本对中的第三用户数据进行处理;
172.所述步骤103之前,所述方法还包括:
173.根据所述第一类样本对进行样本扩充,生成与所述第一类样本对中的第一用户数据对应的第三用户数据,并将每个所述第三用户数据与对应的第一用户数据构成所述第二类样本对,确定所述第二类样本对的真值;
174.利用所述训练样本集中的各第一类样本和各第二类样本对对所述初始数据融合模型进行训练。
175.一种实施方式中,所述第一类用户数据为用户业务行为数据,即属于大数据源,所述第二类用户数据为问卷调研数据,即属于小数据源。而由于数据孤岛和隐私保护等因素,可能无法事先知道所有小数据源中的用户数据在大数据源中对应的真实匹配用户数据,从而会影响大小数据融合模型中带真值的训练样本的数量,而训练样本数量过少会对模型的精度与鲁棒性造成一定影响。因此,该实施方式中,基于对比学习思想提出了一种针对少样本场景的半监督学习方法,用于在真值训练样本不足的情景下的大小数据融合模型训练。
176.为了弥补真值训练样本较少带来的负面影响,可基于对比学习的思想,通过数据增广的方式,对第一类样本对中的大数据源用户数据即第一用户数据进行样本扩充,生成与各第一用户数据分别对应的多个第三用户数据,进而将各第一用户数据分别与对应的第三用户数据构成自带真值的第二类样本对。
177.这样,通过样本扩充得到数量足够的训练样本对,在模型训练时,利用所述训练样本集中的各第一类样本和各第二类样本对对所述初始数据融合模型进行训练,以此保证模型的训练精度。
178.可选地,所述根据所述第一类样本对进行样本扩充,生成与所述第一类样本对中的第一用户数据对应的第三用户数据,并将每个所述第三用户数据与对应的第一用户数据构成所述第二类样本对,确定所述第二类样本对的真值,包括:
179.分别统计所述多个第一类样本对中的正类样本对和负类样本对的特征均值,确定差值集;其中,所述正类样本对的真值为第一值,所述负类样本对的真值为第二值,所述第一值表示样本对对应同一用户,所述第二值表示样本对不对应同一用户;所述差值集包括每个正类样本对中的第一用户数据与所述负类样本对的特征均值的差值,和每个负类样本对中的第一用户数据与所述正类样本对的特征均值的差值;
180.分别从第一高斯分布和第二高斯分布中提取第三用户数据,将从所述第一高斯分布中提取的第三用户数据与对应的第一用户数据构成第一样本对,并确定所述第一样本对的真值为所述第一值,以及将从所述第二高斯分布中提取的第三用户数据与对应的第一用户数据构成第二样本对,并确定所述第二样本对的真值为所述第二值;其中,所述第二类样本对包括所述第一样本对和所述第二样本对,所述第一高斯分布是根据所述第一类样本对中的第一用户数据与所述差值集中p个最小差值对应的p个第一用户数据的特征均值和协方差构建得到的,所述第二高斯分布是根据所述第一类样本对中的第一用户数据与所述差值集中q个最大差值对应的q个第一用户数据的特征均值和协方差构建得到的,p和q为正整
数。
181.一种实施方式中,可以采用如下数据增广方式:
182.首先统计所有带真值的样本对(即已获取的多个第一类样本对)在正负类上的用户特征均值和协方差,即分别统计正类样本对中的用户数据的特征均值和协方差,以及负类样本对中的用户数据的特征均值和协方差;
183.接着对正负类别的每一个样本,计算其与相反类的所有样本的特征均值的差值,即对于正类样本对中的各第一用户数据,分别计算其与负类样本对中的用户数据的特征均值的差值,对于负类样本对中的各第一用户数据,分别计算其与正类样本对中的用户数据的特征均值的差值;
184.然后选取最近的p个样本和最远的q个样本,即从所计算得到的差值中选取p个最小差值,对应的p个第一用户数据即为最近的p个样本,从所计算得到的差值中选取q个最大差值,对应的q个第一用户数据即为最远的q个样本;
185.最后计算这p个最近样本与当前样本(即第一类样本对中的第一用户数据)的用户特征均值与协方差,并以此均值和协方差构建一个高斯分布,而后从该高斯分布中提取若干样本,这些新建样本与当前样本构成的类样本对分类为正,即真值为1;同理可对q个最远样本进行类似处理,得到的新建样本与当前样本构成的样本对分类为负,即真值为1。
186.这样,通过该实施方式,可以扩充出自带真值的第二类样本对,以弥补真值训练样本较少带来的负面影响。
187.可选地,所述利用所述训练样本集中的各第一类样本和各第二类样本对所述初始数据融合模型进行训练,包括:
188.将所述训练样本集中的各第一类样本对输入所述初始数据融合模型,获得所述初始数据融合模型输出的第一模型预测值,其中,所述第一模型预测值用于表示输入的第一类样本对中的第一用户数据与第二用户数据的相似度;
189.将所述训练样本集中的各第二类样本对输入共享数据融合模型,获得所述共享数据融合模型输出的第二模型预测值,其中,所述第二模型预测值用于表示输入的第二类样本对中的第一用户数据与第三用户数据的相似度,所述共享数据融合模型包括两个第三跨模态处理模块,所述第三跨模态处理模块与所述第二跨模态处理模块结构相同,且共享权值;
190.基于所述第一模型预测值与所述第一类样本对的真值,确定第一损失值;
191.基于所述第二模型预测值与所述第二类样本对的真值,确定第二损失值;
192.根据所述第一损失值和所述第二损失值,确定加权损失值;
193.基于所述加权损失值,调整所述初始数据融合模型的结构参数。
194.一种实施方式中,少样本情景下的大小数据融合模型架构可如图4所示,图4中的dnn即为图3a中的跨模态处理模块,包含自注意力模块、互注意力模块和前馈网络三个子模块。通过跨模态处理模块对问卷调研数据和用户业务行为数据经过编码后的向量进行分别处理。
195.该实施方式中,可以将训练样本集中的第一类样本对中的问卷调研数据和用户业务行为数据分别输入所述初始数据融合模型中的问卷编码器和预处理模块进行处理,经过各自的跨模态处理模块处理后,输出第一模型预测值,即输入的第一类样本对中的问卷调
研数据和用户业务行为数据的相似度。
196.对于所述训练样本集中的第二类样本对,可以将其中的用户业务行为数据和对应扩充的用户业务行为数据经过所述预处理模块处理后,分别送入与所述初始数据融合模型中的第二跨模态处理模块结构相同且共享权值的两个第三跨模态处理模块,处理后输出第二模型预测值,即输入的第二类样本对中的两个用户业务行为数据的相似度。
197.也就是说,这些人为构造的第二类样本对可导入两个结构一致的深度神经网络(deep neural networks,dnn),这两个dnn与处理大数据源用户向量的dnn结构一致且权值共享。
198.该实施方式为了减少人为构造样本对(即第二类样本对)对原始样本对(即第一类样本对)的影响,将模型训练分成了两个任务,即一个主任务和一个辅助任务;其中主任务依旧是进行原始样本对的处理与比较,这部分是进行有监督训练,主任务的损失(loss)函数可如下:
[0199][0200][0201]
其中,qi即为小数据源用户数据(如问卷调研数据)通过dnn处理后的编码向量,di为大数据源用户数据(如用户业务行为数据)通过dnn处理后的编码向量,τ为模型的超参数,c(qi,dj)表示计算两个向量的内积除以模长,n为样本对数目。这个损失函数l1衡量了小数据源用户数据qi与当前大数据源用户数据di的相似度和小数据源用户数据qi与所有大数据源用户数据相似度的差距。
[0202]
辅助任务则是对大数据源用户数据与通过数据增广得到的新建样本构成的第二样本对进行学习。同理,辅助任务的损失函数如下所示:
[0203][0204]
其中,di′
为di通过数据增广得到的新建样本。
[0205]
整体模型的损失函数可如下:
[0206]
l=l1 αl2[0207]
其中,α为权重参数,介于-1至1之间,具体值可根据实际需求确定。
[0208]
该实施方式中,可基于上述损失函数的计算公式,计算模型损失值,并可基于模型损失值,调整所述初始数据融合模型的结构参数,如调整图4中dnn模型权重。
[0209]
这样,通过该实施方式,可以基于原始样本对和扩充的样本对对数据融合模型分别进行有监督训练和自监督训练,能够进一步保证模型的训练效果,提高模型训练精度。
[0210]
步骤104、基于所述各预测样本对的相似度和所述各第二用户数据的标签,确定所述待预测用户数据的标签。
[0211]
上述基于所述各预测样本对的相似度和所述各第二用户数据的标签,确定所述待预测用户数据的标签,可以是将所述各预测样本对的相似度中,相似度最高的一个预测样
本对中的第二用户数据的标签作为所述待预测用户数据的标签,或者将所述各预测样本对的相似度中,相似度最高的多个预测样本对中的第二用户数据的标签,确定一个综合标签,作为所述待预测用户数据的标签,还或者,分别将所述各预测样本对中的第二用户数据的标签,按相似度进行加权,确定一目标标签,作为所述待预测用户数据的标签,等等。
[0212]
其中,所述标签可以是指任意能够反应用户属性(如年龄、性别、职业、地域等)、行为或兴趣等特征进行描述的标签词。
[0213]
可选地,所述步骤104包括:
[0214]
以所述各预测样本对的相似度作为对应预测样本对中的第二用户数据的标签值的权重,对所述各第二用户数据的标签值进行加权,得到加权标签值;
[0215]
将所述加权标签值确定为所述待预测用户数据的标签值。
[0216]
一种实施方式中,可以所述各预测样本对的相似度作为对应预测样本对中的第二用户数据的标签值的权重,对所述各第二用户数据的标签值进行加权计算,得到加权标签值,并根据该加权标签值确定对应的用户标签,作为所述待预测用户数据的标签。其中,可以将各不同文本标签转换为不同的标签值,参与标签值加权计算。
[0217]
这样,通过该实施方式,能够保证基于待预测用户数据与各第二用户数据的相似度预测得到的标签结果具备较高置信度。
[0218]
即本实施例中,按照图1所示实施例处理完成数据融合模型的训练后,可以对一个大数据源中的用户数据ds,将其导入标签预测模块,通过所述数据融合模型判断其与小数据源中的所有用户数据{q1,q2,

,qm}的相似度{f(ds,q1),f(ds,q2),

,f(ds,qm)},而后以此作为权重,结合小数据源中的用户标签{k1,k2,

,km},进行加权计算,得到大数据源用户数据ds的标签预测结果k。
[0219]
本技术实施例的标签预测方法,获取待预测用户数据,所述待预测用户数据属于第一类用户数据;将所述待预测用户数据分别与预先获取的第二类用户数据中的各第二用户数据构成多个预测样本对;将所述多个预测样本对分别输入数据融合模型进行处理,得到所述数据融合模型输出的各预测样本对的相似度,其中,所述数据融合模型是利用预先获取的训练样本集中的各样本对预先构建的初始数据融合模型进行训练得到的,所述训练样本集包括多个样本对,每个样本对包括两个不同类别的用户数据,且每个样本对标注有真值,所述真值用于表示样本对是否对应同一用户;基于所述各预测样本对的相似度和所述各第二用户数据的标签,确定所述待预测用户数据的标签。这样,通过将待预测用户数据与另一类用户数据组成预测样本对,并利用融合多类用户数据的特征的数据融合模型来对用户标签进行预测,能够充分挖掘用户全面的属性和行为,进而保证对用户标签进行预测的结果的置信度更高。
[0220]
以小数据源用户数据和大数据源用户数据融合为例,本技术的整体处理流程可如图5所示。由于小数据源中的用户数量远小于大数据源中的用户数量,所以本技术可以小数据源中的用户数据{q1,

,qm}作为目标用户数据,使用召回模块,通过一些弱关联特征的匹配从大数据源中召回若干相似用户数据,目标用户数据qi的召回用户数据集合为{d
i_1
,d
i_2
,

,d
i_ni
}。而后,将这些数据作为构成样本对,进行大小数据融合模型的训练,模型架构采用基于双塔架构的神经网络模型,并使用对比学习思想进行少样本的半监督学习。大小数据融合模型训练完毕后,对一个大数据源中的用户数据ds,将其导入标签预测模块,通
过大小数据融合模型判断其与小数据源中的所有用户数据{q1,

,qm}的相似度,而后以此作为权重,将小数据源中灵活且丰富的用户标签映射到大数据源用户数据上,实现对大数据源中用户数据的标签预测。
[0221]
本技术提供了一种基于深度学习模型进行不同用户数据融合进而实现用户标签预测的方法。相比于现有的基于单一数据源进行用户标签预测的技术方案,本技术可以通过基于深度学习的数据融合模型进行多个数据源,如问卷调研数据与用户业务行为数据的融合,这样可以同时结合两种数据源的优点,即大数据源的海量用户和小数据源灵活且丰富的标签,在此基础上进行用户标签预测,其结果置信度更高,同时在融合的过程中,也可以发现数据内部的隐含模式与规律,创造新的价值。其次,相比于现有的直接使用用户id等强关联特征进行多源数据硬匹配的技术方案,本技术采用基于双塔架构的神经网络融合模型,根据融合模型预测的用户相似度分数来实现多源数据的用户软匹配,可用于两个数据源用户实体不能一一对应的大小数据融合场景,应用范围和形式更加灵活。此外,为了应对多源数据融合过程中由数据孤岛因素导致的真值样本不足的少样本场景,本技术还提供了一种基于对比学习的半监督训练过程,实现样本扩充,进而可以基于少量真值样本得到精度较高的数据融合模型。
[0222]
本技术实施例还提供了一种标签预测装置。参见图6,图6是本技术实施例提供的标签预测装置的结构图。由于标签预测装置解决问题的原理与本技术实施例中标签预测方法相似,因此该标签预测装置的实施可以参见方法的实施,重复之处不再赘述。
[0223]
如图6所示,标签预测装置600包括:
[0224]
第一获取模块601,用于获取待预测用户数据,所述待预测用户数据属于第一类用户数据;
[0225]
第一处理模块602,用于将所述待预测用户数据分别与预先获取的第二类用户数据中的各第二用户数据构成多个预测样本对;
[0226]
模型预测模块603,用于将所述多个预测样本对分别输入数据融合模型进行处理,得到所述数据融合模型输出的各预测样本对的相似度,其中,所述数据融合模型是利用预先获取的训练样本集中的各样本对预先构建的初始数据融合模型进行训练得到的,所述训练样本集包括多个样本对,每个样本对包括两个不同类别的用户数据,且每个样本对标注有真值,所述真值用于表示样本对是否对应同一用户;
[0227]
第一确定模块604,用于基于所述各预测样本对的相似度和所述各第二用户数据的标签,确定所述待预测用户数据的标签。
[0228]
可选地,第一确定模块604包括:
[0229]
加权处理单元,用于以所述各预测样本对的相似度作为对应预测样本对中的第二用户数据的标签值的权重,对所述各第二用户数据的标签值进行加权,得到加权标签值;
[0230]
第一确定单元,用于将所述加权标签值确定为所述待预测用户数据的标签值。
[0231]
可选地,所述初始数据融合模型包括第一数据处理模块、第二数据处理模块、第一跨模态处理模块、第二跨模态处理模块和特征融合模块;
[0232]
其中,所述模型预测模块用于:
[0233]
通过所述第一数据处理模块,对输入的样本对中的一个用户数据进行特征提取处理,以及,通过所述第二数据处理模块对输入的样本对中的另一个用户数据进行特征提取
处理;
[0234]
通过所述第一跨模态处理模块,基于注意力机制对所述第一数据处理模块的输出特征和所述第二数据处理模块的输出特征进行特征提取和融合处理;
[0235]
通过所述第二跨模态处理模块,基于注意力机制对所述第二数据处理模块的输出特征和所述第一数据处理模块的输出特征进行特征提取和融合处理;
[0236]
通过所述特征融合模块对所述第一跨模态处理模块的输出特征和所述第二跨模态处理模块的输出特征进行融合,并输出输入的样本对中的两个用户数据的相似度。
[0237]
可选地,所述第一数据处理模块为问卷编码器,所述问卷编码器包括编码模块、向量规整模块、池化模块和拼接模块;所述输入的样本对中的一个用户数据为问卷调研数据;
[0238]
所述第一数据处理模块用于:
[0239]
通过所述编码模块对所述问卷调研数据进行编码,通过所述向量规整模块对所述编码模块的输出向量进行归一化处理,通过所述池化模块用于对所述编码模块的输出向量池化处理;以及通过所述拼接模块用于对所述向量规整模块的输出向量与所述池化模块的输出向量进行拼接。
[0240]
可选的,所述第一跨模态处理模块包括第一自注意力模块、第一互注意力模块和第一前馈网络;所述第一跨模态处理模块用于:
[0241]
通过所述第一自注意力模块对所述第一数据处理模块的输出特征进行数据内部特征提取处理,通过所述第一互注意力模块对所述第一自注意力模块的输出特征和所述第二数据处理模块的输出特征进行数据间特征提取处理,以及通过所述第一前馈网络对所述第一互注意力模块的输出特征进行连接处理;
[0242]
和/或,所述第二跨模态处理模块包括第二自注意力模块、第二互注意力模块和第二前馈网络;所述第二跨模态处理模块用于:
[0243]
通过所述第二自注意力模块对所述第二数据处理模块的输出特征进行数据内部特征提取处理,通过所述第二互注意力模块对所述第二自注意力模块的输出特征和所述第一数据处理模块的输出特征进行数据间特征提取处理,以及通过所述第二前馈网络对所述第二互注意力模块的输出特征进行连接处理。
[0244]
可选地,所述训练样本集包括多个第一类样本对,所述第一类样本对包括一个第一用户数据和一个第二用户数据,所述第一用户数据属于第一类用户数据,所述第二用户数据属于第二类用户数据,所述第一类用户数据和所述第二类用户数据为不同来源的数据;所述第一数据处理模块用于对输入的第一类样本对中的第二用户数据进行处理,所述第二数据处理模块用于对输入的第一类样本对中的第一用户数据进行处理;
[0245]
标签预测装置600还包括:
[0246]
第二获取模块,用于获取m个第一用户数据和n个第二用户数据,n和m均为大于1的整数;
[0247]
第二确定模块,用于根据所述第一类用户数据与所述第二类用户数据之间的第一关联特征,确定与目标第二用户数据相似的l个目标第一用户数据,其中,所述目标第一用户数据为所述m个第一用户数据中的任一第一用户数据,所述目标第二用户数据为所述n个第二用户数据中的第二用户数据,l为正整数;
[0248]
第二处理模块,用于将所述目标第二用户数据分别与所述l个目标第一用户数据
构成l个第一类样本对;
[0249]
第三确定模块,用于根据所述l个第一类样本对中各第一类样本对是否对应同一用户,确定所述l个第一类样本中各第一类样本对的真值。
[0250]
可选地,所述第一类用户数据为用户业务行为数据,所述第二类用户数据为问卷调研数据,所述训练样本集还包括多个第二类样本对,所述第二类样本对包括一个第一用户数据和一个第三用户数据;所述第二数据处理模块还用于对输入的第二类样本对中的第三用户数据进行处理;
[0251]
标签预测装置600还包括:
[0252]
样本扩充模块,用于根据所述第一类样本对进行样本扩充,生成与所述第一类样本对中的第一用户数据对应的第三用户数据,并将每个所述第三用户数据与对应的第一用户数据构成所述第二类样本对,确定所述第二类样本对的真值;
[0253]
训练模块,用于利用所述训练样本集中的各第一类样本和各第二类样本对对所述初始数据融合模型进行训练。
[0254]
可选地,所述训练模块包括:
[0255]
第一处理单元,用于将所述训练样本集中的各第一类样本对输入所述初始数据融合模型,获得所述初始数据融合模型输出的第一模型预测值,其中,所述第一模型预测值用于表示输入的第一类样本对中的第一用户数据与第二用户数据的相似度;
[0256]
第二处理单元,用于将所述训练样本集中的各第二类样本对输入共享数据融合模型,获得所述共享数据融合模型输出的第二模型预测值,其中,所述第二模型预测值用于表示输入的第二类样本对中的第一用户数据与第三用户数据的相似度,所述共享数据融合模型包括两个第三跨模态处理模块,所述第三跨模态处理模块与所述第二跨模态处理模块结构相同,且共享权值;
[0257]
第二确定单元,用于基于所述第一模型预测值与所述第一类样本对的真值,确定第一损失值;
[0258]
第三确定单元,用于基于所述第二模型预测值与所述第二类样本对的真值,确定第二损失值;
[0259]
第四确定单元,用于根据所述第一损失值和所述第二损失值,确定加权损失值;
[0260]
调整单元,用于基于所述加权损失值,调整所述初始数据融合模型的结构参数。
[0261]
可选地,所述样本扩充模块包括:
[0262]
第五确定单元,用于分别统计所述多个第一类样本对中的正类样本对和负类样本对的特征均值,确定差值集;其中,所述正类样本对的真值为第一值,所述负类样本对的真值为第二值,所述第一值表示样本对对应同一用户,所述第二值表示样本对不对应同一用户;所述差值集包括每个正类样本对中的第一用户数据与所述负类样本对的特征均值的差值,和每个负类样本对中的第一用户数据与所述正类样本对的特征均值的差值;
[0263]
第六确定单元,用于分别从第一高斯分布和第二高斯分布中提取第三用户数据,将从所述第一高斯分布中提取的第三用户数据与对应的第一用户数据构成第一样本对,并确定所述第一样本对的真值为所述第一值,以及将从所述第二高斯分布中提取的第三用户数据与对应的第一用户数据构成第二样本对,并确定所述第二样本对的真值为所述第二值;其中,所述第二类样本对包括所述第一样本对和所述第二样本对,所述第一高斯分布是
根据所述第一类样本对中的第一用户数据与所述差值集中p个最小差值对应的p个第一用户数据的特征均值和协方差构建得到的,所述第二高斯分布是根据所述第一类样本对中的第一用户数据与所述差值集中q个最大差值对应的q个第一用户数据的特征均值和协方差构建得到的,p和q为正整数。
[0264]
本技术实施例提供的标签预测装置600,可以执行图1所示方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
[0265]
本技术实施例的标签预测装置600,获取待预测用户数据,所述待预测用户数据属于第一类用户数据;将所述待预测用户数据分别与预先获取的第二类用户数据中的各第二用户数据构成多个预测样本对;将所述多个预测样本对分别输入数据融合模型进行处理,得到所述数据融合模型输出的各预测样本对的相似度,其中,所述数据融合模型是利用预先获取的训练样本集中的各样本对预先构建的初始数据融合模型进行训练得到的,所述训练样本集包括多个样本对,每个样本对包括两个不同类别的用户数据,且每个样本对标注有真值,所述真值用于表示样本对是否对应同一用户;基于所述各预测样本对的相似度和所述各第二用户数据的标签,确定所述待预测用户数据的标签。这样,通过将待预测用户数据与另一类用户数据组成预测样本对,并利用融合多类用户数据的特征的数据融合模型来对用户标签进行预测,能够充分挖掘用户全面的属性和行为,进而保证对用户标签进行预测的结果的置信度更高。
[0266]
本技术实施例还提供了一种电子设备。由于电子设备解决问题的原理与本技术实施例中标签预测方法相似,因此该电子设备的实施可以参见方法的实施,重复之处不再赘述。如图7所示,本技术实施例的电子设备,包括处理器700和存储器720。
[0267]
其中,处理器700,用于读取存储器720中的程序,执行下列过程:
[0268]
获取待预测用户数据,所述待预测用户数据属于第一类用户数据;
[0269]
将所述待预测用户数据分别与预先获取的第二类用户数据中的各第二用户数据构成多个预测样本对;
[0270]
将所述多个预测样本对分别输入数据融合模型进行处理,得到所述数据融合模型输出的各预测样本对的相似度,其中,所述数据融合模型是利用预先获取的训练样本集中的各样本对预先构建的初始数据融合模型进行训练得到的,所述训练样本集包括多个样本对,每个样本对包括两个不同类别的用户数据,且每个样本对标注有真值,所述真值用于表示样本对是否对应同一用户;
[0271]
基于所述各预测样本对的相似度和所述各第二用户数据的标签,确定所述待预测用户数据的标签。
[0272]
其中,在图7中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器700代表的一个或多个处理器和存储器720代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。处理器700负责管理总线架构和通常的处理,存储器720可以存储处理器700在执行操作时所使用的数据。
[0273]
可选地,处理器700还用于读取存储器720中的程序,执行如下步骤:
[0274]
以所述各预测样本对的相似度作为对应预测样本对中的第二用户数据的标签值
的权重,对所述各第二用户数据的标签值进行加权,得到加权标签值;
[0275]
将所述加权标签值确定为所述待预测用户数据的标签值。
[0276]
可选地,所述初始数据融合模型包括第一数据处理模块、第二数据处理模块、第一跨模态处理模块、第二跨模态处理模块和特征融合模块;
[0277]
处理器700还用于读取存储器720中的程序,执行如下步骤:
[0278]
通过所述第一数据处理模块对输入的样本对中的一个用户数据进行特征提取处理,以及,通过所述第二数据处理模块对输入的样本对中的另一个用户数据进行特征提取处理;
[0279]
通过所述第一跨模态处理模块,基于注意力机制对所述第一数据处理模块的输出特征和所述第二数据处理模块的输出特征进行特征提取和融合处理;
[0280]
通过所述第二跨模态处理模块,基于注意力机制对所述第二数据处理模块的输出特征和所述第一数据处理模块的输出特征进行特征提取和融合处理;
[0281]
通过所述特征融合模块对所述第一跨模态处理模块的输出特征和所述第二跨模态处理模块的输出特征进行融合,并输出输入的样本对中的两个用户数据的相似度。
[0282]
可选地,所述第一数据处理模块为问卷编码器,所述问卷编码器包括编码模块、向量规整模块、池化模块和拼接模块;所述输入的样本对中的一个用户数据为问卷调研数据;
[0283]
处理器700还用于读取存储器720中的程序,执行如下步骤:
[0284]
通过所述编码模块对所述问卷调研数据进行编码,通过所述向量规整模块对所述编码模块的输出向量进行归一化处理,通过所述池化模块对所述编码模块的输出向量池化处理,以及通过所述拼接模块对所述向量规整模块的输出向量与所述池化模块的输出向量进行拼接。
[0285]
可选地,所述第一跨模态处理模块包括第一自注意力模块、第一互注意力模块和第一前馈网络;处理器700还用于读取存储器720中的程序,执行如下步骤:
[0286]
通过所述第一自注意力模块对所述第一数据处理模块的输出特征进行数据内部特征提取处理,通过所述第一互注意力模块对所述第一自注意力模块的输出特征和所述第二数据处理模块的输出特征进行数据间特征提取处理,以及通过所述第一前馈网络对所述第一互注意力模块的输出特征进行连接处理;
[0287]
和/或,所述第二跨模态处理模块包括第二自注意力模块、第二互注意力模块和第二前馈网络;处理器700还用于读取存储器720中的程序,执行如下步骤:
[0288]
通过所述第二自注意力模块对所述第二数据处理模块的输出特征进行数据内部特征提取处理,通过所述第二互注意力模块对所述第二自注意力模块的输出特征和所述第一数据处理模块的输出特征进行数据间特征提取处理,以及通过所述第二前馈网络对所述第二互注意力模块的输出特征进行连接处理。
[0289]
可选地,所述训练样本集包括多个第一类样本对,所述第一类样本对包括一个第一用户数据和一个第二用户数据,所述第一用户数据属于第一类用户数据,所述第二用户数据属于第二类用户数据,所述第一类用户数据和所述第二类用户数据为不同来源的数据;所述第一数据处理模块用于对输入的第一类样本对中的第二用户数据进行处理,所述第二数据处理模块用于对输入的第一类样本对中的第一用户数据进行处理;
[0290]
处理器700还用于读取存储器720中的程序,执行如下步骤:
[0291]
获取m个第一用户数据和n个第二用户数据,n和m均为大于1的整数;
[0292]
根据所述第一类用户数据与所述第二类用户数据之间的第一关联特征,确定与目标第二用户数据相似的l个目标第一用户数据,其中,所述目标第一用户数据为所述m个第一用户数据中的任一第一用户数据,所述目标第二用户数据为所述n个第二用户数据中的第二用户数据,l为正整数;
[0293]
将所述目标第二用户数据分别与所述l个目标第一用户数据构成l个第一类样本对;
[0294]
根据所述l个第一类样本对中各第一类样本对是否对应同一用户,确定所述l个第一类样本中各第一类样本对的真值。
[0295]
可选地,所述第一类用户数据为用户业务行为数据,所述第二类用户数据为问卷调研数据,所述训练样本集还包括多个第二类样本对,所述第二类样本对包括一个第一用户数据和一个第三用户数据;所述第二数据处理模块还用于对输入的第二类样本对中的第三用户数据进行处理;
[0296]
处理器700还用于读取存储器720中的程序,执行如下步骤:
[0297]
根据所述第一类样本对进行样本扩充,生成与所述第一类样本对中的第一用户数据对应的第三用户数据,并将每个所述第三用户数据与对应的第一用户数据构成所述第二类样本对,确定所述第二类样本对的真值;
[0298]
利用所述训练样本集中的各第一类样本和各第二类样本对对所述初始数据融合模型进行训练。
[0299]
可选地,处理器700还用于读取存储器720中的程序,执行如下步骤:
[0300]
将所述训练样本集中的各第一类样本对输入所述初始数据融合模型,获得所述初始数据融合模型输出的第一模型预测值,其中,所述第一模型预测值用于表示输入的第一类样本对中的第一用户数据与第二用户数据的相似度;
[0301]
将所述训练样本集中的各第二类样本对输入共享数据融合模型,获得所述共享数据融合模型输出的第二模型预测值,其中,所述第二模型预测值用于表示输入的第二类样本对中的第一用户数据与第三用户数据的相似度,所述共享数据融合模型包括两个第三跨模态处理模块,所述第三跨模态处理模块与所述第二跨模态处理模块结构相同,且共享权值;
[0302]
基于所述第一模型预测值与所述第一类样本对的真值,确定第一损失值;
[0303]
基于所述第二模型预测值与所述第二类样本对的真值,确定第二损失值;
[0304]
根据所述第一损失值和所述第二损失值,确定加权损失值;
[0305]
基于所述加权损失值,调整所述初始数据融合模型的结构参数。
[0306]
可选地,处理器700还用于读取存储器720中的程序,执行如下步骤:
[0307]
分别统计所述多个第一类样本对中的正类样本对和负类样本对的特征均值,确定差值集;其中,所述正类样本对的真值为第一值,所述负类样本对的真值为第二值,所述第一值表示样本对对应同一用户,所述第二值表示样本对不对应同一用户;所述差值集包括每个正类样本对中的第一用户数据与所述负类样本对的特征均值的差值,和每个负类样本对中的第一用户数据与所述正类样本对的特征均值的差值;
[0308]
分别从第一高斯分布和第二高斯分布中提取第三用户数据,将从所述第一高斯分
布中提取的第三用户数据与对应的第一用户数据构成第一样本对,并确定所述第一样本对的真值为所述第一值,以及将从所述第二高斯分布中提取的第三用户数据与对应的第一用户数据构成第二样本对,并确定所述第二样本对的真值为所述第二值;其中,所述第二类样本对包括所述第一样本对和所述第二样本对,所述第一高斯分布是根据所述第一类样本对中的第一用户数据与所述差值集中p个最小差值对应的p个第一用户数据的特征均值和协方差构建得到的,所述第二高斯分布是根据所述第一类样本对中的第一用户数据与所述差值集中q个最大差值对应的q个第一用户数据的特征均值和协方差构建得到的,p和q为正整数。
[0309]
本技术实施例提供的电子设备,可以执行图1所示方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
[0310]
此外,本技术实施例的计算机可读存储介质,用于存储计算机程序,所述计算机程序可被处理器执行实现图1所示方法实施例中的各个步骤。
[0311]
在本技术所提供的几个实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0312]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0313]
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述收发方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0314]
以上所述是本技术的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表