一种模型训练方法及装置与流程

2023-01-06 02:31:08 来源：中国专利 TAG：

1.本发明涉及人工智能技术领域，尤其涉及一种模型训练方法及装置。

背景技术：

2.随着科学技术的发展，人工智能技术不断提高。
3.当前，数据搜索模型和数据推荐模型均可以作为数据匹配模型，基于用户搜索内容和/或用户信息等数据，从目标数据存储空间中查找相匹配的目标数据并反馈给用户，之后用户可以在实际应用场景中对目标数据进行相应的某种操作行为。比如，在数据搜索场景中，目标数据可以包括多条搜索结果数据，此时用户可以在目标数据中点击某条搜索结果数据以查看相关内容；再比如，在数据推荐场景中，目标数据可以包括多个推荐商品数据，用户可以在目标数据中购买感兴趣商品。
4.具体的，现有技术可以通过使用训练数据集训练数据匹配模型，之后利用数据匹配模型为用户提供数据匹配服务。
5.但是，现有模型训练方式的训练效果不佳，可能导致其训练出的数据匹配模型的数据匹配度较低。

技术实现要素：

6.本发明提供一种模型训练方法及装置，用以解决现有技术中模型训练方式的训练效果不佳，可能导致其训练出的数据匹配模型的数据匹配度较低的缺陷，实现对数据匹配模型的训练效果的优化，使得数据匹配模型可以匹配到以及向用户展示更能满足用户实际需求或更感兴趣的数据。
7.本发明提供一种模型训练方法，包括：从数据记录日志中，提取出第一数量的待用于对数据匹配模型进行训练的匹配行为记录数据；其中，各所述匹配行为记录数据均包括相对应的待匹配数据和标注有样本类别标识的至少一条反馈数据，所述样本类别标识包括正样本标识和负样本标识；按照同一所述匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标，利用各所述匹配行为记录数据对所述数据匹配模型进行训练；其中，所述正样本匹配度为标注有所述正样本标识的所述反馈数据与所述待匹配数据的匹配度，所述负样本匹配度为标注有所述负样本标识的所述反馈数据与所述待匹配数据的匹配度。
8.可选的，所述数据匹配模型为数据搜索模型或数据推荐模型。
9.可选的，所述按照同一所述匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标，利用各所述匹配行为记录数据对所述数据匹配模型进行训练，包括：分别确定各所述匹配行为记录数据的对比损失；基于各所述匹配行为记录数据的对比损失，确定综合对比损失；基于所述综合对比损失，更新所述数据匹配模型的模型参数。
10.可选的，所述分别确定各所述匹配行为记录数据的对比损失，包括：
基于交叉熵计算方式，计算出各所述匹配行为记录数据的对比损失。
11.可选的，所述基于各所述匹配行为记录数据的对比损失，确定综合对比损失，包括：将各所述匹配行为记录数据的对比损失输入到综合对比损失确定模型中，获得所述综合对比损失确定模型输出的所述综合对比损失。
12.可选的，当所述数据匹配模型为排序模型时，确定所述待匹配数据与所述反馈数据的匹配度，包括：将所述待匹配数据和所述反馈数据输入到第一特征提取网络，获得所述第一特征提取网络输出的目标向量距离；将所述目标向量距离确定为所述待匹配数据与所述反馈数据的匹配度；其中，所述目标向量距离是由所述第一特征提取网络通过以下步骤生成：分别从已输入的所述待匹配数据和所述反馈数据中提取出第一特征向量和第二特征向量，计算出所述第一特征向量和所述第二特征向量的向量距离，将计算出的向量距离确定为所述目标向量距离。
13.可选的，当所述数据匹配模型为召回模型时，确定所述待匹配数据与所述反馈数据的匹配度，包括：利用第二特征提取网络，从所述待匹配数据中提取出第三特征向量；利用第三特征提取网络，从所述反馈数据提取出第四特征向量；将所述第三特征向量与所述第四特征向量的向量距离确定为所述待匹配数据与所述反馈数据的匹配度。
14.可选的，所述第一数量的所述匹配行为记录数据中包括标注有正样本标识的所述反馈数据和/或标注有负样本标识的所述反馈数据。
15.可选的，在所述按照同一所述匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标，利用各所述匹配行为记录数据对所述数据匹配模型进行训练之前，所述模型训练方法还包括：在所述第一数量的所述匹配行为记录数据中，将非目标匹配行为记录数据中的至少一个所述反馈数据，设置为所述目标匹配行为记录数据中标注有负样本标识的所述反馈数据。
16.本发明还提供一种模型训练装置，包括：提取单元和训练单元；其中：所述提取单元，用于从数据记录日志中，提取出第一数量的待用于对数据匹配模型进行训练的匹配行为记录数据；其中，各所述匹配行为记录数据均包括相对应的待匹配数据和标注有样本类别标识的至少一条反馈数据，所述样本类别标识包括正样本标识和负样本标识；所述训练单元，用于按照同一所述匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标，利用各所述匹配行为记录数据对所述数据匹配模型进行训练；其中，所述正样本匹配度为标注有所述正样本标识的所述反馈数据与所述待匹配数据的匹配度，所述负样本匹配度为标注有所述负样本标识的所述反馈数据与所述待匹配数据的匹配度。
17.可选的，所述数据匹配模型为数据搜索模型或数据推荐模型。
18.可选的，所述训练单元，包括：第一确定单元、第二确定单元和更新单元；
所述第一确定单元，用于分别确定各所述匹配行为记录数据的对比损失；所述第二确定单元，用于基于各所述匹配行为记录数据的对比损失，确定综合对比损失；所述更新单元，用于基于所述综合对比损失，更新所述数据匹配模型的模型参数。
19.可选的，所述第一确定单元用于基于交叉熵计算方式，计算出各所述匹配行为记录数据的对比损失。
20.可选的，所述第二确定单元，包括：输入单元和获得单元；其中：所述输入单元，用于将各所述匹配行为记录数据的对比损失输入到综合对比损失确定模型中；所述获得单元，用于获得所述综合对比损失确定模型输出的所述综合对比损失。
21.可选的，当所述数据匹配模型为排序模型时，确定所述待匹配数据与所述反馈数据的匹配度，设置为：将所述待匹配数据和所述反馈数据输入到第一特征提取网络，获得所述第一特征提取网络输出的目标向量距离；将所述目标向量距离确定为所述待匹配数据与所述反馈数据的匹配度；其中，所述目标向量距离是由所述第一特征提取网络通过以下步骤生成：分别从已输入的所述待匹配数据和所述反馈数据中提取出第一特征向量和第二特征向量，计算出所述第一特征向量和所述第二特征向量的向量距离，将计算出的向量距离确定为所述目标向量距离。
22.可选的，当所述数据匹配模型为召回模型时，确定所述待匹配数据与所述反馈数据的匹配度，设置为：利用第二特征提取网络，从所述待匹配数据中提取出第三特征向量；利用第三特征提取网络，从所述反馈数据提取出第四特征向量；将所述第三特征向量与所述第四特征向量的向量距离确定为所述待匹配数据与所述反馈数据的匹配度。
23.可选的，所述第一数量的所述匹配行为记录数据中包括标注有正样本标识的所述反馈数据和/或标注有负样本标识的所述反馈数据。
24.可选的，所述模型训练装置还包括设置单元；所述设置单元，用于在所述按照同一所述匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标，利用各所述匹配行为记录数据对所述数据匹配模型进行训练之前，在所述第一数量的所述匹配行为记录数据中，将非目标匹配行为记录数据中的至少一个所述反馈数据，设置为所述目标匹配行为记录数据中标注有负样本标识的所述反馈数据。
25.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述模型训练方法。
26.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述模型训练方法。
27.本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器
执行时实现如上述任一种所述模型训练方法。
28.本发明提供的模型训练方法及装置，可以从数据记录日志中，提取出第一数量的待用于对数据匹配模型进行训练的匹配行为记录数据；其中，各匹配行为记录数据均包括相对应的待匹配数据和标注有样本类别标识的至少一条反馈数据，样本类别标识包括正样本标识和负样本标识；按照同一匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标，利用各匹配行为记录数据对数据匹配模型进行训练；其中，正样本匹配度为标注有正样本标识的反馈数据与待匹配数据的匹配度，负样本匹配度为标注有负样本标识的反馈数据与待匹配数据的匹配度。本发明在利用第一数量的匹配行为记录数据对数据匹配模型进行训练过程中，可以充分利用到同一匹配行为记录数据中标注正样本标识的反馈数据与标注负样本标识的反馈数据之间的对比关系，以同一匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标对数据匹配模型进行训练，优化对数据匹配模型的训练效果，使得数据匹配模型可以匹配到以及向用户展示更能满足用户实际需求或更感兴趣的数据。
附图说明
29.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
30.图1是本发明实施例提供的模型训练方法的流程示意图之一；图2是本发明实施例提供的模型训练方法的流程示意图之二；图3是本发明实施例提供的对比损失的计算流程示意图；图4是本发明实施例提供的单塔模型的对比损失计算流程示意图；图5是本发明实施例提供的双塔模型的对比损失计算流程示意图；图6是本发明实施例提供的模型训练装置的结构示意图；图7是本发明实施例提供的电子设备的结构示意图。
具体实施方式
31.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
32.下面结合图1-图5描述本发明的模型训练方法。
33.如图1所示，本发明实施例提出第一种模型训练方法。该方法可以包括以下步骤：s101、从数据记录日志中，提取出第一数量的待用于对数据匹配模型进行训练的匹配行为记录数据；其中，各匹配行为记录数据均包括相对应的待匹配数据和标注有样本类别标识的至少一条反馈数据，样本类别标识包括正样本标识和负样本标识；其中，数据记录日志可以为记录用户行为数据的日志，具体可以记录有由用户发起或者针对用户的多个数据匹配行为（如用户发起的内容搜索行为或针对用户的数据推荐行为）的过程记录数据即多条匹配行为记录数据。具体的，本发明可以从数据记录日志中的
隐式反馈数据中提取出匹配行为记录数据。
34.其中，第一数量可以为不小于1的正整数。
35.可选的，数据匹配模型可以为数据搜索模型或数据推荐模型。需要说明的是，在数据搜索和数据推荐的应用场景中，数据匹配模型均可以包括排序模型和召回模型。
36.具体的，匹配行为记录数据可以包括相对应的待匹配数据、反馈数据组和样本类别标识组。
37.其中，待匹配数据可以是由用户在发起内容搜索行为时输入至搜索框中的搜索数据，如文本、图像或语音数据等；待匹配数据也可以是针对用户的数据推荐行为中用于进行数据推荐所需的用户信息（如年龄、性别和职业等）和历史浏览内容等相关数据。
38.其中，反馈数据组可以包括系统基于待匹配数据所反馈的与待匹配数据相匹配的至少一条反馈数据，如文本、图像、视频和网页等。具体的，反馈数据组可以是以列表形式展现各条反馈数据。
39.可以理解的是，在向用户展示各条反馈数据后，如果用户对某条反馈数据进行了某种操作行为，比如点击，则本发明可以认为用户对于该条反馈数据具有一定的兴趣程度，或者认为该条反馈数据可以满足用户需求，此时可以认为该条反馈数据与待匹配数据的匹配程度较高，将该条反馈数据确定为正样本，此时本发明可以使用正样本标识来标识该反馈数据；而如果用户对某条反馈数据未进行某种操作行为，则本发明可以认为用户未对该条反馈数据感兴趣，或者认为该条反馈数据未满足用户需求，此时可以认为该条反馈数据与待匹配数据的匹配程度较低，将该条反馈数据确定为负样本，使用负样本标识来标识该反馈数据。
40.具体的，样本类别标识组中可以包括用于标识各条反馈数据所属样本类别的样本类别标识。样本类别标识可以包括正样本标识和负样本标识，具体可以用于标识用户是否对反馈数据进行某种操作行为（比如点击、下载或购买等操作行为）。可以理解的是，样本类别标识组中的各样本类别标识与反馈数据组中的各反馈数据可以是一一对应的。
41.可选的，样本类别标识可以是由数字、字母和符号等至少一种字符构成的标识符。可选的，正样本标识可以为1，负样本标识可以为0。
42.具体的，如果用户对某条反馈数据进行了某种操作行为，则本发明可以在匹配行为记录数据中使用正样本标识来标识该反馈数据；如果用户未对某条反馈数据进行某种操作行为，则本发明可以在匹配行为记录数据中使用负样本标识来标识该反馈数据。
43.可选的，本发明可以由人工对反馈数据进行正样本标识或负样本标识的标注；可选的，本发明可以由机器按照预定义策略，根据用户针对反馈数据所进行的操作行为，映射出反馈数据的样本标识。预定义策略可以为根据用户对反馈数据的操作行为，对反馈数据进行相应样本标识的策略。比如，当用户对反馈数据进行了某种操作行为（如点击、下载和购买等）时，机器按照预定义策略可以映射出反馈数据的样本标识为正样本标识，当用户对反馈数据未进行某种操作行为时，机器按照预定义策略可以映射出反射数据的样本标识为负样本标识。当然，当用户对反馈数据进行了某种操作行为时，机器按照预定义策略也可以映射出反馈数据的样本标识为负样本标识，当用户对反馈数据未进行某种操作行为时，机器按照预定义策略可以映射出反射数据的样本标识为正样本标识。
44.具体的，匹配行为记录数据中可以依次排列有待匹配数据、反馈数据组和样本类
别标识组。比如：query|user1item1item2item3item40101；其中，query和user1为待匹配数据；query为用户搜索内容数据，user1为用户信息；item1、item2、item3和item4即为反馈数据组，各item均作为一个反馈数据展示给用户；0、1、0和1即为样本类别标识组，分别为item1、item2、item3和item4的样本类别标识，其中，1为正样本标识，可以表示用户点击了反馈数据，0为负样本标识，标识用户未点击反馈数据；因此，item1、item2、item3和item4中，item2和item4被用户点击，item1和item3仅是展现而未被用户点击。
45.s102、按照同一匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标，利用各匹配行为记录数据对数据匹配模型进行训练；其中，正样本匹配度为标注有正样本标识的反馈数据与待匹配数据的匹配度，负样本匹配度为标注有负样本标识的反馈数据与待匹配数据的匹配度。
46.具体的，本发明可以在获得第一数量的匹配行为记录数据后，利用第一数量的匹配行为记录数据对数据匹配模型进行迭代训练，直至数据匹配模型的模型性能满足相应要求。
47.可选的，本发明在利用第一数量的匹配行为记录数据对数据匹配模型进行训练过程中，可以单独使用各匹配行为记录数据对数据匹配模型进行训练，也可以批量使用第一数量的匹配行为记录数据中的部分或全部匹配行为记录数据对数据匹配模型进行训练。
48.可选的，本发明可以利用梯度下降法进行迭代训练，以最小化数据匹配模型的目标函数，获得模型性能满足相应要求的数据匹配模型。
49.需要说明的是，一个匹配行为记录数据中可以同时包括标注有正样本标识的反馈数据和标注有负样本标识的反馈数据，该两种反馈数据在同一匹配行为记录数据中具有对比关系。因此，本发明在利用各匹配行为记录数据对数据匹配模型进行训练过程中，可以充分利用到同一匹配行为记录数据中标注有正样本标识的反馈数据与标注有负样本标识的反馈数据之间的对比关系，以同一匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标对数据匹配模型进行训练，优化对数据匹配模型的训练效果，使得数据匹配模型可以匹配到更能满足用户实际需求或更感兴趣的反馈数据。
50.具体的，本发明在利用第一数量的匹配行为记录数据对数据匹配模型进行训练过程中，可以计算出匹配行为记录数据的目标损失函数，基于目标损失函数来更新数据匹配模型的模型参数，优化数据匹配模型，直至数据匹配模型的模型性能满足相应要求。
51.可选的，如图2所示，在本发明实施例提出的第二种模型训练方法中，步骤s102可以包括：s201、分别确定各匹配行为记录数据的对比损失；具体的，本发明可以在获得第一数量的匹配行为记录数据后，分别获得各匹配行为记录数据的对比损失。比如，当第一数量的匹配行为记录数据中包括第一匹配行为记录数据和第二匹配行为记录数据时，本发明可以获得第一匹配行为记录数据的对比损失，获得第二匹配行为记录数据的对比损失。
52.可选的，步骤s201可以包括：基于交叉熵计算方式，计算出各匹配行为记录数据的对比损失；其中，交叉熵计算
方式为：；其中，lj为匹配行为记录数据j的对比损失，m为一个匹配行为记录数据中反馈数据的数量；i为反馈数据的序号；yi为样本类别标识；zi为待匹配数据与序号为i的反馈数据的匹配度；g()为sigmoid函数。
53.其中，反馈数据与待匹配数据的匹配度可以为相似度、相关性、兴趣满足度和需求满足度等。具体的，本发明可以分别提取出反馈数据和待匹配数据的特征向量，之后计算两个特征向量的向量距离，将计算出的向量距离确定为反馈数据与待匹配数据的匹配度。
54.s202、基于各匹配行为记录数据的对比损失，确定综合对比损失；具体的，本发明可以在确定出各匹配行为记录数据的对比损失后，基于各匹配行为记录数据的对比损失确定出综合对比损失。
55.可选的，步骤s202可以包括：将各匹配行为记录数据的对比损失输入到综合对比损失确定模型中，获得综合对比损失确定模型输出的综合对比损失；其中，综合对比损失确定模型为：；其中，n为第一数量，n为第一数量的匹配行为记录数据中反馈数据的总数量。
56.可选的，本发明可以在对比损失和/或综合对比损失中加入正则化系数，并利用加入正则化系数后的目标损失函数对数据匹配模型进行模型参数的更新。
57.s203、基于综合对比损失，更新数据匹配模型的模型参数。
58.具体的，本发明可以基于综合对比损失和梯度下降法，对数据匹配模型进行训练，更新数据匹配模型的模型参数，最小化数据匹配模型的综合对比损失，直至数据匹配模型的模型性能满足要求。
59.如图3所示，本发明实施例提出一种对比损失的计算流程示意图。在图3中，query|user可以表示包括query侧和user侧在内的用户侧数据，均属于待匹配数据；其中，query侧的数据可以为用户在发起内容搜索行为时输入至搜索框中的搜索内容，可以包括搜索文本和意图等；user侧的数据可以为用户个人信息，可以包括性别、年龄和兴趣等。query|user在不同的场景可以包含不同的数据，比如在搜索场景中，可以包括query侧数据和user侧数据，也可以仅包括query侧数据；再比如推荐场景，可以仅包括user侧数据而无需包括query侧数据；item可以表示item商品侧数据，即反馈数据组中的反馈数据，item1、item2、item3
…
itemn均可以表示一个反馈数据。需要说明的是，在不同的应用场景下商品的含义是广泛的，如app、食品、化妆品和文章等，item侧数据可以包括很多内容，包括对象名称、文本内容和具体类型等。
60.在图3中，encoder可以表示一个深度网络结构，根据具体应用场景的不同，其具体
网络结构可以为dnn、deepfm或transformer等；user encoder可以为用于从用户侧数据中提取出特征向量user embedding的深度网络结构，item encoder可以分别从item侧数据的各条item数据中提取出特征向量item1 embedding、item2 embedding、item3 embedding
…
itemn embedding。具体的，本发明可以分别将从item侧数据的各条item数据中提取出的特征向量，与从用户侧数据中提出的特征向量进行向量距离计算（如图3所示的相似度计算），获得相应的各反馈数据与待匹配数据的匹配度z1、z2、z3…
z1，之后再基于各匹配度计算出目标损失函数loss，利用目标函数loss更新数据匹配模型的模型参数。
61.需要说明的是，由于数据匹配结果是可以一次匹配query|user条件下，将数据匹配模型的反馈数据item的相似度从大到小排序的，因此本发明可以关注在同一次数据匹配行为下，匹配结果列表中item之间的相对关系。具体的，本发明可以将一次数据匹配结果中展现的n个item特征都和相同的query|user作为一个对比集合即作为同一条匹配行为记录数据，n个item可以共用同一个itemencoder，此时整个网络中的参数（包括特征的向量表达embedding）对query|user和n个item都是共享的，此时对网络中的参数进行迭代可以影响到一次展现结果中所有item和query|user的相似度。本发明可以在此结构下采用梯度下降对网络中的参数进行迭代，约束数据匹配模型的训练优化方向，促使数据匹配模型向着在一次数据匹配行为下数据匹配模型预测出query|user和正样本相似度比负样本相似度更高的方向进行优化，使得数据匹配模型可以匹配到更能满足用户实际需求或更感兴趣的数据。
62.当前，在现有技术中，每个query|user-item和其对应的一个反馈数据可以作为一个训练样本，如下述的两个训练样本：query|user
ꢀꢀꢀ
item1
ꢀꢀ
1；query|user
ꢀꢀꢀ
item2
ꢀꢀ
0；此时，现有技术在分batch进行计算时，同一个匹配结果列表中的样本可以在不同batch下，此时同一个匹配结果列表中的正负样本之间可能没有关联。在复杂的样本数据分布下，没有机制和强约束保证模型迭代优化过程中在一次数据匹配行为下正负样本间的相对关系。且，由于query|user可以对应不同数量的item，因此整体loss将会被对应item数量大的样本组所支配。而本发明中，item数量大的匹配行为记录数据或item数量小的匹配行为记录数据，均会作为一个对比集合参与训练过程，本发明可以在mini-batch中采用数量固定（如上述第一数量）的匹配行为记录数据，以缓解部分数据匹配结果列表中item数量对整体模型训练的影响。
63.需要说明的是，本发明通过计算各匹配行为记录数据的对比损失，确定综合对比损失，并基于综合对比损失来实现对数据匹配模型的模型参数的更新优化，直至获得训练好的数据匹配模型，可以充分利用各匹配行为记录数据中不同样本类别标识的反馈数据间对比关系，对数据匹配模型进行训练，有效保障训练效果，使得数据匹配模型可以匹配到更能满足用户实际需求或更感兴趣的数据。
64.本发明提出的模型训练方法，可以从数据记录日志中，提取出第一数量的待用于对数据匹配模型进行训练的匹配行为记录数据；其中，各匹配行为记录数据均包括相对应的待匹配数据和标注有样本类别标识的至少一条反馈数据，样本类别标识包括正样本标识和负样本标识；按照同一匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目
标，利用各匹配行为记录数据对数据匹配模型进行训练；其中，正样本匹配度为标注有正样本标识的反馈数据与待匹配数据的匹配度，负样本匹配度为标注有负样本标识的反馈数据与待匹配数据的匹配度。本发明在利用第一数量的匹配行为记录数据对数据匹配模型进行训练过程中，可以充分利用到同一匹配行为记录数据中标注正样本标识的反馈数据与标注负样本标识的反馈数据之间的对比关系，以同一匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标对数据匹配模型进行训练，优化对数据匹配模型的训练效果，使得数据匹配模型可以匹配到以及向用户展示更能满足用户实际需求或更感兴趣的数据。
65.基于上述第一种模型训练方法，本发明实施例提出第三种模型训练方法，在该方法中，当数据匹配模型为排序模型时，确定待匹配数据与反馈数据的匹配度，包括：将待匹配数据和反馈数据输入到第一特征提取网络，获得第一特征提取网络输出的目标向量距离；将目标向量距离确定为待匹配数据与反馈数据的匹配度；其中，目标向量距离是由第一特征提取网络通过以下步骤生成：分别从已输入的待匹配数据和反馈数据中提取出第一特征向量和第二特征向量，计算出第一特征向量和第二特征向量的向量距离，将计算出的向量距离确定为目标向量距离。
66.需要说明的是，数据搜索和数据推荐场景中均存在有排序模型。
67.具体的，当数据匹配模型为排序模型时，本发明可以设置单塔模型来提取待匹配数据和反馈数据的特征向量，并进行匹配度的计算。如图4所示的单塔模型中，本发明设置有encoder即第一特征提取网络，将用户侧数据和item侧数据输入到encoder中，之后encoder可以分别从用户侧数据和item侧数据中提取出第一特征向量和第二特征向量，并对第一特征向量和第二特征向量进行向量距离计算（如图4所示进行的相似度计算），获得目标向量距离，将目标向量距离确定为匹配度z。
68.可选的，当数据匹配模型为召回模型时，确定待匹配数据与反馈数据的匹配度，包括：利用第二特征提取网络，从待匹配数据中提取出第三特征向量；利用第三特征提取网络，从反馈数据提取出第四特征向量；将第三特征向量与第四特征向量的向量距离确定为待匹配数据与反馈数据的匹配度。
69.需要说明的是，在数据搜索和数据排序场景中，均存在有召回模型。
70.具体的，当数据匹配模型为召回模型时，本发明可以设置双塔模型来提取待匹配数据和反馈数据的特征向量，并进行匹配度的计算。
71.如图5所示的双塔模型中，本发明设置有user encoder和item encoder，即设置有第二特征提取网络和第三特征提取网络，分别利用user encoder和item encoder从用户侧数据（即待匹配数据）和item侧数据中提取出特征向量user embedding和item embedding，即提取出第三特征向量和第四特征向量，之后对user embedding和item embedding进行向量距离计算（如图5所示进行的相似度计算），获得相应的向量距离，并将该向量距离确定为匹配度z。
72.需要说明的是，本发明可以利用余弦相似度计算方式来进行向量间的相似度计算，可以利用向量距离计算公式和深度学习神经网络结构等方式来确定向量距离。
73.可以理解的是，本发明采用考虑一次数据匹配结果列表中正负样本对比关系的对比学习方式，可以应用在数据搜索和数据推荐场景中，对数据搜索和数据推荐场景中的排序模型和/或召回模型进行训练。
74.本发明提出的模型训练方法，可以利用不同方式实现对待匹配数据与反馈数据间匹配度的计算，有效保障数据匹配模型训练效果的提升。
75.基于上述模型训练方法，本发明实施例提出第四种模型训练方法，在该方法中，第一数量的匹配行为记录数据中包括标注有正样本标识的反馈数据和/或标注有负样本标识的反馈数据。
76.具体的，本发明所采用的损失函数的计算方式以及计算匹配度所采用的网络结构，可以允许匹配行为记录数据中包括有较多数量的正样本或较少数量的正样本即标注有正样本标识的反馈数据，并且允许某个或某些匹配行为记录数据中仅包括负样本即标注负样本标识的反馈数据。
77.具体的，本发明可以允许第一数量的匹配行为记录数据中仅包括标注有正样本标识的反馈数据，而不包括标注有负样本标识的反馈数据；本发明也可以允许第一数量的匹配行为记录数据中仅包括标注有负样本标识的反馈数据，而不包括标注有正样本标识的反馈数据。
78.需要说明的是，在数据搜索和数据推荐场景下，很容易出现item曝光比较少或query较长尾等情况，此时反馈数据可能较少，只有负样本仍然可以有助于特征向量表达的学习，对encoder网络的学习也有帮助。具体的，现有技术中包括triple loss、n-pair loss和supervised contrastive learning等对比学习损失方式，该些方式均无法适用于同一次数据匹配结果中具有多个正样本或无正样本的情况，比如，triple loss采用的是一个正样本、一个负样本的计算方式；再比如，n-pair loss对比学习是采用一个正样本、多个负样本的构造方式，比如训练样本query|user2 item1 item2 item3 item4 1 0 0 0。需要说明的是，supervised contrastive learning之前的对比学习方式均是采用自监督的训练方式，而supervised contrastive learning提出了有监督方式下的多个正样本的对比学习方案，但其损失函数是由正样本的softmax结构来计算的，没有正样本的情况是没有损失的，因此不适用于无正样本的情况。但实际上有很多场景中存在部分只有无点击行为（没有正样本，只有负样本）的匹配行为数据，而只有负样本的行为数据对于隐向量的学习也是有帮助的。而本发明所采用的损失函数的计算方式以及计算匹配度所采用的网络结构，可以在有监督方式的训练方式下，允许任一匹配行为记录数据中仅包含正样本标识的反馈数据而不包含负样本标识的反馈数据，也允许某个或某些匹配行为记录数据中仅包括负样本标识的反馈数据而不包含正样本标识的反馈数据。此时，更多的匹配行为记录数据可以作为训练数据，本发明可以在应用于更多训练场景的同时，有效提高训练效率及优化训练效果。
79.本发明提出的模型训练方法，在其所采用的损失函数的计算方式以及计算匹配度所采用的网络结构下，可以采用有监督训练方式，并可以允许任一匹配行为记录数据中仅包含正样本标识的反馈数据而不包含负样本标识的反馈数据，也允许某个或某些匹配行为记录数据中仅包括负样本标识的反馈数据而不包含正样本标识的反馈数据。本发明可以在应用于更多训练场景的同时，有效提高训练效率及优化训练效果。
80.基于上述第一种模型训练方法，本发明提出第五种模型训练方法。该方法在步骤
s102之前，还可以包括：在第一数量的匹配行为记录数据中，将非目标匹配行为记录数据中的至少一个反馈数据，设置为目标匹配行为记录数据中标注有负样本标识的反馈数据。
81.其中，目标匹配行为记录数据可以为第一数量的匹配行为记录数据中的某个匹配行为记录数据。
82.需要说明的是，本发明可以对匹配行为记录数据中的负样本进行扩充，添加有监督或无监督的负样本数据，以此来增大样本数据量，进一步提高训练效率及优化训练效果。可以理解的是，本发明所添加的负样本与待匹配数据的匹配度可以是较小的。
83.还需要说明的是，本发明在对排序模型或召回模型进行训练时，可以在已有的隐式反馈数据的基础上，对负样本做扩充，增加部分有监督或无监督负样本数据。特别是对召回模型，在大部分情况下扩充负样本都是必要的。对排序模型来说，本发明可以针对最终效果的具体问题来扩充负样本。需要说明的是，当召回环节更多的考虑了query和title相似度的情况下，展现item可能较多的表现出query和title有一定相似度，在训练排序模型训练时加入和query不相似title的item作为负样本，有助于排序模型学习到query和title相似度之间关系的能力。
84.具体的，本发明可以从非目标匹配行为记录数据中，选取出反馈数据作为用于扩充目标匹配行为记录数据中标注有负样本标识的反馈数据，以扩充目标匹配行为记录数据中的负样本数量。
85.具体的，本发明可以采用同一batch下其他query的item作为补充负样本，添加到目标匹配行为记录数据中。而不单使用隐式反馈数据中展现的未点击样本作为负样本。
86.可选的，本发明也可以由技术人员根据实际情况选取或制定扩充负样本添加到目标匹配行为记录数据中。
87.本发明提出的模型训练方法，可以对匹配行为记录数据中的负样本进行扩充，增大匹配行为记录数据中的负样本数据，可以进一步提高训练效率和优化训练效果。
88.下面对本发明提供的模型训练装置进行描述，下文描述的模型训练装置与上文描述的模型训练方法可相互对应参照。
89.如图6所示，本发明实施例提出一种模型训练装置，该模型训练装置可以包括：提取单元601和训练单元602；其中：提取单元601，用于从数据记录日志中，提取出第一数量的待用于对数据匹配模型进行训练的匹配行为记录数据；其中，各匹配行为记录数据均包括相对应的待匹配数据和标注有样本类别标识的至少一条反馈数据，样本类别标识包括正样本标识和负样本标识；训练单元602，用于按照同一匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标，利用各匹配行为记录数据对数据匹配模型进行训练；其中，正样本匹配度为标注有正样本标识的反馈数据与待匹配数据的匹配度，负样本匹配度为标注有负样本标识的反馈数据与待匹配数据的匹配度。
90.需要说明的是，提取单元601和训练单元602的具体处理过程及其带来的有益效果，可以分别参照本发明关于图1中步骤s101和s102的相关说明，不再赘述。
91.可选的，数据匹配模型为数据搜索模型或数据推荐模型。
92.可选的，训练单元602，包括：第一确定单元、第二确定单元和更新单元；
第一确定单元，用于分别确定各匹配行为记录数据的对比损失；第二确定单元，用于基于各匹配行为记录数据的对比损失，确定综合对比损失；更新单元，用于基于综合对比损失，更新数据匹配模型的模型参数。
93.可选的，第一确定单元用于基于交叉熵计算方式，计算出各匹配行为记录数据的对比损失。
94.可选的，第二确定单元，包括：输入单元和获得单元；其中：输入单元，用于将各匹配行为记录数据的对比损失输入到综合对比损失确定模型中；获得单元，用于获得综合对比损失确定模型输出的综合对比损失。
95.可选的，当数据匹配模型为排序模型时，确定待匹配数据与反馈数据的匹配度，设置为：将待匹配数据和反馈数据输入到第一特征提取网络，获得第一特征提取网络输出的目标向量距离；将目标向量距离确定为待匹配数据与反馈数据的匹配度；其中，目标向量距离是由第一特征提取网络通过以下步骤生成：分别从已输入的待匹配数据和反馈数据中提取出第一特征向量和第二特征向量，计算出第一特征向量和第二特征向量的向量距离，将计算出的向量距离确定为目标向量距离。
96.可选的，当数据匹配模型为召回模型时，确定待匹配数据与反馈数据的匹配度，设置为：利用第二特征提取网络，从待匹配数据中提取出第三特征向量；利用第三特征提取网络，从反馈数据提取出第四特征向量；将第三特征向量与第四特征向量的向量距离确定为待匹配数据与反馈数据的匹配度。
97.可选的，第一数量的匹配行为记录数据中包括标注有正样本标识的反馈数据和/或标注有负样本标识的反馈数据。
98.可选的，模型训练装置还包括设置单元；设置单元，用于在按照同一匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标，利用各匹配行为记录数据对数据匹配模型进行训练之前，在第一数量的匹配行为记录数据中，将非目标匹配行为记录数据中的至少一个反馈数据，设置为目标匹配行为记录数据中标注有负样本标识的反馈数据。
99.本发明提出的模型训练装置，可以从数据记录日志中，提取出第一数量的待用于对数据匹配模型进行训练的匹配行为记录数据；其中，各匹配行为记录数据均包括相对应的待匹配数据和标注有样本类别标识的至少一条反馈数据，样本类别标识包括正样本标识和负样本标识；按照同一匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标，利用各匹配行为记录数据对数据匹配模型进行训练；其中，正样本匹配度为标注有正样本标识的反馈数据与待匹配数据的匹配度，负样本匹配度为标注有负样本标识的反馈数据与待匹配数据的匹配度。本发明在利用第一数量的匹配行为记录数据对数据匹配模型进行训练过程中，可以充分利用到同一匹配行为记录数据中标注正样本标识的反馈数据与标注负样本标识的反馈数据之间的对比关系，以同一匹配行为记录数据中正样本匹配度高于负
样本匹配度的训练目标对数据匹配模型进行训练，优化对数据匹配模型的训练效果，使得数据匹配模型可以匹配到以及向用户展示更能满足用户实际需求或更感兴趣的数据。
100.图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(communications interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行模型训练方法，该方法包括：从数据记录日志中，提取出第一数量的待用于对数据匹配模型进行训练的匹配行为记录数据；其中，各匹配行为记录数据均包括相对应的待匹配数据和标注有样本类别标识的至少一条反馈数据，样本类别标识包括正样本标识和负样本标识；按照同一匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标，利用各匹配行为记录数据对数据匹配模型进行训练；其中，正样本匹配度为标注有正样本标识的反馈数据与待匹配数据的匹配度，负样本匹配度为标注有负样本标识的反馈数据与待匹配数据的匹配度。
101.此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器（rom，read-only memory）、随机存取存储器（ram，random access memory）、磁碟或者光盘等各种可以存储程序代码的介质。
102.另一方面，本发明还提供一种计算机程序产品，计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，计算机程序被处理器执行时，计算机能够执行上述各方法所提供的模型训练方法，该方法包括：从数据记录日志中，提取出第一数量的待用于对数据匹配模型进行训练的匹配行为记录数据；其中，各匹配行为记录数据均包括相对应的待匹配数据和标注有样本类别标识的至少一条反馈数据，样本类别标识包括正样本标识和负样本标识；按照同一匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标，利用各匹配行为记录数据对数据匹配模型进行训练；其中，正样本匹配度为标注有正样本标识的反馈数据与待匹配数据的匹配度，负样本匹配度为标注有负样本标识的反馈数据与待匹配数据的匹配度。
103.又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的模型训练方法，该方法包括：从数据记录日志中，提取出第一数量的待用于对数据匹配模型进行训练的匹配行为记录数据；其中，各匹配行为记录数据均包括相对应的待匹配数据和标注有样本类别标识的至少一条反馈数据，样本类别标识包括正样本标识和负样本标识；按照同一匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标，利用各匹配行为记录数据对数据匹配模型进行训练；其中，正样本匹配度为标注有正样本标识
的反馈数据与待匹配数据的匹配度，负样本匹配度为标注有负样本标识的反馈数据与待匹配数据的匹配度。
104.以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
105.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。
106.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种工业互联网的动态安全防护系统及安全物理防护机构的制作方法

一种模型训练方法及装置与流程

相关文献

最热文献