相似搜索词的判断方法、系统、存储介质及计算机设备与流程

2022-02-20 05:11:45 来源：中国专利 TAG：

1.本发明涉及相似搜索词的预测技术领域，尤其涉及一种相似搜索词的判断方法、系统、存储介质及计算机设备。

背景技术：

2.现有技术中，平台会根据用户的搜索词向用户进行广告展示，为了合理地向用户行进广告展示，在最终向用户展示广告之前，可以根据用户的搜索词进行广告召回；使得最终展示给用户的广告不仅是与所述用户的搜索词精确匹配的广告，还可以向用户展示所述搜索词相似度高的相似搜索词的广告。
3.但是，在广告召回中如何更好地获取相似搜索词使需要解决的技术问题。
4.综上所述，现有技术在实际使用上显然存在不便与缺陷，所以有必要加以改进。

技术实现要素：

5.针对上述的缺陷，本发明的目的在于提供一种相似搜索词的判断方法、系统、存储介质及计算机设备，获取与用户搜索词相似度高的搜索词，推广广告主的广告，还可以提升平台的收入。
6.为了实现上述目的，本发明提供了一种相似搜索词的判断方法，包括：
7.获取若干共点击数据，每个所述共点击数据包括搜索词、在所述搜索词下点击的url、以及在所述搜索词下点击所述url的点击数；
8.根据两个所述共点击数据中的所述在所述搜索词下点击的url以及所述在所述搜索词下点击所述url的点击数，判断两个所述搜索词的相似度，将相似度高的两个搜索词划为一个正样本；将相似度低的两个所述搜索词划为一个负样本；若干所述正样本以及若干所述负样本形成训练集；
9.将所述训练集作为输入，对语义预训练模型进行训练，获取最终模型。
10.根据所述的相似搜索词的判断方法，所述根据两个所述共点击数据中的所述在所述搜索词下点击的url以及所述在所述搜索词下点击所述url的点击数，判断两个所述搜索词的相似度，将相似度高的两个搜索词划为一个正样本；将相似度低的两个所述搜索词划为一个负样本的步骤包括：
11.将若干所述共点击数据中的搜索词根据在所述搜索词下点击的url以及在所述搜索词下点击所述url的点击数进行评分；
12.所述评分大于第一阈值的搜索词为第一搜索词，所述评分小于等于所述第一阈值的搜索词为第二搜索词；
13.将若干所述共点击数据中url相同的两两所述第一搜索词划为一个正样本，获得若干所述正样本；将url不相同的两两所述第二搜索词划为一个负样本，获得若干所述负样本。
14.根据所述的相似搜索词的判断方法，所述进行评分的计算公式为：
15.s
u1q1
＝c
u1q1-avg(c
u1
)
16.其中，假设搜索词为query1，在所述搜索词下点击的url为url1，s
u1a1
表示query1的评分，c
u1a1
表示在搜索所述query1时点击所述url1的点击数，其中，n指的是在搜索n个搜索词时均点击过url1。
17.根据所述的相似搜索词的判断方法，所述获取若干共点击数据的步骤包括：从用户的点击记录中获取所述若干共点击数据。
18.根据所述的相似搜索词的判断方法，所述语义预训练模型为bert分类模型。
19.根据所述的相似搜索词的判断方法，所述将若干所述训练集作为输入，对语义预训练模型进行训练，获取最终模型的步骤包括：
20.将所述训练集输入所述bert分类模型进行训练，获得第一模型；
21.在所述第一模型中加入一层bilstm网络结构，获得第二模型；
22.获取数据集，在所述第二模型中将数据集作为输入进行训练，并进行两轮fine-tuning的训练策略，获得所述最终模型。
23.根据所述的相似搜索词的判断方法，所述获取数据集，在所述第二模型中将数据集作为输入进行训练，并进行两轮fine-tuning的训练策略，获得所述最终模型的步骤包括：
24.将第一数量的第一初始数据集分别输入所述第一模型中，所述第一模型输出，将所述第一初始数据集标注为第一正样本或者第一负样本，获得第一数据集；
25.将第二数量的第二初始数据集进行人工标注，人工将所述第二初始数据集标注为第二正样本或者第二负样本，获得第二数据集；
26.在所述第二模型中将所述第一数据集作为输入进行训练，并进行了第一轮fine-tuning；
27.在所述第二模型中将所述第二数据集作为输入进行训练，并进行了第二轮fine-tuning，获得所述最终模型。
28.为了实现上述目的，本发明还提供了一种相似搜索词的判断系统，包括：
29.共点击数据获取模块，用于获取若干共点击数据，每个所述共点击数据包括搜索词、在所述搜索词下点击的url、以及在所述搜索词下点击所述url的点击数；
30.训练集获取模块，用于根据两个所述共点击数据中的所述在所述搜索词下点击的url以及所述在所述搜索词下点击所述url的点击数，判断两个所述搜索词的相似度，将相似度高的两个搜索词划为一个正样本；将相似度低的两个所述搜索词划为一个负样本；若干所述正样本以及若干所述负样本形成训练集；
31.最终模型获取模块，用于将所述训练集作为输入，对语义预训练模型进行训练，获取最终模型。
32.为了实现上述目的，本发明还提供了一种存储介质，用于存储一种用于执行上述任意一种相似搜索词的判断方法的计算机程序。
33.为了实现上述目的，本发明还提供了一种计算机设备，包括存储介质、处理器以及存储在所述存储介质上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的相似搜索词的判断方法。
34.本发明通过获取若干共点击数据，每个所述共点击数据包括搜索词、在所述搜索词下点击的url、以及在所述搜索词下点击所述url的点击数；根据两个所述共点击数据中的所述在所述搜索词下点击的url以及所述在所述搜索词下点击所述url的点击数，判断两个所述搜索词的相似度，将相似度高的两个搜索词划为一个正样本；将相似度低的两个所述搜索词划为一个负样本；若干所述正样本以及若干所述负样本形成训练集；将所述训练集作为输入，对语义预训练模型进行训练，获取最终模型。将用户的搜索词以及广告主提供的搜索词输入最终模型，所述最终模型能够判断出上述两个搜索词是否相似，若相似，则将所述广告主提供的搜索词相关的广告也展示给所述用户，从而实现了推广广告主的广告，还可以提升平台的收入。
附图说明
35.图1是本发明优选实施例的相似搜索词的判断系统的示意图之一；
36.图2是本发明优选实施例的相似搜索词的判断系统的示意图之二；
37.图3是本发明优选实施例的相似搜索词的判断方法的流程图；
38.图4是本发明提供的计算机设备的结构示意图。
39.图5是本发明实施例中的最终模型的示意图。
具体实施方式
40.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
41.需要说明的，本说明书中针对“一个实施例”、“实施例”、“示例实施例”等的引用，指的是描述的该实施例可包括特定的特征、结构或特性，但是不是每个实施例必须包含这些特定特征、结构或特性。此外，这样的表述并非指的是同一个实施例。进一步，在结合实施例描述特定的特征、结构或特性时，不管有没有明确的描述，已经表明将这样的特征、结构或特性结合到其它实施例中是在本领域技术人员的知识范围内的。
42.此外，在说明书及后续的权利要求当中使用了某些词汇来指称特定组件或部件，所属领域中具有通常知识者应可理解，制造商可以用不同的名词或术语来称呼同一个组件或部件。本说明书及后续的权利要求并不以名称的差异来作为区分组件或部件的方式，而是以组件或部件在功能上的差异来作为区分的准则。在通篇说明书及后续的权利要求书中所提及的“包括”和“包含”为一开放式的用语，故应解释成“包含但不限定于”。以外，“连接”一词在此系包含任何直接及间接的电性连接手段。间接的电性连接手段包括通过其它装置进行连接。
43.参见图1～图2，在本发明的第一实施例中提供了一种相似搜索词的判断系统100，包括：
44.共点击数据获取模块10，用于获取若干共点击数据，每个所述共点击数据包括搜索词、在所述搜索词下点击的url、以及在所述搜索词下点击所述url的点击数；
45.训练集获取模块20，用于根据两个所述共点击数据中的所述在所述搜索词下点击的url以及所述在所述搜索词下点击所述url的点击数，判断两个所述搜索词的相似度，将
相似度高的两个搜索词划为一个正样本；将相似度低的两个所述搜索词划为一个负样本；若干所述正样本以及若干所述负样本形成训练集；
46.最终模型获取模块30，用于将所述训练集作为输入，对语义预训练模型进行训练，获取最终模型。
47.在该实施例中，用户在平台上通过搜索词来搜索想要的信息，在广告召回的过程中，判断系统100的最终模型可以判断所述用户的搜索词与广告主提供的广告相关的搜索词是否相似，若相似，则可以将该广告主提供的广告向所述用户进行展示，从而提高所述平台的收入。所述最终模型的获得需要预定的数据来对相关的模型进行训练。具体的是，通过获取若干共点击数据来获取对语义预训练模型进行训练的训练集；优选的是，所述共点击数据获取模块10从用户的点击记录中获取所述若干共点击数据。所述共点击数据可以从pc浏览器的日志中获取。日志会记录用户在浏览器中输入的搜索词(query)，并在返回的搜索结果中返回用户点击的链接(url)。对语义预训练模型进行训练需要正样本，也需要负样本，若两个搜索词的相似度高，则认为该两个搜索词为一个正样本；若两个搜索词的相似度低，则认为该两个搜索词为一个负样本。两个搜索词的相似度通过两个所述搜索词的在共点击数据中的url以及点击数进行判断。可以认为，在共点击数据中的url是相同的并且点击数均为高的两个搜索词的相似度越高。
48.若干所述共点击数据举例：
[0049][0050]
其中，query代表搜索词，ctr代表点击数。
[0051]
参见图2，在本发明的第二实施例中，所述训练集获取模块20包括：
[0052]
评分子模块21，用于将若干所述共点击数据中的搜索词根据在所述搜索词下点击的url以及在所述搜索词下点击所述url的点击数进行评分；所述评分大于第一阈值的搜索词为第一搜索词，所述评分小于等于所述第一阈值的搜索词为第二搜索词；
[0053]
分类子模块22，用于将若干所述共点击数据中url相同的两两所述第一搜索词划为一个正样本，获得若干所述正样本；将url不相同的两两所述第二搜索词划为一个负样本，获得若干所述负样本。
[0054]
在该实施例中，通过评分子模块21对所述共点击数据中的搜索词进行评分，并根据评分将若干所述共点击数据中的搜索词分为第一搜索词或者第二搜索词。若两个第一搜索词在所述共点击数据中的url是相同的，则上述两个第一搜索词形成一个正样本。即在同一url下，评分高的两个第一url相似度高，作为一个正样本。由于在所述共点击数据中url相同的搜索词是可能具有一定的相似性的，而在所述共点击数据中url不相同的搜索词是
不相似的，因此，将评分低并且在所述共点击数据中url不相同的两个搜索词作为负样本。
[0055]
在本发明的第三实施例中，所述评分子模块21进行评分的计算公式为：
[0056]su1q1
＝c
u1q1-avg(c
u1
)
[0057]
其中，假设搜索词为query1，在所述搜索词下点击的url为url1，s
u1a1
表示query1的评分，c
u1a1
表示在搜索所述query1时点击所述url1的点击数，其中，n指的是在搜索n个搜索词时均点击过url1。
[0058]
在该实施例中，通常，一个url会在搜索多个搜索词的过程中均被点击，并且在搜索一个搜索词时，可能有多个url被点击，若只通过点击数难以准确判断搜索词属于正样本或者属于负样本。通过上述计算公式，不仅考虑了当前url与搜索词的关系，也包含了当前搜索词在所有url中的表现。
[0059]
在本发明的第四实施例中，所述语义预训练模型为bert分类模型。
[0060]
在该实施例中，bert分类模型深层的transformer encoder具有强大的语义表征能力。在本实施例中bert分类模型相比使用dssm模型具有更好的效果。
[0061]
参见图2，在本发明的第五实施例中，所述最终模型获取模块30包括：
[0062]
第一模型获取子模块31，用于将所述训练集输入所述bert分类模型进行训练，获得第一模型；
[0063]
第二模型获取子模块32，用于在所述第一模型中加入一层bilstm网络结构，获得第二模型；
[0064]
数据集获取子模块33，用于获取数据集，在所述第二模型中将数据集作为输入进行训练，并进行两轮fine-tuning的训练策略，获得所述最终模型。
[0065]
在该实施例中，bilstm(bi-directional long short-term memory)是深度网络的一种，可以进一步抽象bert提取的特征。获得第二模型后，继续对第二模型进行训练，并且使用了两轮fine-tuning(微调)的训练策略。模型进行训练时会训练网络中各层的参数，在训练之前需要给参数设置一个初始值，而使用fine-turning的训练策略时使用一个训练好的参数作为初始值，从而解决训练样本不足的问题。最终模型的示意图参见图5，bilstm层可以进一步提取bertvec提取的特征；cos-sim为匹配层，可以通过余弦相似度来计算两个语义向量的距离，softmax可以用来计算分类问题的概率。
[0066]
参见图2，在本发明的第六实施例中，所述数据集获取子模块33包括：
[0067]
第一数据集获取单元331，用于将第一数量的第一初始数据集分别输入所述第一模型中，所述第一模型输出，将所述第一初始数据集标注为第一正样本或者第一负样本，获得第一数据集；
[0068]
第二数据集获取单元332，用于将第二数量的第二初始数据集进行人工标注，人工将所述第二初始数据集标注为第二正样本或者第二负样本，获得第二数据集；
[0069]
第一轮微调单元333，用于在所述第二模型中将所述第一数据集作为输入进行训练，并进行了第一轮fine-tuning；
[0070]
第二轮微调单元334，用于在所述第二模型中将所述第二数据集作为输入进行训练，并进行了第二轮fine-tuning，获得所述最终模型。
[0071]
在该实施例中，将第二数量的第二初始数据集进行人工标注可以增强数据的质
量，使得正负样本更加合理。在所述第二模型中将所述第二数据集作为输入进行训练之前进行参数初始值的设置，即进行第二轮fine-tuning；在进行第二轮fine-tuning时使用在所述第二模型中将所述第一数据集作为输入进行训练后的模型参数作为所述参数初始值。
[0072]
在本发明的第七实施例中，第二数据集获取单元332将所述第二负样本分为第一相似度负样本以及第二相似度负样本；所述第二正样本分为第三相似度正样本以及第四相似度正样本；
[0073]
第一相似度负样本中的两个搜索词的相似度低于所述第二相似度负样本；
[0074]
第四相似度正样本中的两个搜索词的相似度高于所述第三相似度正样本。
[0075]
在该实施例中，通过对正样本以及负样本进行进一步的量化，比直接标注为正样本或者正样本更加准确。
[0076]
人工标注的格式举例：
[0077]
1-棉麻品牌女装-花雪纺衫短袖女夏装；
[0078]
0-学校教育文化墙-北方教育学校；
[0079]
2-150千瓦发电机-20千瓦发电机多少钱；
[0080]
3-中级会计报名流程-中级会计师报名时间；
[0081]
上述标注为0的为第一相似度负样本，标注为1的为第二相似度负样本，标注为2的为第三相似度正样本，标注为3的为第四相似度正样本。
[0082]
优选的是，所述第一数量与第二数量的比例为5:1，例如第一数量为100万，第二数量为20万。
[0083]
图3是本发明实施例的相似搜索词的判断方法的流程图，所述相似搜索词的判断方法，包括：
[0084]
步骤s301，获取若干共点击数据，每个所述共点击数据包括搜索词、在所述搜索词下点击的url、以及在所述搜索词下点击所述url的点击数；通过共点击数据获取模块10实现；
[0085]
步骤s302，根据两个所述共点击数据中的所述在所述搜索词下点击的url以及所述在所述搜索词下点击所述url的点击数，判断两个所述搜索词的相似度，将相似度高的两个搜索词划为一个正样本；将相似度低的两个所述搜索词划为一个负样本；若干所述正样本以及若干所述负样本形成训练集；通过训练集获取模块20实现；
[0086]
步骤s303，将所述训练集作为输入，对语义预训练模型进行训练，获取最终模型，通过最终模型获取模块30实现。
[0087]
在该实施例中，用户在平台上通过搜索词来搜索想要的信息，在广告召回的过程中，判断方法中的最终模型可以判断所述用户的搜索词与广告主提供的广告相关的搜索词是否相似，若相似，则可以将该广告主提供的广告向所述用户进行展示，从而提高所述平台的收入。所述相似搜索词的判断方法可以通过上述各个实施例中的判断系统100实现，具体实施过程参见上述各个实施例中，在此不再赘述。
[0088]
在本发明的一个实施例中，所述步骤s302包括：
[0089]
将若干所述共点击数据中的搜索词根据在所述搜索词下点击的url以及在所述搜索词下点击所述url的点击数进行评分；所述评分大于第一阈值的搜索词为第一搜索词，所述评分小于等于所述第一阈值的搜索词为第二搜索词；通过评分子模块21实现；
[0090]
将若干所述共点击数据中url相同的两两所述第一搜索词划为一个正样本，获得若干所述正样本；将url不相同的两两所述第二搜索词划为一个负样本，获得若干所述负样本，通过分类子模块22实现。
[0091]
在本发明的一个实施例中，所述进行评分的计算公式为：
[0092]su1q1
＝c
u1q1-avg(c
u1
)
[0093]
其中，假设搜索词为query1，在所述搜索词下点击的url为url1，s
u1q1
表示query1的评分，c
u1q1
表示在搜索所述query1时点击所述url1的点击数，其中，n指的是在搜索n个搜索词时均点击过url1。通过评分子模块21实现。
[0094]
在本发明的一个实施例中，所述步骤s301包括：从用户的点击记录中获取所述若干共点击数据。通过共点击数据获取模块10实现。
[0095]
在本发明的一个实施例中，所述语义预训练模型为bert分类模型(一种语义相关性模型)。
[0096]
在本发明的一个实施例中，所述将若干所述训练集作为输入，对语义预训练模型进行训练，获取最终模型的步骤包括：
[0097]
将所述训练集输入所述bert分类模型进行训练，获得第一模型；通过第一模型获取子模块31实现；
[0098]
在所述第一模型中加入一层bilstm网络结构，获得第二模型；通过第二模型获取子模块32实现；
[0099]
获取数据集，在所述第二模型中将数据集作为输入进行训练，并进行两轮fine-tuning的训练策略，获得所述最终模型，通过数据集获取子模块33实现。
[0100]
在本发明的一个实施例中，所述获取数据集，在所述第二模型中将数据集作为输入进行训练，并进行两轮fine-tuning的训练策略，获得所述最终模型的步骤包括：
[0101]
将第一数量的第一初始数据集分别输入所述第一模型中，所述第一模型输出，将所述第一初始数据集标注为第一正样本或者第一负样本，获得第一数据集；通过第一数据集获取单元331实现；
[0102]
将第二数量的第二初始数据集进行人工标注，人工将所述第二初始数据集标注为第二正样本或者第二负样本，获得第二数据集；通过第二数据集获取单元332实现；
[0103]
在所述第二模型中将所述第一数据集作为输入进行训练，并进行了第一轮fine-tuning；通过第一轮微调单元333实现；
[0104]
在所述第二模型中将所述第二数据集作为输入进行训练，并进行了第二轮fine-tuning，获得所述最终模型，通过第二轮微调单元334实现。
[0105]
在本发明的一个实施例中，所述第二负样本分为第一相似度负样本以及第二相似度负样本；所述第二正样本分为第三相似度正样本以及第四相似度正样本；
[0106]
第一相似度负样本中的两个搜索词的相似度低于所述第二相似度负样本；
[0107]
第四相似度正样本中的两个搜索词的相似度高于所述第三相似度正样本。
[0108]
优选的是，所述第一数量与第二数量的比例为5:1。
[0109]
本发明还提供一种存储介质，用于存储一种用于执行上述任意一种任务调度方法的计算机程序。例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调
用或提供根据本技术的方法和/或技术方案。而调用本技术的方法的程序指令，可能被存储在固定的或可移动的存储介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输和/或被存储在根据程序指令运行的计算机设备的存储介质中。在此，根据本技术的一个实施例中，包括一个如图4所示的计算机设备400，所述计算机设备400优选包括用于存储计算机程序的存储介质200和用于执行计算机程序的处理器300，其中，当该计算机程序被该处理器300执行时，触发该计算机设备400执行基于前述多个实施例中的方法和/或技术方案。
[0110]
需要注意的是，本技术可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(asic)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本技术的软件程序可以通过处理器执行以实现上文步骤或功能。同样地，本技术的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，ram存储器，磁或光驱动器或软磁盘及类似设备。另外，本技术的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。
[0111]
根据本发明的方法可以作为计算机实现方法在计算机上实现、或者在专用硬件中实现、或以两者的组合的方式实现。用于根据本发明的方法的可执行代码或其部分可以存储在计算机程序产品上。计算机程序产品的示例包括存储器设备、光学存储设备、集成电路、服务器、在线软件等。优选地，计算机程序产品包括存储在计算机可读介质上以便当所述程序产品在计算机上执行时执行根据本发明的方法的非临时程序代码部件。
[0112]
在优选实施例中，计算机程序包括适合于当计算机程序在计算机上运行时执行根据本发明的方法的所有步骤的计算机程序代码部件。优选地，在计算机可读介质上体现计算机程序。
[0113]
综上所述，本发明通过获取若干共点击数据，每个所述共点击数据包括搜索词、在所述搜索词下点击的url、以及在所述搜索词下点击所述url的点击数；根据两个所述共点击数据中的所述在所述搜索词下点击的url以及所述在所述搜索词下点击所述url的点击数，判断两个所述搜索词的相似度，将相似度高的两个搜索词划为一个正样本；将相似度低的两个所述搜索词划为一个负样本；若干所述正样本以及若干所述负样本形成训练集；将所述训练集作为输入，对语义预训练模型进行训练，获取最终模型。将用户的搜索词以及广告主提供的搜索词输入最终模型，所述最终模型能够判断出上述两个搜索词是否相似，若相似，则将所述广告主提供的搜索词相关的广告也展示给所述用户，从而实现了推广广告主的广告，还可以提升平台的收入。
[0114]
当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
[0115]
本发明还公开了：a1、一种相似搜索词的判断方法，包括：
[0116]
获取若干共点击数据，每个所述共点击数据包括搜索词、在所述搜索词下点击的url、以及在所述搜索词下点击所述url的点击数；
[0117]
根据两个所述共点击数据中的所述在所述搜索词下点击的url以及所述在所述搜索词下点击所述url的点击数，判断两个所述搜索词的相似度，将相似度高的两个搜索词划为一个正样本；将相似度低的两个所述搜索词划为一个负样本；若干所述正样本以及若干
所述负样本形成训练集；
[0118]
将所述训练集作为输入，对语义预训练模型进行训练，获取最终模型。
[0119]
a2、根据a1所述的相似搜索词的判断方法，所述根据两个所述共点击数据中的所述在所述搜索词下点击的url以及所述在所述搜索词下点击所述url的点击数，判断两个所述搜索词的相似度，将相似度高的两个搜索词划为一个正样本；将相似度低的两个所述搜索词划为一个负样本的步骤包括：
[0120]
将若干所述共点击数据中的搜索词根据在所述搜索词下点击的url以及在所述搜索词下点击所述url的点击数进行评分；
[0121]
所述评分大于第一阈值的搜索词为第一搜索词，所述评分小于等于所述第一阈值的搜索词为第二搜索词；
[0122]
将若干所述共点击数据中url相同的两两所述第一搜索词划为一个正样本，获得若干所述正样本；将url不相同的两两所述第二搜索词划为一个负样本，获得若干所述负样本。
[0123]
a3、根据a2所述的相似搜索词的判断方法，所述进行评分的计算公式为：
[0124]su1q1
＝c
u1q1-avg(c
u1
)
[0125]
其中，假设搜索词为queryl，在所述搜索词下点击的url为url1，s
u1q1
表示query1的评分，c
u1a1
表示在搜索所述query1时点击所述url1的点击数，其中，n指的是在搜索n个搜索词时均点击过url1。
[0126]
a4、根据a1所述的相似搜索词的判断方法，所述获取若干共点击数据的步骤包括：从用户的点击记录中获取所述若干共点击数据。
[0127]
a5、根据a1所述的相似搜索词的判断方法，所述语义预训练模型为bert分类模型。
[0128]
a6、根据a5所述的相似搜索词的判断方法，所述将若干所述训练集作为输入，对语义预训练模型进行训练，获取最终模型的步骤包括：
[0129]
将所述训练集输入所述bert分类模型进行训练，获得第一模型；
[0130]
在所述第一模型中加入一层bilstm网络结构，获得第二模型；
[0131]
获取数据集，在所述第二模型中将数据集作为输入进行训练，并进行两轮fine-tuning的训练策略，获得所述最终模型。
[0132]
a7、根据a6所述的相似搜索词的判断方法，所述获取数据集，在所述第二模型中将数据集作为输入进行训练，并进行两轮fine-tuning的训练策略，获得所述最终模型的步骤包括：
[0133]
将第一数量的第一初始数据集分别输入所述第一模型中，所述第一模型输出，将所述第一初始数据集标注为第一正样本或者第一负样本，获得第一数据集；
[0134]
将第二数量的第二初始数据集进行人工标注，人工将所述第二初始数据集标注为第二正样本或者第二负样本，获得第二数据集；
[0135]
在所述第二模型中将所述第一数据集作为输入进行训练，并进行了第一轮fine-tuning；
[0136]
在所述第二模型中将所述第二数据集作为输入进行训练，并进行了第二轮fine-tuning，获得所述最终模型。
[0137]
a8、根据a7所述的相似搜索词的判断方法，所述第二负样本分为第一相似度负样本以及第二相似度负样本；所述第二正样本分为第三相似度正样本以及第四相似度正样本；
[0138]
第一相似度负样本中的两个搜索词的相似度低于所述第二相似度负样本；
[0139]
第四相似度正样本中的两个搜索词的相似度高于所述第三相似度正样本。
[0140]
a9、根据a7所述的相似搜索词的判断方法，所述第一数量与第二数量的比例为5:1。
[0141]
b10、一种相似搜索词的判断系统，包括：
[0142]
共点击数据获取模块，用于获取若干共点击数据，每个所述共点击数据包括搜索词、在所述搜索词下点击的url、以及在所述搜索词下点击所述url的点击数；
[0143]
训练集获取模块，用于根据两个所述共点击数据中的所述在所述搜索词下点击的url以及所述在所述搜索词下点击所述url的点击数，判断两个所述搜索词的相似度，将相似度高的两个搜索词划为一个正样本；将相似度低的两个所述搜索词划为一个负样本；若干所述正样本以及若干所述负样本形成训练集；
[0144]
最终模型获取模块，用于将所述训练集作为输入，对语义预训练模型进行训练，获取最终模型。
[0145]
b11、根据b10所述的相似搜索词的判断系统，所述训练集获取模块包括：
[0146]
评分子模块，用于将若干所述共点击数据中的搜索词根据在所述搜索词下点击的url以及在所述搜索词下点击所述url的点击数进行评分；所述评分大于第一阈值的搜索词为第一搜索词，所述评分小于等于所述第一阈值的搜索词为第二搜索词；
[0147]
分类子模块，用于将若干所述共点击数据中url相同的两两所述第一搜索词划为一个正样本，获得若干所述正样本；将url不相同的两两所述第二搜索词划为一个负样本，获得若干所述负样本。
[0148]
b12、根据b11所述的相似搜索词的判断系统，所述评分子模块进行评分的计算公式为：
[0149]su1q1
＝c
u1q1-avg(c
u1
)
[0150]
其中，假设搜索词为query1，在所述搜索词下点击的url为url1，s
u1a1
表示query1的评分，c
u1a1
表示在搜索所述query1时点击所述url1的点击数，其中，n指的是在搜索n个搜索词时均点击过url1。
[0151]
b13、根据b10所述的相似搜索词的判断系统，所述共点击数据获取模块从用户的点击记录中获取所述若干共点击数据。
[0152]
b14、根据b10所述的相似搜索词的判断系统，所述语义预训练模型为bert分类模型。
[0153]
b15、根据b14所述的相似搜索词的判断系统，所述最终模型获取模块包括：
[0154]
第一模型获取子模块，用于将所述训练集输入所述bert分类模型进行训练，获得第一模型；
[0155]
第二模型获取子模块，用于在所述第一模型中加入一层bilstm网络结构，获得第二模型；
[0156]
数据集获取子模块，用于获取数据集，在所述第二模型中将数据集作为输入进行训练，并进行两轮fine-tuning的训练策略，获得所述最终模型。
[0157]
b16、根据b15所述的相似搜索词的判断系统，所述数据集获取子模块包括：
[0158]
第一数据集获取单元，用于将第一数量的第一初始数据集分别输入所述第一模型中，所述第一模型输出，将所述第一初始数据集标注为第一正样本或者第一负样本，获得第一数据集；
[0159]
第二数据集获取单元，用于将第二数量的第二初始数据集进行人工标注，人工将所述第二初始数据集标注为第二正样本或者第二负样本，获得第二数据集；
[0160]
第一轮微调单元，用于在所述第二模型中将所述第一数据集作为输入进行训练，并进行了第一轮fine-tuning；
[0161]
第二轮微调单元，用于在所述第二模型中将所述第二数据集作为输入进行训练，并进行了第二轮fine-tuning，获得所述最终模型。
[0162]
b17、根据b16所述的相似搜索词的判断系统，第二数据集获取单元将所述第二负样本分为第一相似度负样本以及第二相似度负样本；所述第二正样本分为第三相似度正样本以及第四相似度正样本；
[0163]
第一相似度负样本中的两个搜索词的相似度低于所述第二相似度负样本；
[0164]
第四相似度正样本中的两个搜索词的相似度高于所述第三相似度正样本。
[0165]
b18、根据b16所述的相似搜索词的判断系统，所述第一数量与第二数量的比例为5:1。
[0166]
c19、一种存储介质，其特征在于，用于存储一种用于执行a1～a9中任意一种相似搜索词的判断方法的计算机程序。
[0167]
d20、一种计算机设备，包括存储介质、处理器以及存储在所述存储介质上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现a1～a9任一项所述的相似搜索词的判断方法。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：物品检测方法、装置、电子装置和存储介质与流程

相似搜索词的判断方法、系统、存储介质及计算机设备与流程

相关文献

最热文献