相似url的获取方法及其系统、相似用户的获取方法及其系统与流程

2022-02-20 05:10:25 来源：中国专利 TAG：

1.本发明涉及相似性计算技术领域，尤其涉及一种相似url的获取方法及其系统以及相似用户的获取方法及其系统。

背景技术：

2.在现有技术中，定向用户拓展是展示广告中一个很重要的环节，决定了广告会展示给哪些用户。传统的做法是，广告主会根据对广告的认知，提供一批url，从而将广告展示给点击过这些url的用户。
3.这样的做法存在一定的弊端：
4.1、广告主的思维局限，提供的url不够全面，从而影响广告的曝光；
5.2、广告主对用户的定位不够准确，提供的url并不一定与自身广告的定位是一致的。
6.综上所述，现有技术在实际使用上显然存在不便与缺陷，所以有必要加以改进。

技术实现要素：

7.针对上述的缺陷，本发明的目的在于提供了一种相似url的获取方法及其系统以及相似用户的获取方法及其系统，能够有效的进行相似性拓展，将广告等信息进行拓展推广。
8.为了实现上述目的，本发明提供了一种相似url的获取方法，包括：
9.获取第一url；
10.获取所述第一url分别在若干搜索词下的第一点击次数；
11.获取在所述若干搜索词下被点击的第二url；
12.获取所述第二url分别在所述若干搜索词下的第二点击次数；
13.根据所述第一点击次数以及所述第二点击次数计算所述第一url与所述第二url的行为相似度；
14.根据所述行为相似度判断所述第二url是否为所述第一url的相似url。
15.根据所述的相似url的获取方法，所述获取在所述若干搜索词下被点击的第二url的步骤之前还包括：
16.计算所述第一url与所述第二url的共现次数；
17.判断所述共现次数是否小于等于第一阈值，若是，则所述第二url不是所述第一url的相似url。
18.根据所述的相似url的获取方法，所述行为相似度的计算公式为：
[0019][0020]
其中，sim(url1，url2)表示行为相似度；所述若干搜索词分别为query1、query2、query3、
…
queryn，pv
11
表示在搜索query1时点击所述第一url的第一点击次数，pv
21
表示在
搜索query2时点击所述第一url的第一点击次数，依次类推；pv
12
表示在搜索query1时点击所述第二url的第二点击次数，pv
22
表示在搜索query2时点击所述第二url的第二点击次数，依次类推；n为所述若干搜索词的总数。
[0021]
根据所述的相似url的获取方法，所述根据所述行为相似度判断所述第二url是否为所述第一url的相似url的步骤包括：
[0022]
判断所述行为相似度是否大于第二阈值，若是，则所述第二url为所述第一url的相似url。
[0023]
根据所述的相似url的获取方法，所述根据所述行为相似度判断所述第二url是否为所述第一url的相似url的步骤包括：
[0024]
获取所述第一url的网站的第一标题，以及获取所述第二url的网站的第二标题；
[0025]
计算所述第一标题与第二标题的语义相似度；
[0026]
将所述语义相似度融合所述行为相似度，获得综合相似度；
[0027]
判断所述综合相似度是否大于第三阈值，若是，则所述第二url为所述第一url的相似url。
[0028]
为了实现本发明的另一发明目的，还提供了一种相似url的获取系统，包括：
[0029]
第一url获取模块，用于获取第一url；
[0030]
第一点击次数获取模块，用于获取所述第一url分别在若干搜索词下的第一点击次数；
[0031]
第二url获取模块，用于获取在所述若干搜索词下被点击的第二url；
[0032]
第二点击次数获取模块，用于获取所述第二url分别在所述若干搜索词下的第二点击次数；
[0033]
行为相似度计算模块，用于根据所述第一点击次数以及所述第二点击次数计算所述第一url与所述第二url的行为相似度；
[0034]
网站标题获取模块，用于获取所述第一url的网站的第一标题，以及获取所述第二url的网站的第二标题；
[0035]
语义相似度计算模块，用于计算所述第一标题与第二标题的语义相似度；
[0036]
综合相似度计算模块，用于将所述语义相似度融合所述行为相似度，获得综合相似度；
[0037]
相似url判断模块，用于判断所述综合相似度是否大于第三阈值，若是，则所述第二url为所述第一url的相似url。
[0038]
为了实现本发明的另一发明目的，还提供了一种相似用户的获取方法，包括：
[0039]
获取第一用户；
[0040]
获取所述第一用户分别点击若干网站的第一点击次数；
[0041]
获取点击若干所述网站的所有用户；
[0042]
获取所述所有用户分别点击若干所述网站的第二点击次数；
[0043]
根据所述第一点击次数以及所述第二点击次数进行相似度计算，从所述所有用户中判断出与所述第一用户相似度高的第二用户。
[0044]
根据所述的相似用户的获取方法，还包括：
[0045]
获取所述第一用户的第一画像数据和第一行为数据；
[0046]
获取所述第二用户的第二画像数据和第二行为数据；
[0047]
将所述第一画像数据和第一行为数据表示成第一向量；
[0048]
将所述第二画像数据和第二行为数据表示成第二向量；
[0049]
根据第一向量以及第二向量计算所述第一用户以及第二用户的相似性分数；
[0050]
判断所述相似性分数是否大于第一阈值，若是，则所述第二用户为所述第一用户的相似用户。
[0051]
为了实现本发明的另一发明目的，还提供了一种相似用户的获取系统，包括：
[0052]
第一用户获取模块，用于获取第一用户；
[0053]
第一点击次数获取模块，用于获取所述第一用户分别点击若干网站的第一点击次数；
[0054]
用户获取模块，用于获取点击若干所述网站的所有用户；
[0055]
第二点击次数获取模块，用于获取所述所有用户分别点击若干所述网站的第二点击次数；
[0056]
第二用户获取模块，用于根据所述第一点击次数以及所述第二点击次数进行相似度计算，从所述所有用户中判断出与所述第一用户相似度高的第二用户。
[0057]
根据所述的相似用户的获取系统，还包括：
[0058]
第一数据获取模块，用于获取所述第一用户的第一画像数据和第一行为数据；
[0059]
第二数据获取模块，用于获取所述第二用户的第二画像数据和第二行为数据；
[0060]
第一向量表示模块，用于将所述第一画像数据和第一行为数据表示成第一向量；
[0061]
第二向量表示模块，用于将所述第二画像数据和第二行为数据表示成第二向量；
[0062]
相似用户获取模块，用于根据第一向量以及第二向量计算所述第一用户以及第二用户的相似性分数；判断所述相似性分数是否大于第一阈值，若是，则所述第二用户为所述第一用户的相似用户。
[0063]
本发明通过相似url的获取方法获取第一url；第一url可以是广告主提供的需要向用户推荐广告的url；获取所述第一url分别在若干搜索词下的第一点击次数；获取在所述若干搜索词下被点击的第二url；获取所述第二url分别在所述若干搜索词下的第二点击次数；根据所述第一点击次数以及所述第二点击次数计算所述第一url与所述第二url的行为相似度；根据所述行为相似度判断所述第二url是否为所述第一url的相似url，可以将相似utl作为拓展对象，将发布于第一url的信息也发布于相似url。借此，本发明可以实现能够有效的进行相似性拓展，将广告等信息进行拓展推广。
附图说明
[0064]
图1是本发明优选实施例提供的相似url的获取系统的结构示意图；
[0065]
图2是本发明优选实施例提供的相似url的获取方法的流程图之一；
[0066]
图3是本发明优选实施例提供的相似url的获取方法的流程图之二；
[0067]
图4是本发明优选实施例提供的相似用户的获取系统的结构示意图之一；
[0068]
图5是本发明优选实施例提供的相似用户的获取系统的结构示意图之二；
[0069]
图6是本发明优选实施例提供的相似用户的获取方法的流程图；
[0070]
图7是本发明优选实施例提供的dssm模型结构示意图。
具体实施方式
[0071]
为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0072]
需要说明的，本说明书中针对“一个实施例”、“实施例”、“示例实施例”等的引用，指的是描述的该实施例可包括特定的特征、结构或特性，但是不是每个实施例必须包含这些特定特征、结构或特性。此外，这样的表述并非指的是同一个实施例。进一步，在结合实施例描述特定的特征、结构或特性时，不管有没有明确的描述，已经表明将这样的特征、结构或特性结合到其它实施例中是在本领域技术人员的知识范围内的。
[0073]
此外，在说明书及后续的权利要求当中使用了某些词汇来指称特定组件或部件，所属领域中具有通常知识者应可理解，制造商可以用不同的名词或术语来称呼同一个组件或部件。本说明书及后续的权利要求并不以名称的差异来作为区分组件或部件的方式，而是以组件或部件在功能上的差异来作为区分的准则。在通篇说明书及后续的权利要求书中所提及的“包括”和“包含”为一开放式的用语，故应解释成“包含但不限定于”。以外，“连接”一词在此系包含任何直接及间接的电性连接手段。间接的电性连接手段包括通过其它装置进行连接。
[0074]
图1是本实施例提供的相似url的获取系统100的结构示意图，在本发明的第一实施例中提供了一种相似url的获取系统100，包括：
[0075]
第一url获取模块10，用于获取第一url；
[0076]
第一点击次数获取模块20，用于获取所述第一url分别在若干搜索词下的第一点击次数；
[0077]
第二url获取模块30，用于获取在所述若干搜索词下被点击的第二url；
[0078]
第二点击次数获取模块40，用于获取所述第二url分别在所述若干搜索词下的第二点击次数；
[0079]
行为相似度计算模块50，用于根据所述第一点击次数以及所述第二点击次数计算所述第一url与所述第二url的行为相似度；
[0080]
网站标题获取模块60，用于获取所述第一url的网站的第一标题，以及获取所述第二url的网站的第二标题；
[0081]
语义相似度计算模块70，用于计算所述第一标题与第二标题的语义相似度；
[0082]
综合相似度计算模块80，用于将所述语义相似度融合所述行为相似度，获得综合相似度；
[0083]
相似url判断模块90，用于判断所述综合相似度是否大于第三阈值，若是，则所述第二url为所述第一url的相似url。
[0084]
在该实施例中，该相似url的获取系统100可以拓展用于进行广告推荐的url，url指的是与广告主的广告相关的网址。例如广告主需要投放的广告类型为游戏，则广告主会提供一批竞品网站的网址，只要点击过这些网址的用户，则会展示该广告主的广告。首先广告主提供一批种子url(均为第一url)，只要点击过这些第一url的用户都会被展示所述广告主的广告。通过进行相似url的拓展，广告主除了有一批种子url(即第一url)，还有一批通过种子url拓展出来的eurl(即相似url)，只要用户点击种子url，或点击通过种子url拓
展出来的相似url，都可以向所述用户展示该广告主的广告。解决了广告主提供的url不全面的问题。具体的，通过第一url获取模块10获取第一url，第一url可以由广告主提供。可以通过浏览器的日志获取若干共点击数据，每个共点击数据包括搜索词、在所述搜索词下点击的url、以及在所述搜索词下点击所述url的点击数，从而获得了若干与所述第一url相关的搜索词，以及获取在浏览器通过所述搜索词进行搜索时，用户点击所述第一url的第一点击次数；可以通过浏览器的日志获取在浏览器通过上述搜索词进行搜索时，用户点击所述第二url的第二点击次数；将第一url和第二url合称为url-pair，根据所述第一点击次数以及所述第二点击次数计算所述第一url与所述第二url的行为相似度(即url-pair的相似度)，可以根据行为相似度来判断第二url是否为相似url，但是为了更精确地进行相似性的判断，进一步地采用语义相似度来辅助行为相似度进行判断相似性。通过将所述语义相似度与所述行为相似度融合来进行综合考量。语义相似度指的是所述第一url的网站的第一标题以及所述第二url的网站的第二标题的语义相似度，将第一标题以及第二标题合成为title-pair。人在直观上判断两个url是否相似还是基于网站内容之间的语义，由此可以利用网站的标题判断两个网站之间的相似性。当相似url判断模块90判断所述综合相似度大于第三阈值，则所述第二url为所述第一url的相似url。第三阈值优选为0.5。由此，通过相似url的获取系统100获得广告主提供的种子url的相似url，将广告等信息更全面地展示给用户。
[0085]
图2是本发明的相似url的获取方法的流程图，其可通过如图1所示的相似url的获取系统100实现，所述相似url的获取方法，包括：
[0086]
步骤s201，获取第一url；通过第一url获取模块10实现；
[0087]
步骤s202，获取所述第一url分别在若干搜索词下的第一点击次数；通过第一点击次数获取模块20实现；
[0088]
步骤s203，获取在所述若干搜索词下被点击的第二url；通过第二url获取模块30实现；
[0089]
步骤s204，获取所述第二url分别在所述若干搜索词下的第二点击次数；通过第二点击次数获取模块40实现；
[0090]
步骤s205，根据所述第一点击次数以及所述第二点击次数计算所述第一url与所述第二url的行为相似度；通过行为相似度计算模块50实现；
[0091]
步骤s206，根据所述行为相似度判断所述第二url是否为所述第一url的相似url。
[0092]
在该实施例中，该相似url的获取方法可以拓展用于进行广告推荐的url，url指的是与广告主的广告相关的网址。所述第一url可以通过广告主提供来获取；可以通过浏览器的日志获取若干共点击数据，每个共点击数据包括搜索词、在所述搜索词下点击的url、以及在所述搜索词下点击所述url的点击数，从而获得了若干与所述第一url相关的搜索词，以及获取在浏览器通过所述搜索词进行搜索时，用户点击所述第一url的第一点击次数；可以通过浏览器的日志获取在浏览器通过上述搜索词进行搜索时，用户点击所述第二url的第二点击次数；将第一url和第二url合称为url-pair，根据所述第一点击次数以及所述第二点击次数计算所述第一url与所述第二url的行为相似度(即url-pair的相似度)，可以根据行为相似度来判断第二url是否为相似url，如果第二url为相似url，则可以将广告主的广告在第二url中展示，由此实现将广告等信息更全面地展示给用户，增加广告的曝光量。
[0093]
在本发明的一个实施例中，所述步骤s203之前还包括：
[0094]
计算所述第一url与所述第二url的共现次数；
[0095]
判断所述共现次数是否小于等于第一阈值，若是，则所述第二url不是所述第一url的相似url。
[0096]
在该实施例中，为了防止因为用户的误点击导致的噪声数据，通过计算共现次数来去除误点击的第二url；如果第一url与所述第二url的共现次数在平均水平以上，则认为上述两个url是正常点击产生的数据；所述第一url与第二url的共现次数是指在多少搜索词下被共同点击过。例如，搜索query1时点击了第一url和第二url，那第一url和第二url的共现次数为1次；如果搜索query1,
…
,queryn都点击了第一url和第二url，那么第一url和第二url的共现次数为n次。第一阈值优选为3，因为用户搜索query和url的共点击数量非常的多，处理起来比较耗费计算资源，而且大多数据都是长尾的，最终将数据量级控制在千万级别时得到共现次数的第一阈值为3。
[0097]
具体的是，所述行为相似度的计算公式为：
[0098][0099]
其中，sim(url1，url2)表示行为相似度；所述若干搜索词分别为query1、query2、query3、
…
queryn，pv
11
表示在搜索query1时点击所述第一url的第一点击次数，pv
21
表示在搜索query2时点击所述第一url的第一点击次数，依次类推；pv
12
表示在搜索query1时点击所述第二url的第二点击次数，pv
22
表示在搜索query2时点击所述第二url的第二点击次数，依次类推；n为所述若干搜索词的总数。
[0100]
在本发明的一个实施例中，所述步骤s206包括：
[0101]
判断所述行为相似度是否大于第二阈值，若是，则所述第二url为所述第一url的相似url。
[0102]
在本发明的一个实施例中，所述步骤s206包括：
[0103]
获取所述第一url的网站的第一标题，以及获取所述第二url的网站的第二标题；
[0104]
计算所述第一标题与第二标题的语义相似度；
[0105]
将所述语义相似度融合所述行为相似度，获得综合相似度；
[0106]
判断所述综合相似度是否大于第三阈值，若是，则所述第二url为所述第一url的相似url。
[0107]
在该实施例中，为了更精确地进行所述第一url与第二url相似性的判断，进一步地采用语义相似度来辅助行为相似度进行判断。通过将所述语义相似度与所述行为相似度融合来进行综合考量。语义相似度指的是所述第一url的网站的第一标题以及所述第二url的网站的第二标题的语义相似度，将第一标题以及第二标题合成为title-pair。人在直观上判断两个url是否相似还是基于网站内容之间的语义，由此可以利用网站的标题判断两个网站之间的相似性。当相似url判断模块90判断所述综合相似度大于第三阈值，则所述第二url为所述第一url的相似url。由于存在一个url与title(标题)的映射表，根据第一url去映射表中获取其对应的第一标题，根据第二url去映射表中获取其对应的第二标题，从而得到title-pair(标题对)。第三阈值优选为0.5。
[0108]
在本发明的一个实施例中，所述计算所述第一标题与第二标题的语义相似度的步骤包括：
[0109]
提取所述第一标题的第一语义向量以及提取所述第二标题的第二语义向量；
[0110]
根据所述第一语义向量以及所述第二语义向量通过余弦相似度计算所述语义相似度。
[0111]
在该实施例中，可以通过fasttext、bert等相似性算法获取第一语义向量以及第二语义向量；fasttext、bert是两个自然语言处理的算法，是开源的代码，可以提取句子的向量。
[0112]
具体的是，所述第一语义向量表示为(x1，
…
，xn)；
[0113]
所述第二语义向量表示为(y1，
…
，yn)；
[0114]
所述语义相似度的计算公式为：
[0115][0116]
其中，cos(θ)表示所述语义相似度。
[0117]
具体的是，所述将所述语义相似度融合所述行为相似度，获得综合相似度的计算公式为：
[0118]
y＝αsimilaraction βsimilarsentiment
[0119]
其中，所述similaraction表示行为相似度，所述similarsentiment表示语义相似度，α和β是两个超参数，用以控制行为相似度和语义相似度对第一url与第二url相似性中的比重。
[0120]
在该实施例中，α和β的值优选都设置为0.5。α和β的值代表了行为相似度和语义相似度的重要程度，取决于任务中的关注点。如果更关注语义，就可以将β的值调整的大一点，α的值调整的小一点；
[0121]
在本发明的一个实施例中，所述判断所述综合相似度是否大于第三阈值，若是，则所述第二url为所述第一url的相似url的步骤包括：
[0122]
获取所述第一url的网站的第一pv量，以及获取所述第二url的网站的第二pv量；计算所述第一pv量与所述第二pv量相差的倍数；
[0123]
若判断所述综合相似度大于第三阈值以及所述第一pv量与所述第二pv量相差的倍数小于第四阈值，则所述第二url为所述第一url的相似url。
[0124]
在该实施例中，pv表示网站的每天访问量，一定程度上反映出网站的量级。避免广告主提供一个小众网站，比如“汽车之家”，拓展出来的相似网站是“搜狐汽车”，如果广告展示给所有将点过“搜狐汽车”用户，那么这个曝光量过大，会造成广告主的经费花费过快，带来风险。因此将与种子url的量级相差过大的第二url也过滤掉。具体实施过程：获取2019.09.17～2019.10.17一个月的用户浏览记录统计出每个网站的每天访问量，如果所述第一pv量与所述第二pv量相差100倍，则所述第二url会被过滤。
[0125]
图3是优选实施例的相似url的获取方法的流程图，具体的是：
[0126]
首先，获取若干共点击数据，可以通过浏览器日志获取，每个共点击数据包括搜索词、在所述搜索词下点击的url、以及在所述搜索词下点击所述url的点击数；因此，上述共
点击数据中包括了第一url(所述第一url为种子url，可以是由广告主提供)、若干与所述第一url相关的搜索词、第一点击次数、第二url以及第二点击次数。由于在搜索与所述第一url相关的搜索词时，不仅点击了第一url也点击了第二url，因此，第一url与第二url可能具有相似性，将第一url与第二url合称为url-pair。计算url-pair的行为相似度。
[0127]
然后，为了防止因为用户的误点击导致的噪声数据，判断url-pair的共现次数是否大于3，如果大于3则继续执行后续步骤；
[0128]
然后，为了更精确地进行所述第一url与第二url相似性的判断，获取第一标题以及第二标题，，将第一标题以及第二标题合成为title-pair，通过fasttext以及bert计算title-pair的语义相似度。
[0129]
然后，将url-pair的行为相似度与title-pair的语义相似度进行综合计算，获得综合相似度。
[0130]
最后，判断综合相似度是否大于0.5并且pv量级小于100倍，若是，则第一url与第二url为相似url。
[0131]
图4是本实施例提供的相似用户的获取系统200的结构示意图，在本发明的一个实施例中提供了一种相似用户的获取系统200，包括：
[0132]
第一用户获取模块210，用于获取第一用户；
[0133]
第一点击次数获取模块220，用于获取所述第一用户分别点击若干网站的第一点击次数；
[0134]
用户获取模块230，用于获取点击若干所述网站的所有用户；
[0135]
第二点击次数获取模块240，用于获取所述所有用户分别点击若干所述网站的第二点击次数；
[0136]
第二用户获取模块250，用于根据所述第一点击次数以及所述第二点击次数进行相似度计算，从所述所有用户中判断出与所述第一用户相似度高的第二用户。
[0137]
在该实施例中，该相似用户的获取系统200可以用于拓展用户进行广告推荐，不仅对种子用户进行相关广告推荐，还可以根据种子用户拓展出来的相似用户进行相关广告推荐，从而实现适当、合理地增加广告主的广告的曝光量。首先，先获取种子用户(即第一用户)，可以根据用户的浏览记录获取点击过广告主的广告的用户，只要该用户点击过广告主的广告，表明该用户对该广告主的广告感兴趣，是广告主的目标用户，因此将该用户作为种子用户；通过种子用户拓展出与其相似度高的相似用户，可以将广告推荐给所述相似用户，增加广告的曝光量。具体的是，获取所述第一用户分别点击若干所述网站的第一点击次数，当某个用户点击同一个网站的次数越多，则表明该用户越关注或者越喜欢这个网站，通过用户对某网站的点击次数可以表示该用户对该网站的兴趣度，点击次数越多，表明兴趣度越大，点击次数越少，表明兴趣度越小。可以将两个用户对某些网站的兴趣大小的相似性来判断两个用户是否相似。由此，当获取到种子用户点击过的若干网站时，可以获取点击若干所述网站的所有用户，并获取所述所有用户分别点击若干所述网站的第二点击次数，据所述第一点击次数以及所述第二点击次数进行相似度计算，从所述所有用户中判断出与所述第一用户相似度高的第二用户，可以将该第二用户作为相似用户，将广告主的广告也推荐给该相似用户，解决广告主对用户定位的不准确问题，实现广告曝光量的增加。
[0138]
图5是本实施例提供的相似用户的获取系统200的结构示意图，在本发明的一个实
施例中，还包括：
[0139]
第一数据获取模块260，用于获取所述第一用户的第一画像数据和第一行为数据；
[0140]
第二数据获取模块270，用于获取所述第二用户的第二画像数据和第二行为数据；
[0141]
第一向量表示模块280，用于将所述第一画像数据和第一行为数据表示成第一向量；
[0142]
第二向量表示模块290，用于将所述第二画像数据和第二行为数据表示成第二向量；
[0143]
相似用户获取模块300，用于根据第一向量以及第二向量计算所述第一用户以及第二用户的相似性分数；判断所述相似性分数是否大于第一阈值，若是，则所述第二用户为所述第一用户的相似用户。
[0144]
在该实施例中，为了更精确地识别出相似用户，提高资源使用的性价比，可以进行进一步的相似性判断。可以通过两个用户的画像数据以及行为数据来判断两个用户的相似性。用户画像数据是指用户年龄、性别、城市等特征。目前内部维护有用户的画像数据。用户行为数据是指用户最近搜索记录，最近的点击广告的记录等数据，最近的数据可以是最近一天或者最近七天内的数据等等，可以根据具体的应用场景决定。可以使用dssm模型来计算出相似性分数(参见图7)，dssm模型的全称为deep structured semantic models，使用dssm只是使用了其中的双塔模型的思想，即种子用户走一个网络，种子用户拓展出来的相似用户走另一个网络，然后两个网络的输出计算相似性。第一数据获取模块260、第二数据获取模块270分别是dssm模型中的两个输入层，第一数据获取模块260获取所述第一用户的第一画像数据和第一行为数据，第二数据获取模块270获取所述第二用户的第二画像数据和第二行为数据；第一向量表示模块280、第二向量表示模块290分别是dssm模型中的两个表示层，用于分别将第一数据获取模块260和第二数据获取模块270输入的用户数据表示成向量，因为用户的基础属性特征以及行为特征是高维离散特征，为了方便模型的计算，需要将其映射到稠密的向量空间。相似用户获取模块300是dssm模型中的匹配层，用于计算所述第一用户以及第二用户的相似性分数，相似性分数是一个0～1之间的值，越接近于1表示两个用户越相似，越接近于0表示两个用户越不相似。
[0145]
具体的是，所述第一画像数据包括所述第一用户的性别、年龄、所在地；
[0146]
所述第一行为数据包括所述第一用户的浏览信息记录、搜索信息记录、点击信息记录；
[0147]
所述第二画像数据包括所述第二用户的性别、年龄、所在地；
[0148]
所述第二行为数据包括所述第二用户的浏览信息记录、搜索信息记录、点击信息记录。
[0149]
具体的是，所述第一向量表示模块280将所述第一向量表示为(x1，
…
，xn)；
[0150]
所述第二向量表示模块290将所述第二向量表示为(y1，
…
，yn)；
[0151]
相似用户获取模块300包括相似性分数计算模块301，所述相似性分数计算模块301计算所述相似性分数的计算公式为：
[0152]
[0153]
其中，cos(θ)表示所述相似性分数。
[0154]
具体的是，第二用户获取模块250包括相似度计算模块251，所述相似度计算模块251进行相似度计算的计算公式为：
[0155][0156]
其中，sim(user1，user2)表示相似度，所述若干网站分别为url1、url2、url3、
…
urln，pv
11
表示第一用户点击url1的第一点击次数，pv
21
表示第一用户点击url2的第一点击次数，以此类推；pv
12
表示第二用户点击url1的第二点击次数，pv
22
表示第二用户点击url2的第二点击次数，以此类推；n为所述若干网站的总数。
[0157]
图6是本发明的相似用户的获取方法的流程图，其可通过如图3～图4所示的相似用户的获取系统200实现，相似用户的获取方法，包括：
[0158]
步骤s601，获取第一用户；通过第一用户获取模块210实现；
[0159]
步骤s602，获取所述第一用户分别点击若干网站的第一点击次数；通过第一点击次数获取模块220实现；
[0160]
步骤s603，获取点击若干所述网站的所有用户；通过用户获取模块230实现；
[0161]
步骤s604，获取所述所有用户分别点击若干所述网站的第二点击次数；通过第二点击次数获取模块240实现；
[0162]
步骤s605，根据所述第一点击次数以及所述第二点击次数进行相似度计算，从所述所有用户中判断出与所述第一用户相似度高的第二用户；通过第二用户获取模块250实现。
[0163]
在本发明的一个实施例中，还包括：
[0164]
获取所述第一用户的第一画像数据和第一行为数据；通过第一数据获取模块260实现；
[0165]
获取所述第二用户的第二画像数据和第二行为数据；通过第二数据获取模块270实现；
[0166]
将所述第一画像数据和第一行为数据表示成第一向量；通过第一向量表示模块280实现；
[0167]
将所述第二画像数据和第二行为数据表示成第二向量；通过第二向量表示模块290实现；
[0168]
根据第一向量以及第二向量计算所述第一用户以及第二用户的相似性分数；
[0169]
判断所述相似性分数是否大于第一阈值，若是，则所述第二用户为所述第一用户的相似用户；通过第相似用户获取模块300实现。
[0170]
具体的是，所述第一画像数据包括所述第一用户的性别、年龄、所在地；
[0171]
所述第一行为数据包括所述第一用户的浏览信息记录、搜索信息记录、点击信息记录；
[0172]
所述第二画像数据包括所述第二用户的性别、年龄、所在地；
[0173]
所述第二行为数据包括所述第二用户的浏览信息记录、搜索信息记录、点击信息记录。
[0174]
具体的是，所述第一向量表示为(x1，
…
，xn)；
[0175]
所述第二向量表示为(y1，
…
，yn)；
[0176]
所述相似性分数的计算公式为：
[0177][0178]
其中，cos(θ)表示所述相似性分数。
[0179]
具体的是，所述根据所述第一点击次数以及所述第二点击次数进行相似度计算的计算公式为：
[0180][0181]
其中，sim(user1，user2)表示相似度，所述若干网站分别为url1、url2、url3、
…
urln，pv
11
表示第一用户点击url1的第一点击次数，pv
21
表示第一用户点击url2的第一点击次数，以此类推；pv
12
表示第二用户点击url1的第二点击次数，pv
22
表示第二用户点击url2的第二点击次数，以此类推；n为所述若干网站的总数。
[0182]
综上所述，本发明通过相似url的获取方法获取第一url；第一url可以是广告主提供的需要向用户推荐广告的url；获取所述第一url分别在若干搜索词下的第一点击次数；获取在所述若干搜索词下被点击的第二url；获取所述第二url分别在所述若干搜索词下的第二点击次数；根据所述第一点击次数以及所述第二点击次数计算所述第一url与所述第二url的行为相似度；根据所述行为相似度判断所述第二url是否为所述第一url的相似url，可以将相似utl作为拓展对象，将发布于第一url的信息也发布于相似url。借此，本发明可以实现能够有效的进行相似性拓展，将广告等信息进行拓展推广。
[0183]
当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
[0184]
本发明还公开了：a1一种相似url的获取方法，包括：
[0185]
获取第一url；
[0186]
获取所述第一url分别在若干搜索词下的第一点击次数；
[0187]
获取在所述若干搜索词下被点击的第二url；
[0188]
获取所述第二url分别在所述若干搜索词下的第二点击次数；
[0189]
根据所述第一点击次数以及所述第二点击次数计算所述第一url与所述第二url的行为相似度；
[0190]
根据所述行为相似度判断所述第二url是否为所述第一url的相似url。
[0191]
a2、根据a1所述的相似url的获取方法，所述获取在所述若干搜索词下被点击的第二url的步骤之前还包括：
[0192]
计算所述第一url与所述第二url的共现次数；
[0193]
判断所述共现次数是否小于等于第一阈值，若是，则所述第二url不是所述第一url的相似url。
[0194]
a3、根据a1所述的相似url的获取方法，所述行为相似度的计算公式为：
[0195][0196]
其中，sim(url1，url2)表示行为相似度；所述若干搜索词分别为query1、query2、query3、
…
queryn，pv
11
表示在搜索query1时点击所述第一url的第一点击次数，pv
21
表示在搜索query2时点击所述第一url的第一点击次数，依次类推；pv
12
表示在搜索query1时点击所述第二url的第二点击次数，pv
22
表示在搜索query2时点击所述第二url的第二点击次数，依次类推；n为所述若干搜索词的总数。
[0197]
a4、根据a1所述的相似url的获取方法，所述根据所述行为相似度判断所述第二url是否为所述第一url的相似url的步骤包括：
[0198]
判断所述行为相似度是否大于第二阈值，若是，则所述第二url为所述第一url的相似url。
[0199]
a5、根据a1所述的相似url的获取方法，所述根据所述行为相似度判断所述第二url是否为所述第一url的相似url的步骤包括：
[0200]
获取所述第一url的网站的第一标题，以及获取所述第二url的网站的第二标题；
[0201]
计算所述第一标题与第二标题的语义相似度；
[0202]
将所述语义相似度融合所述行为相似度，获得综合相似度；
[0203]
判断所述综合相似度是否大于第三阈值，若是，则所述第二url为所述第一url的相似url。
[0204]
a6、根据a5所述的相似url的获取方法，所述计算所述第一标题与第二标题的语义相似度的步骤包括：
[0205]
提取所述第一标题的第一语义向量以及提取所述第二标题的第二语义向量；
[0206]
根据所述第一语义向量以及所述第二语义向量通过余弦相似度计算所述语义相似度。
[0207]
a7、根据a6所述的相似url的获取方法，
[0208]
所述第一语义向量表示为(x1，
…
，xn)；
[0209]
所述第二语义向量表示为(y1，
…
，yn)；
[0210]
所述语义相似度的计算公式为：
[0211][0212]
其中，cos(θ)表示所述语义相似度。
[0213]
a8、根据a6所述的相似url的获取方法，所述将所述语义相似度融合所述行为相似度，获得综合相似度的计算公式为：
[0214]
y＝αsimilaraction βsimilarsentiment
[0215]
其中，所述similaraction表示行为相似度，所述similarsentiment表示语义相似度，α和β是两个超参数，用以控制行为相似度和语义相似度对第一url与第二url相似性中的比重。
[0216]
a9、根据a5所述的相似url的获取方法，所述判断所述综合相似度是否大于第三阈值，若是，则所述第二url为所述第一url的相似url的步骤包括：
[0217]
获取所述第一url的网站的第一pv量，以及获取所述第二url的网站的第二pv量；计算所述第一pv量与所述第二pv量相差的倍数
[0218]
若判断所述综合相似度大于第三阈值以及所述第一pv量与所述第二pv量相差的倍数小于第四阈值，则所述第二url为所述第一url的相似url。
[0219]
b10、一种相似url的获取系统，包括：
[0220]
第一url获取模块，用于获取第一url；
[0221]
第一点击次数获取模块，用于获取所述第一url分别在若干搜索词下的第一点击次数；
[0222]
第二url获取模块，用于获取在所述若干搜索词下被点击的第二url；
[0223]
第二点击次数获取模块，用于获取所述第二url分别在所述若干搜索词下的第二点击次数；
[0224]
行为相似度计算模块，用于根据所述第一点击次数以及所述第二点击次数计算所述第一url与所述第二url的行为相似度；
[0225]
网站标题获取模块，用于获取所述第一url的网站的第一标题，以及获取所述第二url的网站的第二标题；
[0226]
语义相似度计算模块，用于计算所述第一标题与第二标题的语义相似度；
[0227]
综合相似度计算模块，用于将所述语义相似度融合所述行为相似度，获得综合相似度；
[0228]
相似url判断模块，用于判断所述综合相似度是否大于第三阈值，若是，则所述第二url为所述第一url的相似url。
[0229]
c11、一种相似用户的获取方法，包括：
[0230]
获取第一用户；
[0231]
获取所述第一用户分别点击若干网站的第一点击次数；
[0232]
获取点击若干所述网站的所有用户；
[0233]
获取所述所有用户分别点击若干所述网站的第二点击次数；
[0234]
根据所述第一点击次数以及所述第二点击次数进行相似度计算，从所述所有用户中判断出与所述第一用户相似度高的第二用户。
[0235]
c12、根据c11所述的相似用户的获取方法，还包括：
[0236]
获取所述第一用户的第一画像数据和第一行为数据；
[0237]
获取所述第二用户的第二画像数据和第二行为数据；
[0238]
将所述第一画像数据和第一行为数据表示成第一向量；
[0239]
将所述第二画像数据和第二行为数据表示成第二向量；
[0240]
根据第一向量以及第二向量计算所述第一用户以及第二用户的相似性分数；
[0241]
判断所述相似性分数是否大于第一阈值，若是，则所述第二用户为所述第一用户的相似用户。
[0242]
c13、根据c12所述的相似用户的获取方法，其特征在于，
[0243]
所述第一画像数据包括所述第一用户的性别、年龄、所在地；
[0244]
所述第一行为数据包括所述第一用户的浏览信息记录、搜索信息记录、点击信息记录；
[0245]
所述第二画像数据包括所述第二用户的性别、年龄、所在地；
[0246]
所述第二行为数据包括所述第二用户的浏览信息记录、搜索信息记录、点击信息记录。
[0247]
c14、根据c12所述的相似用户的获取方法，其特征在于，
[0248]
所述第一向量表示为(x1，
…
，xn)；
[0249]
所述第二向量表示为(y1，
…
，yn)；
[0250]
所述相似性分数的计算公式为：
[0251][0252]
其中，cos(θ)表示所述相似性分数。
[0253]
c15、根据c11所述的相似用户的获取方法，其特征在于，所述根据所述第一点击次数以及所述第二点击次数进行相似度计算的计算公式为：
[0254][0255]
其中，sim(user1，user2)表示相似度，所述若干网站分别为url1、url2、url3、
…
urln，pv
11
表示第一用户点击url1的第一点击次数，pv
21
表示第一用户点击url2的第一点击次数，以此类推；pv
12
表示第二用户点击url1的第二点击次数，pv
22
表示第二用户点击url2的第二点击次数，以此类推；n为所述若干网站的总数。
[0256]
d16、一种相似用户的获取系统，包括：
[0257]
第一用户获取模块，用于获取第一用户；
[0258]
第一点击次数获取模块，用于获取所述第一用户分别点击若干网站的第一点击次数；
[0259]
用户获取模块，用于获取点击若干所述网站的所有用户；
[0260]
第二点击次数获取模块，用于获取所述所有用户分别点击若干所述网站的第二点击次数；
[0261]
第二用户获取模块，用于根据所述第一点击次数以及所述第二点击次数进行相似度计算，从所述所有用户中判断出与所述第一用户相似度高的第二用户。
[0262]
d17、根据d16所述的相似用户的获取系统，还包括：
[0263]
第一数据获取模块，用于获取所述第一用户的第一画像数据和第一行为数据；
[0264]
第二数据获取模块，用于获取所述第二用户的第二画像数据和第二行为数据；
[0265]
第一向量表示模块，用于将所述第一画像数据和第一行为数据表示成第一向量；
[0266]
第二向量表示模块，用于将所述第二画像数据和第二行为数据表示成第二向量；
[0267]
相似用户获取模块，用于根据第一向量以及第二向量计算所述第一用户以及第二用户的相似性分数；判断所述相似性分数是否大于第一阈值，若是，则所述第二用户为所述第一用户的相似用户。
[0268]
d18、根据d17所述的相似用户的获取系统，所述第一画像数据包括所述第一用户的性别、年龄、所在地；
[0269]
所述第一行为数据包括所述第一用户的浏览信息记录、搜索信息记录、点击信息
记录；
[0270]
所述第二画像数据包括所述第二用户的性别、年龄、所在地；
[0271]
所述第二行为数据包括所述第二用户的浏览信息记录、搜索信息记录、点击信息记录。
[0272]
d19、根据d17所述的相似用户的获取系统，
[0273]
所述第一向量表示模块将所述第一向量表示为(x1，
…
，xn)；
[0274]
所述第二向量表示模块将所述第二向量表示为(y1，
…
，yn)；
[0275]
相似用户获取模块包括相似性分数计算模块，所述相似性分数计算模块计算所述相似性分数的计算公式为：
[0276][0277]
其中，cos(θ)表示所述相似性分数。
[0278]
d20、根据d16所述的相似用户的获取系统，第二用户获取模块包括相似度计算模块，所述相似度计算模块进行相似度计算的计算公式为：
[0279][0280]
其中，sim(user1，user2)表示相似度，所述若干网站分别为url1、url2、url3、
…
urln，pv
11
表示第一用户点击url1的第一点击次数，pv
21
表示第一用户点击url2的第一点击次数，以此类推；pv
12
表示第二用户点击url1的第二点击次数，pv
22
表示第二用户点击url2的第二点击次数，以此类推；n为所述若干网站的总数。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：消息渲染方法、装置、系统、设备及存储介质与流程

相似url的获取方法及其系统、相似用户的获取方法及其系统与流程

相关文献

最热文献