一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种社区平台内容排序方法、系统、终端及存储介质与流程

2022-06-11 07:59:38 来源:中国专利 TAG:


1.本发明涉及社区问答排序技术领域,特别是涉及一种社区平台内容排序方法、系统、终端及存储介质。


背景技术:

2.目前,知乎、百度知道等社区问答平台为互联网用户提供了一个在线提问和解答的平台,帮助人们方便地获得日常或专业问题的高质量回答。随着社区问答变得越来越受欢迎,平台的许多问题也逐渐浮现,其中一个重要的问题就是回答的质量参差不齐,如果低质量回答在所有回答中的排序靠前,则会极大地影响用户在平台上的问答体验。因此,如何有效地根据用户浏览、点赞等行为以及回答质量、发布时间等因素对所有回答进行合理的排序,是社区问答平台急需解决的问题。
3.当下各种社区问答平台使用的回答排序模型主要考虑了时间维度、用户行为维度、内容维度和用户维度,其中用户行为维度根据用户的浏览量、回复量、收藏量、分享量、点赞量和点踩量等计算内容的得分。常用的算法为基于用户评价行为进行排序的威尔逊算法,但是威尔逊算法本身有相关的先决条件,仅适用于有用户评价数据问答社区平台,而无法适用于只有点赞行为的平台。另外,威尔逊算法没有将内容质量考虑到排序得分之中,无法识别出用户刷赞等不合理行为对得分的影响。


技术实现要素:

4.本发明提供了一种社区平台内容排序方法、系统、终端及存储介质,旨在解决现有的回答排序模型无法适用于只有点赞行为的平台、且没有将内容质量考虑到排序得分之中等技术问题。
5.为解决上述技术问题,本发明采用的技术方案为:
6.一种社区平台内容排序方法,包括:
7.获取所有待排序回答的基础数据以及用户行为数据;所述基础数据包括待排序回答的时间维度数据以及内容维度数据;
8.根据所述基础数据计算各个待排序回答的内容基础得分;
9.基于所述用户行为数据,利用威尔逊算法计算出各个待排序回答的用户得分;
10.基于所述基础数据以及用户行为数据计算各个待排序回答的质量评分;
11.将所述内容基础得分、用户得分以及质量评分进行融合,得到各个回答的最终得分,并根据所述最终得分对所有待排序回答进行排序。
12.本发明实施例采取的技术方案还包括:所述时间维度数据包括各个待排序回答的发布时间以及最后回复时间,所述内容维度数据包括各个待排序回答的回答文本字数;
13.所述用户行为数据包括各个待排序回答的浏览量、点赞量、评论量、收藏量、用户活跃度以及用户所在群组信息。
14.本发明实施例采取的技术方案还包括:所述根据所述基础数据计算各个待排序回
答的内容基础得分包括:
15.根据所述回答文本字数计算各个待排序回答的文本字数得分,将所述文本字数得分作为待排序回答的内容基础得分。
16.本发明实施例采取的技术方案还包括:所述根据所述基础数据计算各个待排序回答的内容基础得分包括:
17.根据所述回答文本字数计算各个待排序回答的文本字数得分;
18.计算各个待排序回答与对应问题之间的文本语义相似度,并根据所述文本语义相似度计算各个待排序回答与对应问题之间的相关性;
19.根据所述文本字数得分以及待排序回答与对应问题之间的相关性计算各个待排序回答的内容基础得分。
20.本发明实施例采取的技术方案还包括:所述基于所述用户行为数据,利用威尔逊算法计算出各个待排序回答的用户得分具体为:
21.基于所述用户行为数据获取各个待排序回答的具有访问行为的用户数量,并对各个待排序回答中有过正向互动行为的用户集合进行去重,得到各个待排序回答的具有正向互动行为的用户数量;所述正向互动行为包括各个待排序回答的浏览、点赞、收藏、评论或分享行为;
22.基于所述具有正向互动行为的用户数量以及具有访问行为的用户数量,利用威尔逊算法计算出各个待排序回答的用户得分;
[0023][0024]
其中,p表示具有正向互动行为的用户数量除以具有访问行为的用户数量;z
α
为正态分布的分位数,n表示具有访问行为的用户数量。
[0025]
本发明实施例采取的技术方案还包括:所述基于所述基础数据以及用户行为数据计算各个待排序回答的质量评分包括:
[0026]
基于所述基础数据以及用户行为数据,利用人工审核或/和回答质量分类模型计算各个待排序回答的质量等级,将所述质量等级作为各个待排序回答的质量评分;
[0027]
或根据所述时间维度数据计算各个待排序回答的热度,将所述热度作为各个待排序回答的质量评分。
[0028]
本发明实施例采取的技术方案还包括:所述将所述内容基础得分、用户得分以及质量评分进行融合,得到各个回答的最终得分为:
[0029]
s=(s
base
s
wilson
)*quality
[0030]
或:
[0031]
s=(s
base
s
wilson
)*heat
[0032]
其中s
base
为内容基础得分,s
wilson
为用户得分,quality为质量等级,heat为热度。
[0033]
本发明实施例采取的另一技术方案为:一种社区平台内容排序系统,包括:
[0034]
数据获取模块:用于获取所有待排序回答的基础数据以及用户行为数据;所述基础数据包括待排序回答的时间维度数据以及内容维度数据;
[0035]
基础得分计算模块:用于根据所述基础数据计算各个待排序回答的内容基础得
分;
[0036]
用户得分计算模块:用于基于所述用户行为数据,利用威尔逊算法计算出各个待排序回答的用户得分;
[0037]
质量计算模块:用于基于所述基础数据以及用户行为数据计算各个待排序回答的质量评分;
[0038]
排序模块:用于将所述内容基础得分、用户得分以及质量评分进行融合,得到各个回答的最终得分,并根据所述最终得分对所有待排序回答进行排序。
[0039]
本发明实施例采取的又一技术方案为:一种终端,所述终端包括处理器、与所述处理器耦接的存储器,其中,
[0040]
所述存储器存储有用于实现上述的社区平台内容排序方法的程序指令;
[0041]
所述处理器用于执行所述存储器存储的所述程序指令以执行所述社区平台内容排序操作。
[0042]
本发明实施例采取的又一技术方案为:一种存储介质,存储有处理器可运行的程序指令,所述程序指令用于执行上述的社区平台内容排序方法。
[0043]
本发明实施例的社区平台内容排序方法、系统、终端及存储介质通过获取回答的基础数据以及用户行为数据,根据基础数据以及用户行为数据计算出回答的内容基础得分、用户得分以及质量评分,并将内容基础得分、用户得分以及质量评分进行融合,得到最终的回答得分,根据最终的得分对回答内容进行排序。本发明由于融合了质量评分,使得高质量的回答排名更高,排名更加合理。
附图说明
[0044]
图1是本发明第一实施例的社区平台内容排序方法的流程示意图;
[0045]
图2是本发明第二实施例的社区平台内容排序方法的流程示意图;
[0046]
图3是本发明第三实施例的社区平台内容排序方法的流程示意图;
[0047]
图4是本发明实施例社区平台内容排序系统的结构示意图;
[0048]
图5是本发明实施例的终端结构示意图;
[0049]
图6是本发明实施例的存储介质结构示意图。
具体实施方式
[0050]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0051]
本发明中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后
……
)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改
变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0052]
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0053]
请参阅图1,是本发明第一实施例的社区平台内容排序方法的流程示意图。本发明第一实施例的社区平台内容排序方法包括以下步骤:
[0054]
s10:获取所有待排序回答的基础数据以及用户行为数据;其中,基础数据包括待排序回答的时间维度数据以及内容维度数据;
[0055]
s11:根据基础数据计算各个待排序回答的内容基础得分;
[0056]
s12:基于用户行为数据,利用调整后的威尔逊算法计算出各个待排序回答的用户得分;
[0057]
s13:基于基础数据以及用户行为数据计算各个待排序回答的质量评分;
[0058]
s14:将内容基础得分、用户得分以及质量评分进行融合,得到各个回答的最终得分,并根据最终得分对所有待排序回答进行排序。
[0059]
请参阅图2,是本发明第二实施例的社区平台内容排序方法的流程示意图。本发明第二实施例的社区平台内容排序方法包括以下步骤:
[0060]
s20:获取社区平台某个问题下待排序的所有回答;
[0061]
s21:获取所有回答的基础数据以及用户行为数据;
[0062]
本步骤中,获取的基础数据包括时间维度数据(包括发布时间以及最后回复时间)以及内容维度数据(包括回答文本字数以及回答质量),获取的用户行为数据包括浏览量、点赞量、评论量、收藏量、用户活跃度以及用户所在群组信息等数据。
[0063]
s22:根据基础数据中的内容维度数据计算各个回答的内容基础得分;
[0064]
本步骤中,内容基础得分计算方式具体为:根据回答文本字数计算各个回答的文本字数得分,将该文本字数得分作为该回答的内容基础得分;或在计算出文本字数得分后,计算各个回答与对应问题之间的文本语义相似度,根据文本语义相似度得到各个回答与对应问题之间的相关性,文本语义相似度越高,表示该回答与对应问题之间的相关性越强;然后根据文本字数得分以及回答与问题的相关性计算出各个回答的内容基础得分。
[0065]
对于每一个刚发布的回答,由于没有有效的用户行为数据,都只有一个零得分而无法参与排序。在计算出内容基础得分后,可以根据内容基础得分对每个刚发布的回答进行初始排序。可以理解,还可以计算回答文本和问题文本之间的相关性,根据回答文本和问题文本的相关性计算内容基础得分,具体可根据场景和内容数据对内容基础得分的计算方式进行扩展。
[0066]
s23:根据用户行为数据获取各个回答的具有正向互动行为的用户数量以及具有访问行为的用户数量,并基于具有正向互动行为的用户数量以及具有访问行为的用户数量,利用威尔逊算法计算出各个回答的用户得分;
[0067]
本步骤中,具有访问行为的用户数量为各个回答中的用户量总数。对各个回答中有过正向互动行为的用户集合进行去重,即可得到具有正向互动行为的用户数量;正向互动行为包括浏览、点赞、收藏、评论或分享等行为数据,具体可根据实际应用场景而定。还可以针对不同的正向互动行为设计不同的权重,然后根据权重计算各个正向互动行为的用户数量。
[0068]
由于现有的威尔逊算法无法适用于只有正向互动行为(点赞行为)而没有负向互动行为(点踩行为)的问答社区平台,本技术实施例根据不同社区问答平台具有的数据类型对威尔逊算法进行了调整,具体为:将所有具有访问行为的用户中没有正向互动行为的用户作为负向互动行为的用户,使得调整后的威尔逊算法适用于只有点赞行为而没有点踩行为的问答社区平台内容排序计算。调整后的用户得分计算公式具体为:
[0069][0070]
其中,p表示具有正向互动行为的用户数量除以具有访问行为的用户数量(即好评率);z
α
为正态分布的分位数(参数),通常取值为1.96。n表示具有访问行为的用户数量。
[0071]
在实际应用场景中,正向互动行为中并不完全是正向互动,例如在评论行为中会存在为了反对而进行的互动。因此,本技术实施例从所有正向互动行为中剔除了评论行为,从而确保正向互动行为的准确性。
[0072]
另外,在实际应用场景中,社区问答平台中的回答会涉及到用户刷赞的行为。例如,在某个用户发布低质量回答后,邀请同群组好友对该低质量回答进行刷赞,使得该回答的用户得分很高,影响最终的回答排名准确度。为了解决上述问题,本技术实施例在执行威尔逊算法之前,采用好友刷赞识别算法识别出存在刷赞行为的用户,并降低存在刷赞行为的用户在威尔逊算法中的计算权重,有效解决低质量回答采用刷赞行为导致的排名虚高,提升回答排名准确度。
[0073]
s24:基于基础数据以及用户行为数据,利用人工审核或/和回答质量分类模型计算各个回答的质量等级,将质量等级作为各个回答的质量评分;
[0074]
本步骤中,回答的质量等级计算方式包括:利用纯人工方式审核每个回答的质量等级,将回答质量分为低、中、高三个等级。或使用预测模型最终得到一个0到1的得分,得到回答的质量等级。或将人工审核与分类模型相结合,根据部分人工审核的质量等级数据,训练一个逻辑回归、bert(全称为bidirectional encoder representation from transformers,是一个预训练的语言表征模型)等预测模型,对回答质量进行低、中、高质量等级预测。具体可以根据不同场景需要和耗时耗力的开销设定回答质量的计算方式。
[0075]
s25:将内容基础得分、用户得分以及质量等级进行融合,得到各个回答的最终得分,并根据最终得分对该问题下的待排序回答进行排序;
[0076]
本步骤中,回答的最终得分计算公式为:
[0077]
s=(s
base
s
wilson
)*quality
ꢀꢀꢀ
(2)
[0078]
其中s
base
为内容基础得分,s
wilson
为用户得分,quality为质量等级。
[0079]
基于上述,本发明第二实施例的社区平台内容排序方法通过将内容基础得分、用户得分以及质量评分进行融合,可以有效地拉开不同质量等级的回答排名,对于不同质量
等级的具有相同数量的点赞、浏览量行为的回答,由于融合了质量评分,使得高质量的回答排名更高,且排名更加合理。
[0080]
请参阅图3,是本发明第三实施例的社区平台内容排序方法的流程示意图。本发明第三实施例的社区平台内容排序方法包括以下步骤:
[0081]
s30:获取社区平台某个问题下待排序的所有回答;
[0082]
s31:获取所有回答的基础数据以及用户行为数据;
[0083]
本步骤中,获取的基础数据包括时间维度数据(包括发布时间以及最后回复时间)以及内容维度数据(包括回答文本字数以及回答质量),获取的用户行为数据包括浏览量、点赞量、评论量、收藏量、用户活跃度以及用户所在群组信息等数据。
[0084]
s32:根据基础数据中的内容维度数据计算各个回答的内容基础得分;
[0085]
本步骤中,内容基础得分计算方式具体为:根据回答文本字数计算各个回答的文本字数得分,将该文本字数得分作为该回答的内容基础得分;或在计算出文本字数得分后,计算各个回答与对应问题之间的文本语义相似度,根据文本语义相似度得到各个回答与对应问题之间的相关性,文本语义相似度越高,表示该回答与对应问题之间的相关性越强;然后根据文本字数得分以及回答与问题的相关性计算出各个回答的内容基础得分。
[0086]
对于每一个刚发布的回答,由于没有有效的用户行为数据,都只有一个零得分而无法参与排序。在计算出内容基础得分后,可以根据内容基础得分对每个刚发布的回答进行初始排序。可以理解,还可以计算回答文本和问题文本之间的相关性,根据回答文本和问题文本的相关性计算内容基础得分,具体可根据场景和内容数据对内容基础得分的计算方式进行扩展。
[0087]
s33:基于用户行为数据获取各个回答的具有正向互动行为的用户数量以及具有访问行为的用户数量,并基于具有正向互动行为的用户数量以及具有访问行为的用户数量,利用威尔逊算法计算出各个回答的用户得分;
[0088]
本步骤中,具有访问行为的用户数量为各个回答中的用户量总数。对各个回答中有过正向互动行为的用户集合进行去重,即可得到具有正向互动行为的用户数量;正向互动行为包括浏览、点赞、收藏、评论或分享等行为数据,具体可根据实际应用场景而定。还可以针对不同的正向互动行为设计不同的权重,然后根据权重计算各个正向互动行为的用户数量。
[0089]
由于现有的威尔逊算法无法适用于只有正向互动行为(点赞行为)而没有负向互动行为(点踩行为)的问答社区平台,本技术实施例根据不同社区问答平台具有的数据类型对威尔逊算法进行了调整,具体为:基于威尔逊算法根据具有正向互动行为的用户数量和负向互动行为用户数量的比值计算得分的基本概念,将所有具有访问行为的用户中没有正向互动行为的用户作为负向互动行为的用户,即利用具有访问行为的用户数量减去具有正向互动行为的用户数量,得到负向互动行为的用户数量,使得调整后的威尔逊算法适用于只有点赞行为而没有点踩行为的问答社区平台内容排序计算。调整后的用户得分计算公式具体为:
[0090]
[0091]
其中,p表示具有正向互动行为的用户数量除以具有访问行为的用户数量(即好评率);z
α
为正态分布的分位数(参数),通常取值为1.96。n表示具有访问行为的用户数量。
[0092]
在实际应用场景中,正向互动行为中并不完全是正向互动,例如在评论行为中会存在为了反对而进行的互动。因此,本技术实施例从所有正向互动行为中剔除了评论行为,从而确保正向互动行为的准确性。
[0093]
另外,在实际应用场景中,社区问答平台中的回答会涉及到用户刷赞的行为。例如,在某个用户发布低质量回答后,邀请同群组好友对该低质量回答进行刷赞,使得该回答的用户得分很高,影响最终的回答排名准确度。为了解决上述问题,本技术实施例在执行威尔逊算法之前,采用好友刷赞识别算法识别出存在刷赞行为的用户,并降低存在刷赞行为的用户在威尔逊算法中的计算权重,有效解决低质量回答采用刷赞行为导致的排名虚高,提升回答排名准确度。
[0094]
s34:根据基础数据中的时间维度数据计算各个回答的热度,将热度作为各个回答的质量评分;
[0095]
s35:将内容基础得分、用户得分以及回答的热度相融合,得到各个回答的最终得分,并根据最终得分对该问题下的所有回答进行排序;
[0096]
本步骤中,回答的最终得分计算公式为:
[0097]
s=(s
base
s
wilson
)*heat
ꢀꢀ
(3)
[0098]
其中s
base
为内容基础得分,s
wilson
为用户得分,heat为回答的热度。
[0099]
基于上述,由于回答的热度会随着回答的发布时间增加而减小,旧的回答由于已经发布很久而失去了时效性,其排名相对下降,而新的回答排名应该更高。因此,本本发明第三实施例的社区平台内容排序方法通过将内容基础得分、用户得分以及回答的热度进行融合,可以得到每个回答的具有内容时效性的最终得分,从而将新回答排序到靠前的位置,使得排序结果更加具有时效性。
[0100]
在一个可选的实施方式中,还可以:将所述的社区平台内容排序方法的结果上传至区块链中。
[0101]
具体地,基于所述的社区平台内容排序方法的结果得到对应的摘要信息,具体来说,摘要信息由所述的社区平台内容排序方法的结果进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户可以从区块链中下载得该摘要信息,以便查证所述的社区平台内容排序方法的结果是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0102]
请参阅图4,是本发明实施例社区平台内容排序系统的结构示意图。本发明实施例社区平台内容排序系统40包括:
[0103]
数据获取模块41:用于获取所有待排序回答的基础数据以及用户行为数据;基础数据包括待排序回答的时间维度数据以及内容维度数据;
[0104]
基础得分计算模块42:用于根据基础数据计算各个待排序回答的内容基础得分;
[0105]
用户得分计算模块43:用于基于用户行为数据,利用威尔逊算法计算出各个待排序回答的用户得分;
[0106]
质量计算模块44:用于基于基础数据以及用户行为数据计算各个待排序回答的质量评分;
[0107]
排序模块45:用于将内容基础得分、用户得分以及质量评分进行融合,得到各个回答的最终得分,并根据最终得分对所有待排序回答进行排序。
[0108]
请参阅图5,为本发明实施例的终端结构示意图。该终端50包括处理器51、与处理器51耦接的存储器52。
[0109]
存储器52存储有用于实现上述社区平台内容排序方法的程序指令。
[0110]
处理器51用于执行存储器52存储的程序指令以执行社区平台内容排序操作。
[0111]
其中,处理器51还可以称为cpu(central processing unit,中央处理单元)。处理器51可能是一种集成电路芯片,具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0112]
请参阅图6,图6为本发明实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述所有方法的程序文件61,其中,该程序文件61可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
[0113]
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0114]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献