一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据排序方法、装置、设备及介质与流程

2022-02-22 18:52:35 来源:中国专利 TAG:


1.本公开涉及数据处理技术领域,尤其涉及一种数据排序方法、装置、设备及介质。


背景技术:

2.搜索引擎是协助用户搜索所需内容的计算机程序,其能够针对用户输入的搜索文本(query)进行搜索,得到与query相关的多条召回数据,并按照一定策略对召回数据进行排序,将排序后的数据作为搜索结果呈现给用户。然而,现有的排序方式效果不佳,大多难以满足用户的搜索需求,用户的搜索体验较差。


技术实现要素:

3.为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种数据排序方法、装置、设备及介质。
4.本公开实施例提供了一种数据排序方法,所述方法包括:获取待处理文本,并确定所述待处理文本对应的多个候选领域类别;针对每个所述候选领域类别,获取该候选领域类别对应的召回策略,并基于所述召回策略进行搜索,以得到所述待处理文本在该候选领域类别对应的召回数据;其中,不同候选领域类别对应的召回策略不同;基于多个所述候选领域类别对应的召回数据进行混合排序,得到排序结果。
5.可选的,确定所述待处理文本对应的多个候选领域类别的步骤,包括:采用意图识别算法对所述待处理文本进行处理,以确定所述待处理文本对应的多个候选领域类别。
6.可选的,基于多个所述领域类别对应的召回数据进行混合排序,得到排序结果的步骤,包括:对多个所述候选领域类别进行排序;将排在前n位的候选领域类别均作为目标领域类别,其中,n为预设整数;基于所述目标领域类别对应的召回数据进行混合排序,得到排序结果。
7.可选的,对多个所述候选领域类别进行排序的步骤,包括:获取领域排序参考因素;所述领域排序参考因素包括以下中的一种或多种:所述待处理文本的文本标签、所述待处理文本对应的用户标签、网络热点信息、各个所述候选领域类别对应的权重、各个所述候选领域类别对应的召回数据量;根据所述领域排序参考因素,对多个所述候选领域类别进行排序。
8.可选的,基于所述目标领域类别对应的召回数据进行混合排序,得到排序结果的步骤,包括:确定各个所述目标领域类别对应的待混合的目标召回数据;其中,排序在前的目标领域类别对应的目标召回数据的数据量大于排序在后的目标领域类别对应的目标召回数据的数据量;将各个所述目标领域类别中的目标召回数据进行混合排序。
9.可选的,所述方法还包括:对所述排序结果中的每条所述召回数据进行内容质量评分,得到该召回数据对应的质量分值;如果该召回数据对应的质量分值与该召回数据在所述排序结果中的排序位置不匹配,对该召回数据在所述排序结果中的排序位置进行调整。
10.可选的,对所述排序结果中的每条所述召回数据进行内容质量评分的步骤,包括:获取评分参考因素;所述评分参考因素包括以下中的一种或多种:所述待处理文本对应的用户标签、网络热点信息、数据来源、数据发布时间;根据所述评分参考因素对所述排序结果中的每条所述召回数据进行内容质量评分。
11.本公开实施例还提供了一种数据排序装置,包括:类别确定模块,用于获取待处理文本,并确定所述待处理文本对应的多个候选领域类别;领域召回模块,用于针对每个所述候选领域类别,获取该候选领域类别对应的召回策略,并基于所述召回策略进行搜索,以得到所述待处理文本在该候选领域类别对应的召回数据;其中,不同候选领域类别对应的召回策略不同;数据排序模块,用于基于多个所述候选领域类别对应的召回数据进行混合排序,得到排序结果。
12.本公开实施例还提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现如本公开实施例提供的数据排序方法。
13.本公开实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行如本公开实施例提供的数据排序方法。
14.本公开实施例提供的上述技术方案,可以确定待处理文本对应的多个候选领域类别;针对每个候选领域类别,获取该候选领域类别对应的召回策略,并基于召回策略进行搜索,以得到待处理文本在该候选领域类别对应的召回数据;其中,不同候选领域类别对应的召回策略不同;基于多个候选领域类别对应的召回数据进行混合排序,得到排序结果。通过上述方式,可以分领域按照不同的召回策略获取召回数据,然后再基于各领域的召回数据进行混合排序,得到的排序结果可以更好地满足用户的搜索需求。
15.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
16.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
17.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
18.图1为本公开实施例提供的一种数据排序方法的流程示意图;
19.图2为本公开实施例提供的另一种数据排序方法的流程示意图;
20.图3为本公开实施例提供的一种数据排序原理示意图;
21.图4为本公开实施例提供的一种数据排序装置的结构示意图;
22.图5为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
23.为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可
以相互组合。
24.在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
25.搜索引擎是帮助用户搜索所需内容的计算机程序,可以把诸如计算机存储/网络可获取到的信息与用户输入的信息需求相匹配,并把匹配的结果展示出来。也可理解为,搜索引擎是根据用户的需求,结合一定的算法和策略,在可获取到的众多信息中获取特定的符合用户需求的内容(搜索结果),最终将搜索结果反馈给用户的一门检索技术。
26.搜索引擎排序是对于用户输入的文本(query),索引出一个相关文档列表,然后系统计算两者之间的相关度,从而对列表中的文档进行排序,排序结果直接影响用户的搜索体验。在相关技术中,搜索引擎大多是在接收到用户输入的文本后,对文本进行诸如分词、去停用词等预处理之后,根据处理结果与索引里的内容做匹配,选择候选数据集(可能与文本相关的数据),之后再采用排序算法对候选数据集进行排序,最终将最优结果展示给用户。发明人经研究发现,大部分搜索引擎在召回数据时,对数据领域并不区分,在垂域种类复杂的情况下,对所有垂域数据采用一样的召回策略,更多仅是集中在搜索结果的准确性调优方面。但是,在很多情况下可能无法准确知道用户的输入文本真实对应的搜索领域,只按照用户输入的文本进行整体搜索,所得到的搜索结果可能无法满足用户需求。
27.为了至少部分地改善以上问题,本公开实施例提供了一种数据排序方法、装置、设备及介质,可以按照不同领域采用不同召回策略分别进行数据召回,并将多个领域的召回数据进行混合排序,最终所得的排序结果能够更好的契合用户的真实搜索需求,提升用户的搜索体验。为便于理解,以下对本公开实施例提供的数据排序方法、装置、设备及介质进行详细说明。
28.本公开实施例提供的数据排序方法可以由电子设备执行。电子设备可以是服务器、平板电脑、手机、可穿戴设备、车载设备、增强现实(augmented reality,ar)/虚拟现实(virtual reality,vr)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本、个人数字助理(personaldigital assistant,pda)、智能电视、智慧屏、高清电视、4k电视、智能音箱、智能投影仪等设备,本公开对电子设备的具体类型不作任何限制,只需具有数据处理能力即可。
29.图1为本公开实施例提供的一种数据排序方法的流程示意图,该方法可以由数据排序装置执行,其中该装置可以采用软件和/或硬件实现,一般可集成在电子设备中。如图1所示,该方法主要包括如下步骤s102~步骤s106:
30.步骤s102,获取待处理文本,并确定待处理文本对应的多个候选领域类别。
31.其中,待处理文本可以是用户输入的搜索语句(query),因此也可称之为搜索文本。诸如,将用户输入在电子设备的界面指定搜索栏中的文本作为待处理文本,或者,通过搜索引擎的接口获取待处理文本。此外,待处理文本也可以是将用户输入的语音转换为文字后形成的文本。
32.在一些实施方式中,可以采用意图识别算法对待处理文本进行处理,以确定待处理文本对应的多个候选领域类别。示例性地,用户输入的待处理文本为“苹果”,则对应的候选领域类别可能为“食物领域”和“电子产品领域”。意图表示想要达到的目的,具体是指想
要得到的数据结果,诸如,用户的输入文本为“胃疼”,其意图则可能为“买药”、“看病”等。通过采用意图识别算法对待处理文本进行意图识别,则可以从意图层面上把握用户需求,确定该文本可能对应的领域(也即,候选领域类别),得到的该文本对应的多个候选领域类别即为可能满足用户意图的所有领域。在实际应用中,可以预先设置多个领域类别,包括但不限于诸如教育、娱乐、军事、医疗、美食、购物、出行、科技等任何现有领域,在此对领域类别不进行限制。在获取到待处理文本之后,通过意图识别算法可识别出该文本可能对应的多个领域。
33.其中,上述意图识别算法也可称之为意图识别模型,具体可采用相关技术实现,在此不进行限制。
34.步骤s104,针对每个候选领域类别,获取该候选领域类别对应的召回策略,并基于召回策略进行搜索,以得到待处理文本在该候选领域类别对应的召回数据;其中,不同候选领域类别对应的召回策略不同。其中,召回策略(召回算法/召回模型)也可称之为搜索策略(搜索算法/搜索模型),不同召回策略可能基于不同的参考因素进行数据召回,或者针对多种参考因素采用不同的权重进行数据召回。
35.具体而言,每个候选领域类别对应的召回策略与该候选领域类别的领域特点相关。可以理解的是,不同领域的特点不同,在搜索与待处理文本(query)在该领域下的相关内容的侧重点不同,也可以理解为,每个候选领域类别对应的召回策略所采用的标签权重不同,该标签诸如可以为内容标签、用户标签、热门标签、时间标签等,在此对召回策略所参考的标签类别不进行限制。不同领域类别的特点不同,对应的召回策略也不同,诸如,新闻领域更注重时效性,商业领域更注重产品性能、价格等,食品领域更注重口感、食品安全性、保质期等。
36.步骤s106,基于多个候选领域类别对应的召回数据进行混合排序,得到排序结果。
37.在前述步骤中已针对每个候选领域类别都采用相应的召回策略得到多条召回数据,在此可将多条召回数据组合称为召回候选集,也即,每个候选领域类别都对应有该领域下的召回候选集,之后可以将多个候选领域类别对应的召回候选集进行混合,得到多领域候选集,并针对多领域候选集中的召回数据进行排序。在实际应用中,如果候选领域类别较多,可以仅选取其中部分候选领域类别(诸如仅选取最可能与query相关的前n个领域类别,n可自行设置)对应的召回候选集进行混合排序。
38.与相关技术中不划分领域进行搜索,直接基于得到的全领域数据集进行排序相比,本公开实施例提供的上述方式,分领域按照不同的召回策略获取召回数据,然后再基于各领域的召回数据进行混合排序,得到的排序结果可以更好地满足用户的搜索需求。为便于理解,以统计误差的思路对搜索引擎的召回和排序进行分析:如果不划分领域搜索,而是直接面对全领域数据集进行排序,效果不佳的原因在于:每次召回相当于一次根据用户兴趣标签的随机抽样,由于模型算法原因,每次都会有一定误差,不同兴趣标签对不同算法模型的误差方向是不一样的,而如果分领域分标签多次召回,然后把召回结果汇聚一起,再经过混合排序,这样每个算法的误差在一定程度上是可以相互抵消的,因此最终可以得到更优质的排序结果。
39.为了能够更高效更准确地得到混合排序结果,在一些实施方式中,上述基于多个领域类别对应的召回数据进行混合排序,得到排序结果的步骤(也即步骤s106),可以参照
如下步骤a~步骤c实现:
40.步骤a,对多个候选领域类别进行排序。
41.在一些具体的实施方式中,领域排序方式可以参照如下步骤a1~步骤a2实现:
42.步骤a1,获取领域排序参考因素;领域排序参考因素包括以下中的一种或多种:待处理文本的文本标签、待处理文本对应的用户标签、网络热点信息、各个候选领域类别对应的权重、各个候选领域类别对应的召回数据量。在实际应用中,可以采用标签识别算法获取待处理文本的文本标签。
43.标签可以为待分析对象自身具备的特性、属性等;示例性地,待处理文本为“健胃消食片”时,对应的文本标签是“胃药”。文本标签在一定程度上可反映出用户的搜索需求,因此可作为领域排序参考因素。
44.待处理文本对应的用户标签也即输入该待处理文本的用户的特征,诸如可以是用户画像或用户行为特征等,用户画像可以是基于用户历史搜索日志分析得到的用户喜好等用户相关特征,该用户行为特征诸如可以是获取到的用户输入待处理文本(query)所采用的设备、搜索时间等。示例性地,采用不同设备搜索和/或在不同时间段内搜索同一个query,用户意图可能不同。诸如,如果用户采用智能冰箱搜索“鱼香肉丝”,其意图可能是看菜谱;如果用户采用车载设备搜索“鱼香肉丝”,其意图可能是想寻找餐厅。待处理文本对应的用户标签在一定程度上也可反映出用户的搜索需求,因此可作为领域排序参考因素。
45.网络热点信息即为当前指定时段内比较热门的信息,示例性地,对于某事件,可通过统计网络上用户针对该事件的信息搜索量、信息阅读量、或者针对该事件发布的信息量中的一种或多种来判别该事件是否为热点。如果是,该事件的信息即为网络热点信息。网络热点信息也可能是用户较为关注的信息,因此也可作为领域排序参考因素。
46.各个候选领域类别对应的权重可以预先设置,诸如,比较热门的领域权重较高,比较偏冷的领域权重较低;各个候选领域类别对应的权重也可以基于文本标签、用户标签、采用意图识别算法对待处理文本进行处理后的意图识别结果中的一种或多种综合确定,分析结果中置信度高的领域类别对应的权重较大,置信度低的领域类别对应的权重较低。领域类别对应的权重也可作为领域排序参考因素。
47.各个候选领域类别对应的召回数据量可以通过统计得到,诸如a领域召回数据1000条,b领域召回数据300条,c领域召回数据2条等,某领域类别的召回数据量越多,待处理文本属于该领域类别的可能性也越大。各个候选领域类别对应的召回数据量也可作为领域排序参考因素。
48.步骤a2,根据领域排序参考因素,对多个候选领域类别进行排序。排序越靠前的候选领域类别,越接近用户的真实领域意图。在一些实施方式中,如果领域排序参考因素有多个,可以设置每个领域排序参考因素的权重,以及计算每个领域排序参考因素对应的参考值,通过加权平均的方式计算每个候选领域类别的分值,基于分值进行排序。
49.步骤b,将排在前n位的候选领域类别均作为目标领域类别,其中,n为预设整数,示例性地,n可以为3,当然也可以根据需求而设置其它数值,在此不进行限制。假设待处理文本一共对应4个可能的候选领域类别,通过排序后可以仅保留前3个候选领域类别,将前3个候选领域类别作为后续待处理的目标领域类别。通过这种方式,可以仅从中选取部分最可能满足用户需求的领域类别,无需在所有领域类别上耗费处理成本,在一定程度上也可提
升排序效率,缩短排序时间。
50.步骤c,基于目标领域类别对应的召回数据进行混合排序,得到排序结果。每个目标领域类别都对应有多条召回数据,可以将所有目标领域类别对应的多条召回数据汇集在一起进行数据混合排序。
51.为了进一步提升排序效率,可以减少所需排序的数据量,在一些实施方式中,可以参照如下步骤c1~步骤c2实现:
52.步骤c1,确定各个目标领域类别对应的待混合的目标召回数据;其中,排序在前的目标领域类别对应的目标召回数据的数据量大于排序在后的目标领域类别对应的目标召回数据的数据量。也即,多个目标领域类别的数据量随着目标领域类别的排序进行梯度递减。
53.可以理解的是,每个目标领域类别都对应有多条召回数据,多条召回数据通常都按照相关性排序,该排序方式取决于每个目标领域类别的召回策略。换言之,对于每个领域类别,采用该领域类别对应的召回策略进行搜索,返回的多条召回数据都已是排序好的,排序越靠前的召回数据,召回策略认为其与待处理文本的相关性越大。在此基础上,为了进一步提升排序效率,缩减数据处理量,可以采用一定策略从每个目标领域类别对应的召回数据中选取部分数据进行混合,该策略诸如可以是梯度选取策略。假设一共有3个目标领域类别,分别是领域a、领域b、领域c,且经过前述领域排序从前至后分别为领域b、领域a、领域c,则设定从领域b的所有召回数据中选取前1000条数据,领域a的所有召回数据中选取前800条数据,领域c的所有召回数据中选取前600条数据,选取的数据也即待混合的目标召回数据。
54.步骤c2,将各个目标领域类别中的目标召回数据进行混合排序。
55.将各个目标领域类别中的目标召回数据混合在一起之后再采用预设的排序算法进行排序。该排序算法诸如可以是已有的排序算法,也可以是根据需求而制定的排序算法,在此不进行限制。在一具体的实施示例中,该排序算法为支持多特征标签的模型排序算法,使用文本标签、用户标签、领域热词标签、网络热度信息、领域权重等进行综合分析,从而对混合后的目标召回数据再次排序,由于混合后的目标召回数据的数据量通常不大,因此可使用多策略的深度学习模型执行排序操作。
56.通过上述领域排序、数据混合排序等方式所得的排序结果已经可以较好满足用户的搜索需求,为了能够对排序结果进一步优化,以进一步提升用户的搜索体验,考虑到在一些情况下,有些召回数据虽然与用户输入的待处理文本的相关性不强,在排序结果中位置靠后,但是内容质量较高或者当前网络热度较高,在用户意图并非十分明显的情况下,可以将此类内容推荐给用户,以保证优质内容的优先性。基于此,上述方法还包括如下步骤1~步骤2:
57.步骤1,对排序结果中的每条召回数据进行内容质量评分,得到该召回数据对应的质量分值。
58.在一些具体的实施方式中,可以获取评分参考因素;评分参考因素包括以下中的一种或多种:待处理文本对应的用户标签、网络热点信息、数据来源、数据发布时间;然后根据评分参考因素对排序结果中的每条召回数据进行内容质量评分。当然,以上仅列出几种,不应当被视为限制,也可以根据实际需求设置评分参考因素。
59.待处理文本对应的用户标签和网络热点信息具体可参照前述内容,在此不再赘述。数据来源(也可称之为站点)也直接与内容质量相关,诸如,国家新闻平台发布的数据的可信度高于个人平台发布的数据。数据发布时间也可用于评判内容质量,诸如5年前发布的数据的可信度低于近1个月发布的数据的可信度。
60.步骤2,如果该召回数据对应的质量分值与该召回数据在排序结果中的排序位置不匹配,对该召回数据在排序结果中的排序位置进行调整。
61.如果质量分值较高,但是排序位置靠后,则认为质量分值与排序位置不匹配,因此可将其排序位置调整至与质量分值匹配的位置上,实现局部内容调整。在一种具体的实施示例中,可以基于排序位置(实际排名)确定排序权值(rank值),诸如,一共有100个数据,排在首位的数据权值为100,排在末尾的数据权值为1,也即,rank值与实际排名呈反比,然后计算质量分值(score)与排序权值(rank)之间的比值,得到换位参数(level),也即,level=score/rank,level值取整数,诸如,可以直接将score/rank的数值四舍五入后所得的整数作为level值,也可以预先设置多个等级范围,每个等级范围都对应一个数值区间,基于score/rank的数值所在区间确定相应的等级,将该等级值作为level值。level对应的整值即为排序位置的提升位数,诸如,某召回数据的对应的level值为3,则将该召回数据在排序结果中向前提3位,假设该召回数据原排序位置为第10位,则调整后的位置为第7位。当然,如果rank值越大(说明其原本在排序结果中就越靠前),通过上述计算所得level通常越小,再向前提位置的可能性就越小。在一些实施方式中,如果level值为0,则无需调整位置,此时可认为质量分值与排序位置匹配,如果level值不为0,则需要基于level值调整位置,此时可认为质量分值与排序位置不匹配。在实际应用中,可以仅针对不匹配的召回数据进行局部位置迁移,而不涉及其它内容顺序的变动,以确保热点内容和用户主要感兴趣内容不会滞后,保障给用户提供的搜索结果的内容优质性。
62.在前述基础上,本公开实施例提供了另一种数据排序方法的流程示意图,主要包括如下步骤s202~步骤s216:
63.步骤s202,获取待处理文本,并基于意图识别算法确定待处理文本对应的多个候选领域类别。
64.步骤s204,针对每个候选领域类别,获取该候选领域类别对应的召回策略,并基于召回策略进行搜索,以得到待处理文本在该候选领域类别对应的召回数据;其中,不同候选领域类别对应的召回策略不同。
65.步骤s206,根据领域排序参考因素,对多个候选领域类别进行排序。
66.步骤s208,将排在前n位的候选领域类别均作为目标领域类别,其中,n为预设整数。
67.步骤s210,确定各个目标领域类别对应的待混合的目标召回数据;其中,排序在前的目标领域类别对应的目标召回数据的数据量大于排序在后的目标领域类别对应的目标召回数据的数据量。
68.步骤s212,将各个目标领域类别中的目标召回数据进行混合排序,得到排序结果。
69.步骤s214,对排序结果中的每条召回数据进行内容质量评分,得到该召回数据对应的质量分值。
70.步骤s216,如果该召回数据对应的质量分值与该召回数据在排序结果中的排序位
置不匹配,对该召回数据在排序结果中的排序位置进行调整,得到调整后的排序结果。
71.本公开实施例提供的上述方式的具体步骤及有益效果可参照前述内容,在此不再赘述。
72.基于前述实施方式,为便于理解,本公开实施例还提供了一种如图3所示的数据排序原理图,示意出用户输入query,搜索引擎可基于意图识别算法对query进行领域筛选,得到query可能对应的4个领域(领域1~领域4),然后每个领域都采用相应的召回策略(召回策略1~召回策略4)进行数据召回,同时基于文本标签、用户标签、领域热度、召回结果对4个领域进行领域排名,得到领域top3(也即,排在前3名的领域),在图3中仅是假设领域1~领域3作为领域top3,之后可将领域1~领域3对应的召回结果进行聚合(混合),得到聚合结果,然后进行综合排序,之后还可以基于内容优质性进行局部排序,返回最终排序结果,也即,可将最终排序结果作为针对query的搜索结果呈现给用户。图3仅是简单示意出了一种数据排序方式所需涉及的主要环节,不应当被视为限制,在实际应用中可采用比其中更多或更少的环节,而且具体环节的实现方式可参照前述内容,在此不再赘述。
73.综上所述,通过本公开实施例提供的上述数据排序方式,可以分领域按照不同的召回策略获取召回数据,然后再基于各领域的召回数据进行混合排序,可较好满足用户多元化的搜索需求。另外,本公开实施例针对每个领域都采用不同的召回策略,换言之,采用不同的召回模型进行数据召回,每个召回模型都只专注于相应的特定领域,从而在领域特征清晰明确的情况下进行领域内数据召回,然后再利用多个领域分别召回的数据汇集起来进行混合排序,还可以再基于内容优质程度对排序结果进行局部调整,综合保证搜索结果的优质性和准确性,有助于较好提升用户体验。
74.对应于前述数据排序方法,本公开实施例提供了一种数据排序装置,图4为本公开实施例提供的一种数据排序装置的结构示意图,该装置可由软件和/或硬件实现,一般可集成在电子设备中,如图4所示,包括:
75.类别确定模块402,用于获取待处理文本,并确定待处理文本对应的多个候选领域类别;
76.领域召回模块404,用于针对每个候选领域类别,获取该候选领域类别对应的召回策略,并基于召回策略进行搜索,以得到待处理文本在该候选领域类别对应的召回数据;其中,不同候选领域类别对应的召回策略不同;
77.数据排序模块406,用于基于多个候选领域类别对应的召回数据进行混合排序,得到排序结果。
78.通过上述装置,可以分领域按照不同的召回策略获取召回数据,然后再基于各领域的召回数据进行混合排序,得到的排序结果可以更好地满足用户的搜索需求。
79.在一些实施方式中,类别确定模块402具体用于:采用意图识别算法对所述待处理文本进行处理,以确定所述待处理文本对应的多个候选领域类别。
80.在一些实施方式中,数据排序模块406具体用于:对多个所述候选领域类别进行排序;将排在前n位的候选领域类别均作为目标领域类别,其中,n为预设整数;基于所述目标领域类别对应的召回数据进行混合排序,得到排序结果。
81.在一些实施方式中,数据排序模块406具体用于:获取领域排序参考因素;所述领域排序参考因素包括以下中的一种或多种:所述待处理文本的文本标签、所述待处理文本
对应的用户标签、网络热点信息、各个所述候选领域类别对应的权重、各个所述候选领域类别对应的召回数据量;根据所述领域排序参考因素,对多个所述候选领域类别进行排序。
82.在一些实施方式中,数据排序模块406具体用于:确定各个所述目标领域类别对应的待混合的目标召回数据;其中,排序在前的目标领域类别对应的目标召回数据的数据量大于排序在后的目标领域类别对应的目标召回数据的数据量;将各个所述目标领域类别中的目标召回数据进行混合排序。
83.在一些实施方式中,所述装置还包括:
84.评分模块,用于对所述排序结果中的每条所述召回数据进行内容质量评分,得到该召回数据对应的质量分值;
85.调整模块,用于如果该召回数据对应的质量分值与该召回数据在所述排序结果中的排序位置不匹配,对该召回数据在所述排序结果中的排序位置进行调整。
86.在一些实施方式中,评分模块具体用于:获取评分参考因素;所述评分参考因素包括以下中的一种或多种:所述待处理文本对应的用户标签、网络热点信息、数据来源、数据发布时间;根据所述评分参考因素对所述排序结果中的每条所述召回数据进行内容质量评分。
87.本公开实施例所提供的数据排序装置可执行本公开任意实施例所提供的数据排序方法,具备执行方法相应的功能模块和有益效果。
88.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置实施例的具体工作过程,可以参考方法实施例中的对应过程,在此不再赘述。
89.本公开实施例还提供了一种电子设备,电子设备包括:处理器;用于存储处理器可执行指令的存储器;处理器,用于从存储器中读取可执行指令,并执行指令以实现上述任一项数据排序方法。
90.图5为本公开实施例提供的一种电子设备的结构示意图。如图5所示,电子设备500包括一个或多个处理器501和存储器502。
91.处理器501可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备500中的其他组件以执行期望的功能。
92.存储器502可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器501可以运行所述程序指令,以实现上文所述的本公开的实施例的数据排序方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
93.在一个示例中,电子设备500还可以包括:输入装置503和输出装置504,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
94.此外,该输入装置503还可以包括例如键盘、鼠标等等。
95.该输出装置504可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出装置504可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
96.当然,为了简化,图5中仅示出了该电子设备500中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备500还可以包括任何其他适当的组件。
97.除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的数据排序方法。
98.所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、c 等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
99.此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的数据排序方法。
100.所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
101.本公开实施例还提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本公开实施例中的数据排序方法。
102.需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
103.以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献