一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种条文推荐的方法、装置、设备和可读存储介质与流程

2022-07-16 15:48:08 来源:中国专利 TAG:


1.本技术涉及相关条文推荐的领域,具体而言,涉及一种条文推荐的方法、装置、设备和可读存储介质。


背景技术:

2.随着互联网快速发展和条文化快速普及,绝大部分企业和相关部门已经进入条文化时代。大量的文本信息可以通过机器学习和人工智能的方式进行自动处理,极大地简化了传统的人工处理的流程,提高了各个部门的效率。
3.但是,在文本匹配的领域,在传统的处理流程中,需要利用预训练语言模型通过将事件文本对应的向量与条文文本向量的匹配,为用户推荐一系列的条文文本信息。
4.而在实际条文文本匹配的过程中,由于文本较长、文本数量庞大导致最终匹配的结果并不准确,效率低,匹配时间长。
5.因此,如何根据事件文本准确、高效的为用户推荐条文,是一个需要解决的技术问题。


技术实现要素:

6.本技术实施例的目的在于提供一种条文推荐的方法,通过本技术的实施例的技术方案可以达到准确、高效的为用户推荐条文的效果。
7.第一方面,本技术实施例提供了一种条文推荐的方法,包括,将事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量分别进行匹配度匹配,得到每一条条文与事件文本的细粒度匹配得分;基于事件文本对应的向量和候选条文集合中每一条条文的向量分别进行匹配度匹配,得到每一条条文与事件文本的粗粒度匹配得分;基于候选条文集合中所有条文与事件文本的细粒度匹配得分和每一条条文与事件文本的粗粒度匹配得分从候选条文集合中确定出推荐的预设数量的条文。
8.在上述过程中,可以细粒度的计算出每一条条文与事件文本的细粒度匹配得分,最终根据得分筛选条文,通过更细粒度的匹配机制并对匹配的结果进行打分即本技术的方案可以达到准确、高效的推荐条文的效果。
9.一种实施例中,基于候选条文集合中所有条文与事件文本的细粒度匹配得分以及候选条文集合中所有条文与事件文本的粗粒度匹配得分从候选条文集合中确定出推荐的预设数量的条文,包括:
10.将候选条文集合中所有条文与事件文本的细粒度匹配得分和候选条文集合中所有条文与事件文本的粗粒度匹配得分加权求和,得到候选条文集合中每一条条文对应的总匹配度得分;
11.基于候选条文集合中每一条条文对应的总匹配度得分从候选条文集合中确定出推荐的预设数量的条文。
12.在上述过程中,通过每一条条文与事件文本的粗粒度匹配得分来筛选条文以及候
选条文集合中所有条文与事件文本的细粒度匹配得分进行加权求和,根据加权求和之后的总分来推荐条文,使最终推荐的结果更准确。
13.一种实施例中,在基于事件文本对应的向量和候选条文集合中每一条条文的向量分别进行匹配度匹配,得到每一条条文与事件文本的粗粒度匹配得分之前,还包括:
14.利用提前训练好的自注意力文本编码器对事件文本和候选条文集合中每一条条文进行编码,得到事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量;
15.将事件文本对应的多个词语中的每一个词语的向量进行聚合,得到事件文本对应的向量;
16.将候选条文集合中每一条条文的所有词语的向量分别进行聚合,得到候选条文集合中每一条条文的向量。
17.在上述过程中,利用不断训练得出的自注意力文本编码器得到事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量分并分别进行聚合得到的事件文本对应的向量和候选条文集合中每一条条文的向量的精确度更高。
18.一种实施例中,在将事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量分别进行匹配度匹配,得到每一条条文与事件文本的细粒度匹配得分之前,还包括:
19.利用提前训练好的自注意力文本编码器对事件文本和候选条文集合中每一条条文进行编码,得到事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量。
20.在上述过程中,通过训练好的自注意力文本编码器得到的事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量的精确度更高。
21.一种实施例中,在将事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量分别进行匹配度匹配,得到每一条条文与事件文本的细粒度匹配得分之前,还包括:
22.利用提前训练好的自注意力文本编码器对事件文本进行编码,得到事件文本对应的多个词语中的每一个词语的向量;
23.将事件文本对应的多个词语中的每一个词语的向量聚合,得到事件文本对应的向量;
24.利用事件文本分类器对事件文本对应的向量进行处理,得到与事件文本相关的文本名称集合;
25.从文本名称集合中筛选出预设数量的文本名称,并获取每一文本名称对应的条文,得到候选条文集合。
26.在上述过程中,聚合后的事件文本对应的向量再通过事件文本分类器的处理,可以优先确定事件文本所属文本名称中的哪些文本名称,并根据确定出的文本名称快速获取候选条文集合。
27.一种实施例中,将事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量分别进行匹配度匹配,得到每一条条文与事件文本的细粒度匹配得分,包括:
28.将事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量分别进行匹配度匹配,得到事件文本对应的多个词语中每一个词语的向量和候选条文集合中每一条条文的所有词语的向量的匹配度得分;
29.候选条文集合中每一条条文都经过以下步骤之后,得到候选条文集合中每一条条文与事件文本的细粒度匹配得分:
30.将事件文本对应的多个词语中的每一个词语的向量和候选条文集合中第n条条文的所有词语的向量的匹配度得分最高的对应的分数求和,得到事件文本与第n条条文的匹配度得分,n为大于等于1的正整数。
31.在上述过程中,事件文本中的多个词语中的每一个词语和第n条条文对应的分数之和作为该事件文本和该条条文的细粒度得分,通过该方法得到的候选条文集合中每一条条文与事件文本的细粒度匹配得分更具代表性,使最终推荐条文的结果更加准确。
32.一种实施例中,基于候选条文集合中所有条文与事件文本的细粒度匹配得分以及候选条文集合中所有条文与事件文本的粗粒度匹配得分从候选条文集合中确定出推荐的预设数量的条文,包括:
33.基于候选条文集合中所有条文与事件文本的细粒度匹配得分,将候选条文集合中每一条条文由高分数到低分数进行排序,得到排序队列,并将队列中从首位开始确定出推荐的预设数量的条文。
34.在上述过程中,按照分数的高低将条文排序,取一定数量的前几个条文作为最终的筛选结果,筛选出的条文更符合事件文本的描述。
35.第二方面,本技术实施例提供了一种条文推荐的装置,包括:
36.匹配模块,用于将事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量分别进行匹配度匹配,得到每一条条文与事件文本的细粒度匹配得分;
37.第二匹配模块,用于将事件文本对应的向量和候选条文集合中每一条条文的向量分别进行匹配度匹配,得到每一条条文与事件文本的粗粒度匹配得分;
38.推荐模块,用于基于候选条文集合中所有条文与事件文本的细粒度匹配得分以及候选条文集合中所有条文与事件文本的粗粒度匹配得分从候选条文集合中确定出推荐的预设数量的条文。
39.可选的,所述推荐模块具体用于:
40.将候选条文集合中所有条文与事件文本的细粒度匹配得分和候选条文集合中所有条文与事件文本的粗粒度匹配得分加权求和,得到候选条文集合中每一条条文对应的总匹配度得分;
41.基于候选条文集合中每一条条文对应的总匹配度得分从候选条文集合中确定出推荐的预设数量的条文。
42.可选的,所述装置还包括:
43.聚合模块,用于所述第二匹配模块在将事件文本对应的向量和候选条文集合中每一条条文的向量分别进行匹配度匹配,得到每一条条文与事件文本的粗粒度匹配得分之前,利用提前训练好的自注意力文本编码器对事件文本和候选条文集合中每一条条文进行编码,得到事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文
的所有词语的向量;
44.将事件文本对应的多个词语中的每一个词语的向量进行聚合,得到事件文本对应的向量;
45.将候选条文集合中每一条条文的所有词语的向量分别进行聚合,得到候选条文集合中每一条条文的向量。
46.可选的,所述装置还包括:
47.编码模块,用于所述匹配模块在将事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量分别进行匹配度匹配,得到每一条条文与事件文本的细粒度匹配得分之前,利用提前训练好的自注意力文本编码器对事件文本和候选条文集合中每一条条文进行编码,得到事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量。
48.可选的,所述装置还包括:
49.获取模块,用于所述匹配模块在将事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量分别进行匹配度匹配,得到每一条条文与事件文本的细粒度匹配得分之前,利用提前训练好的自注意力文本编码器对事件文本进行编码,得到事件文本对应的多个词语中的每一个词语的向量;
50.将事件文本对应的多个词语中的每一个词语的向量聚合,得到事件文本对应的向量;
51.利用事件文本分类器对事件文本对应的向量进行处理,得到与事件文本相关的文本名称集合;
52.从文本名称集合中筛选出预设数量的文本名称,并获取每一文本名称对应的条文,得到候选条文集合。
53.可选的,所述匹配模块具体用于:
54.将事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量分别进行匹配度匹配,得到事件文本对应的多个词语中每一个词语的向量和候选条文集合中每一条条文的所有词语的向量的匹配度得分;
55.候选条文集合中每一条条文都经过以下步骤之后,得到候选条文集合中每一条条文与事件文本的细粒度匹配得分:
56.将事件文本对应的多个词语中的每一个词语的向量和候选条文集合中第n条条文的所有词语的向量的匹配度得分最高的对应的分数求和,得到事件文本与第n条条文的匹配度得分,n为大于等于1的正整数。
57.可选的,所述推荐模块具体用于:
58.基于候选条文集合中所有条文与事件文本的细粒度匹配得分,将候选条文集合中每一条条文由高分数到低分数进行排序,得到排序队列,并将队列中从首位开始确定出推荐的预设数量的条文。
59.第三方面,本技术实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
60.第四方面,本技术实施例提供一种可读存储介质,其上存储有计算机程序,所述计
算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
61.本技术的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术实施例了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
62.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
63.图1为本技术实施例提供的一种条文推荐的方法的流程图;
64.图2为本技术实施例提供的一种获取事件文本对应的向量的方法的示意图;
65.图3为本技术实施例提供的一种基于细粒度文本匹配的条文推荐的方法的示意图;
66.图4为本技术实施例提供的一种获取事件文本和条文文本的总匹配度得分的方法的示意图;
67.图5为本技术实施例提供的一种条文推荐的装置的示意框图;
68.图6为本技术实施例提供的一种条文推荐的装置的结构示意框图。
具体实施方式
69.下面将结合本技术实施例中附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和显示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
70.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本技术的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
71.本技术应用于相关条文推荐的场景,具体场景为根据事件文本的描述,从众多的条文中筛选出最符合事件文本的描述的条文。
72.但是在目前的条文推荐的过程中,需要人工判断哪些条文符合事件文本的描述,或者需要利用预训练语言模型通过将事件文本对应的向量与条文文本向量的匹配,推荐一系列的条文文本信息。而在实际推荐条文的过程中,由于文本较长、文本数量庞大导致最终匹配的结果并不准确,效率低,匹配时间长。
73.为此本技术通过将事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量分别进行匹配度匹配,得到每一条条文与事件文本的细粒度匹配得分,根据条文细粒度的匹配得分筛选对应的条文。还可以基于事件文本对应的向量和候选条文集合中每一条条文的向量分别进行匹配度匹配,得到每一条条文与事件
文本的粗粒度匹配得分;将候选条文集合中所有条文与事件文本的细粒度匹配得分和候选条文集合中所有条文与事件文本的粗粒度匹配得分加权求和,得到候选条文集合中每一条条文对应的总匹配度得分,根据条文的细粒度匹配得分和粗粒度匹配得分加权求和之后的分数筛选并推荐对应的条文,可以达到准确、高效的推荐条文的效果。
74.本技术实施例中,执行主体可以为条文推荐系统中的条文推荐设备,实际应用中,条文推荐设备可以为终端设备和服务器设备等电子设备,在此不做限制。
75.下面结合图1对本技术实施例的条文推荐的方法进行详细描述。
76.请参看图1,图1为本技术实施例提供的一种条文推荐的方法的流程图,如图1所示的条文推荐的方法包括:
77.步骤110:将事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量分别进行匹配度匹配,得到每一条条文与事件文本的细粒度匹配得分。
78.在上述过程中,可以细粒度的计算出每一条条文与事件文本的细粒度匹配得分,最终根据得分筛选条文,通过更细粒度的匹配机制并对匹配的结果进行打分,可以更合理的确定出事件文本和每一条条文的符合度。
79.其中,事件文本对应的多个词语可以是事件文本中部分的词语,例如,可以是一些关键性的词语,或者是预设数量的词语,还可以是事件文本中的全部词语。匹配得分可以是根据两个向量的相似度或者是余弦值的大小确定的,事件文本可以是案件的描述、公司的制度描述、班级的制度描述和交通事件的描述等,对应的条文可以是法律中的法条、公司中的规定、班级中的班规或者交通规则中的条例等,凡是有关规则性的条文都属于本技术保护的范围,本技术不限于此。
80.此外,本技术不仅可以根据事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量分别进行匹配度匹配,得到每一条条文与事件文本的细粒度匹配得分并进行条文的筛选,还可以根据其它的得分,例如,事件文本对应的向量和候选条文集合中每一条条文的向量分别进行匹配度匹配,得到每一条条文与事件文本的粗粒度匹配得分进行条文的筛选,或者根据上述的两个不同得分,或者是更多的有关得分进行加权求和得到的总得分,也可以进行条文的筛选,本技术不限于此。
81.具体的,在执行步骤110之前,还可以采用以下步骤:
82.利用提前训练好的自注意力文本编码器对事件文本和候选条文集合中每一条条文进行编码,得到事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量。
83.在上述过程中,通过训练好的自注意力文本编码器得到的事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量的精确度更高。
84.其中,训练好的自注意力文本编码器可以根据数据库中历史的条文不断训练得到的,编码的结果更准确。其中计算每个词语的向量可通过如下公式计算得出:
[0085][0086][0087]hi
=concat(head
i,1
,

,head
i,h
)。
[0088]
其中,w为可训练参数,attention表示注意力,q,k,v表示多头注意力机制模块的输入向量,softmax是一种逻辑回归模型,concat是一种向量计算的函数,ei表示输入的词向量,i表示第i个词语的向量,k表示第k个注意力头的输出向量,head
i,k
表示第i个词向量经过第k个注意力头的输出向量,i和k为大于等于1的正整数,hi为条文文本中每个词语的上下文向量表示,d表示词向量维度,t用于矩阵转置。此外,在文本描述中,还可以根据不同位置词语的重要性对每个词语进行向量表示的计算,具体各位置重要程度的数值可通过如下公式获取:
[0089][0090][0091]
其中,其中t表示词语在文本中的位置,d为词向量的维度,timing
(t,i)
表示第t个单词的位置的词语向量中第i位的重要程度的数值。
[0092]
具体的,在执行步骤110之前,还可以采用以下步骤:
[0093]
步骤111:利用提前训练好的自注意力文本编码器对事件文本进行编码,得到事件文本对应的多个词语中的每一个词语的向量。
[0094]
步骤112:将事件文本对应的多个词语中的每一个词语的向量聚合,得到事件文本对应的向量。
[0095]
步骤113:利用事件文本分类器对事件文本对应的向量进行处理,得到与事件文本相关的文本名称集合。
[0096]
步骤114:从文本名称集合中筛选出预设数量的文本名称,并获取每一文本名称对应的条文,得到候选条文集合。
[0097]
在上述过程中,聚合后的事件文本对应的向量再通过事件文本分类器的处理,可以优先确定事件文本所属文本名称中的哪些文本名称,并根据确定出的文本名称快速获取候选条文集合。
[0098]
其中,通过事件文本分类器对事件文本对应的向量进行处理,可以从数据库中所有的文本名称中确定符合事件文本描述的文本名称,例如,通过事件文本分类器对案件文本的描述,从众多的法律名称中选择最符合案件文本描述的三部法律,最终根据法律名称,将其对应的所有法条最为候选法条集合。其中,选择法律名称可以通过如下公式获得:
[0099]ylaw
=σ(w
law
ea b
law
)。
[0100]
其中ea表示事件文本的整体向量,w
law
,b
law
为法律分类器的可训练参数,σ表示sigmoid(s型函数)函数作为非线性激活函数,y
law
表示事件文本和条文相关的概率,概率越大越符合案件文本的描述。
[0101]
其中,将事件文本对应的多个词语中的每一个词语的向量聚合,得到事件文本对应的向量可通过如下公式获得:
[0102]
αi=q
t
tanh(v
t
×hi
v
t
)。
[0103]
ea=∑α
ihi

[0104]
其中q
t
为可训练参数,v
t
和v
t
为可训练参数,i表示第i个单词,hi表示第i个单词的
向量,a表示权重,ai为第i个单词的权重,对所有词语的上下文向量进行加权求和得到文本整体的向量表示,tanh表示双曲线切线函数,ea表示事件文本对应的向量。
[0105]
其中,根据上述事件文本向量的计算方法,利用事件文本分类器对事件文本对应的向量进行处理,得到与事件文本相关的文本名称集合可通过如下公式获取:
[0106]ylaw
=ffn(ea)。
[0107]
其中,ffn为全连接神经网络,a表示权重,ea表示事件文本对应的向量,y
law
表示文本名称和事件文本相关的概率,概率越大相关性越高。
[0108]
此外,事件文本对应的向量可通过图2中的方法获取。
[0109]
请参看图2,图2为一种获取事件文本对应的向量的方法的示意图,如图2所示的方法包括:
[0110]
其中,w1,w2,w3,w4表示不同的事件文本,a表示权重,σ表示h1,h2,h3和h4的聚合,通过自注意力编码器对事件文本进行编码,得到事件文本对应的多个词语中的每一个词语的向量(h1,h2,h3,h4),利用函数并根据每一个词语的向量的权重对事件文本中的向量进行聚合,得到事件文本对应的文本向量。
[0111]
具体的,在执行步骤110时,可以采用以下步骤:
[0112]
步骤1101:将事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量分别进行匹配度匹配,得到事件文本对应的多个词语中每一个词语的向量和候选条文集合中每一条条文的所有词语的向量的匹配度得分。
[0113]
步骤1102:候选条文集合中每一条条文都经过步骤1103之后,得到候选条文集合中每一条条文与事件文本的细粒度匹配得分。
[0114]
步骤1103:将事件文本对应的多个词语中的每一个词语的向量和候选条文集合中第n条条文的所有词语的向量的匹配度得分最高的对应的分数求和,得到事件文本与第n条条文的匹配度得分,n为大于等于1的正整数。
[0115]
在上述过程中,事件文本中的多个词语中的每一个词语和第n条条文对应的分数之和作为该事件文本和该条条文的细粒度得分,通过该方法得到的候选条文集合中每一条条文与事件文本的细粒度匹配得分更具代表性,使最终推荐条文的结果更加准确。
[0116]
其中,通过事件文本和条文中每个词语的向量进行匹配,通过最大池化的方式得到事件文本对应的多个词语中每一个词语的向量和候选条文集合中每一条条文的所有词语的向量的细粒度匹配度得分。具体计算结果可通过如下公式获取:
[0117][0118]
sim2=∑si。
[0119]
其中,a表示权重,i表示第i个单词,si表示事件文本中第i个单词的向量与一条条文的匹配度得分,表示单词向量的矩阵,max表示取最大值,sim2表示事件文本与一条条文的匹配度得分。
[0120]
针对上述叙述,请参看图3,图3为本技术提供的一种基于细粒度文本匹配的条文推荐的方法的示意图,如图3所示的条文推荐的方法包括:
[0121]
将事件文本和候选条文集合输入自注意力文本编码器分别得到事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量,然后通
过事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量的细粒度文本匹配得到每一条条文与事件文本的细粒度匹配得分,最终根据细粒度匹配得分完成条文推荐。
[0122]
步骤120:将事件文本对应的向量和候选条文集合中每一条条文的向量分别进行匹配度匹配,得到每一条条文与事件文本的粗粒度匹配得分。
[0123]
在上述过程中,可以基于事件文本对应的向量和候选条文集合中每一条条文的向量的粗粒度的得到每一条条文与事件文本的粗粒度匹配得分,为最终推荐条文提供一方面的筛选因素。
[0124]
其中,基于事件文本对应的向量和候选条文集合中每一条条文的向量分别进行匹配度匹配,通过点积的方式得到每一条条文与事件文本的粗粒度匹配得分。具体的,每一条条文与事件文本的粗粒度匹配得分可通过如下公式获取:
[0125]ef
={e
f1
,e
f2
,

,e
fn
}。
[0126]efw
={e
w1
,e
w2
,

,e
wn
}。
[0127][0128]
其中,ea表示事件文本向量,ef表示条文的向量的集合,e
fn
表示第n个条文的向量,e
fw
表示第w个条文中f个词语的向量的集合,e
wn
表示第w个条文中第n个词语的向量,t为矩阵转置,sim1表示通过点积的方式获取到的一条条文与事件文本的粗粒度匹配得分。
[0129]
具体的,在执行步骤120之前,还可以采用以下步骤:
[0130]
步骤1201:利用提前训练好的自注意力文本编码器对事件文本和候选条文集合中每一条条文进行编码,得到事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量。
[0131]
步骤1202:将事件文本对应的多个词语中的每一个词语的向量进行聚合,得到事件文本对应的向量。
[0132]
步骤1203:将候选条文集合中每一条条文的所有词语的向量分别进行聚合,得到候选条文集合中每一条条文的向量。
[0133]
在上述过程中,利用不断训练得出的自注意力文本编码器得到事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量分并分别进行聚合得到的事件文本对应的向量和候选条文集合中每一条条文的向量的精确度更高。
[0134]
其中,将事件文本对应的多个词语中的每一个词语的向量进行聚合,得到事件文本对应的向量,是通过自注意力文本编码器分别对事件文本和条文进行编码,将得到的词语的上下文向量聚合得到事件文本对应的向量表示并进行存储。
[0135]
在步骤120之后,具体的,基于候选条文集合中所有条文与事件文本的细粒度匹配得分以及候选条文集合中所有条文与事件文本的粗粒度匹配得分从候选条文集合中确定出推荐的预设数量的条文,包括:
[0136]
步骤121:将候选条文集合中所有条文与事件文本的细粒度匹配得分和候选条文集合中所有条文与事件文本的粗粒度匹配得分加权求和,得到候选条文集合中每一条条文对应的总匹配度得分。
[0137]
步骤122:基于候选条文集合中每一条条文对应的总匹配度得分从候选条文集合中确定出推荐的预设数量的条文。
[0138]
在上述过程中,通过每一条条文与事件文本的粗粒度匹配得分来筛选条文以及通过候选条文集合中所有条文与事件文本的细粒度匹配得分进行加权求和,根据加权求和之后的总分来筛选条文,使最终推荐的结果更准确。
[0139]
其中,预设数量的条文可以根据用户需求自行设定。此外,将候选条文集合中所有条文与事件文本的细粒度匹配得分和候选条文集合中所有条文与事件文本的粗粒度匹配得分加权求和,得到候选条文集合中每一条条文对应的总匹配度得分是通过如下公式计算的到的:
[0140]
sim=λ1sim1 λ2sim2。
[0141]
其中,λ1、λ2为超参数,sim表示一条条文和事件文本的总匹配度得分,sim1该条文与事件文本的粗粒度匹配得分,sim2表示事件文本与该条文的匹配度得分。
[0142]
下面以其中一条条文和一个事件文本为例,描述事件文本和条文文本的总匹配度得分。
[0143]
请参看图4,图4为本技术提供的一种获取事件文本和条文文本的总匹配度得分的方法的示意图,如图4所述的方法包括:
[0144]
其中h1,h2,h3,h4为条文的词语的向量,h5,h6,h7,h8为事件的词语的向量,s1,s2,s3,s4为每个事件的词语与条文的匹配度得分,t1为事件文本对应的向量,t2为条文文本的向量,首先,事件文本中的每一个词语的向量和条文中的每一个词语的向量进行细粒度匹配,取h5和h1,h2,h3,h4的匹配度得分最高的得分s1作为h5与该条文的匹配度得分,取h6和h1,h2,h3,h4的匹配度得分最高的得分s2作为h6与该条文的匹配度得分,取h7和h1,h2,h3,h4的匹配度得分最高的得分s1作为h7与该条文的匹配度得分,取h8和h1,h2,h3,h4的匹配度得分最高的得分s4作为h8与该条文的匹配度得分,其中s1、s2、s3和s4的和sim2为该条文与事件文本的细粒度匹配得分。其次,事件文本对应的向量和条文文本的向量通过点积的方式得到该条文与事件文本的粗粒度匹配得分sim1。最后,对sim1和sim2加权求和得到事件文本和条文文本的总匹配度得分sim。
[0145]
此外,步骤110可用于模型中,通过模型的训练,将事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量输入模型,可以直接得到每一条条文与事件文本的细粒度匹配得分,进而根据得分筛选条文。其中,通过数据库中的记录,获取(事件文本,文本名称,条文内容)的三元组训练数据集和测试集对模型进行训练和测试得到该模型。在上述获取数据的过程中,还会利用中文分词工具对数据进行预处理,得到可输入模型的训练数据格式。
[0146]
步骤130:基于候选条文集合中所有条文与事件文本的细粒度匹配得分以及候选条文集合中所有条文与事件文本的粗粒度匹配得分从候选条文集合中确定出推荐的预设数量的条文。
[0147]
在上述过程中,通过更细粒度的匹配机制并对匹配的结果进行打分即本技术的方案可以达到准确、高效的推荐条文的效果。
[0148]
具体的,在执行步骤120时,可以采用以下步骤:
[0149]
基于候选条文集合中所有条文与事件文本的细粒度匹配得分,将候选条文集合中每一条条文由高分数到低分数进行排序,得到排序队列,并将队列中从首位开始确定出推荐的预设数量的条文。
[0150]
在上述过程中,按照分数的高低将条文排序,取一定数量的前几条条文作为最终的推荐结果,筛选出的条文更符合事件文本的描述。
[0151]
前文通过图1-图4描述了条文推荐的方法,下面结合图5-图6描述条文推荐的装置。
[0152]
请参照图5,为本技术实施例中提供的一种条文推荐的装置500的示意框图,该装置500可以是电子设备上的模块、程序段或代码。该装置500与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置500具体的功能可以参见下文中的描述,为避免重复,此处适当省略详细描述。
[0153]
可选的,所述装置500包括:
[0154]
匹配模块510,用于将事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量分别进行匹配度匹配,得到每一条条文与事件文本的细粒度匹配得分;
[0155]
第二匹配模块520,用于将事件文本对应的向量和候选条文集合中每一条条文的向量分别进行匹配度匹配,得到每一条条文与事件文本的粗粒度匹配得分;
[0156]
推荐模块530,用于基于候选条文集合中所有条文与事件文本的细粒度匹配得分以及候选条文集合中所有条文与事件文本的粗粒度匹配得分从候选条文集合中确定出推荐的预设数量的条文。
[0157]
可选的,所述推荐模块具体用于:
[0158]
将候选条文集合中所有条文与事件文本的细粒度匹配得分和候选条文集合中所有条文与事件文本的粗粒度匹配得分加权求和,得到候选条文集合中每一条条文对应的总匹配度得分;
[0159]
基于候选条文集合中每一条条文对应的总匹配度得分从候选条文集合中确定出推荐的预设数量的条文。
[0160]
可选的,所述装置还包括:
[0161]
聚合模块,用于所述第二匹配模块在将事件文本对应的向量和候选条文集合中每一条条文的向量分别进行匹配度匹配,得到每一条条文与事件文本的粗粒度匹配得分之前,利用提前训练好的自注意力文本编码器对事件文本和候选条文集合中每一条条文进行编码,得到事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量;
[0162]
将事件文本对应的多个词语中的每一个词语的向量进行聚合,得到事件文本对应的向量;
[0163]
将候选条文集合中每一条条文的所有词语的向量分别进行聚合,得到候选条文集合中每一条条文的向量。
[0164]
可选的,所述装置还包括:
[0165]
编码模块,用于所述匹配模块在将事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量分别进行匹配度匹配,得到每一条条文与事件文本的细粒度匹配得分之前,利用提前训练好的自注意力文本编码器对事件文本和候选条文集合中每一条条文进行编码,得到事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量。
[0166]
可选的,所述装置还包括:
[0167]
获取模块,用于所述匹配模块在将事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量分别进行匹配度匹配,得到每一条条文与事件文本的细粒度匹配得分之前,利用提前训练好的自注意力文本编码器对事件文本进行编码,得到事件文本对应的多个词语中的每一个词语的向量;
[0168]
将事件文本对应的多个词语中的每一个词语的向量聚合,得到事件文本对应的向量;
[0169]
利用事件文本分类器对事件文本对应的向量进行处理,得到与事件文本相关的文本名称集合;
[0170]
从文本名称集合中筛选出预设数量的文本名称,并获取每一文本名称对应的条文,得到候选条文集合。
[0171]
可选的,所述匹配模块具体用于:
[0172]
将事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量分别进行匹配度匹配,得到事件文本对应的多个词语中每一个词语的向量和候选条文集合中每一条条文的所有词语的向量的匹配度得分;
[0173]
候选条文集合中每一条条文都经过以下步骤之后,得到候选条文集合中每一条条文与事件文本的细粒度匹配得分:
[0174]
将事件文本对应的多个词语中的每一个词语的向量和候选条文集合中第n条条文的所有词语的向量的匹配度得分最高的对应的分数求和,得到事件文本与第n条条文的匹配度得分,n为大于等于1的正整数。
[0175]
可选的,所述推荐模块具体用于:
[0176]
基于候选条文集合中所有条文与事件文本的细粒度匹配得分,将候选条文集合中每一条条文由高分数到低分数进行排序,得到排序队列,并将队列中从首位开始确定出推荐的预设数量的条文。
[0177]
请参照图6为本技术实施例中提供的一种条文推荐的装置600的结构示意框图,该装置可以包括存储器610和处理器620。可选的,该装置还可以包括:通信接口630和通信总线640。该装置与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置具体的功能可以参见下文中的描述。
[0178]
具体的,存储器610,用于存储计算机可读指令。
[0179]
处理器620,用于处理存储器存储的可读指令,能够执行图1方法实施例110至130各个步骤。
[0180]
通信接口630,用于与其他节点设备进行信令或数据的通信。例如:用于与服务器或者终端的通信,或者与其它设备节点进行通信,本技术实施例并不限于此。
[0181]
通信总线640,用于实现上述组件直接的连接通信。
[0182]
其中,本技术实施例中设备的通信接口630用于与其他节点设备进行信令或数据的通信。存储器610可以是高速ram存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器610可选的还可以是至少一个位于远离前述处理器的存储装置。存储器610中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器620执行时,电子设备执行上述图1所示方法过程。处理器620可以用于装置500上,并
且用于执行本技术中的功能。示例性地,上述的处理器620可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,本技术实施例并不局限于此。
[0183]
本技术实施例还提供一种可读存储介质,所述计算机程序被处理器执行时,执行如图1所示方法实施例中电子设备所执行的方法过程。
[0184]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
[0185]
综上所述,本技术实施例提供一种条文推荐的方法、装置、电子设备和可读存储介质,该方法包括,将事件文本对应的多个词语中的每一个词语的向量和候选条文集合中每一条条文的所有词语的向量分别进行匹配度匹配,得到每一条条文与事件文本的细粒度匹配得分;基于事件文本对应的向量和候选条文集合中每一条条文的向量分别进行匹配度匹配,得到每一条条文与事件文本的粗粒度匹配得分;基于候选条文集合中所有条文与事件文本的细粒度匹配得分和每一条条文与事件文本的粗粒度匹配得分从候选条文集合中确定出推荐的预设数量的条文。通过该方法可以达到准确、高效的推荐条文的效果。
[0186]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0187]
另外,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
[0188]
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0189]
以上所述仅为本技术的实施例而已,并不用于限制本技术的保护范围,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图
中不需要对其进行进一步定义和解释。
[0190]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应所述以权利要求的保护范围为准。
[0191]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献