一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本处理方法、装置、电子设备和计算机可读存储介质与流程

2022-04-13 23:47:03 来源:中国专利 TAG:


1.本发明涉及通信技术领域,具体涉及一种文本处理方法、装置、电子设备和计算机可读存储介质。


背景技术:

2.近年来,随着互联网技术的飞速发展,网络上出现了海量的文本,就需要在这些海量的文本中检索出需要的目标文本。在检索这些文本的过程中,往往需要对文本进行处理,从而实现文本的在线检索。现有的文本处理方法往往通过bert模型(双塔模型)提取文本的文本特征,根据文本特征,在海量的文本中检索出目标文本。
3.在对现有技术的研究和实践过程中,本发明的发明人发现通过bert模型提取的文本特征往往会存在一些信息噪声,使得提取的文本特征的准确性不足,因此,导致文本处理的准确性不足。


技术实现要素:

4.本发明实施例提供一种文本处理方法、装置、电子设备和计算机可读存储介质,可以提高文本处理的准确性。
5.一种文本处理方法,包括:
6.获取文本词样本和文本样本对,所述文本词样本包括标注关键词类别的文本词,所述文本样本对包括标注语义匹配关系的文本对;
7.采用预设文本处理模型对所述文本样本对中的文本样本进行分词,并对分词后的目标文本词和文本词样本进行特征提取,得到所述目标文本词的文本词特征和所述文本词样本的文本词样本特征;
8.基于所述文本词特征和文本词样本特征,对所述目标文本词和文本词样本进行关键词类别识别,得到所述目标文本词的第一关键词类别和所述文本词样本的第二关键词类别;
9.根据所述第一关键词类别,对所述文本词特征进行加权,以得到所述文本样本对中每一文本样本的文本特征,并计算所述文本特征之间的特征距离;
10.基于所述第二关键词类别、标注关键词类别、特征距离和标注语义匹配关系对预设文本处理模型进行收敛,得到训练后文本处理模型,并采用所述训练后文本处理模型检索目标文本。
11.相应的,本发明实施例提供一种文本处理装置,包括:
12.获取单元,用于获取文本词样本和文本样本对,所述文本词样本包括标注关键词类别的文本词,所述文本样本对包括标注语义匹配关系的文本对;
13.分词单元,用于采用预设文本处理模型对所述文本样本对中的文本样本进行分词,并对分词后的目标文本词和文本词样本进行特征提取,得到所述目标文本词的文本词特征和所述文本词样本的文本词样本特征;
14.识别单元,用于基于所述文本词特征和文本词样本特征,对所述目标文本词和文本词样本进行关键词类别识别,得到所述目标文本词的第一关键词类别和所述文本词样本的第二关键词类别;
15.加权单元,用于根据所述第一关键词类别,对所述文本词特征进行加权,以得到所述文本样本对中每一文本样本的文本特征,并计算文本特征之间的特征距离;
16.检索单元,用于基于所述第二关键词类别、标注关键词类别、特征距离和标注语义匹配关系对预设文本处理模型进行收敛,得到训练后文本处理模型,并采用所述训练后文本处理模型检索目标文本。
17.可选的,在一些实施例中,所述加权单元,具体可以用于根据所述第一关键词类别,确定所述文本词特征的文本权重;基于所述文本权重,对所述文本词特征进行加权,并将加权后文本词特征进行融合,得到所述文本样本对中每一文本样本的文本特征。
18.可选的,在一些实施例中,所述加权单元,具体可以用于在所述第一关键词类别中识别出每一关键词类别的类别概率,得到第一类别概率;在所述第一类别概率中筛选出至少一个预设关键关键词类别的类别概率,得到基础类别概率;将所述基础类别概率进行融合,得到所述文本词特征的文本权重。
19.可选的,在一些实施例中,所述加权单元,具体可以用于将所述加权后文本词特征进行融合,得到融合后文本特征;在所述融合后文本特征中提取出所述查询文本样本对应的查询文本特征和所述目标文本样本对应的至少一个字段文本特征;将所述字段文本特征进行融合,得到目标字段文本特征,并将所述目标字段文本特征和查询文本特征作为所述文本样本对中每一文本样本的文本特征。
20.可选的,在一些实施例中,所述加权单元,具体可以用于对所述字段文本特征进行关联特征提取,得到所述字段文本特征的关联特征;基于所述关联特征,确定所述字段文本特征的关联权重,所述关联权重用于指示字段文本特征之间的关联关系;根据所述关联权重,对所述字段文本特征进行加权,并将加权后的字段文本特征进行融合,得到目标字段文本特征。
21.可选的,在一些实施例中,所述检索单元,具体可以用于基于所述第二关键词类别和标注关键词类别,确定所述文本词样本的关键词损失信息;根据所述标注语义匹配关系和特征距离,确定所述文本样本对的文本损失信息;基于所述关键词损失信息和文本损失信息,对所述预设文本处理模型进行收敛,得到训练后文本处理模型。
22.可选的,在一些实施例中,所述检索单元,具体可以用于在所述第二关键词类别中识别出每一关键词类别的类别概率,得到第二类别概率;在所述第二类别概率中筛选出所述标注关键词类别对应的类别概率,得到目标类别概率;将目标类别概率与标注关键词类别进行融合,并计算融合后关键词类别的均值,得到所述文本词样本的关键词损失信息。
23.可选的,在一些实施例中,所述检索单元,具体可以用于根据所述标注语义匹配关系,确定所述文本样本对的匹配参数;当所述匹配参数为预设匹配参数,且所述特征距离小于预设距离阈值时,将所述匹配参数与特征距离进行融合,得到所述文本样本对的文本损失信息。
24.可选的,在一些实施例中,所述检索单元,具体可以用于计算所述特征距离与所述预设距离阈值的距离差值;计算所述匹配参数与预设参数阈值的参数差值,并将所述距离
差值与参数差值进行融合;将融合后差值、匹配参数和特征距离进行融合,得到所述文本样本的文本损失信息。
25.可选的,在一些实施例中,所述检索单元,具体可以用于获取损失权重,并基于所述损失权重,分别对所述关键词损失信息和文本损失信息进行加权;将加权后关键词损失信息和加权后文本损失信息进行融合,得到目标损失信息;采用所述加权后关键词损失信息对所述关键词识别网络进行收敛,得到训练后关键词识别网络;采用目标损失信息对所述特征提取网络进行收敛,得到训练后特征提取网络,并将所述训练后关键词识别网络和训练后特征提取网络作为训练后文本处理模型。
26.可选的,在一些实施例中,所述识别单元,具体可以用于采用所述关键词识别网络分别对文本词特征和文本词样本特征进行归一化处理;根据归一化后的文本词特征,映射出所述目标文本词属于每一关键词类别的类别概率,得到所述目标文本词的第一关键词类别;基于归一化后的文本词样本特征,映射出所述文本词样本属于每一关键词类别的类别概率,得到所述文本词样本的第二关键词类别。
27.可选的,在一些实施例中,所述检索单元,具体可以用于获取候选文本集合,并采用所述训练后文本处理模型对所述候选文本集合中的每一候选文本进行特征提取,得到候选文本特征集合;根据所述候选文本特征集合中的候选文本特征,构建所述候选文本特征集合对应的索引信息;当接收到查询文本时,根据所述索引信息和查询文本,在所述候选文本集合中筛选出至少一个候选文本作为目标文本。
28.可选的,在一些实施例中,所述检索单元,具体可以用于采用所述训练后文本处理模型对所述查询文本进行特征提取,得到所述查询文本的查询文本特征;基于所述索引信息,在所述候选文本特征集合中检索出所述查询文本特征对应的至少一个候选文本特征,得到目标候选文本特征;在所述候选文本集合中筛选出所述目标候选文本特征对应的候选文本,得到所述查询文本对应的目标文本。
29.可选的,在一些实施例中,所述获取单元,具体可以用于获取文本样本集合,并在所述文本样本集合中筛选出至少一个文本样本和所述文本样本对应的语义文本样本,所述语义文本样本为与所述文本样本存在语义关系的文本样本;采用所述预设文本处理模型对所述文本样本进行分词,并在分词后的文本词中标注关键词类别,得到文本词样本;根据所述文本样本与语义文本样本之间的语义关系,在所述文本样本与语义文本样本组成的文本对中标注语义匹配关系,得到文本样本对。
30.此外,本发明实施例还提供一种电子设备,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序实现本发明实施例提供的文本处理方法。
31.此外,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一种文本处理方法中的步骤。
32.本发明实施例在获取文本词样本和文本样本对后,采用预设文本处理模型对文本样本对中的文本样本进行分词,并对分词后的目标文本词和文本词样本进行特征提取,得到目标文本词的文本词特征和文本词样本的文本词样本特征,然后,基于文本词特征和文本词样本特征,对目标文本词和文本词样本进行关键词类别识别,得到目标文本词的第一
关键词类别和文本词样本的第二关键词类别,然后,根据第一关键词类别,对文本词特征进行加权,以得到文本样本对中每一文本样本的文本特征,并计算文本特征之间的特征距离,然后,基于第二关键词类别、标注关键词类别、特征距离和标注语义匹配关系对预设文本处理模型进行收敛,得到训练后文本处理模型,并采用训练后文本处理模型检索目标文本;由于该方案通过多任务框架,将关键词类别识别任务和语义匹配任务同时进行训练,并通过识别出第一关键词类别,对文本词特征进行加权,显式增强了文本处理模型在语义匹配任务中对词权重识别能力,从而有效降低信息噪声,因此,可以提升文本处理的准确性。
附图说明
33.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
34.图1是本发明实施例提供的文本处理方法的场景示意图;
35.图2是本发明实施例提供的文本处理方法的流程示意图;
36.图3是本发明实施例提供的文本检索的检索示意图;
37.图4是本发明实施例提供的文本处理流程的核心框架的示意图;
38.图5是本发明实施例提供的文本处理流程中的多任务学习框架图;
39.图6是本发明实施例提供的关键词识别任务的流程示意图;
40.图7是本发明实施例提供的语义匹配任务的流程示意图;
41.图8是本发明实施例提供的文本处理方法的另一流程示意图;
42.图9是本发明实施例提供的文本处理装置的结构示意图;
43.图10是本发明实施例提供的电子设备的结构示意图。
具体实施方式
44.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
45.本发明实施例提供一种文本处理方法、装置、电子设备和计算机可读存储介质。其中,该文本处理装置可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。
46.其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。
47.例如,参见图1,以文本处理装置集成在电子设备中为例,电子设备在获取文本词
样本和文本样本对后,采用预设文本处理模型对文本样本对中的文本样本进行分词,并对分词后的目标文本词和文本词样本进行特征提取,得到目标文本词的文本词特征和文本词样本的文本词样本特征,然后,基于文本词特征和文本词样本特征,对目标文本词和文本词样本进行关键词类别识别,得到目标文本词的第一关键词类别和文本词样本的第二关键词类别,然后,根据第一关键词类别,对文本词特征进行加权,以得到文本样本对中每一文本样本的文本特征,并计算文本特征之间的特征距离,然后,基于第二关键词类别、标注关键词类别、特征距离和标注语义匹配关系对预设文本处理模型进行收敛,得到训练后文本处理模型,并采用训练后文本处理模型检索目标文本,进而提升文本处理的准确性。
48.以下分别进行详细说明。需要说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
49.本实施例将从文本处理装置的角度进行描述,该文本处理装置具体可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备;其中,该终端可以包括平板电脑、笔记本电脑、以及个人计算机(pc,personal computer)、可穿戴设备、虚拟现实设备或其他可以进行文本处理的智能设备等设备。
50.一种文本处理方法,包括:
51.获取文本词样本和文本样本对,该文本词样本包括标注关键词类别的文本词,该文本样本对包括标注语义匹配关系的文本对,采用预设文本处理模型对文本样本对中的文本样本进行分词,并对分词后的目标文本词和文本词样本进行特征提取,得到目标文本词的文本词特征和文本词样本的文本词样本特征,基于文本词特征和文本词样本特征,对目标文本词和文本词样本进行关键词类别识别,得到目标文本词的第一关键词类别和文本词样本的第二关键词类别,根据第一关键词类别,对文本词特征进行加权,以得到文本样本对中每一文本样本的文本特征,并计算文本特征之间的特征距离,基于第二关键词类别、标注关键词类别、特征距离和标注语义匹配关系对预设文本处理模型进行收敛,得到训练后文本处理模型,并采用训练后文本处理模型检索目标文本。
52.如图2所示,该文本处理方法的具体流程如下:
53.101、获取文本词样本和文本样本对。
54.其中,文本词样本包括标注关键词类别的文本词,所谓关键词类别用于指示该文本词属于哪一个类别的关键词,关键词类别可以有多种,比如,可以分为三类,非关键词、一般关键词和重要关键词,这三类关键词可以分别用不同的标识进行表示,比如,非关键词可以用0表示,一般关键词可以用1表示,重要关键词可以用2表示,或者也可以用其他标识进行表示,但是不同关键词类别的标识往往不同。比如,文本序列为“保姆月嫂预约,定制筛选专业靠谱”为例,则对应的标注关键词类别结果就可以为“保/2,姆/2,月/2,嫂/2,预/1,约/1,定/0,制/0,筛/0,选/0,专/0,业/0,靠/0,谱/0”。
55.其中,文本样本对包括标注语义匹配关系的文本对,所谓语义匹配关系可以为文本对中的两段文本之间的语义相关性,若相关性高则认为两段文本匹配。很多自然语言处理任务都可转为语义匹配问题,例如网页搜索可抽象为用户的查询文本(query)与网页内容的相关性匹配问题,自动问答可抽象为问题与候选答案的满足度匹配问题,文本去重可抽象为文本与文本之间的相似度匹配问题。
56.其中,获取文本词样本和文本样本对的方式可以有多种,具体可以如下:
57.例如,可以获取文本样本集合,并在文本样本集合中筛选出至少一个文本样本和文本样本对应的语义文本样本,采用预设文本处理模型对文本样本进行分词,并在分词后的文本词中标注关键词类别,得到文本词样本,根据文本样本与语义文本样本之间的语义关系,在文本样本与语义文本样本组成的文本对中标注语义匹配关系,得到文本样本对。
58.其中,语义文本样本为与文本样本存在语义关系的文本样本,该语义关系为语义匹配和语义不匹配,筛选出文本样本对应的语义文本样本的方式可以有多种,比如,可以通过检索系统在文本样本集合中筛选出与文本样本语义匹配的文本样本作为语义文本样本,此时筛选出语义文本样本与文本样本之间的语义关系就可以为语义匹配,此时的文本样本对就可以为正文本样本对,还可以随机抽取离线库中的文本样本作为文本样本对应的语义文本样本,此时,抽取的语义文本样本与文本样本之间的语义关系就可以为语义不匹配,此时的文本样本对就可以为负文本样本对。
59.其中,对文本样本进行分词的方式可以有多种,比如,可以采用预设文本处理模型中的bert网络中的tokenization分词方法,将每一文本样本切分为单个token(令牌),这里的token指的是中文的单字、英文的单词或词根等。在分词后对文本词标注关键词类别的方式也可以有多种,比如,可以直接识别出文本词的关键词类别,然后,根据识别结果,在文本词上标注关键词类别,或者,还可以将切分出的文本词发送至标注服务器,接收标注服务器返回的文本词的关键词类别,并在文本词上标注对应的关键词类别,从而得到文本词样本。
60.其中,在文本样本与语义文本样本组成的文本对中标注语义匹配关系的方式可以有多种,比如,可以根据文本样本与语义文本样本之间的语义关系,确定文本样本与语义文本样本的语义匹配关系,将文本样本与对应的语义文本样本组成文本对,并在该文本对中标注语义匹配关系,从而得到文本样本对。文本样本对可以包括正文本样本对和负文本样本对,正文本样本对中的文本样本与语义文本样本匹配,负文本样本对中的文本样本与语义文本样本不匹配,另外,当文本样本为查询文本样本时,对应的语义文本样本就可以为目标文本样本。
61.102、采用预设文本处理模型对文本样本对中的文本样本进行分词,并对分词后的目标文本词和文本词样本进行特征提取,得到目标文本词的文本特征和文本词样本的文本词样本特征。
62.其中,采用预设文本处理模型对文本样本对中的文本样本进行分词的方式可以有多种,具体可以如下:
63.例如,可以采用预设文本处理模型中的bert网络中的tokenization分词方法,将每一文本样本切分为单个token,该token可以为中文的单字、英文的单词或词根等,从而得到文本样本对中每一文本样本分词后的目标文本词,或者,可以直接将文本样本对中的每一文本样本进行字符切分,切分为中文的单字、英文的单词或词根,从而得到文本样本对中每一文本样本分词后的目标文本词。
64.其中,在文本样本对将文本样本作为查询文本样本,对应的语义文本样本就可以为目标文本样本,在目标文本样本中可以先将拆分为多个字段,再针对每一个字段进行分词,从而得到每一字段分词后的目标文本词。
65.在对文本样本对中的文本样本进行分词后,便可以对分词后的目标文本词和文本词样本进行特征提取,特征提取的方式可以有多种,比如,可以采用预设文本处理模型中的
bert网络或者xlnet、electra等模型分别对目标文本词和文本词样本进行特征提取,从而得到每个目标文本词的向量表示(q1,q2,q3)和每个文本词样本的向量表示(t1,t2,t3),将目标文本词的向量表示作为目标文本词的文本词特征,将文本词样本的向量表示作为文本词样本的文本词样本特征。
66.其中,在对目标文本词和文本词样本进行特征提取时,可以共享bert网络的网络参数。
67.103、基于文本词特征和文本词样本特征,对目标文本词和文本词样本进行关键词类别识别,得到目标文本词的第一关键词类别和文本词样本的第二关键词类别。
68.例如,可以采用预设文本处理模型中的关键词识别网络分别对文本词特征和文本词样本特征进行归一化处理,根据归一化后的文本词特征,映射出目标文本词属于每一关键词类别的类别概率,得到目标文本词的第一关键词类别,基于归一化后的文本词样本特征,映射出文本词样本属于每一关键词类别的类别概率,得到文本词样本的第二关键词类别。
69.其中,对文本词特征和文本词样本特征进行归一化处理的方式可以有多种,比如,可以采用全连接神经网络(fully-connected layer,fc)分别对文本词特征和文本词样本特征进行归一化处理。
70.在对文本词特征归一化处理之后,便可以基于归一化后的文本词特征计算出目标文本词的第一关键词类别,计算第一关键词类别的方式可以有多种,比如,通过softmax函数计算每个目标文本词属于每个关键词类别的类别概率,譬如,以关键词类别为三类为例,则计算出类别概率就可以分为其中,为第i个目标文本词属于第0类关键词的概率,为第i个目标文本词属于第1类关键词的概率,为第i个目标文本词属于第2类关键词的概率,将作为目标文本词的第一关键词类别。
71.在对文本词样本特征归一化处理之后,便可以基于归一化后的文本词样本特征计算出文本词样本的第二关键词类别,计算第二关键词类别的方式可以有多种,比如,通过softmax函数计算每个文本词样本属于每个关键词类别的类别概率,譬如,以关键词类别为三类为例,则计算出的类别概率就可以为第i个文本词样本属于第0类的概率是属于第1类的概率是属于第2类的概率是将和作为文本词样本的第二关键词类别。
72.其中,可以发现对目标文本词和文本词样本进行关键词类别识别的为预设文本处理模型中的关键词识别网络,该关键词识别网络的网络结构可以为fc-softmax网络,且在识别文本词和文本词样本的关键词类别过程中,共享该fc-softmax网络以及该网络的网络参数。
73.104、根据第一关键词类别,对文本词特征进行加权,以得到文本样本对中每一文本样本的文本特征,并计算文本特征之间的特征距离。
74.例如,可以根据第一关键词类别,确定文本词特征的文本权重,基于文本权重,对文本词特征进行加权,并将加权后文本词特征进行融合,得到文本样本对中每一文本样本的文本特征,计算文本特征之间的特征距离,具体可以如下:
75.s1、根据第一关键词类别,确定文本词特征的文本权重。
76.其中,文本权重用于指示文本词特征对应的目标文本词在文本样本对中的每一目标文本词中的重要程度。基于该文本权重,从而可以更加准确的表征出文本样本对中每一文本样本的文本特征。
77.其中,根据第一关键词类别,确定文本词特征的文本权重的方式可以有多种,具体可以如下:
78.例如,在第一关键词类别中识别出每一关键词类别的类别概率,得到第一类别概率,在第一类别概率中筛选出至少一个预设关键词类别的类别概率,得到基础类别概率,将基础类别概率进行融合,得到文本词特征的文本权重。
79.其中,第一类别概率就可以为在第一类别概率中筛选出至少一个预设关键词类别的类别概率的方式可以有多种,比如,可以在第一类别概率中筛选出关键词类别为一般关键词和重要关键词的类别概率,从而得到基础类别概率,以第0类为非关键词、第1类为一般关键词和第2类为重要关键词为例,则就可以在筛选出作为基础类别概率。
80.在筛选出基础类别概率之后,便可以将基础类别概率进行融合,从而得到文本词特征的文本权重,融合的方式可以有多种,比如,获取每一基础类别概率的融合参数,将融合参数分别与对应的基础类别概率进行融合,然后,将融合后基础类别概率相加,得到目标基础类别概率,然后,计算目标基础类别概率的均值,从而该文本词特征的文本权重,具体可以如公式(1)所示:
[0081][0082]
其中,w
qi
为第i个文本词特征的文本权重,和分别为基础类别概率。
[0083]
s2、基于文本权重,对文本词特征进行加权,并将加权后文本词特征进行融合,得到文本样本对中每一文本样本的文本特征。
[0084]
其中,文本样本对包括查询文本样本和目标文本样本,查询文本样本可以为文本样本,目标文本样本就可以为文本样本对应的语义文本样本。
[0085]
其中,基于文本权重,对文本词特征进行加权,就可以得到加权后文本词特征,将加权后文本词特征进行融合,融合的方式可以有多种,具体可以如下;
[0086]
例如,基于文本权重,对文本词特征进行加权,得到加权后文本词特征,将加权后文本词特征进行融合,得到融合后文本特征(vecq=∑iw
qi
*qi)。在融合后文本特征中提取出查询文本样本对应的查询文本特征和目标文本样本对应的至少一个字段文本特征,将字段文本特征进行融合,得到目标字段文本特征,并将目标字段文本特征和查询文本特征作为文本样本对中每一文本样本的文本特征。
[0087]
其中,在融合后文本特征中提取出查询文本样本对应的查询文本特征和目标文本样本对应的至少一个字段文本特征的方式可以有多种,比如,可以在融合后文本特征中筛选出属于查询文本样本的文本特征,从而就可以得到查询文本样本对应的查询文本特征,在融合后文本特征中筛选出属于目标文本样本的每一个字段的文本特征,就可以得到至少一个字段文本特征。
[0088]
在筛选出字段文本特征之后,便可以将字段文本特征进行融合,从而得到目标字段文本特征,将字段文本特征进行融合的方式可以有多种,比如,对字段文本特征进行关联特征提取,得到字段文本特征的关联特征,基于关联特征,确定字段文本特征的关联权重,该关联权重用于指示字段文本特征之间的关联关系,根据关联权重,对字段文本特征进行加权,并将加权后的字段文本特征进行融合,得到目标字段文本特征,这里的目标字段文本特征就可以理解为目标文本样本对应的文本特征。
[0089]
其中,可以发现对字段文本特征进行融合的过程中重点关注了字段文本特征之间的关联权重,确定该关联权重的方式可以有多种,比如,可以采用注意力网络(attention网络)提取出字段文本特征的关联特征,然后,基于该关联特征,计算每一字段文本特征的关联权重。
[0090]
s3、计算文本特征之间的特征距离。
[0091]
其中,特征距离用于指示文本特征对应的文本样本之间的语义匹配关系,该特征距离的类型可以有多种,比如,可以包括欧式距离或者余弦距离等多种距离形式。
[0092]
其中,计算文本特征之间的特征距离的方式可以有多种,具体可以如下:
[0093]
例如,可以直接计算文本特征之间的余弦距离,从而得到文本特征之间的特征距离,或者,还可以计算文本特征之间的欧式距离,从而得到文本特征之间的特征距离。
[0094]
105、基于第二关键词类别、标注关键词类别、特征距离和标注语义匹配关系对预设文本处理模型进行收敛,得到训练后文本处理模型,并采用训练后文本处理模型检索目标文本。
[0095]
例如,可以基于第二关键词类别和标注关键词类别,确定文本词样本的关键词损失信息,根据标注语义匹配关系和特征距离,确定文本样本对的文本损失信息,基于关键词损失信息和文本损失信息,对预设文本处理模型进行收敛,得到训练后文本处理模型,采用训练后文本处理模型检索目标文本,具体可以如下:
[0096]
c1、基于第二关键词类别和标注关键词类别,确定文本词样本的关键词损失信息。
[0097]
其中,关键词损失信息可以为预设文本处理模型在关键词类别识别任务中产生的损失信息。
[0098]
其中,基于第二关键词类别和标注关键词类别,确定文本词样本的关键词损失信息的方式可以有多种,具体可以如下:
[0099]
例如,在第二关键词类别中识别出每一关键词类别的类别概率,得到第二类别概率,在第二类别概率中筛选出与标注关键词类别对应的类别概率,得到目标类别概率,将目标类别概率与标注关键词类别进行融合,并计算融合后关键词类别的均值,得到文本词样本的关键词损失信息。
[0100]
其中,以关键词类别为三类为例,则在第二关键词类别中识别出第二类别概率可以为和在第二类别概率中筛选出目标类别概率的方式可以有多种,比如,当第i个文本词样本的标注关键词类别为第1类时,就可以在i个文本词样本的标注关键词类别为第1类时,就可以在和筛选出为目标类别概率。
[0101]
在筛选出目标类别概率之后,便可以将目标类别概率与标注关键词类别进行融合,融合的方式可以有多种,比如,可以根据标注关键词类别,确定该文本词样本的关键词
类别参数,当第i个文本词样本属于第c类关键词时,该关键词参数就可以为1,反正该关键词参数就可以为0。对目标类别概率进行预处理之后,将预处理后的目标类别概率与关键词参数相乘,得到第i个文本词样本的基础关键词损失信息,然后,将文本词样本的基础关键词损失信息进行累加,并计算累加后关键词损失信息的均值,从而得到文本词样本的关键词损失信息,具体可以如公式(2)所示:
[0102][0103]
其中,loss
keyword
为文本词样本的关键词损失信息,标注关键词类别(c类),为目标类别概率(属于c类的类别概率)。
[0104]
c2、根据标注语义匹配关系和特征距离,确定文本样本对的文本损失信息。
[0105]
其中,文本损失信息可以为预设文本处理模型在语义匹配任务中产生的损失信息。所谓语义匹配任务可以理解为了计算文本样本对中的文本样本之间的语义匹配关系。
[0106]
其中,根据标注语义匹配关系和特征距离,确定文本样本对的文本损失信息的方式可以有多种,具体可以如下:
[0107]
例如,根据标注语义匹配关系,确定文本样本对的匹配参数,当匹配参数为预设匹配参数,且特征距离小于预设距离阈值时,将匹配参数与特征距离进行融合,得到文本样本对的文本损失信息。
[0108]
其中,匹配参数用于指示文本样本对中文本样本之间的语义匹配关系的参数,比如,当文本样本对中的文本样本的语义匹配关系为匹配时,则对应的匹配参数可以就为1,当文本样本对中的文本样本的语义匹配关系为不匹配时,则对应的匹配参数就可以为0,当然,匹配参数也可以为其他参数值,需要说明的是语义匹配关系不同,对应的匹配参数也不相同。以匹配参数为0或1为例,当匹配参数为0,且特征距离大于预设距离阈值时,文本样本对的文本损失信息就可以为0,当匹配参数为1,且特征距离小于预设距离阈值时,文本样本对才存在文本损失信息。因此,文本样本对存在文本损失信息的条件为匹配参数为预设匹配参数,且特征距离小于预设距离阈值。
[0109]
在匹配参数为预设匹配参数,且特征距离小于预设距离阈值的条件下,将匹配参数与特征距离进行融合的方式可以有多种,比如,计算特征距离与预设距离阈值的距离差值,计算匹配参数与预设参数阈值的参数差值,并将距离差值与参数差值进行融合,将融合后差值、匹配参数和特征距离进行融合,得到文本样本对的文本损失信息,具体可以如公式(3)所示:
[0110][0111]
其中,loss
match
为文本样本对的文本损失信息,n为文本样本对中文本样本的数量,y为匹配参数,d为特征距离,margin为超参数,用于指示预设距离阈值。计算文本损失信息的损失函数为对比损失函数,该对比损失函数的作用是着重学习相关样本的参数,忽略大于margin的不相关样本,对欠召回问题有较好效果,并且方便在线检索模块采用余弦距离计算相似性。
[0112]
c3、基于关键词损失信息和文本损失信息,对预设文本处理模型进行收敛,得到训练后文本处理模型。
[0113]
其中,预设文本处理模型包括特征提取网络和关键词识别网络。
[0114]
其中,对预设文本处理模型进行收敛的方式可以有多种,具体可以如下:
[0115]
例如,获取损失权重,并基于损失权重,分别对关键词损失信息和文本损失信息进行加权,将加权后关键词损失信息和加权后文本损失信息进行融合,得到目标损失信息,采用加权后关键词损失信息对关键词识别网络进行收敛,得到训练后关键词识别网络,采用目标损失信息对特征提取网络进行收敛,得到训练后特征提取网络,并将训练后关键词识别网络和训练后特征提取网络作为训练后文本处理模型。
[0116]
其中,将加权后关键词损失信息和加权后文本损失信息进行融合的方式可以有多种,比如,可以直接将加权后关键词损失信息和加权后文本损失信息相加,从而就可以得到预设文本处理模型对应的目标损失信息,具体可以如公式(4)所示:
[0117]
loss
total
=α*loss
match
β*loss
keyword
(4)
[0118]
其中,loss
total
为目标损失信息,α和β分别为文本损失信息和关键词损失信息的损失权重,loss
match
为文本损失信息,loss
keyword
为关键词损失信息。
[0119]
在得到目标损失信息之后,便可以通过反向传播,对预设文本处理模型的网络参数进行更新,然后,多次迭代直至收敛,在收敛的过程中,需要说明的是,对于预设文本处理模型中的关键词识别网络来说,只需要采用加权后关键词损失信息对关键词识别网络的网络参数进行更新,无需加权后文本损失信息对关键词识别网络的网络参数进行更新。在预设文本处理模型中除了关键词识别网络以外的特征提取网络来说,就可以采用目标损失信息对特征提取网络的网络参数进行更新。对关键词识别网络和特征提取网络进行多次迭代训练直至收敛,从而得到训练后文本处理模型。需要说明的是关键词识别任务是为了增强语义匹配模型的降噪能力,是一个辅助任务,损失值的权重相对较低。
[0120]
c4、采用训练后文本处理模型检索目标文本。
[0121]
其中,目标文本为通过查询文本查询出的与查询文本存在语义匹配关系的文本。
[0122]
其中,采用训练后文本处理模型检索目标文本的方式可以有多种,具体可以如下:
[0123]
例如,可以获取候选文本集合,并采用训练后文本处理模型对候选文本集合中的每一候选文本进行特征提取,到候选文本特征集合,根据候选文本特征集合中的候选文本特征,构建候选文本特征集合对应的索引信息,当接收到查询文本时,根据索引信息和查询文本,在候选文本集合中筛选出至少一个候选文本。
[0124]
其中,对候选文本集合进行处理主要可以通过离线处理的方式,通过训练后文本处理模型在离线提前计算所有候选文本的文本特征,从而得到候选文本集合对应的候选文本特征集合,采用索引构建工具构建候选文本特征集合的索引库,提供给在线检索系统进行检索。索引构建工具的类型可以有多种,比如,可以包括faiss或nmslib等索引工具。
[0125]
在构建候选文本特征集合对应的索引信息之后,便可以进行在线检索,在线检索的过程主要包括将训练后文本处理模型部署到在线模块,当用户输入查询文本时,可以根据索引信息和查询文本,在候选文本集合中筛选出至少一个候选文本作为目标文本,筛选的方式可以有多种,比如,可以采用训练后文本处理模型对查询文本进行特征提取,得到查询文本的查询文本特征,基于索引信息,在候选文本特征集合中检索出查询文本特征对应
的至少一个候选文本特征,得到目标候选文本特征,在候选文本集合中筛选出目标候选文本特征对应的候选文本,得到查询文本对应的目标文本。
[0126]
其中,基于索引信息,在候选文本特征集合中检索出查询文本特征对应的至少一个候选文本特征的方式可以有多种,比如,可以通过索引信息,计算查询文本特征与候选文本特征之间的特征相似度,然后,基于特征相似度,在候选文本特征集合中检索出相似度最高的top k个候选文本特征,从而得到目标候选文本特征。
[0127]
其中,需要说明的是,在得到训练后文本处理模型之后,需要在离线预测候选文本的候选文本特征,并构建候选文本特征对应的索引信息,然后,在线检索查询文本对应的候选文本,从而得到查询文本对应的至少一个目标文本。将检索到的目标文本及其相关特征通过下游模块返回至客户端进行显示,用户在客户端进行文本检索到返回检索的目标文本的过程可以如图3所示。用户可以通过应用平台的搜索控件输入需要搜索的业务或服务的文本信息,客户端将用户输入的查询文本(query)发送至服务器,服务器在候选文本集合中检索出与query相关的至少一个目标文本(doc),并将检索出的doc信息返回至客户端,客户端对返回的doc信息进行展示。
[0128]
其中,文本处理的整个核心框架可以如图4所示,主要分为三个阶段,多任务学习阶段、离线向量库生成阶段和在线向量检索阶段。
[0129]
多任务学习阶段主要用于对预设文本处理模型进行训练,在对预设文本处理模型进行训练的过程中,采用关键词识别任务和语义匹配任务对预设文本处理模型进行训练,两个任务会共享重要模块进行并行训练,构成多任务学习框架,如图5所示。
[0130]
在关键词识别任务过程中,对文本样本切分成token,并通过bert模型输入切分后的每一个token的文本特征,这里的文本特征可以为文本向量(t1,t2,t3),然后,通过fc-softmax(关键词识别网络)计算出每个token属于每个关键词类别的类别概率,然后,通过ce loss(关键词损失函数)计算出关键词损失信息,具体可以如图6所示。
[0131]
其中,文本向量指的是将一段不定长的文本通过某种方式转换成一个定长的数值型向量。向量可分为两种形式:一种是高维稀疏向量,通常是将词表的长度作为向量的长度,每一维表示一个单词,只有在文本单词所对应的维度才有非零值,大部分维度都为零;另一种是低维稠密向量,可将文本输入到神经网络等模型中,通过训练输出向量表示,向量的每一维基本是非零值,没有明确的物理含义,但效果通常比高维稀疏向量更好。
[0132]
在语义匹配任务过程中,在文本样本集合中随机抽取若干query,通过检索系统检索出语义相似的doc作为正例(标签为1),同时随机抽取离线库中的doc作为负例(标签为0),将query、doc以及标签构成二元组数据作为文本样本对。所谓二元组数据为在文本匹配的场景下,一个二元组数据包括两个文本以及一个标签(0或1来表示)。假设两个文本为a和b,若两者匹配,则二元组数据为(a,b,1);若不匹配,则二元组数据为(a,b,0)。通过文本样本对训练双塔模型,这里的双塔模型可以理解为分别采用关键词识别网络和特征提取网络生成query和doc的文本向量,从而得到文本样本对中每一文本样本的文本特征。然后,通过对比损失函数计算query的文本向量和doc的文本向量的文本损失信息,具体可以如图7所示。
[0133]
在多任务学习训练过程中,将两个任务同时进行前向传播(共享bert模型和fc-softmax网络),计算关键词损失信息和文本损失信息,然后,加权求和得到整体的损失信
息,基于整体的损失信息对bert模型进行收敛,基于加权后关键词损失信息对fc-softmax网络进行收敛,从而得到训练后文本处理模型。另外,还可以在对预设文本处理模型进行训练的过程中添加其他辅助任务,来提供预设文本处理模型在语义匹配场景下的精度和泛化能力。
[0134]
其中,需要说明的是本方案采用bert模型对文本样本进行切分,切分的粒度为token,从而无需进行中文分词,避免了分词工具带来的精度误差,另外,采用bert模型能够不足到文本顺序信息,特征抽取能量更好,抽取的文本特征的精度更加准确,另外,在关键词识别任务中设计了三分类的关键词识别任务,通过融合预测的关键词类别的类别概率,可以有效得到每个token的文本权重,显著提高了预设文本处理模型的关键词识别能力,进而提高了query和doc的语义相关性计算精度,可有效缓解欠召回和排序逆序问题。
[0135]
由以上可知,本技术实施例在获取文本词样本和文本样本对后,采用预设文本处理模型对文本样本对中的文本样本进行分词,并对分词后的目标文本词和文本词样本进行特征提取,得到目标文本词的文本词特征和文本词样本的文本词样本特征,然后,基于文本词特征和文本词样本特征,对目标文本词和文本词样本进行关键词类别识别,得到目标文本词的第一关键词类别和文本词样本的第二关键词类别,然后,根据第一关键词类别,对文本词特征进行加权,以得到文本样本对中每一文本样本的文本特征,并计算文本特征之间的特征距离,然后,基于第二关键词类别、标注关键词类别、特征距离和标注语义匹配关系对预设文本处理模型进行收敛,得到训练后文本处理模型,并采用训练后文本处理模型检索目标文本;由于该方案通过多任务框架,将关键词类别识别任务和语义匹配任务同时进行训练,并通过识别出第一关键词类别,对文本词特征进行加权,显式增强了文本处理模型在语义匹配任务中对词权重识别能力,从而有效降低信息噪声,因此,可以提升文本处理的准确性。
[0136]
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
[0137]
在本实施例中,将以该文本处理装置具体集成在电子设备,电子设备为服务器,关键词类别包括三类:非关键词(用0表示)、一般关键词(用1表示)和重要关键词(用2表示)为例进行说明。
[0138]
如图8所示,一种文本处理方法,具体流程如下:
[0139]
201、服务器获取文本词样本和文本样本对。
[0140]
例如,服务器可以获取文本样本集合,并在文本样本集合中筛选出至少一个文本样本,通过检索系统在文本样本集合中筛选出与文本样本语义匹配的文本样本作为语义文本样本,此时筛选出语义文本样本与文本样本之间的语义关系就可以为语义匹配,此时的文本样本对就可以为正文本样本对,还可以随机抽取离线库中的文本样本作为文本样本对应的语义文本样本,此时,抽取的语义文本样本与文本样本之间的语义关系就可以为语义不匹配,此时的文本样本对就可以为负文本样本对。
[0141]
服务器可以采用预设文本处理模型中的bert网络中的tokenization分词方法,将每一文本样本切分为单个token,直接识别出token的关键词类别,然后,根据识别结果,在token标注关键词类别,或者,还可以将切分出的token发送至标注服务器,接收标注服务器返回的token的关键词类别,并在token上标注对应的关键词类别,从而得到文本词样本。
[0142]
服务器可以根据文本样本与语义文本样本之间的语义关系,确定文本样本与语义
文本样本的语义匹配关系,将文本样本与对应的语义文本样本组成文本对,并在该文本对中标注语义匹配关系,从而得到文本样本对。文本样本对可以包括正文本样本对和负文本样本对,正文本样本对中的文本样本与语义文本样本匹配,负文本样本对中的文本样本与语义文本样本不匹配,另外,当文本样本为查询文本样本时,对应的语义文本样本就可以为目标文本样本。
[0143]
202、服务器采用预设文本处理模型对文本样本对中的文本样本进行分词,并对分词后的目标文本词和文本词样本进行特征提取,得到目标文本词的文本特征和文本词样本的文本词样本特征。
[0144]
例如,服务器可以采用预设文本处理模型中的bert网络中的tokenization分词方法,将每一文本样本切分为单个token,从而得到文本样本对中每一文本样本分词后的目标文本词,或者,可以直接将文本样本对中的每一文本样本进行字符切分,切分为中文的单字、英文的单词或词根,从而得到文本样本对中每一文本样本分词后的目标文本词。
[0145]
服务器可以采用预设文本处理模型中的bert网络或者xlnet、electra等模型分别对目标文本词和文本词样本进行特征提取,从而得到每个目标文本词的向量表示(q1,q2,q3)和每个文本词样本的向量表示(t1,t2,t3),将目标文本词的向量表示作为目标文本词的文本词特征,将文本词样本的向量表示作为文本词样本的文本词样本特征。
[0146]
203、服务器基于文本词特征和文本词样本特征,对目标文本词和文本词样本进行关键词类别识别,得到目标文本词的第一关键词类别和文本词样本的第二关键词类别。
[0147]
例如,服务器可以采用全连接神经网络分别对文本词特征和文本词样本特征进行归一化处理。通过softmax函数计算每个目标文本词属于每个关键词类别的类别概率将作为目标文本词的第一关键词类别。通过softmax函数计算每个文本词样本属于每个关键词类别的类别概率(和),将和作为文本词样本的第二关键词类别。
[0148]
其中,可以发现对目标文本词和文本词样本进行关键词类别识别的为预设文本处理模型中的关键词识别网络,该关键词识别网络的网络结构可以为fc-softmax网络,且在识别文本词和文本词样本的关键词类别过程中,共享该fc-softmax网络以及该网络的网络参数。
[0149]
204、服务器根据第一关键词类别,确定文本词特征的文本权重。
[0150]
例如,服务器在第一关键词类别中识别出每一关键词类别的类别概率在第一类别概率中筛选出关键词类别为一般关键词和重要关键词的类别概率,从而得到基础类别概率获取每一基础类别概率的融合参数,将融合参数分别与对应的基础类别概率进行融合,然后,将融合后基础类别概率相加,得到目标基础类别概率,然后,计算目标基础类别概率的均值,从而该文本词特征的文本权重,具体可以如公式(1)所示。
[0151]
205、服务器基于文本权重,对文本词特征进行加权,并将加权后文本词特征进行融合,得到文本样本对中每一文本样本的文本特征。
[0152]
例如,服务器基于文本权重,对文本词特征进行加权,得到加权后文本词特征,将
加权后文本词特征进行融合,得到融合后文本特征(vecq=∑iw
qi
*qi)。在融合后文本特征中筛选出属于查询文本样本的文本特征,从而就可以得到查询文本样本对应的查询文本特征,在融合后文本特征中筛选出属于目标文本样本的每一个字段的文本特征,就可以得到至少一个字段文本特征。对字段文本特征进行关联特征提取,得到字段文本特征的关联特征,基于关联特征,确定字段文本特征的关联权重,该关联权重用于指示字段文本特征之间的关联关系,根据关联权重,对字段文本特征进行加权,并将加权后的字段文本特征进行融合,得到目标字段文本特征,这里的目标字段文本特征就可以理解为目标文本样本对应的文本特征。将目标字段文本特征和查询文本特征作为文本样本对中每一文本样本的文本特征。
[0153]
206、服务器计算文本特征之间的特征距离。
[0154]
例如,服务器可以直接计算文本特征之间的余弦距离,从而得到文本特征之间的特征距离,或者,还可以计算文本特征之间的欧式距离,从而得到文本特征之间的特征距离。
[0155]
207、服务器基于第二关键词类别、标注关键词类别、特征距离和标注语义匹配关系对预设文本处理模型进行收敛,得到训练后文本处理模型。
[0156]
例如,服务器可以基于第二关键词类别和标注关键词类别,确定文本词样本的关键词损失信息,根据标注语义匹配关系和特征距离,确定文本样本对的文本损失信息,基于关键词损失信息和文本损失信息,对预设文本处理模型进行收敛,得到训练后文本处理模型,具体可以如下:
[0157]
(1)服务器基于第二关键词类别和标注关键词类别,确定文本词样本的关键词损失信息。
[0158]
例如,服务器在第二关键词类别中识别出每一关键词类别的类别概率,得到第二类别概率(和),当第i个文本词样本的标注关键词类别为第1类时,就可以在和筛选出为目标类别概率。根据标注关键词类别,确定该文本词样本的关键词类别参数,当第i个文本词样本属于第c类关键词时,该关键词参数就可以为1,反正该关键词参数就可以为0。对目标类别概率进行预处理之后,将预处理后的目标类别概率与关键词参数相乘,得到第i个文本词样本的基础关键词损失信息,然后,将文本词样本的基础关键词损失信息进行累加,并计算累加后关键词损失信息的均值,从而得到文本词样本的关键词损失信息,具体可以如公式(2)所示。
[0159]
(2)服务器根据标注语义匹配关系和特征距离,确定文本样本对的文本损失信息。
[0160]
例如,当文本样本对中的文本样本的语义匹配关系为匹配时,服务器就可以确定对应的匹配参数可以就为1,当文本样本对中的文本样本的语义匹配关系为不匹配时,就可以确定对应的匹配参数就可以为0。当匹配参数为1,且特征距离小于预设距离阈值时,计算特征距离与预设距离阈值的距离差值,计算匹配参数与预设参数阈值的参数差值,并将距离差值与参数差值进行融合,将融合后差值、匹配参数和特征距离进行融合,得到文本样本对的文本损失信息,具体可以如公式(3)所示。
[0161]
(3)服务器基于关键词损失信息和文本损失信息,对预设文本处理模型进行收敛,得到训练后文本处理模型。
[0162]
例如,服务器获取损失权重,并基于损失权重,分别对关键词损失信息和文本损失信息进行加权,直接将加权后关键词损失信息和加权后文本损失信息相加,从而就可以得到预设文本处理模型对应的目标损失信息,具体可以如公式(4)所示。采用加权后关键词损失信息对关键词识别网络进行收敛,得到训练后关键词识别网络,采用目标损失信息对特征提取网络进行收敛,得到训练后特征提取网络,并将训练后关键词识别网络和训练后特征提取网络作为训练后文本处理模型。
[0163]
208、服务器采用训练后文本处理模型检索目标文本。
[0164]
例如,服务器可以获取候选文本集合,通过训练后文本处理模型在离线提前计算所有候选文本的文本特征,从而得到候选文本集合对应的候选文本特征集合,采用faiss或nmslib等索引工具构建候选文本特征集合的索引库,提供给在线检索系统进行检索。将训练后文本处理模型部署到在线模块,当用户输入查询文本时,采用训练后文本处理模型对查询文本进行特征提取,得到查询文本的查询文本特征,通过索引信息,计算查询文本特征与候选文本特征之间的特征相似度,然后,基于特征相似度,在候选文本特征集合中检索出相似度最高的top k个候选文本特征,从而得到目标候选文本特征。在候选文本集合中筛选出目标候选文本特征对应的候选文本,得到查询文本对应的目标文本。将检索到的目标文本及其相关特征通过下游模块返回至客户端进行显示。
[0165]
由以上可知,本实施例服务器在获取文本词样本和文本样本对后,采用预设文本处理模型对文本样本对中的文本样本进行分词,并对分词后的目标文本词和文本词样本进行特征提取,得到目标文本词的文本词特征和文本词样本的文本词样本特征,然后,基于文本词特征和文本词样本特征,对目标文本词和文本词样本进行关键词类别识别,得到目标文本词的第一关键词类别和文本词样本的第二关键词类别,然后,根据第一关键词类别,对文本词特征进行加权,以得到文本样本对中每一文本样本的文本特征,并计算文本特征之间的特征距离,然后,基于第二关键词类别、标注关键词类别、特征距离和标注语义匹配关系对预设文本处理模型进行收敛,得到训练后文本处理模型,并采用训练后文本处理模型检索目标文本;由于该方案通过多任务框架,将关键词类别识别任务和语义匹配任务同时进行训练,并通过识别出第一关键词类别,对文本词特征进行加权,显式增强了文本处理模型在语义匹配任务中对词权重识别能力,从而有效降低信息噪声,因此,可以提升文本处理的准确性。
[0166]
为了更好地实施以上方法,本发明实施例还提供一种文本处理装置,该文本处理装置可以集成在电子设备,比如服务器或终端等设备中,该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。
[0167]
例如,如图9所示,该文本处理装置可以包括获取单元301、分词单元302、识别单元303、加权单元304和检索单元305,如下:
[0168]
(1)获取单元301;
[0169]
获取单元301,用于获取文本词样本和文本样本对,该文本词样本包括标注关键词类别的文本词,该文本样本对包括标注语义匹配关系的文本对。
[0170]
例如,获取单元301,具体可以用于获取文本样本集合,并在文本样本集合中筛选出至少一个文本样本和文本样本对应的语义文本样本,采用预设文本处理模型对文本样本进行分词,并在分词后的文本词中标注关键词类别,得到文本词样本,根据文本样本与语义
文本样本之间的语义关系,在文本样本与语义文本样本组成的文本对中标注语义匹配关系,得到文本样本对。
[0171]
(2)分词单元302;
[0172]
分词单元302,用于采用预设文本处理模型对文本样本对中的文本样本进行分词,并对分词后的目标文本词和文本词样本进行特征提取,得到目标文本词的文本词特征和文本词样本的文本词样本特征。
[0173]
例如,分词单元302,具体可以用于将每一文本样本切分为中文的单字、英文的单词或词根等,从而得到文本样本对中每一文本样本分词后的目标文本词。采用预设文本处理模型中的bert网络或者xlnet、electra等模型分别对目标文本词和文本词样本进行特征提取,从而得到每个目标文本词的向量表示(q1,q2,q3)和每个文本词样本的向量表示(t1,t2,t3),将目标文本词的向量表示作为目标文本词的文本词特征,将文本词样本的向量表示作为文本词样本的文本词样本特征。
[0174]
(3)识别单元303;
[0175]
识别单元303,用于基于文本词特征和文本词样本特征,对目标文本词和文本词样本进行关键词类别识别,得到目标文本词的第一关键词类别和文本词样本的第二关键词类别。
[0176]
例如,识别单元303,具体可以用于采用预设文本处理模型中的关键词识别网络分别对文本词特征和文本词样本特征进行归一化处理,根据归一化后的文本词特征,映射出目标文本词属于每一关键词类别的类别概率,得到目标文本词的第一关键词类别,基于归一化后的文本词样本特征,映射出文本词样本属于每一关键词类别的类别概率,得到文本词样本的第二关键词类别。
[0177]
(4)加权单元304;
[0178]
加权单元304,用于根据第一关键词类别,对文本词特征进行加权,以得到文本样本对中每一文本样本的文本特征,并计算文本特征之间的特征距离。
[0179]
例如,加权单元304,具体可以用于根据第一关键词类别,确定文本词特征的文本权重,基于文本权重,对文本词特征进行加权,并将加权后文本词特征进行融合,得到文本样本对中每一文本样本的文本特征,计算文本特征之间的特征距离。
[0180]
(5)检索单元305;
[0181]
检索单元305,用于基于第二关键词类别、标注关键词类别、特征距离和标注语义匹配关系对预设文本处理模型进行收敛,得到训练后文本处理模型,并采用所述训练后文本处理模型检索目标文本。
[0182]
例如,检索单元305,具体可以用于基于第二关键词类别和标注关键词类别,确定文本词样本的关键词损失信息,根据标注语义匹配关系和特征距离,确定文本样本对的文本损失信息,基于关键词损失信息和文本损失信息,对预设文本处理模型进行收敛,得到训练后文本处理模型。获取候选文本集合,并采用训练后文本处理模型对候选文本集合中的每一候选文本进行特征提取,到候选文本特征集合,根据候选文本特征集合中的候选文本特征,构建候选文本特征集合对应的索引信息,当接收到查询文本时,根据索引信息和查询文本,在候选文本集合中筛选出至少一个候选文本。
[0183]
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作
为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
[0184]
由以上可知,本实施例在获取单元301获取文本词样本和文本样本对后,分词单元302采用预设文本处理模型对文本样本对中的文本样本进行分词,并对分词后的目标文本词和文本词样本进行特征提取,得到目标文本词的文本词特征和文本词样本的文本词样本特征,然后,识别单元303基于文本词特征和文本词样本特征,对目标文本词和文本词样本进行关键词类别识别,得到目标文本词的第一关键词类别和文本词样本的第二关键词类别,然后,加权单元304根据第一关键词类别,对文本词特征进行加权,以得到文本样本对中每一文本样本的文本特征,并计算文本特征之间的特征距离,然后,检索单元305基于第二关键词类别、标注关键词类别、特征距离和标注语义匹配关系对预设文本处理模型进行收敛,得到训练后文本处理模型,并采用训练后文本处理模型检索目标文本;由于该方案通过多任务框架,将关键词类别识别任务和语义匹配任务同时进行训练,并通过识别出第一关键词类别,对文本词特征进行加权,显式增强了文本处理模型在语义匹配任务中对词权重识别能力,从而有效降低信息噪声,因此,可以提升文本处理的准确性。
[0185]
本发明实施例还提供一种电子设备,如图10所示,其示出了本发明实施例所涉及的电子设备的结构示意图,具体来讲:
[0186]
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图10中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
[0187]
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
[0188]
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
[0189]
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
[0190]
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符
信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
[0191]
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
[0192]
获取文本词样本和文本样本对,该文本词样本包括标注关键词类别的文本词,该文本样本对包括标注语义匹配关系的文本对,采用预设文本处理模型对文本样本对中的文本样本进行分词,并对分词后的目标文本词和文本词样本进行特征提取,得到目标文本词的文本词特征和文本词样本的文本词样本特征,基于文本词特征和文本词样本特征,对目标文本词和文本词样本进行关键词类别识别,得到目标文本词的第一关键词类别和文本词样本的第二关键词类别,根据第一关键词类别,对文本词特征进行加权,以得到文本样本对中每一文本样本的文本特征,并计算文本特征之间的特征距离,基于第二关键词类别、标注关键词类别、特征距离和标注语义匹配关系对预设文本处理模型进行收敛,得到训练后文本处理模型,并采用训练后文本处理模型检索目标文本。
[0193]
例如,获取文本样本集合,并在文本样本集合中筛选出至少一个文本样本和文本样本对应的语义文本样本,采用预设文本处理模型对文本样本进行分词,并在分词后的文本词中标注关键词类别,得到文本词样本,根据文本样本与语义文本样本之间的语义关系,在文本样本与语义文本样本组成的文本对中标注语义匹配关系,得到文本样本对。将每一文本样本切分为中文的单字、英文的单词或词根等,从而得到文本样本对中每一文本样本分词后的目标文本词。采用预设文本处理模型中的bert网络或者xlnet、electra等模型分别对目标文本词和文本词样本进行特征提取,从而得到每个目标文本词的向量表示(q1,q2,q3)和每个文本词样本的向量表示(t1,t2,t3),将目标文本词的向量表示作为目标文本词的文本词特征,将文本词样本的向量表示作为文本词样本的文本词样本特征。采用预设文本处理模型中的关键词识别网络分别对文本词特征和文本词样本特征进行归一化处理,根据归一化后的文本词特征,映射出目标文本词属于每一关键词类别的类别概率,得到目标文本词的第一关键词类别,基于归一化后的文本词样本特征,映射出文本词样本属于每一关键词类别的类别概率,得到文本词样本的第二关键词类别。根据第一关键词类别,确定文本词特征的文本权重,基于文本权重,对文本词特征进行加权,并将加权后文本词特征进行融合,得到文本样本对中每一文本样本的文本特征,计算文本特征之间的特征距离。基于第二关键词类别和标注关键词类别,确定文本词样本的关键词损失信息,根据标注语义匹配关系和特征距离,确定文本样本对的文本损失信息,基于关键词损失信息和文本损失信息,对预设文本处理模型进行收敛,得到训练后文本处理模型。获取候选文本集合,并采用训练后文本处理模型对候选文本集合中的每一候选文本进行特征提取,到候选文本特征集合,根据候选文本特征集合中的候选文本特征,构建候选文本特征集合对应的索引信息,当接收到查询文本时,根据索引信息和查询文本,在候选文本集合中筛选出至少一个候选文本。
[0194]
以上各个操作的具体实施可参见前面的实施例,在此不作赘述。
[0195]
由以上可知,本发明实施例在获取文本词样本和文本样本对后,采用预设文本处理模型对文本样本对中的文本样本进行分词,并对分词后的目标文本词和文本词样本进行
特征提取,得到目标文本词的文本词特征和文本词样本的文本词样本特征,然后,基于文本词特征和文本词样本特征,对目标文本词和文本词样本进行关键词类别识别,得到目标文本词的第一关键词类别和文本词样本的第二关键词类别,然后,根据第一关键词类别,对文本词特征进行加权,以得到文本样本对中每一文本样本的文本特征,并计算文本特征之间的特征距离,然后,基于第二关键词类别、标注关键词类别、特征距离和标注语义匹配关系对预设文本处理模型进行收敛,得到训练后文本处理模型,并采用训练后文本处理模型检索目标文本;由于该方案通过多任务框架,将关键词类别识别任务和语义匹配任务同时进行训练,并通过识别出第一关键词类别,对文本词特征进行加权,显式增强了文本处理模型在语义匹配任务中对词权重识别能力,从而有效降低信息噪声,因此,可以提升文本处理的准确性。
[0196]
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
[0197]
为此,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种文本处理方法中的步骤。例如,该指令可以执行如下步骤:
[0198]
获取文本词样本和文本样本对,该文本词样本包括标注关键词类别的文本词,该文本样本对包括标注语义匹配关系的文本对,采用预设文本处理模型对文本样本对中的文本样本进行分词,并对分词后的目标文本词和文本词样本进行特征提取,得到目标文本词的文本词特征和文本词样本的文本词样本特征,基于文本词特征和文本词样本特征,对目标文本词和文本词样本进行关键词类别识别,得到目标文本词的第一关键词类别和文本词样本的第二关键词类别,根据第一关键词类别,对文本词特征进行加权,以得到文本样本对中每一文本样本的文本特征,并计算文本特征之间的特征距离,基于第二关键词类别、标注关键词类别、特征距离和标注语义匹配关系对预设文本处理模型进行收敛,得到训练后文本处理模型,并采用训练后文本处理模型检索目标文本。
[0199]
例如,获取文本样本集合,并在文本样本集合中筛选出至少一个文本样本和文本样本对应的语义文本样本,采用预设文本处理模型对文本样本进行分词,并在分词后的文本词中标注关键词类别,得到文本词样本,根据文本样本与语义文本样本之间的语义关系,在文本样本与语义文本样本组成的文本对中标注语义匹配关系,得到文本样本对。将每一文本样本切分为中文的单字、英文的单词或词根等,从而得到文本样本对中每一文本样本分词后的目标文本词。采用预设文本处理模型中的bert网络或者xlnet、electra等模型分别对目标文本词和文本词样本进行特征提取,从而得到每个目标文本词的向量表示(q1,q2,q3)和每个文本词样本的向量表示(t1,t2,t3),将目标文本词的向量表示作为目标文本词的文本词特征,将文本词样本的向量表示作为文本词样本的文本词样本特征。采用预设文本处理模型中的关键词识别网络分别对文本词特征和文本词样本特征进行归一化处理,根据归一化后的文本词特征,映射出目标文本词属于每一关键词类别的类别概率,得到目标文本词的第一关键词类别,基于归一化后的文本词样本特征,映射出文本词样本属于每一关键词类别的类别概率,得到文本词样本的第二关键词类别。根据第一关键词类别,确定文本词特征的文本权重,基于文本权重,对文本词特征进行加权,并将加权后文本词特征进行融
合,得到文本样本对中每一文本样本的文本特征,计算文本特征之间的特征距离。基于第二关键词类别和标注关键词类别,确定文本词样本的关键词损失信息,根据标注语义匹配关系和特征距离,确定文本样本对的文本损失信息,基于关键词损失信息和文本损失信息,对预设文本处理模型进行收敛,得到训练后文本处理模型。获取候选文本集合,并采用训练后文本处理模型对候选文本集合中的每一候选文本进行特征提取,到候选文本特征集合,根据候选文本特征集合中的候选文本特征,构建候选文本特征集合对应的索引信息,当接收到查询文本时,根据索引信息和查询文本,在候选文本集合中筛选出至少一个候选文本。
[0200]
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
[0201]
其中,该计算机可读存储介质可以包括:只读存储器(rom,read only memory)、随机存取记忆体(ram,random access memory)、磁盘或光盘等。
[0202]
由于该计算机可读存储介质中所存储的指令,可以执行本发明实施例所提供的任一种文本处理方法中的步骤,因此,可以实现本发明实施例所提供的任一种文本处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
[0203]
其中,根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述文本处理方面或者文本检索方面的各种可选实现方式中提供的方法。
[0204]
以上对本发明实施例所提供的一种文本处理方法、装置、电子设备和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献