一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种文本处理方法、装置、计算机设备和存储介质与流程

2022-04-13 22:14:36 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,具体涉及一种文本处理方法、装置、计算机设备和存储介质。


背景技术:

2.随着计算机成本和计算能力的逐步提升以及半导体技术的发展,人工智能技术也得到了高速的发展。而随着人工智能技术的高速发展,使得文本处理方法也得到了快速的发展。
3.在现有技术中,通过采用人工智能模型实现对文本的处理。而采用人工智能模型实现对文本进行处理过程中的一个重要环节便是对文本对应的向量进行融合。发明人在对现有技术的实践中发现,现有技术中对向量进行融合的方式虽然效率高,但是准确率却不高,这将降低对文本处理的准确率。


技术实现要素:

4.本技术实施例提出了一种文本处理方法、装置、计算机设备和存储介质,提高了文本处理的准确性。
5.本技术实施例提供了一种文本处理方法,包括:
6.获取文本内容,所述文本内容包括至少一个文本单元;
7.对所述文本内容进行向量转换处理,得到所述文本内容对应的文本向量,以及对所述至少一个文本单元进行向量转换处理,得到每个文本单元对应的文本单元向量;
8.将所述文本向量和所述文本单元向量进行语义融合,得到所述文本向量和所述文本单元向量之间的语义融合特征;
9.将所述文本向量和所述文本单元向量进行信息量融合,得到所述文本向量和所述文本单元向量之间的信息量融合特征;
10.根据所述语义融合特征和所述信息量融合特征,在所述至少一个文本单元中筛选并输出所述文本内容的目标文本单元。
11.相应的,本技术实施例还提供了一种文本处理装置,包括:
12.获取单元,用于获取文本内容,所述文本内容包括至少一个文本单元;
13.向量转换单元,用于对所述文本内容进行向量转换处理,得到所述文本内容对应的文本向量,以及对所述至少一个文本单元进行向量转换处理,得到每个文本单元对应的文本单元向量;
14.语义融合单元,用于将所述文本向量和所述文本单元向量进行语义融合,得到所述文本向量和所述文本单元向量之间的语义融合特征;
15.信息量融合单元,用于将所述文本向量和所述文本单元向量进行信息量融合,得到所述文本向量和所述文本单元向量之间的信息量融合特征;
16.筛选单元,用于根据所述语义融合特征和所述信息量融合特征,在所述至少一个
文本单元中筛选并输出所述文本内容的目标文本单元。
17.在一实施例中,所述语义融合单元,包括:
18.识别子单元,用于分别对所述文本向量和所述文本单元向量进行识别,得到所述文本向量的向量属性和所述文本单元向量的向量属性;
19.构建子单元,用于基于所述文本向量的向量属性和所述文本单元向量的向量属性,构建语义融合张量;
20.语义融合子单元,用于利用所述语义融合张量将所述文本向量和所述文本单元向量进行语义融合,得到所述文本向量和所述文本单元向量之间的语义融合特征。
21.在一实施例中,所述语义融合子单元,包括:
22.第一乘积运算模块,用于将所述语义融合张量和所述文本向量进行乘积运算,得到初始语义融合特征;
23.第二乘积运算模块,用于将所述初始语义融合特征和所述文本单元向量进行乘积运算,得到所述语义融合特征。
24.在一实施例中,所述构建子单元,包括:
25.确定模块,用于基于所述文本向量的向量属性和所述文本单元向量的向量属性,确定所述语义融合张量的张量属性;
26.生成模块,用于根据所述张量属性生成所述语义融合张量。
27.在一实施例中,所述信息量融合单元,包括:
28.识别子单元,用于分别对所述文本向量和所述文本单元向量进行识别,得到所述文本向量的信息量和所述文本单元向量的信息量;
29.确定子单元,用于根据所述文本向量的信息量和所述文本单元向量的信息量,确定所述文本向量和所述文本单元向量的信息量融合方式;
30.信息量融合子单元,用于利用所述信息量融合方式将所述文本向量和所述文本单元向量进行信息量融合,得到所述文本向量和所述文本单元向量之间的信息量融合特征。
31.在一实施例中,所述信息量融合子单元,包括:
32.信息填充模块,用于基于所述文本向量的信息量,对所述文本单元向量进行信息填充处理,得到填充后文本单元向量;
33.拼接模块,用于将所述文本向量和所述填充后文本单元向量进行拼接处理,得到所述信息量融合特征。
34.在一实施例中,所述筛选单元,包括:
35.逻辑运算子单元,用于将所述语义融合特征和所述信息量融合特征进行逻辑运算处理,得到每个文本单元和所述文本内容之间的关联特征;
36.筛选子单元,用于根据所述关联特征,在所述至少一个文本单元中筛选并输出所述文本内容的目标文本单元。
37.在一实施例中,所述逻辑运算子单元,包括:
38.识别模块,用于分别对所述语义融合特征和所述信息量融合特征进行识别,得到所述语义融合特征的特征属性和所述信息量融合特征的特征属性;
39.构建模块,用于根据所述语义融合特征的特征属性和所述信息量融合特征的特征属性,构建偏置向量;
40.累加运算模块,用于将所述语义融合特征、所述信息量融合特征和所述偏置向量进行累加运算,得到所述关联特征。
41.在一实施例中,所述筛选子单元,包括:
42.映射模块,用于将所述关联特征进行映射处理,得到每个文本单元对应的映射值;
43.分类模块,用于根据所述映射值对所述每个文本单元进行分类处理,得到分类结果;
44.确定模块,用于根据分类结果确定所述文本内容的目标文本单元。
45.在一实施例中,所述向量转换单元,包括:
46.注意力特征提取子单元,用于对所述文本内容进行局部注意力特征提取,得到所述文本内容的多个局部注意力特征信息;
47.向量映射子单元,用于对所述多个局部注意力特征信息进行向量映射处理,得到每个局部注意力特征信息对应的表示向量;
48.融合子单元,用于对每个局部注意力特征信息对应的表示向量进行融合处理,得到所述文本内容对应的文本向量。
49.在一实施例中,所述注意力特征提取子单元,包括:
50.信息采集模块,用于利用预设滑窗对所述文本内容进行信息采集,得到多个文本采集单元,其中,所述文本采集单元中包括多个文本子单元;
51.统计模块,用于统计所述文本采集单元中每个文本子单元的词频;
52.计算模块,用于计算所述文本采集单元中每个文本子单元之间的文本距离;
53.生成模块,用于根据所述词频和所述文本距离,生成所述文本内容的局部注意力特征信息。
54.在一实施例中,所述向量转换单元,包括:
55.映射子单元,用于根据预设转换规则,将所述文本单元映射至对应的初始文本单元向量;
56.特征转换子单元,用于对所述初始文本单元向量进行特征转换处理,得到所述文本单元向量。
57.本技术实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面的各种可选方式中提供的方法。
58.相应的,本技术实施例还提供一种存储介质,所述存储介质存储有指令,所述指令被处理器执行时实现本技术实施例任一提供的文本处理方法。
59.本技术实施例可以获取文本内容,文本内容包括至少一个文本单元;对文本内容进行向量转换处理,得到文本内容对应的文本向量,以及对至少一个文本单元进行向量转换处理,得到每个文本单元对应的文本单元向量;将文本向量和文本单元向量进行语义融合,得到文本向量和文本单元向量之间的语义融合特征;将文本向量和文本单元向量进行信息量融合,得到文本向量和文本单元向量之间的信息量融合特征;根据语义融合特征和信息量融合特征,在至少一个文本单元中筛选并输出文本内容的目标文本单元,提高了对文本处理的准确率。
附图说明
60.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
61.图1是本技术实施例提供的文本处理方法的场景示意图;
62.图2是本技术实施例提供的文本处理方法的流程示意图;
63.图3是本技术实施例提供的预设滑窗的场景示意图;
64.图4是本技术实施例提供的文本采集子单元的场景示意图;
65.图5是本技术实施例提供的文本处理模型的场景示意图;
66.图6是本技术实施例提供的文本处理方法的又一流程示意图;
67.图7是本技术实施例提供的文本处理装置的结构示意图;
68.图8是本技术实施例提供的终端的结构示意图。
具体实施方式
69.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,然而,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
70.本技术实施例提出了一种文本处理方法,该文本处理方法可以由文本处理装置执行,该文本处理装置可以集成在计算机设备中。其中,该计算机设备可以包括终端以及服务器等中的至少一个。即,本技术实施例提出的文本处理方法即可以由终端执行,还可以由服务器执行,还可以由能够进行互相通信的终端和服务器共同执行。
71.其中,终端可以为智能手机、平板电脑、笔记本电脑、个人电脑(personal computer,pc)、智能家居、可穿戴电子设备、vr/ar设备、车载计算机等等。服务器可以为多个异构系统之间的互通服务器或者后台服务器,还可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器等等。
72.在一实施例中,如图1所述,文本处理装置可以集成在终端或服务器等计算机设备上,以实施本技术实施例提出的异常对象检测方法。具体地,计算机设备可以获取文本内容,文本内容包括至少一个文本单元;对文本内容进行向量转换处理,得到文本内容对应的文本向量,以及对至少一个文本单元进行向量转换处理,得到每个文本单元对应的文本单元向量;将文本向量和文本单元向量进行语义融合,得到文本向量和文本单元向量之间的语义融合特征;将文本向量和文本单元向量进行信息量融合,得到文本向量和文本单元向量之间的信息量融合特征;根据语义融合特征和信息量融合特征,在至少一个文本单元中筛选并输出文本内容的目标文本单元。
73.以下分别进行详细说明,需要说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
74.本技术实施例将从文本处理装置的角度进行描述,该文本处理装置可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备。
75.如图2所述,提供了一种文本处理方法,具体流程包括:
76.101、获取文本内容,文本内容包括至少一个文本单元。
77.其中,文本内容包括具有完整、系统含义的一个句子或多个句子的组合。例如,文本内容可以包括一个句子、一个段落或者一个篇章,等等。
78.其中,文本单元可以包括构成文本内容的成分。例如,文本单元可以是构成文本内容的词语,等等。又例如,文本单元可以是构成文本内容的字,等等。
79.譬如,当文本内容为“今天的天气很好”,则文本内容对应的文本单元可以包括“今天”、“的”、“天气”、“很好”。又譬如,当文本内容为“跳一跳,教你上分的攻略”,则文本内容对应的文本单元可以包括“跳一跳”、“教你”“上分”、“的”、“攻略”。又譬如,当文本内容为“你好”时,文本内容对应的文本单元可以包括“你”、“好”。
80.在一实施例中,本技术实施例提出的文本处理方法可以适用于需要从文本内容中筛选并输出目标文本单元的场景。
81.其中,目标文本单元可以包括文本内容的核心成分。
82.在一实施例中,文本内容一般都具有其中心思想,有其想要表达的具体目标,而这个具体目的往往是通过目标文本单元体现出来的。因此,目标文本单元可以包括最能够体现出文本内容的中心思想以及具体目标的目标文本单元。
83.例如,当文本内容为“跳一跳,教你上分的攻略”时,目标文本内容可以包括“跳一跳”和“攻略”。又例如,当文本内容为“今天的天气很好”时,目标文本内容可以包括“天气”和“很好”,等等。
84.因此,本技术实施例提出的文本处理方法可以适用于需要理解文本核心词的场景。例如,本技术实施例提出的文本处理方法可以适用于标题理解、篇章句式理解等通用场景。
85.例如,可以将本技术实施例提出的文本处理方法嵌入到搜索引擎中,当用户输入搜索语句时,本技术实施例提出的方法可以从搜索语句中提取出核心词,以使得搜索引擎可以根据该核心词进行搜索。
86.又例如,可以将本技术实施例提出的文本处理方法嵌入到教育类型的应用程序上,以使得教育类型的应用程序可以从学生上传的阅读理解答案中提出去核心词,并根据核心词对学生上传的阅读理解答案进行打分。
87.其中,其中,应用程序包括完成某项或多项特定功能的计算机程序,它运行在交互模式,可以和应用程序的使用对象进行交互,具有可视的显示界面。
88.例如,应用程序可以包括各种终端上的应用软件。例如,应用程序可以包括各种手机软件(application,app)、平板电脑应用软件、笔记本电脑上的应用软件、个人计算机(pc,personal computer)上的应用软件,等等。
89.例如,应用程序可以包括浏览器、视频播放软件、游戏软件等等。
90.又例如,应用程序还可以包括小程序。其中,小程序(mini program)是一种不需要下载安装即可使用的应用程序。为了向用户提供更多样化的业务服务,开发者可为终端的应用(例如即时通信应用、购物应用、邮件应用等)开发相应的小程序,该小程序可作为子应
用被嵌入至终端的应用中,通过运行应用内的子应用(即对应的小程序)能够为用户提供相应的业务服务。
91.在一实施例中,根据不同的应用场景,可以通过不同的方式获取文本内容。例如,当本技术实施例提出的文本处理方法嵌入到搜索引擎当中时,用户在搜索引擎中输入需要检索文本内容之后,计算机设备便可以获取到文本内容。又例如,当本技术实施例提出的文本处理方法嵌入到教育类的应用程序中时,用户在应用程序中输入文本内容之后,计算机设备便可以获取到文本内容。
92.在一实施例中,在得到文本内容之后,可以对文本内容进行分词处理,从而得到文本单元。
93.在一实施例中,有多种方式可以对文本内容进行分词处理,从而得到文本单元。例如,可以采用正向最大匹配法(forward maximum matching method,fmm)、逆向最大匹配法(backward maximum matching method,bmm),双向扫描法、逆向最大匹配法、n-最短路径法或jieba库等方法中的其中一种对文本内容进行分词处理,从而得到文本单元。
94.其中,jieba库是一个分词第三方库,其原理是利用一个预设语言库确定该预设语言中字与字之间的关联概率,并将关联概率大的字组成词语,从而形成分词结果。例如,当文本内容是中文时,jieba库可以利用中文库确定汉字之间的关联概率,并将关联概率大的汉字组成词语,形成文本单元。
95.102、对文本内容进行向量转换处理,得到文本内容对应的文本向量,以及对至少一个文本单元进行向量转换处理,得到每个文本单元对应的文本单元向量。
96.在一实施例中,在获取得到文本内容和文本单元之后,可以对文本内容进行向量转换处理,得到文本内容对应的文本向量,以及对文本单元进行向量转换处理,得到每个文本单元对应的文本单元向量。
97.在一实施例中,可以利用机器学习(machine learning,ml)模型对文本内容进行向量转换处理,从而得到文本内容对应的文本向量。例如,可以利用卷积神经网络(convolutional neural networks,cnn)、反卷积神经网络(de-convolutional networks,dn)、深度神经网络(deep neural networks,dnn)、深度卷积逆向图网络(deep convolutional inverse graphics networks,dcign)、基于区域的卷积网络(region-based convolutional networks,rcnn)、基于区域的快速卷积网络(faster region-based convolutional networks,faster rcnn)和双向编解码(bidirectional encoder representations from transformers,bert)模型等机器学习模型中的任意一种对文本内容进行向量转换处理,从而得到文本内容对应的文本向量。
98.其中,bert模型是一种基于ml的自然语言处理(nature language processing,nlp)中的预训练模型,采用了transformer作为模型的基础架构。
99.其中,transformer是由解码器和编码器两部分组成。其中,编码器可以由注意力机制和前向传播模块等构成。编码器也可以由注意力机制和前向传播模块等构成。编码器可以用于对输入的文本内容进行向量转换处理,得到文本内容对应的文本向量。
100.其中,ml是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是
使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
101.而nlp是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
102.在一实施例中,当机器学习模型是bert模型时,可以将bert模型架构设置为12层transformer,其中,每一层transformer都可以作为一个维度对文本内容进行向量转换处理。
103.在一实施例中,由于文本内容所包含的信息量比较大,所以在对文本内容进行向量转换处理时,可以直接基于注意力机制对文本内容进行向量转换处理,得到文本内容对应的文本向量。
104.其中,注意力机制源于对人类视觉的研究。在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息。上述机制通常被称为注意力机制。人类视网膜不同的部位具有不同程度的信息处理能力,即敏锐度,只有视网膜中央凹部位具有最强的敏锐度。为了合理利用有限的视觉信息处理资源,人类需要选择视觉区域中的特定部分,然后集中关注它。例如,人们在阅读时,通常只有少量要被读取的词会被关注和处理。综上,注意力机制主要有两个方面:决定需要关注输入的哪部分;分配有限的信息处理资源给重要的部分。而多头注意力机制是利用多个查询,来平行地计算从输入信息中选取多个信息。每个注意力关注输入信息的不同部分。
105.具体的,步骤“对文本内容进行向量转换处理,得到文本内容对应的文本向量”,可以包括:
106.对文本内容进行局部注意力特征提取,得到文本内容的多个局部注意力特征信息;
107.对多个局部注意力特征信息进行向量映射处理,得到每个局部注意力特征信息对应的表示向量;
108.对每个局部注意力特征信息对应的表示向量进行融合处理,得到文本内容对应的文本向量。
109.在一实施例中,为了提高文本处理的准确性,在基于注意力机制对文本内容进行向量转换处理时,可以采用多头注意力机制(multi-head-attention)对文本内容进行注意力特征提取处理。其中,多头注意力机制是利用多个查询,来平行地计算从输入信息中选取多个信息。
110.其中,每头注意力机制关注输入信息的不同部分,从而形成了对文本内容的局部注意力特征提取。而每头注意力机制对文本内容进行局部注意力特征提取之后,便可以得到文本内容的多个局部注意力特征信息。
111.在一实施例中,可以采用预设滑窗实现对文本内容的局部注意力特征提取。具体的,步骤“对文本内容进行局部注意力特征提取,得到文本内容的多个局部注意力特征信息”,可以包括:
112.利用预设滑窗对文本内容进行信息采集,得到多个文本采集单元,其中,所述文本采集单元中包括多个文本采集子单元;
113.统计文本采集单元中每个文本采集子单元的词频;
114.计算文本采集单元中每个文本采集子单元之间的文本距离;
115.根据词频和文本距离,生成文本内容的局部注意力特征信息。
116.其中,预设滑窗可以是一个预先设置好窗口长度和滑动步长的滑动窗口。其中,滑动步长可以指滑动窗口每次滑动的时候的移动长度。例如,当将预设滑窗的窗口长度设置为4,滑动步长设置为1时,预设滑窗每次会从文本内容中采集4个字,并且每次都滑动1个字的距离。例如,如图3所示,是预设滑窗对文本内容进行信息采集的示意图。其中,图3中的001可以是文本内容,图3中的002可以是预设滑窗,图3中的003可以是文本采集单元。
117.其中,预设滑窗每次采集的所有字都会构成一个文本采集单元,而文本采集单元中的字便可以是文本采集子单元。例如,如图4所示,图4中的004可以是文本采集子单元。
118.其中,词频可以是每个文本采集子单元在预设滑窗中出现的频率。例如,文本采集单元包括“欢欢喜喜”,则文本采集子单元“换”的词频为2,文本采集子单元“喜”的词频也为2。
119.其中,文本距离可以包括字与字之间的距离。例如,文本采集单元包括“天气真好”,则文本采集子单元“天”和文本采集子单元“气”之间的文本距离为0,而文本采集子单元“天”和文本采集子单元“真”之间的文本距离为1。
120.在一实施例中,可以利用预设滑窗按照预先设置好的滑动步长对文本内容进行信息采集,得到多个文本采集单元。然后可以对文本采集单元进行遍历,并通过遍历结果通过文本采集单元中每个文本采集子单元的词频,以及通过遍历结果计算每个文本采集子单元之间的文本距离。
121.在一实施例中,可以根据词频和文本距离,生成文本内容的局部注意力特征信息。例如,可以将词频和文本距离进行统计,从而得到文本内容的局部注意力特征信息。
122.在一实施例中,在得到文本内容的多个局部注意力特征信息之后,可以对多个局部注意力特征信息进行向量映射处理,从而得到每个局部注意力特征信息对应的表示向量。例如,可以根据文本采集单元中每个文本采集子单元的词频和每个文本采集子单元之间的文本距离,将文本采集子单元映射到向量空间中。然后,可以将文本采集子单元在向量空间中的表示作为局部注意力特征信息对应的表示信息。具体的,步骤“对多个局部注意力特征信息进行向量映射处理,得到每个局部注意力特征信息对应的表示向量”,可以包括:
123.根据局部注意力特征信息,在预设向量映射空间中进行搜索,得到局部注意力特征信息在预设向量映射空间中的搜索路径;
124.获取搜索路径上的搜索向量,并将搜索向量确定为表示向量。
125.其中,预设向量映射空间包括由文本内容对应的语言下的每个字构成的空间,在预设向量映射空间中定义了该语言下每个字具有什么特征,以及每个字之间的关系。
126.在一实施例中,预设向量映射空间可以有多种表现形式。例如,该预设向量映射空间可以是矩阵。又例如,该预设向量映射空间可以是图结构。又例如,预设向量映射空间可以是树形结构,等等。
127.在一实施例中,可以在预设向量映射空间中将局部注意力特征信息进行搜索,得
到至少一个搜索路径。然后,获取搜索路径上的搜索向量,并将搜索向量确定为局部注意力特征信息表示向量。
128.在一实施例中,可以对每个局部注意力特征信息对应的表示向量进行融合处理,从而得到文本内容对应的文本向量。例如,可以对每个局部注意力特征信息进行拼接,从而得到文本内容对应的文本向量。
129.在一实施例中,也可以利用机器学习模型对文本单元进行向量转换处理,得到文本单元对应的文本单元向量。例如,可以利用cnn、dn、dnn等机器学习模型中的任意一种对文本单元进行向量转换处理,从而得到文本单元对应的文本单元向量。
130.在一实施例中,步骤“对至少一个文本单元进行向量转换处理,得到每个文本单元对应的文本单元向量”,可以包括:
131.根据预设转换规则,将文本单元映射至对应的初始文本单元向量;
132.对初始文本单元向量进行特征转换处理,得到文本单元向量。
133.其中,预设转换规则可以包括文本内容对应的语言中的每个字对应的向量表示,其中,每个字对应的向量表示都是唯一的。例如,预设转换规则中可以规定“天”对应的向量表示是[0,0,0,1],而“气”对应的向量表示是[0,0,1,0]。因此,可以根据预设转换规则,将文本单元映射至对应的初始文本单元向量中。
[0134]
在一实施例中,由于初始文本单元向量中含有较多的无用信息,且会存在维度较大的问题。因此,可以对初始文本单元向量进行特征转换处理,得到文本单元向量,从而使得文本单元向量维度较小。
[0135]
例如,可以将初始文本单元向量和一个预设特征转换向量进行相乘,从而得到文本单元向量。
[0136]
103、将文本向量和文本单元向量进行语义融合,得到文本向量和文本单元向量之间的语义融合特征。
[0137]
在一实施例中,在得到文本向量和文本单元向量之后,可以将文本向量和文本单元向量进行语义融合,从而得到文本向量和文本单元向量之间的语义融合特征。
[0138]
其中,语义融合可以包括在语义维度上将文本向量和文本单元向量进行融合,即语义融合更关注的是文本向量和文本单元向量中的有效信息,从而使得得到的语义融合特征可以更加体现出文本向量和文本单元向量的特点,从而提高了文本处理的准确性。
[0139]
其中,语义融合特征包括可以表示文本向量和文本单元向量在语义维度上进行融合后的特征。通过语义融合特征,可以体现出文本单元和文本内容在语义维度上的关联程度。
[0140]
在一实施例中,该语义融合特征可以是向量,也可以是矩阵。
[0141]
在一实施例中,将文本向量和文本单元向量进行语义融合时,为了获取到文本向量和文本单元向量更多的有效信息,可以利用一个语义融合张量将文本向量和文本单元向量进行语义融合。具体的,步骤“将文本向量和文本单元向量进行语义融合,得到文本向量和文本单元向量之间的语义融合特征”,可以包括:
[0142]
分别对文本向量和文本单元向量进行识别,得到文本向量的向量属性和文本单元向量的向量属性;
[0143]
基于文本向量的向量属性和文本单元向量的向量属性,构建语义融合张量;
[0144]
利用语义融合张量将文本向量和文本单元向量进行语义融合,得到文本向量和文本单元向量之间的语义融合特征。
[0145]
其中,向量属性可以包括向量的性质。例如,向量属性可以包括向量的维度、向量是否是线性向量、向量是齐次向量或者非齐次向量,等等。
[0146]
其中,张量可以包括三维及其以上的向量。张量(tensor)理论是数学的一个分支学科,在力学中有重要应用。张量这一术语起源于力学,它最初是用来表示弹性介质中各点应力状态的,后来张量理论发展成为力学和物理学的一个有力的数学工具。张量之所以重要,在于它可以满足一切物理定律必须与坐标系的选择无关的特性。张量概念是向量概念的推广,向量是一阶张量。张量是一个可用来表示在一些向量和其他张量之间的线性关系的多线性函数。
[0147]
其中,语义融合张量包括将文本向量和文本单元向量融合起来的媒介。
[0148]
在一实施例中,可以对文本向量和文本单元向量进行识别,得到文本向量的向量属性和文本单元向量的向量属性,然后基于文本向量的向量属性和文本单元向量的向量属性构建语义融合张量。
[0149]
例如,通过对文本向量和文本单元向量进行识别,得到文本向量的维数和文本单元向量的维度。例如,通过对文本向量和文本单元向量进行识别,得到文本向量的行数和列数,以及文本单元向量的行数和列数。然后,可以基于文本向量的行数和列数,以及文本单元向量的行数和列数,构建语义融合张量,从而使得语义融合张量可以正确地将文本向量和文本单元向量进行融合,从而提高信息融合的准确性以及文本处理的准确性。
[0150]
在一实施例中,步骤“基于文本向量的向量属性和文本单元向量的向量属性,构建语义融合张量”,可以包括:
[0151]
基于文本向量的向量属性和文本单元向量的向量属性,确定语义融合张量的张量属性;
[0152]
根据张量属性生成语义融合张量。
[0153]
其中,张量属性可以包括张量的性质。例如,张量属性可以包括张量的维度、阶数和形状,等等。
[0154]
在一实施例中,可以基于文本向量的向量属性和文本单元向量的向量属性,确定语义融合张量的张量属性。例如,可以基于文本向量的维度和文本单元向量的维度,确定语义融合张量的张量维度。例如,当文本向量的维度为m维,而文本单元向量的维度为n维时,此时,可以将语义融合张量的维度确定为m*n*d,其中,d可以是张量第三维的维度。接下来,便可以根据张量的维度生成语义融合张量,具体下列公式所示:
[0155]
w∈r
m*n*d
[0156]
其中,符号w可以表示语义融合张量,r可以表示实数集,r
m*n*d
可以表示语义融合张量中元素的取值范围。
[0157]
在一实施例中,在构建了语义融合张量之后,可以利用语义融合张量将文本向量和文本单元向量进行语义融合,从而得到文本向量和文本单元向量之间的语义融合特征。
[0158]
其中,可以利用多种方式将语义融合张量、文本向量和文本单元向量进行语义融合。例如,可以将语义融合张量、文本向量和文本单元向量进行内积,从而得到语义融合特征。又例如,可以将语义融合张量、文本向量和文本单元向量进行外积,从而得到语义融合
特征。又例如,可以将语义融合张量、文本向量和文本单元向量进行克罗内克(kronecter)乘积,从而得到语义融合特征。又例如,可以将语义融合张量、文本向量和文本单元向量进行哈达玛(hadamard)乘积,从而得到语义融合特征,等等。
[0159]
具体的,步骤“利用语义融合张量将文本向量和文本单元向量进行语义融合,得到文本向量和文本单元向量之间的语义融合特征”,可以包括:
[0160]
将语义融合张量和文本向量进行乘积运算,得到初始语义融合特征;
[0161]
将初始语义融合特征和文本单元向量进行乘积运算,得到语义融合特征。
[0162]
其中,乘积运算可以包括内积、外积、kronecter乘积或hadamard乘积,等等。
[0163]
例如,可以将语义融合张量和文本向量进行kronecter乘积,得到初始语义融合特征。然后,将初始语义融合特征和文本单元向量进行hadamard乘积,从而得到语义融合特征。又例如,可以将语义融合张量和文本向量进行hadamard乘积,得到初始语义融合特征。然后,将初始语义融合特征和文本单元向量进行hadamard乘积,从而得到语义融合特征,等等。
[0164]
在一实施例中,可以根据以下公式将语义融合张量、文本向量和文本单元向量进行融合,从而得到语义融合特征:
[0165][0166]
其中,符号f
text
可以标识文本向量,符号f
word
可以表示文本单元向量,符号w可以表示语义融合张量,符号f1可以表示语义融合特征,符号*可以表示hadamard乘积,符号可以表示将文本单元向量进行转置。
[0167]
在一实施例中,将语义融合张量和文本向量以及文本单元向量进行乘积可以看成是利用语义融合张量对文本向量以及文本单元向量进行特征提取,得到得到文本向量和文本单元向量更多的语义特征。然后,可以利用语义融合张量将文本向量和文本单元向量的语义特征进行结合,得到语义融合特征,从而使得在将文本向量和文本单元向量进行融合时,可以兼顾到文本向量的语义特征和文本单元向量的语义特征,从而提高了语义融合特征的准确率,从而提高了文本处理的准确率。此外,在构建语义融合张量时,语义融合张量中元素可以经过调整后得到的,从而使得语义融合张量可以从文本向量和文本单元向量中提取出更加多有效的语义特征,进一步地提高了语义融合特征的准确率。
[0168]
104、将文本向量和文本单元向量进行信息量融合,得到文本向量和文本单元向量之间的信息量融合特征。
[0169]
在一实施例中,在得到文本向量和文本单元向量之后,可以将文本向量和文本单元向量进行信息量融合,从而得到文本向量和文本单元向量之间的信息量融合特征。
[0170]
其中,信息量融合可以包括在信息量维度上将文本向量和文本单元向量进行融合,即信息量融合更关注的是文本向量和文本单元向量中的信息的完整度,从而使得信息量融合特征可以完整地表示文本向量和文本单元向量的初始信息,而不会忽略掉文本向量和文本单元向量中的一些信息细节。
[0171]
其中,信息量融合特征包括可以表示文本向量和文本单元向量在信息量维度上进行融合后的特征。
[0172]
在一实施例中,该信息量融合特征可以是向量,也可以是矩阵。
[0173]
在一实施例中,可以根据文本向量和文本单元向量的信息量,确定信息量融合方式,并根据该信息量融合方式将文本向量和文本单元向量进行信息量融合,得到信息量融合特征。具体的,步骤“将文本向量和文本单元向量进行信息量融合,得到文本向量和文本单元向量之间的信息量融合特征,”,可以包括:
[0174]
分别对文本向量和文本单元向量进行识别,得到文本向量的信息量和文本单元向量的信息量;
[0175]
根据文本向量的信息量和文本单元向量的信息量,确定文本向量和文本单元向量的信息量融合方式;
[0176]
利用信息量融合方式将文本向量和文本单元向量进行信息量融合,得到文本向量和文本单元向量之间的信息量融合特征。
[0177]
其中,信息量可以包括向量中元素的数量以及有效元素的数量。其中,有效元素可以包括向量中非0的元素值。
[0178]
在一实施例中,可以通过对文本向量和文本单元向量进行遍历,从而得到文本向量和文本单元向量的信息量。然后根据信息量确定文本向量和文本单元向量的信息量融合方式。
[0179]
在一实施例中,信息量融合方式包括不会损失文本向量和文本单元向量的信息的融合方式。例如,信息量融合方式可以包括拼接或者向量相加,等等。
[0180]
在一实施例中,当文本向量和文本单元向量中的有效信息较多时,可以采用拼接的信息量融合方式将文本向量和文本单元向量进行语义融合,从而得到语义融合特征。
[0181]
在一实施例中,当文本向量和文本单元向量中的有效信息较少时,可以采用向量相加的方式将文本向量和文本单元向量进行语义融合,从而得到语义融合特征。
[0182]
在一实施例中,当采用拼接的方式将文本向量和文本单元向量进行信息量融合时,步骤“利用信息量融合方式将文本向量和所述文本单元向量进行信息量融合,得到文本向量和文本单元向量之间的信息量融合特征”,可以包括:
[0183]
基于文本向量的信息量,对文本单元向量进行信息填充处理,得到填充后文本单元向量;
[0184]
将文本向量和填充后文本单元向量进行拼接处理,得到信息量融合特征。
[0185]
在一实施例中,文本单元向量的维度可能比文本向量的维度小,所以当采用拼接的方式将文本向量和文本单元向量进行拼接处理时,可以对文本单元向量进行信息填充处理,从而得到填充后文本单元向量。
[0186]
例如,文本单元向量的维度为4维,而文本向量的维度为6维,因此可以对文本单元向量进行信息填充处理,从而使得填充后文本单元向量也为6维。
[0187]
在一实施例中,可以将文本向量和填充后文本单元向量进行拼接处理,得到信息量融合特征。其中,可以按照下述公式将文本向量和填充后文本单元向量进行拼接处理:
[0188][0189]
其中,符号f2可以表示信息量融合特征,符号fw′
ord
可以表示填充后文本单元向量。
符号v[]可以表示将向量进行拼接。其中,可以表示将文本向量和填充后文本单元向量进行纵向拼接。
[0190]
在一实施例中,还可以将文本向量和文本单元向量进行横向拼接处理,具体可以如下列公式所示:
[0191]
f3=v[f
textfword
]
[0192]
其中,符号可以表示进行纵向拼接后得到的信息量融合特征。
[0193]
在一实施例中,步骤103和步骤104并没有执行时序上的限制,可以先执行步骤103,再执行步骤104;也可以先执行步骤104再执行步骤103;也可以并行的执行步骤103和104。
[0194]
在一实施例中,通过将文本向量和文本单元向量进行信息量融合,可以使得信息量融合特征可以包括文本向量和文本单元向量的完整信息,从而使得根据语义融合特征和信息量融合特征在文本单元中筛选出目标文本单元时,可以更加全面地衡量文本单元在文本内容中的重要程度,从而能够准确地筛选出目标文本单元,从而提高了文本处理的准确率。
[0195]
其中,还可以根据文本向量和文本单元向量的信息量,确定文本向量和文本单元向量的信息量融合方式。例如,当文本向量和文本单元向量中的有效信息较多时,可以采用拼接的信息量融合方式将文本向量和文本单元向量进行语义融合,得到语义融合特征。通过拼接的方式可以保留文本向量和文本单元向量的完整信息,不会到有效信息造成损失。又例如,当文本向量和文本单元向量中的有效信息较少时,可以采用向量相加的方式将文本向量和文本单元向量进行语义融合,得到语义融合特征。通过相加的方式,可以降低信息量融合特征的维度,提高对文本处理的效率。
[0196]
105、根据语义融合特征和信息量融合特征,在至少一个文本单元中筛选并输出文本内容的目标文本单元。
[0197]
其中,目标文本单元可以包括文本内容的核心成分。
[0198]
在一实施例中,文本内容一般都具有其中心思想,有其想要表达的具体目标,而这个具体目的往往是通过目标文本单元体现出来的。因此,目标文本单元可以包括最能够体现出文本内容的中心思想以及具体目标的目标文本单元。
[0199]
例如,当文本内容为“跳一跳,教你上分的攻略”时,目标文本内容可以包括“跳一跳”和“攻略”。又例如,当文本内容为“今天的天气很好”时,目标文本内容可以包括“天气”和“很好”,等等。
[0200]
在一实施例中,得到语义融合特征和信息量融合特征之后,可以在至少一个文本单元中筛选并输出文本内容的目标文本单元。
[0201]
在一实施例中,可以将语义融合特征和信息量融合特征进行逻辑运算,从而得到每个文本单元和文本内容之间的关联特征。然后,根据关联特征,在至少一个文本单元中筛选并输出文本内容的目标文本单元。具体的,步骤“根据语义融合特征和信息量融合特征,在至少一个文本单元中筛选并输出文本内容的目标文本单元”,可以包括:
[0202]
将语义融合特征和信息量融合特征进行逻辑运算处理,得到每个文本单元和文本内容之间的关联特征;
[0203]
根据关联特征,在至少一个文本单元中筛选并输出文本内容的目标文本单元。
[0204]
其中,关联特征包括集中了语义融合特征和信息量融合特征的特征。关联特征可以在信息量和语义这两个维度上体现文本单元在文本内容中的重要程度。
[0205]
在一实施例中,步骤“将语义融合特征和信息量融合特征进行逻辑运算处理,得到每个文本单元和文本内容之间的关联特征”,可以包括:
[0206]
分别对语义融合特征和信息量融合特征进行识别,得到语义融合特征的特征属性和信息量融合特征的特征属性;
[0207]
根据语义融合特征的特征属性和信息量融合特征的特征属性,构建偏置向量;
[0208]
将语义融合特征、信息量融合特征和偏置向量进行累加运算,得到关联特征。
[0209]
其中,特征属性包括特征的性质。例如,由于特征可能是向量或者矩阵,因此特征属性可以包括特征的维度,等等。
[0210]
其中,偏置向量包括对语义融合特征和信息量融合特征进行调整的向量。在一实施例中,由于本技术实施例是基于语义融合特征和信息量融合特征从至少一个文本单元中筛选并输出文本内容的目标文本单元。但是,若直接将语义融合特征和信息量融合特征将进行相加生成关联特征,关联特征的拟合能力会较弱,即关联向量会因为相加的原因而损失了部分信息,降低了精度。因此,可以通过添加偏置向量,通过偏置向量可以弥补损失的那部分信息,从而提高了关联特征的拟合能力,提高了精度。
[0211]
在一实施例中,可以对语义融合特征和信息量融合特征进行识别,得到语义融合特征的特征属性和信息量融合特征的特征属性。然后,基于语义融合特征的特征属性和信息量融合特征的特征属性,构建偏置向量。
[0212]
例如,语义融合特征的维度和信息量融合特征的维度都为k维,则可以随机生成一个k维的偏置向量。
[0213]
接下来,可以语义融合特征、信息量融合特征和偏置向量进行累加运算,得到关联特征。
[0214]
其中,当语义融合特征表示为信息量融合特征表示为偏置向量表示为b时,关联特征可以表示如下:
[0215][0216]
其中,符号f
fusion
可以表示关联特征。
[0217]
在一实施例中,通过将语义融合特征和信息量融合特征进行混合,强化了特征之间的交互。
[0218]
在一实施例中,在得到关联特征之后,可以根据关联特征,在至少一个文本单元中筛选并输出文本内容的目标文本单元。具体的,步骤“根据关联特征,在至少一个文本单元中筛选并输出文本内容的目标文本单元”,可以包括:
[0219]
将关联特征进行映射处理,得到每个文本单元对应的映射值;
[0220]
根据映射值对每个文本单元进行分类处理,得到分类结果;
[0221]
根据分类结果确定文本内容的目标文本单元。
[0222]
在一实例中,由于关联特征可能是向量或者矩阵,因此可以将关联特征进行映射处理,从而得到每个文本单元对应的映射值。
[0223]
例如,可以对关联特征进行范数运算等,从而得到每个文本单元对应的映射值。又例如,可以利用sigmoid函数将关联特征进行映射处理,从而得到映射值。
[0224]
接下来,可以根据映射值对每个文本单元进行分类处理,得到分类结果,并根据分类结果确定文本内容的目标文本单元。例如,可以将每个文本单元对应的映射值和预设分类阈值进行比较,并根据比较结果对文本单元进行分类。
[0225]
例如,可以将映射值大于预设分类阈值的文本单元分类为目标文本单元,而将将映射值小于或等于预设分类阈值的文本单元分类为非目标文本单元。
[0226]
在一实施例中,本技术实施例还提出了一个文本处理模型,如图5所示,该文本处理模型包括分词层、两个编码器、融合层和筛选层。
[0227]
其中,分词层用于获取文本内容,然后对文本内容进行分词,从而得到文本单元。
[0228]
其中,两个编码器分别用于对文本内容进行向量转换处理以及对文本单元进行向量转换处理,从而得到文本内容对应的文本向量和文本单元对应的文本单元向量。
[0229]
在一实施例中,其中一个编码器可以是bert模型,用于对文本内容进行向量转换处理,得到文本内容对应的文本向量。
[0230]
在一实施例中,另外一个编码器可以是dnn模型,用于对每个文本单元进行向量转换处理,从而得到每个文本单元对应的文本单元向量。
[0231]
其中,融合层用于将文本向量和文本单元向量进行语义融合,以及将文本向量和文本单元向量进行信息量融合,从而得到语义融合特征和信息量融合特征。
[0232]
其中,筛选层用于根据语义融合特征和信息量融合特征,在至少一个文本单元中筛选并输出文本内容的目标文本单元。
[0233]
在一实施例中,在利用文本处理模型对文本内容进行处理之前,可以对待训练文本处理模型进行训练,从而得到文本处理模型。
[0234]
其中,在对待训练文本处理模型进行训练时,可以将训练样本划分成正样本和负样本。其中,训练样本可以包括用来对待训练文本处理模型进行训练的文本内容。
[0235]
例如,当训练样本为“跳一跳,教你上600分的攻略”时,可以在训练样本中筛选出核心词,并将核心词作为目标文本单元。例如,可以将“跳一跳”和“攻略”作为目标文本单元,而其他词作为非目标文本单元。
[0236]
然后,可以基于训练样本和目标文本单元构建正负训练样本。例如,可以将训练数据{训练样本:跳一跳,教你上600分的攻略,当前词:跳一跳,标签:1}构建为正训练样本,而将训练数据{训练样本:跳一跳,教你上600分的攻略,当前词:教你,标签:0}构建为负训练样本。
[0237]
接下来,便可以利用正训练样本和负训练样本对待训练文本处理模型进行训练,从而得到文本处理模型。
[0238]
本技术实施例提出了一种文本处理方法,该文本处理方法包括:获取文本内容,文本内容包括至少一个文本单元;对文本内容进行向量转换处理,得到文本内容对应的文本向量,以及对至少一个文本单元进行向量转换处理,得到每个文本单元对应的文本单元向量;将文本向量和文本单元向量进行语义融合,得到文本向量和文本单元向量之间的语义
融合特征;将文本向量和文本单元向量进行信息量融合,得到文本向量和文本单元向量之间的信息量融合特征;根据语义融合特征和信息量融合特征,在至少一个文本单元中筛选并输出文本内容的目标文本单元。在本技术实施例中,通过在语义维度和信息量维度上将文本向量和文本单元向量进行融合,从而使得在至少一个文本单元中筛选出目标文本单元时,可以基于语义维度和信息量维度这两个维度上对文本单元进行筛选,提高了筛选的准确率,从而使得输出的目标文本单元可以更加精确地表示文本内容的中心思想,提高了对文本处理的准确率。
[0239]
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
[0240]
本技术实施例将以文本处理方法集成在计算机设备上为例来介绍本技术实施例方法。
[0241]
在一实施例中,如图6所示,一种文本处理方法,具体流程如下:
[0242]
201、计算机设备获取文本内容,文本内容包括至少一个文本单元。
[0243]
其中,文本内容可以是句子,文本单元可以是构成句子的词语。
[0244]
例如,文本内容为“跳一跳,教你上600分的攻略”。文本单元可以包括“跳一跳”、“教你”、“上”、“600分”、“的”和“攻略”。
[0245]
在一实施例中,本技术实施例提出了一个文本处理模型,该文本处理模型包括分词层、两个编码器、融合层和筛选层。
[0246]
其中,分词层用于获取文本内容,然后对文本内容进行分词,从而得到文本单元。
[0247]
其中,两个编码器分别用于对文本内容进行向量转换处理以及对文本单元进行向量转换处理。
[0248]
在一实施例中,其中一个编码器可以是bert模型,用于对文本内容进行向量转换处理,得到文本内容对应的文本向量。
[0249]
在一实施例中,另外一个编码器可以是dnn模型,用于对每个文本单元进行向量转换处理,从而得到每个文本单元对应的文本单元向量。
[0250]
其中,融合层用于将文本向量和文本单元向量进行语义融合,以及将文本向量和文本单元向量进行信息量融合,从而得到语义融合特征和信息量融合特征。
[0251]
其中,筛选层用于根据语义融合特征和信息量融合特征,在至少一个文本单元中筛选并输出文本内容的目标文本单元。
[0252]
202、计算机设备对文本内容进行向量转换处理,得到文本内容对应的文本向量,以及对至少一个文本单元进行向量转换处理,得到每个文本单元对应的文本单元向量。
[0253]
在一实施例中,可以利用bert模型对文本内容进行向量转换处理,得到文本内容对应的文本向量。
[0254]
在一实施例中,可以利用dnn模型对文本单元进行向量转换处理,得到文本单元对应的文本单元向量。
[0255]
203、计算机设备将文本向量和文本单元向量进行语义融合,得到文本向量和文本单元向量之间的语义融合特征。
[0256]
在一实施例中,融合层中包括了语义融合逻辑,其中,语义融合逻辑可以如下所示:
[0257]
[0258]
其中,符号f
text
可以标识文本向量,符号f
word
可以表示文本单元向量,符号w可以表示语义融合张量,符号f1可以表示语义融合特征。
[0259]
在一实施例中,根据语义融合逻辑,计算机设备可以将文本向量和文本单元向量进行语义融合,从而得到文本向量和文本单元向量之间的语义融合特征。
[0260]
204、计算机设备将文本向量和文本单元向量进行信息量融合,得到文本向量和文本单元向量之间的信息量融合特征。
[0261]
在一实施例中,融合层包括了信息量融合逻辑,其中,信息量融合逻辑可以如下所示:
[0262][0263]
其中,符号f2可以表示信息量融合特征,符号v[]可以表示将文本向量f
text
和文本单元向量f
word
进行拼接。
[0264]
在一实施例中,根据信息量融合逻辑,计算机设备可以将文本向量和文本单元向量进行信息量融合,得到文本向量和文本单元向量之间的信息量融合特征。
[0265]
205、计算机设备根据语义融合特征和信息量融合特征,在至少一个文本单元中筛选并输出文本内容的目标文本单元。
[0266]
在一实施例中,计算机设备在得到语义融合特征和信息量融合特征之后,可以将信息量融合特征和语义融合特征进行逻辑运算处理,得到每个文本单元和文本内容之间的关联特征。
[0267]
在一实施例中,计算机设备可以根据关联特征运算逻辑计算每个文本单元和文本内容之间的关联特征。其中,关联特征运算逻辑可以如下所示:
[0268][0269]
其中,符号b可以表示偏置向量。
[0270]
在一实施例中,关联特征可以表示文本单元和文本内容之间的关联程度,以及文本单元在文本内容的重要程度。因此,计算机可以通过关联特征判断文本单元是不是文本内容中的核心词。
[0271]
在一实施例中,该关联特征可以是一个向量,因此,可以将该关联特征映射成对应的映射值,并根据该映射值筛选出目标文本单元。
[0272]
例如,文本单元“跳一跳”对应的映射值为f1、“教你”对应的映射值为f2、“上”对应的映射值为f3、“600分”对应的映射值为f4、“的”对应的映射值为f5以及“攻略”对应的映射值为f6。
[0273]
然后,计算机设备可以将每个文本单元的映射值和预设分类阈值进行匹配,并根据匹配结果确定目标文本单元。
[0274]
在一实施例中,可以规定当文本单元的映射值大于预设分类阈值时,可以将该文本单元确定为目标文本单元。例如,当f1和f6大于预设分类阈值时,计算机设备可以将文本单元“跳一跳”和“攻略”确定为目标文本单元。
[0275]
本技术实施例中,计算机设备可以获取文本内容,文本内容包括至少一个文本单
元;计算机设备对文本内容进行向量转换处理,得到文本内容对应的文本向量,以及对至少一个文本单元进行向量转换处理,得到每个文本单元对应的文本单元向量;计算机设备将文本向量和文本单元向量进行语义融合,得到文本向量和文本单元向量之间的语义融合特征;计算机设备将文本向量和文本单元向量进行信息量融合,得到文本向量和文本单元向量之间的信息量融合特征;计算机设备根据语义融合特征和信息量融合特征,在至少一个文本单元中筛选并输出文本内容的目标文本单元,可以提高从文本内容中筛选,目标文本单元的准确率,从而提高了对文本处理的准确率。
[0276]
为了更好地实施本技术实施例提供的文本处理方法,在一实施例中还提供了一种文本处理装置,该文本处理装置可以集成于计算机设备中。其中名词的含义与上述文本处理方法中相同,具体实现细节可以参考方法实施例中的说明。
[0277]
在一实施例中,提供了一种文本处理装置,该文本处理装置具体可以集成在计算机设备中,如图7所示,该文本处理装置包括:获取单元301、向量转换单元302、语义融合单元303、信息量融合单元304和筛选单元305,具体如下:
[0278]
获取单元301,用于获取文本内容,所述文本内容包括至少一个文本单元;
[0279]
向量转换单元302,用于对所述文本内容进行向量转换处理,得到所述文本内容对应的文本向量,以及对所述至少一个文本单元进行向量转换处理,得到每个文本单元对应的文本单元向量;
[0280]
语义融合单元303,用于将所述文本向量和所述文本单元向量进行语义融合,得到所述文本向量和所述文本单元向量之间的语义融合特征;
[0281]
信息量融合单元304,用于将所述文本向量和所述文本单元向量进行信息量融合,得到所述文本向量和所述文本单元向量之间的信息量融合特征;
[0282]
筛选单元305,用于根据所述语义融合特征和所述信息量融合特征,在所述至少一个文本单元中筛选并输出所述文本内容的目标文本单元。
[0283]
在一实施例中,所述语义融合单元,包括:
[0284]
识别子单元,用于分别对所述文本向量和所述文本单元向量进行识别,得到所述文本向量的向量属性和所述文本单元向量的向量属性;
[0285]
构建子单元,用于基于所述文本向量的向量属性和所述文本单元向量的向量属性,构建语义融合张量;
[0286]
语义融合子单元,用于利用所述语义融合张量将所述文本向量和所述文本单元向量进行语义融合,得到所述文本向量和所述文本单元向量之间的语义融合特征。
[0287]
在一实施例中,所述语义融合子单元,包括:
[0288]
第一乘积运算模块,用于将所述语义融合张量和所述文本向量进行乘积运算,得到初始语义融合特征;
[0289]
第二乘积运算模块,用于将所述初始语义融合特征和所述文本单元向量进行乘积运算,得到所述语义融合特征。
[0290]
在一实施例中,所述构建子单元,包括:
[0291]
确定模块,用于基于所述文本向量的向量属性和所述文本单元向量的向量属性,确定所述语义融合张量的张量属性;
[0292]
生成模块,用于根据所述张量属性生成所述语义融合张量。
[0293]
在一实施例中,所述信息量融合单元,包括:
[0294]
识别子单元,用于分别对所述文本向量和所述文本单元向量进行识别,得到所述文本向量的信息量和所述文本单元向量的信息量;
[0295]
确定子单元,用于根据所述文本向量的信息量和所述文本单元向量的信息量,确定所述文本向量和所述文本单元向量的信息量融合方式;
[0296]
信息量融合子单元,用于利用所述信息量融合方式将所述文本向量和所述文本单元向量进行信息量融合,得到所述文本向量和所述文本单元向量之间的信息量融合特征。
[0297]
在一实施例中,所述信息量融合子单元,包括:
[0298]
信息填充模块,用于基于所述文本向量的信息量,对所述文本单元向量进行信息填充处理,得到填充后文本单元向量;
[0299]
拼接模块,用于将所述文本向量和所述填充后文本单元向量进行拼接处理,得到所述信息量融合特征。
[0300]
在一实施例中,所述筛选单元,包括:
[0301]
逻辑运算子单元,用于将所述语义融合特征和所述信息量融合特征进行逻辑运算处理,得到每个文本单元和所述文本内容之间的关联特征;
[0302]
筛选子单元,用于根据所述关联特征,在所述至少一个文本单元中筛选并输出所述文本内容的目标文本单元。
[0303]
在一实施例中,所述逻辑运算子单元,包括:
[0304]
识别模块,用于分别对所述语义融合特征和所述信息量融合特征进行识别,得到所述语义融合特征的特征属性和所述信息量融合特征的特征属性;
[0305]
构建模块,用于根据所述语义融合特征的特征属性和所述信息量融合特征的特征属性,构建偏置向量;
[0306]
累加运算模块,用于将所述语义融合特征、所述信息量融合特征和所述偏置向量进行累加运算,得到所述关联特征。
[0307]
在一实施例中,所述筛选子单元,包括:
[0308]
映射模块,用于将所述关联特征进行映射处理,得到每个文本单元对应的映射值;
[0309]
分类模块,用于根据所述映射值对所述每个文本单元进行分类处理,得到分类结果;
[0310]
确定模块,用于根据分类结果确定所述文本内容的目标文本单元。
[0311]
在一实施例中,所述向量转换单元,包括:
[0312]
注意力特征提取子单元,用于对所述文本内容进行局部注意力特征提取,得到所述文本内容的多个局部注意力特征信息;
[0313]
向量映射子单元,用于对所述多个局部注意力特征信息进行向量映射处理,得到每个局部注意力特征信息对应的表示向量;
[0314]
融合子单元,用于对每个局部注意力特征信息对应的表示向量进行融合处理,得到所述文本内容对应的文本向量。
[0315]
在一实施例中,所述注意力特征提取子单元,包括:
[0316]
信息采集模块,用于利用预设滑窗对所述文本内容进行信息采集,得到多个文本采集单元,其中,所述文本采集单元中包括多个文本子单元;
[0317]
统计模块,用于统计所述文本采集单元中每个文本子单元的词频;
[0318]
计算模块,用于计算所述文本采集单元中每个文本子单元之间的文本距离;
[0319]
生成模块,用于根据所述词频和所述文本距离,生成所述文本内容的局部注意力特征信息。
[0320]
在一实施例中,所述向量转换单元,包括:
[0321]
映射子单元,用于根据预设转换规则,将所述文本单元映射至对应的初始文本单元向量;
[0322]
特征转换子单元,用于对所述初始文本单元向量进行特征转换处理,得到所述文本单元向量。
[0323]
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
[0324]
通过上述的文本处理装置可以提高从文本内容中筛选,目标文本单元的准确率,从而提高了对文本处理的准确率。
[0325]
本技术实施例还提供一种计算机设备,该计算机设备可以包括终端或服务器,比如,计算机设备可以作为文本处理终端,该终端可以为手机、平板电脑等等;又比如计算机设备可以为服务器,如文本处理服务器等。如图8所示,其示出了本技术实施例所涉及的终端的结构示意图,具体来讲:
[0326]
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图8中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
[0327]
处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户页面和应用程序等,调制解调处理器主要处理无线通讯。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
[0328]
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
[0329]
计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检
测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
[0330]
该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
[0331]
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
[0332]
获取文本内容,所述文本内容包括至少一个文本单元;
[0333]
对所述文本内容进行向量转换处理,得到所述文本内容对应的文本向量,以及对所述至少一个文本单元进行向量转换处理,得到每个文本单元对应的文本单元向量;
[0334]
将所述文本向量和所述文本单元向量进行语义融合,得到所述文本向量和所述文本单元向量之间的语义融合特征;
[0335]
将所述文本向量和所述文本单元向量进行信息量融合,得到所述文本向量和所述文本单元向量之间的信息量融合特征;
[0336]
根据所述语义融合特征和所述信息量融合特征,在所述至少一个文本单元中筛选并输出所述文本内容的目标文本单元。
[0337]
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
[0338]
根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中各种可选实现方式中提供的方法。
[0339]
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成,或通过计算机程序控制相关的硬件来完成,该计算机程序可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
[0340]
为此,本技术实施例还提供一种存储介质,其中存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本技术实施例所提供的任一种文本处理方法中的步骤。例如,该计算机程序可以执行如下步骤:
[0341]
获取文本内容,所述文本内容包括至少一个文本单元;
[0342]
对所述文本内容进行向量转换处理,得到所述文本内容对应的文本向量,以及对所述至少一个文本单元进行向量转换处理,得到每个文本单元对应的文本单元向量;
[0343]
将所述文本向量和所述文本单元向量进行语义融合,得到所述文本向量和所述文本单元向量之间的语义融合特征;
[0344]
将所述文本向量和所述文本单元向量进行信息量融合,得到所述文本向量和所述文本单元向量之间的信息量融合特征;
[0345]
根据所述语义融合特征和所述信息量融合特征,在所述至少一个文本单元中筛选并输出所述文本内容的目标文本单元。
[0346]
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
[0347]
由于该存储介质中所存储的计算机程序,可以执行本技术实施例所提供的任一种
文本处理方法中的步骤,因此,可以实现本技术实施例所提供的任一种文本处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
[0348]
以上对本技术实施例所提供的一种一种文本处理方法、装置、计算机设备和存储介质进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献