一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种文本分类方法、装置、设备及介质与流程

2022-12-13 22:59:41 来源:中国专利 TAG:


1.本技术涉及人工智能领域,特别涉及一种文本分类方法、装置、设备及介质。


背景技术:

2.在金融业存在大量的专业、重要的文本数据信息,这些数据给每日的文本处理和分析带来了巨大的压力,对文本信息中进行快速有效的特征提取,进而对文本进行更深层次分类可以给后续数据处理带来巨大的便利。然而,现有的文本分类基于自然语言处理(natural language processing,nlp)技术,采用预训练和微调的组合范式,需要人为参与设计目标函数,主观性较强且覆盖面小,准确性和实时性较差。


技术实现要素:

3.有鉴于此,本技术的目的在于提供一种文本分类方法、装置、设备及介质,将flink框架内置的flinkcep匹配规则设置为映射关系,这样,可以对待处理数据利用flink实时计算框架进行实时数据处理,提高了文本分类的实时性和准确性。其具体方案如下:
4.第一方面,本技术提供了一种一种文本分类方法,包括:
5.获取待分类文本信息;所述待分类文本信息包括至少一个目标文本信息;
6.通过flink引擎根据所述待分类文本信息,得到目标文本信息和所述目标文本信息对应的目标标签,以完成对所述目标文本信息的分类识别;所述flink引擎具有flink cep匹配规则;所述flink cep匹配规则包括文本信息和标签之间的映射关系。
7.可选地,所述flink cep匹配规则包括文本分类模型,所述文本分类模型包括文本信息和标签之间的映射关系。
8.可选地,所述方法还包括:
9.获取文本信息训练集;所述文本信息训练集包括多个文本信息和每个文本信息对应的标签;
10.根据所述文本信息训练集对预训练模型进行迭代训练,直至满足停止训练条件,得到文本分类模型。
11.可选地,所述目标标签包括多个,所述目标标签包括一个自定义标签和至少一个扩展标签,所述扩展标签为根据所述自定义标签的词义扩展得到。
12.可选地,其特征在于,所述目标标签包括以下参数的至少一种:地点、姓名、币种、存款、年龄。
13.第二方面,本技术实施例还提供了一种文本分类装置,包括:
14.第一获取单元,用于获取待分类文本信息;所述待分类文本信息包括至少一个目标文本信息;
15.分类单元,用于通过flink引擎根据所述待分类文本信息,得到目标文本信息和所述目标文本信息对应的目标标签,以完成对所述目标文本信息的分类识别;所述flink引擎具有flink cep匹配规则;所述flink cep匹配规则包括文本信息和标签之间的映射关系。
16.可选地,所述flink cep匹配规则包括文本分类模型,所述文本分类模型包括文本信息和标签之间的映射关系。
17.可选地,所述装置还包括:
18.第二获取单元,用于获取文本信息训练集;所述文本信息训练集包括多个文本信息和每个文本信息对应的标签;
19.训练单元,用于根据所述文本信息训练集对预训练模型进行迭代训练,直至满足停止训练条件,得到文本分类模型。
20.第三方面,本技术实施例还提供了一种计算机设备,所述计算机设备包括处理器以及存储器:
21.所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
22.所述处理器用于根据所述程序代码中的指令执行所述的方法。
23.第四方面,本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行所述的方法。
24.本技术实施例提供了一种文本分类方法、装置、设备及介质,包括:获取待分类文本信息;所述待分类文本信息包括至少一个目标文本信息;通过flink引擎根据所述待分类文本信息,得到目标文本信息和所述目标文本信息对应的目标标签,以完成对所述目标文本信息的分类识别;所述flink引擎具有flink cep匹配规则;所述flink cep匹配规则包括文本信息和标签之间的映射关系。可见,在本技术实施例中,建立文本信息和标签之间的映射关系,基于映射关系对待分类文本信息中的目标文本信息按照对应的标签进行分类,能够使分类结果更准确,而且,本技术基于flink实时计算框架,将flink框架内置的flink cep匹配规则设置为映射关系,这样,可以对待处理数据利用flink实时计算框架进行实时数据处理,提高了文本分类的实时性。
附图说明
25.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
26.图1示出了本技术实施例提供的一种文本分类方法的流程示意图;
27.图2为本技术实施例提供的一种文本分类装置的结构框图。
具体实施方式
28.为使本技术的上述目的、特征和优点能够更加明显易懂,下面结合附图对本技术的具体实施方式做详细的说明。
29.在下面的描述中阐述了很多具体细节以便于充分理解本技术,但是本技术还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本技术内涵的情况下做类似推广,因此本技术不受下面公开的具体实施例的限制。
30.基于以上技术问题,本技术实施例提供了一种文本分类方法、装置、设备及介质,包括:获取待分类文本信息;所述待分类文本信息包括至少一个目标文本信息;通过flink
引擎根据所述待分类文本信息,得到目标文本信息和所述目标文本信息对应的目标标签,以完成对所述目标文本信息的分类识别;所述flink引擎具有flink cep匹配规则;所述flink cep匹配规则包括文本信息和标签之间的映射关系。可见,在本技术实施例中,建立文本信息和标签之间的映射关系,基于映射关系对待分类文本信息中的目标文本信息按照对应的标签进行分类,能够使分类结果更准确,而且,本技术基于flink实时计算框架,将flink框架内置的flink cep匹配规则设置为映射关系,这样,可以对待处理数据利用flink实时计算框架进行实时数据处理,提高了文本分类的实时性。
31.为了便于理解,下面结合附图对本技术实施例提供的一种文本分类方法、装置、设备及介质进行详细的说明。
32.参考图1所示,为本技术实施例提供的一种文本分类方法的流程示意图,该方法可以包括以下步骤。
33.s101,获取待分类文本信息;所述待分类文本信息包括至少一个目标文本信息。
34.在本技术实施例中,文本信息可以为金融文本词语,可以获取待分类文本信息,待分类文本信息可以是一个句子。比如,张三的家庭住址是北京市。待分类文本信息包括至少一个目标文本信息,比如,目标文本信息可以是张三、北京市。
35.在本技术实施例中,需要建立文本信息和标签之间的映射关系。具体地,可以大数据平台中的数据库中进行文本信息采集,从而得到大量的文本信息。为现有的金融文本词语信息建立标签映射,映射到下游文本知识库,比如下游任务需要a字段进行分析,那么自定义a标签映射到a。目标标签可以包括以下参数的至少一种:地点、姓名、币种、存款、年龄。比如,建立某个映射关系,美元、欧元、人民币都可以提取出来关键字为币种,即币种可以映射到美元、欧元、人民币,还比如,另一个标签可以为地点,则北京、上海、合肥都可以映射到地点这个标签。
36.在本技术实施例中,还可以自定义扩展知识库,所述目标标签包括多个,所述目标标签包括一个自定义标签和至少一个扩展标签,所述扩展标签为根据所述自定义标签的词义扩展得到。具体地,针对所有金融业务文本词语,利用相关词词表、行业外或者行业内的通用数据字典、某些特定场景或者专属用语,对a标签词语进行扩展,得到a1,a2等,从而建立标签词扩展知识库。比如,币种标签为自定义标签,可以扩展成货币种类、世界货币分类,即得到至少一个扩展标签。这样,可以将文本信息和标签之间一对一的关系增加到一对多的关系,分类更准确。
37.s102,通过flink引擎根据所述待分类文本信息,得到目标文本信息和所述目标文本信息对应的目标标签,以完成对所述目标文本信息的分类识别;所述flink引擎具有flink cep匹配规则;所述flink cep匹配规则包括文本信息和标签之间的映射关系。
38.在本技术实施例中,flink引擎(框架和分布式处理引擎)内置flink cep(complex event processing,复杂事件处理)匹配规则,所述flink cep匹配规则包括文本信息和标签之间的映射关系,通过flink引擎根据所述待分类文本信息,得到目标文本信息和所述目标文本信息对应的目标标签,以完成对所述目标文本信息的分类识别。比如,待分类文本信息为:张三的家庭住址是北京市,则目标文本信息张三对应的标签为姓名,目标文本信息北京对应的标签为地址,这样,建立文本信息和标签之间的映射关系,基于映射关系对待分类文本信息中的目标文本信息按照对应的标签进行分类,能够使分类结果更准确,而且,本申
请基于flink实时计算框架,将flink框架内置的flink cep匹配规则设置为映射关系,可以对待处理数据利用flink实时计算框架进行实时数据处理,提高了文本分类的实时性。
39.在本技术实施例中,所述flink cep匹配规则包括文本分类模型,所述文本分类模型包括文本信息和标签之间的映射关系。具体地,可以建立文本分类模型,获取文本信息训练集;所述文本信息训练集包括多个文本信息和每个文本信息对应的标签;根据所述文本信息训练集对预训练模型进行迭代训练,直至满足停止训练条件,得到文本分类模型。这样,根据训练集对模型训练得到文本分类模型,可以输出目标文本信息和对应的标签,明确二者之间的映射关系,实现对目标文本信息的准确分类。
40.具体地,需要对所有映射关系进行训练,这样训练后得到的模型就能对输入的一段文本进行处理,实现对文本的自动化识别分析。比如,待分类文本信息为:张三的家庭住址是北京市,输入至文本分类模型中可以提取出姓名、地点这两个关键信息,即得到姓名李四,地址北京市。还比如,待分类文本信息为:我叫李四,今天存了100元,则经过分类处理可以得到,姓名李四,币种人民币,存款100元。
41.具体地,为了降低扩展库标签词存在的噪音,需要进行频率精调和根据先验概率进行上下文校准。可以对输出结果的特征空间中的特征向量进行结果频率和相关性精调,针对某些特殊标签词影响小的问题,进行上下文校准。
42.具体地,由于直接使用文本分类模型进行识别需要数据上传,每次数据获取都要上传,文本分类模型不能实现对文本数据进行实时处理,只能通过文本传输再解析的方式,但在现实生活中提取文本信息和后续处理是一段实时的过程,需要基于flink实时计算框架,因此利用flink框架内置的flink cep匹配规则,将该规则设定为之前建立的模型,并可以利用该框架对模型识别到的结果进行后续处理,成为一套能实时提取文本并处理的流程。比如通过该流程就能识别出文本中的人名,并放到姓名这张数据表里,金额放到另一张数据表。这样,通过flink cep规则匹配,将cep规则与模型关系绑定,可以利用flink实时计算框架进行实时数据处理。
43.在本技术实施例中,采用可以不需要对原预训练模型参数进行调整,也不需要对不同文本分类任务进行大量标注数据的提示学习方法,利用自定义的扩展知识库建立模板,使得下游任务更适配预训练模型,提高了金融文本分类的准确度和实时性。
44.具体地,为了更好进行文本分类,首先需要激发预训练模型中的事实性知识,通过自定义知识库建立模板的方式,并将其作为答案空间映射到下游任务需要的目标空间或者标签集合中,其中模板以流的形式作为flink cep的模板匹配规则。在自定义知识库时,为了提高某些特定场景下金融词语的影响性,增加频率精调和上下文的校准。通过此种方法使得下游文本分类任务更适配预训练文本分类模型,达到更准确的文本分类效果。
45.相比于nlp技术,本技术摒弃微调这一人为参与的方式,利用预训练、提示、预测结合范式,通过建立的语义模板进行无监督学习的方式让文本标签词进行了扩展和改善,并将此模板作为实时流计算框架flink cep的关联分析模型进行下一步的文本分类,此方法具有更高的准确性和更快的实时性。
46.本技术实施例提供了一种文本分类方法,获取待分类文本信息;所述待分类文本信息包括至少一个目标文本信息;通过flink引擎根据所述待分类文本信息,得到目标文本信息和所述目标文本信息对应的目标标签,以完成对所述目标文本信息的分类识别;所述
flink引擎具有flink cep匹配规则;所述flink cep匹配规则包括文本信息和标签之间的映射关系。可见,在本技术实施例中,建立文本信息和标签之间的映射关系,基于映射关系对待分类文本信息中的目标文本信息按照对应的标签进行分类,能够使分类结果更准确,而且,本技术基于flink实时计算框架,将flink框架内置的flink cep匹配规则设置为映射关系,这样,可以对待处理数据利用flink实时计算框架进行实时数据处理,提高了文本分类的实时性。
47.基于以上文本分类方法,本技术实施例还提供了一种文本分类装置,参考图2所示,为本技术实施例提供的一种文本分类装置的结构框图,该装置可以包括:
48.第一获取单元100,用于获取待分类文本信息;所述待分类文本信息包括至少一个目标文本信息;
49.分类单元200,用于通过flink引擎根据所述待分类文本信息,得到目标文本信息和所述目标文本信息对应的目标标签,以完成对所述目标文本信息的分类识别;所述flink引擎具有flink cep匹配规则;所述flink cep匹配规则包括文本信息和标签之间的映射关系。
50.可选地,所述flink cep匹配规则包括文本分类模型,所述文本分类模型包括文本信息和标签之间的映射关系。
51.可选地,所述装置还包括:
52.第二获取单元,用于获取文本信息训练集;所述文本信息训练集包括多个文本信息和每个文本信息对应的标签;
53.训练单元,用于根据所述文本信息训练集对预训练模型进行迭代训练,直至满足停止训练条件,得到文本分类模型。
54.本技术实施例提供了一种文本分类装置,包括第一获取单元,用于获取待分类文本信息;所述待分类文本信息包括至少一个目标文本信息;分类单元,用于通过flink引擎根据所述待分类文本信息,得到目标文本信息和所述目标文本信息对应的目标标签,以完成对所述目标文本信息的分类识别;所述flink引擎具有flink cep匹配规则;所述flink cep匹配规则包括文本信息和标签之间的映射关系。可见,在本技术实施例中,建立文本信息和标签之间的映射关系,基于映射关系对待分类文本信息中的目标文本信息按照对应的标签进行分类,能够使分类结果更准确,而且,本技术基于flink实时计算框架,将flink框架内置的flink cep匹配规则设置为映射关系,这样,可以对待处理数据利用flink实时计算框架进行实时数据处理,提高了文本分类的实时性。
55.又一方面,本技术实施例提供了一种计算机设备,所述计算机设备包括处理器以及存储器:
56.所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
57.所述处理器用于根据所述程序代码中的指令执行上述实施例提供的文本分类方法。
58.该计算机设备可以包括终端设备或服务器,前述的文本分类装置可以配置在该计算机设备中。
59.又一方面,本技术实施例还提供了一种存储介质,所述存储介质用于存储计算机程序,所述计算机程序用于执行上述实施例提供的文本分类方法。
60.另外,本技术实施例还提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例提供的文本分类方法。
61.本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:rom)、ram、磁碟或者光盘等各种可以存储程序代码的介质。
62.需要说明的是,本发明提供的一种文本分类方法、装置、设备及介质可用于人工智能领域或金融领域。上述仅为示例,并不对本发明提供的一种文本分类方法、装置、设备及介质的应用领域进行限定。
63.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
64.以上所述仅是本技术的优选实施方式,虽然本技术已以较佳实施例披露如上,然而并非用以限定本技术。任何熟悉本领域的技术人员,在不脱离本技术技术方案范围情况下,都可利用上述揭示的方法和技术内容对本技术技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本技术技术方案的内容,依据本技术的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本技术技术方案保护的范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献