一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本信息处理方法、装置、电子设备及介质与流程

2022-03-23 07:04:11 来源:中国专利 TAG:


1.本公开涉及信息处理技术领域,尤其涉及文本信息处理方法、装置、电子设备及介质。


背景技术:

2.目前信息的种类越来愈多,想要获取较全面的关联信息的难度也越来越大。现有技术中通常采用智能分析方法来从大量的信息中提取关键词,但只能提取关键词信息,或者只能提取两个关键词以及两个关键词之间的关系,不能提取三个及以上的关键词的关系,导致对关联信息的提取精准度低,提取效果差。


技术实现要素:

3.有鉴于此,本公开实施例提供了文本信息处理方法、装置、电子设备及介质,以解决现有技术中提取精准度低,提取效果差的问题。
4.本公开实施例的第一方面,提供了一种文本信息处理方法,包括:将获取的目标文本信息导入预设的实体提取模型,提取出至少一个实体信息,其中,每个实体信息包括关键词信息以及与关键词信息对应的标签信息;基于目标文本信息以及标签信息,生成插入文本信息;将插入文本信息导入预设的关系提取模型,生成关系信息,其中,关系信息包括关键词信息以及关键词信息之间的关联关系。
5.本公开实施例的第二方面,提供了一种文本信息处理装置,包括:提取模块,被配置为将获取的目标文本信息导入预设的实体提取模型,提取出至少一个实体信息,其中,每个实体信息包括关键词信息以及与关键词信息对应的标签信息;生成模块,被配置为基于目标文本信息以及标签信息,生成插入文本信息;第二生成模块,被配置为将插入文本信息导入预设的关系提取模型,生成关系信息,其中,关系信息包括关键词信息以及关键词信息之间的关联关系。
6.本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可以在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
7.本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
8.有益效果本公开实施例与现有技术相比存在的有益效果至少包括:通过从目标文本信息中提取关键词信息以及标签信息,生成插入文本信息,并生成关系信息;由于标签信息目标文本信息以及关键词信息均相关,因此可以提取出文本信息中任意数量的关键词以及关键词之间的关系,大大提高了提取精准度和准确率,从而大大提高了从文本信息中提取关键信息的效果。
附图说明
9.为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
10.图1是根据本公开实施例提供的文本信息处理方法的一个应用场景的示意图;图2是根据本公开实施例提供的一种文本信息处理方法的一些实施例的流程图;图3是根据本公开实施例提供的另一种文本信息处理方法的另一些实施例的流程图;图4是根据本公开实施例提供的一种文本信息处理装置的简易结构示意图;图5是根据本公开实施例提供的电子设备的示意图。
具体实施方式
11.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
12.另外还需要说明的是,为了便于描述,附图中仅示出了与有关本公开相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
13.需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的系统、装置、模块或单元进行区分,并非用于限定这些系统、装置、模块或单元所执行的功能的顺序或者相互依存关系。
14.需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
15.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
16.下面将参考附图并结合实施例来详细说明本公开。
17.图1是根据本公开的一些实施例的文本信息处理方法的一个应用场景的示意图。
18.在图1的应用场景中,首先,计算设备101可以将获取的目标文本信息102导入预设的实体提取模型103,提取出至少一个实体信息104,其中,每个实体信息104包括关键词信息105以及与关键词信息对应的标签信息106。计算设备101可以基于目标文本信息102以及标签信息106,生成插入文本信息107。计算设备101可以将插入文本信息107导入预设的关系提取模型108,生成关系信息109,其中,关系信息109包括关键词信息105以及关键词信息105之间的关联关系。
19.需要说明的是,上述计算设备101可以是硬件,也可以是软件。当计算设备为硬件时,可以实现成多个服务器或终端设备组成的分布式集群,也可以实现成单个服务器或单个终端设备。当计算设备体现为软件时,可以安装在上述所列举的硬件设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
20.应该理解,图1中的计算设备的数目仅仅是示意性的。根据实现需要,可以具有任意数目的计算设备。
21.继续参考图2,示出了根据本公开的文本信息处理方法的一些实施例的流程200。该方法可以由图1中的计算设备101来执行。该文本信息处理的方法,包括以下步骤:步骤201,将获取的目标文本信息导入预设的实体提取模型,提取出至少一个实体信息,其中,每个实体信息包括关键词信息以及与关键词信息对应的标签信息;在一些实施例中,文本信息处理方法的执行主体(如图1所示的计算设备101)可以通过有线连接方式或无线连接方式连接目标设备,然后,将获取的目标文本信息导入预设的实体提取模型,提取出至少一个实体信息,其中,每个实体信息包括关键词信息以及与关键词信息对应的标签信息。目标文本信息可以指用于提取关键词或关键词关系的文本信息。该文本信息可以包括中文、数字、英文、符号以及其他文字等,在此不做具体限制。作为示例,目标文本信息可以为“怀念当时的游玩美景,尤其是**地区的青山、绿水、蜿蜒山道等真的是美不胜收”,提取出来的关键词信息可以为:“**地区”、“青山、“绿水”以及“蜿蜒山道”。每个关键词对应的标签信息可以分别为:“游玩地址”、“景观”、“景观”以及“景观”。
22.在一些实施例的一些可选的实现方式中,上述执行主体可以通过以下步骤获取目标文本信息:获取原始文本信息;将原始文本信息导入预设的文本提取模型,提取出目标文本信息。
23.原始文本信息可以指包括目标文本信息的信息。作为示例,原始文本信息可以为一篇文章,目标文本信息可以为文章中抽取出的重要段落。文本提取模型可以指将原始文本信息中抽取出目标文本信息的计算模型。
24.实体信息可以指从目标文本信息中提取出来的包括关键词信息以及标签信息的信息。关键词信息可以指从目标文本信息中提取出来的目标字或词的相关信息。标签信息可以指基于该目标文本信息中的文本信息以及所述关键词信息生成的信息。另外,从不同的目标文本信息中基于相同的关键词信息提取出来的标签信息不一定相同,由目标文本信息以及关键词共同决定。作为示例,关键词信息可以为“**市”,当关键词上下文与工商相关时,对应的标签信息可以为“工商注册地址”;当关键词上下文与婚姻相关时,可以为“民政注册地址”。由于标签信息不仅与关键词相关,还与目标文本信息相关,因此可以通过实体提取模型提取出各个关键词之间的关系。
25.实体提取模型可以指用于从目标文本信息中提取实体信息的计算模型。作为示例,该实体提取模型可以为bert-crf模型,即使用bert(bidirectional encoder representation from transformers,预训练的语言表征模型)来训练crf(conditional random field 条件随机场模型)中的发射矩阵得到的模型。该实体提取模型还可以为基于bilstm(bi-directional long short-term memory,前后向长短期记忆人工神经网络)的crf模型以及其他类似模型,根据需要进行设置,在此不做具体限制。
26.需要指出的是,上述无线连接方式可以包括但不限于3g/4g连接、wifi连接、蓝牙连接、wimax连接、zigbee连接、uwb(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
27.步骤202,基于目标文本信息以及标签信息,生成插入文本信息。
28.在一些实施例中,上述执行主体可以基于目标文本信息以及标签信息,生成插入
文本信息。插入文本信息可以指将标签信息或表示标签信息的内容插入目标文本信息的相关信息。
29.步骤203,将插入文本信息导入预设的关系提取模型,生成关系信息,其中,关系信息包括关键词信息以及关键词信息之间的关联关系。
30.在一些实施例中,上述执行主体可以将插入文本信息导入预设的关系提取模型,生成关系信息,其中,关系信息包括关键词信息以及关键词信息之间的关联关系。
31.关系提取模型可以指用于提取关系信息的计算模型。作为示例,该关系取模型可以为transformer(基于前序编解码预测模型)。该关系提取模型还可以为其他具有相似功能的模型,根据需要进行设置,在此不做具体限制。
32.关系信息可以指关键词信息以及关键词信息之间的关联关系的相关信息。关系信息可以包括逻辑与、逻辑或、逻辑包括、逻辑异或等常用逻辑关系。作为示例,关系信息可以为关键词a包括关键词b和关键词c。
33.在一些实施例的一些可选的实现方式中,关联关系包括:逻辑合取、逻辑析取以及优先组合。其中,逻辑合取可以指逻辑与“and”,逻辑析取可以为逻辑或“or”,优先组合可以指括号“()”。作为示例,关系信息可以为关键词d and (关键词e or 关键词f)。
34.本公开的上述各个实施例中的其中一个实施例的有益效果至少包括:通过从目标文本信息中提取关键词信息以及标签信息,生成插入文本信息,并生成关系信息;由于标签信息目标文本信息以及关键词信息均相关,因此可以提取出文本信息中任意数量的关键词以及关键词之间的关系,大大提高了提取精准度和准确率,从而大大提高了从文本信息中提取关键信息的效果。
35.继续参考图3,示出了根据本公开的文本信息处理方法的另一些实施例的流程300,该方法可以由图1中的计算设备101来执行。该文本信息处理方法包括:步骤301,将获取的目标文本信息导入预设的实体提取模型,提取出至少一个实体信息,其中,每个实体信息包括关键词信息以及与关键词信息对应的标签信息。
36.步骤302,获取与每个标签信息对应的标识符,得到至少一个标识符。
37.在一些实施例中,上述执行主体可以获取与每个标签信息对应的标识符,得到至少一个标识符。标识符可以指用于标识对应的标签信息的符号信息。标识符可以包括英文、数字及符号。作为示例,目标文本信息可以为“怀念当时的游玩美景,尤其是**地区的青山、绿水、蜿蜒山道等真的是美不胜收”,提取出来的关键词信息可以为:“**地区”、“青山、“绿水”以及“蜿蜒山道”。每个关键词对应的标签信息可以分别为:“游玩地址”、“景观”、“景观”以及“景观”。。每个标识符可以分别为:“location_ywdz”、“scenery”、“scenery”以及“scenery”。
38.步骤303,将每个标识符插入目标文本信息中,生成插入文本信息,其中,每个标识符插入与标识符对应的关键词信息的位置。
39.在一些实施例中,上述执行主体可以将每个标识符插入目标文本信息中,生成插入文本信息,其中,每个标识符插入与标识符对应的关键词信息的位置。
40.其中,将标识符插入标签信息对应的关键词信息的位置时,可以将标识符插入关键词信息的左侧,也可以将标识符插入关键词信息的右侧,或者可以将标识符插入关键词信息的两侧。作为示例,参照步骤302,插入文本信息可以为“怀念当时的游玩美景,尤其是
location_ywdz**地区的scenery青山、scenery绿水scenery、scenery蜿蜒山道scenery等真的是美不胜收”;也可以为“怀念当时的游玩美景,尤其是**地区location_ywdz的青山scenery、绿水scenery、蜿蜒山道scenery等真的是美不胜收”;还可以为“怀念当时的游玩美景,尤其是location_ywdz**地区location_ywdz的scenery青山scenery、scenery绿水scenery、scenery蜿蜒山道scenery等真的是美不胜收”。另外,该标识符的两侧还可以加上符号如“标识符”、《标识符》或者对应的双侧的标识符《标识符》《/标识符》等。根据需要进行设置,在此不做具体限制。
41.步骤304,将插入文本信息导入预设的关系提取模型,生成关系信息,其中,关系信息包括关键词信息以及关键词信息之间的关联关系。
42.本公开的上述各个实施例中的其中一个实施例的有益效果至少包括:通过设置标识符,可以减小标签信息的长度,减少运算压力,增加运算效率。
43.在一些实施例中,步骤301和304的具体实现及所带来的技术效果可以参考图2对应的那些实施例中的步骤201和203,在此不再赘述。
44.上述所有可选技术方案,可以采用任意结合形成本技术的可选实施例,在此不再一一赘述。
45.下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
46.进一步参考图4,作为对上述各图上述方法的实现,本公开提供了文本信息处理装置的一些实施例,这些装置实施例与图2上述的那些方法实施例相对应。
47.如图4所示,一些实施例的文本信息处理装置400包括:提取模块401,被配置为将获取的目标文本信息导入预设的实体提取模型,提取出至少一个实体信息,其中,每个实体信息包括关键词信息以及与关键词信息对应的标签信息;生成模块402,被配置为基于目标文本信息以及标签信息,生成插入文本信息;第二生成模块403,被配置为将插入文本信息导入预设的关系提取模型,生成关系信息,其中,关系信息包括关键词信息以及关键词信息之间的关联关系。
48.在一些实施例的一些可选的实现方式中,生成模块402被进一步配置为:获取与每个标签信息对应的标识符,得到至少一个标识符;将每个标识符插入目标文本信息中,生成插入文本信息,其中,每个标识符插入与标识符对应的关键词信息的位置。
49.在一些实施例的一些可选的实现方式中,关联关系包括:逻辑合取、逻辑析取以及优先组合。
50.在一些实施例的一些可选的实现方式中,获取目标文本信息的步骤包括:获取原始文本信息;将原始文本信息导入预设的文本提取模型,提取出目标文本信息。
51.可以理解的是,该装置400中记载的诸模块与参考图2描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置400及其中包含的模块,在此不再赘述。
52.如图5所示,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(rom)502中的程序或者从存储装置508加载到随机访问存储器(ram)503中的程序而执行各种适当的动作和处理。在ram 503中,还存储有电子设备
500操作所需的各种程序和数据。处理装置501、rom 502以及ram 503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。
53.通常,以下装置可以连接至i/o接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置507;包括例如磁带、硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图5中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
54.特别地,根据本公开的一些实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的一些实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从rom 502被安装。在该计算机程序被处理装置501执行时,执行本公开的一些实施例的方法中限定的上述功能。
55.需要说明的是,本公开的一些实施例上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
56.在一些实施方式中,客户端、服务器可以利用诸如http(hypertext transfer protocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“lan”),广域网(“wan”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
57.上述计算机可读介质可以是上述装置中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:将获取的目标文本信息导入预设的实体提取模型,提取出至少一个实体信息,其中,每个实体信息包括关键词信息以及与关键词信息对应
的标签信息;基于目标文本信息以及标签信息,生成插入文本信息;将插入文本信息导入预设的关系提取模型,生成关系信息,其中,关系信息包括关键词信息以及关键词信息之间的关联关系。
58.可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c ,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
59.附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
60.描述于本公开的一些实施例中的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:提取模块、生成模块和第二生成模块。例如,提取模块还可以被描述为“提取出至少一个实体信息的模块”。
61.本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。
62.以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献