一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据处理方法、系统、存储介质及电子设备与流程

2021-12-04 01:13:00 来源:中国专利 TAG:


1.本技术涉及数据处理技术领域,更具体地说,涉及一种数据处理方法、系统、存储介质及电子设备。


背景技术:

2.在自然语言处理任务中,判断两篇文档是否相似,通过相似度算法计算两篇文档的相似程度。比如,基于聚类算法发现微博热点话题时,需要度量各篇文本的内容相似度,然后让内容足够相似的微博聚成一个簇;在对语料进行预处理时,基于文本的相似度,把重复的文本给选出来并删除。
3.在相似度算法计算前,通常会对数据进行预处理,目前常用的预处理的方法是去掉数据中的特殊字符(如标点、括号、标签等),但是,在面对复杂数据对象(如结构数据)时,会受到非特殊字符(字母、数字、汉字)的干扰,使得无法在复杂结构数据中把重复的文本给选出来并删除,造成生成的文本摘要数据包含重复的文本,从而降低了生成文本摘要数据的准确性。
4.因此,现有的生成文本摘要数据的准确性低。


技术实现要素:

5.有鉴于此,本技术公开了一种数据处理方法、系统、存储介质及电子设备,旨在满足在复杂数据结构下的类型自动识别、特征自动提取、文本摘要自动生成等需求,提高了获取文本摘要数据的准确性。
6.为了实现上述目的,其公开的技术方案如下:
7.本技术第一方面公开了一种数据处理方法,所述方法包括:
8.获取待处理文本数据;所述待处理文本数据根据用户需求进行采集得到;
9.对所述待处理文本数据进行数据类型识别,得到数据类型结果,并基于所述数据类型结果,确定对应的特征配置列表;
10.根据所述数据类型结果获取对应的提取规则,并基于所述提取规则从所述特征配置列表中提取特征数据;
11.当所述特征数据符合预设条件时,基于预设摘要规则和符合预设条件的特征数据,生成文本摘要数据;所述预设摘要规则由所述特征配置列表的摘要规则字段确定。
12.优选的,所述对所述待处理文本数据进行数据类型识别,得到数据类型结果,并基于所述数据类型结果,确定对应的特征配置列表,包括:
13.对所述待处理文本数据进行数据类型识别;
14.当所述待处理文本数据的数据类型为string类型时,生成string类型结果,并基于所述string类型结果对所述待处理文本数据进行解析,得到string类型特征配置列表;
15.当所述待处理文本数据的数据类型为xml类型时,生成xml类型结果,并基于所述xml类型结果对所述待处理文本数据进行解析,得到xml类型特征配置列表;
16.当所述待处理文本数据的数据类型为json类型时,生成json类型结果,并基于所述json类型结果对所述待处理文本数据进行解析,得到json类型特征配置列表。
17.优选的,所述根据所述数据类型结果获取对应的提取规则,并基于所述提取规则从所述特征配置列表中提取特征数据,包括:
18.对所述数据类型结果进行判定;
19.当所述数据类型结果为所述string类型结果时,通过预设正则表达式和预设特征字段,对所述string类型特征配置列表的信息进行正则匹配,并提取符合正则匹配的第一特征数据;
20.当所述数据类型结果为所述xml类型结果时,通过预设属性表达式对所述xml类型特征配置列表的信息进行计算,得到第一计算结果,并基于所述第一计算结果和所述预设特征字段,确定第二特征数据;
21.当所述数据类型结果为所述json类型结果时,通过所述预设属性表达式对所述json类型特征配置列表的信息进行计算,得到第二计算结果,并基于所述第二计算结果和所述预设特征字段,确定第三特征数据。
22.优选的,所述当所述特征数据符合预设条件时,基于预设摘要规则和符合预设条件特征数据,生成文本摘要数据,包括:
23.当所述第一特征数据不为空值时,从所述string类型特征配置列表中获取第一摘要规则字段,并基于所述第一摘要规则字段和所述第一特征数据,生成第一文本摘要数据;
24.当所述第二特征数据不为空值时,从所述xml类型特征配置列表中获取第二摘要规则字段,并基于所述第二摘要规则字段和所述第二特征数据,生成第二文本摘要数据;
25.当所述第三特征数据不为空值时,从所述json类型特征配置列表中获取第三摘要规则字段,并基于所述第三摘要规则字段和所述第三特征数据,生成第三文本摘要数据。
26.优选的,还包括:
27.若所述特征数据为空值,则返回所述获取待处理文本数据这一步骤。
28.本技术第二方面公开了一种数据处理系统,其特征在于,所述系统包括:
29.获取单元,用于获取待处理文本数据;所述待处理文本数据根据用户需求进行采集得到;
30.确定单元,用于对所述待处理文本数据进行数据类型识别,得到数据类型结果,并基于所述数据类型结果,确定对应的特征配置列表;
31.提取单元,用于根据所述数据类型结果获取对应的提取规则,并基于所述提取规则从所述特征配置列表中提取特征数据;
32.生成单元,用于当所述特征数据符合预设条件时,基于预设摘要规则和符合预设条件特征数据,生成文本摘要数据;所述预设摘要规则由所述特征配置列表的摘要规则字段确定。
33.优选的,所述确定单元,包括:
34.识别模块,用于对所述待处理文本数据进行数据类型识别;
35.第一获取模块,用于当所述待处理文本数据的数据类型为string类型时,生成string类型结果,并基于所述string类型结果对所述待处理文本数据进行解析,得到string类型特征配置列表;
36.第二获取模块,用于当所述待处理文本数据的数据类型为xml类型时,生成xml类型结果,并基于所述xml类型结果对所述待处理文本数据进行解析,得到xml类型特征配置列表;
37.第三获取模块,用于当所述待处理文本数据的数据类型为json类型时,生成json类型结果,并基于所述json类型结果对所述待处理文本数据进行解析,得到json类型特征配置列表。
38.优选的,所述提取单元,包括:
39.判定模块,用于对所述数据类型结果进行判定;
40.第一提取模块,用于当所述数据类型结果为所述string类型结果时,通过预设正则表达式对所述string类型特征配置列表的信息进行正则匹配,并提取符合正则匹配的第一特征数据;
41.第二提取模块,用于当所述数据类型结果为所述xml类型结果,通过预设属性表达式对所述xml类型特征配置列表的信息进行计算,得到第二特征数据;
42.第三提取模块,用于当所述数据类型结果为所述json类型结果时,通过所述预设属性表达式对所述json类型特征配置列表的信息进行计算,得到第三特征数据。
43.本技术第三方面公开了一种存储介质,其特征在于,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如第一方面任意一项所述的数据处理方法。
44.本技术第四方面公开了一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如第一方面任意一项所述的数据处理方法。
45.经由上述技术方案可知,本技术公开了一种数据处理方法、系统、存储介质及电子设备,获取待处理文本数据;待处理文本数据根据用户需求进行采集得到,对待处理文本数据进行数据类型识别,得到数据类型结果,并基于数据类型结果,确定对应的特征配置列表,根据数据类型结果获取对应的提取规则,并基于提取规则从特征配置列表中提取特征数据,当特征数据符合预设条件时,基于预设摘要规则和特征数据,生成文本摘要数据;预设摘要规则由特征配置列表和预先获取到的特征规则字段确定;预先获取到的特征规则字段基于所述特征配置列表得到。通过上述方案,在包含非特殊字符等复杂数据结构下,对不同的数据类型进行特征提取处理,得到各自对应的特征数据,满足了在复杂数据结构下的类型自动识别、特征自动提取、文本摘要自动生成等需求,提高了获取文本摘要数据的准确性。此外,将文本摘要数据进行相似度算法识别,提高了相似度计算结果的准确性。
附图说明
46.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
47.图1为本技术实施例公开的一种数据处理方法的流程示意图;
48.图2为本技术实施例公开的基于数据类型识别得到的数据类型结果,确定对应的
特征配置列表的流程示意图;
49.图3为本技术实施例公开的根据数据类型结果获取对应的提取规则,基于提取规则从特征配置列表中提取特征数据的流程示意图;
50.图4为本技术实施例公开的当特征数据符合预设条件时,基于预设摘要规则和特征数据,生成文本摘要数据的流程示意图;
51.图5为本技术实施例公开的一种数据处理系统的结构示意图;
52.图6为本技术实施例公开的一种电子设备的结构示意图。
具体实施方式
53.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
54.在本技术中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
55.由背景技术可知,在相似度算法计算前,在对面对复杂数据对象(如结构数据)进行预处理时,会受到非特殊字符(字母、数字、汉字)的干扰,使得无法在复杂结构数据中把重复的文本给选出来并删除,造成生成的文本摘要数据包含重复的文本,从而降低了生成文本摘要数据的准确性。
56.为了解决上述问题,本技术实施例公开了一种数据处理方法、系统、存储介质及电子设备,在包含非特殊字符等复杂数据结构下,对不同的数据类型进行特征提取处理,得到各自对应的特征数据,满足了在复杂数据结构下的类型自动识别、特征自动提取、文本摘要自动生成等需求,提高了获取文本摘要数据的准确性。此外,将文本摘要数据进行相似度算法识别,提高了相似度计算结果的准确性。具体实现方式通过下述实施例具体进行说明。
57.参考图1所示,为本技术实施例公开的一种数据处理方法的流程示意图,该数据处理方法主要包括如下步骤:
58.s101:获取待处理文本数据;待处理文本数据根据用户需求进行采集得到。
59.在s101中,待处理文本数据为用户输入的文本数据,或者根据用户需求进行采集得到。
60.s102:对待处理文本数据进行数据类型识别,得到数据类型结果,并基于数据类型结果,确定对应的特征配置列表。
61.在s102中,数据类型结果包括字符串string类型结果、对象简谱(javascript objectnotation,json)类型结果和可拓展标记语言(extensible markup language,xml)类型结果,其中,string类型结果即为纯文本类型结果。
62.根据面向对象编程语言java的xml和json相关应用程序接口(applicationprogramming interface,api),判断数据类型是否为xml类型或json类型,若
数据类型既不是xml类型,也不是json类型,则判定为string类型处理。数据类型识别流程如a1

a5所示。
63.a1:判断数据类型是否为json类型。
64.若数据类型为json类型,则执行a2,若数据类型不为json类型,则执行a3。
65.a2:返回数据类型为json类型并结束数据类型识别。
66.a3:判断数据类型是否为xml格式。
67.若数据类型为xml格式,则执行a4,若数据类型不为xml格式,则执行a5。
68.a4:返回数据类型为xml类型并结束数据类型识别。
69.a5:返回数据类型为string类型,并结束数据类型识别。
70.具体对待处理文本数据进行数据类型识别,得到数据类型结果,并基于数据类型结果,确定对应的特征配置列表的过程如b1

b4所示。
71.b1:对待处理文本数据进行数据类型识别。
72.b2:当待处理文本数据的数据类型为string类型时,生成string类型结果,并基于string类型结果对待处理文本数据进行解析,得到string类型特征配置列表。
73.其中,当待处理文本数据的数据类型为string类型时,将待处理文本数据解析为key

value形式的string类型特征配置列表。
74.b3:当待处理文本数据的数据类型为xml类型时,生成xml类型结果,并基于xml类型结果对待处理文本数据进行解析,得到xml类型特征配置列表。
75.其中,当待处理文本数据的数据类型为xml类型时,将待处理文本数据解析为key

value形式的xml类型特征配置列表。
76.b4:当待处理文本数据的数据类型为json类型时,生成json类型结果,并基于json类型结果对待处理文本数据进行解析,得到json类型特征配置列表。
77.其中,当待处理文本数据的数据类型为json类型时,将待处理文本数据解析为key

value形式的json类型特征配置列表。
78.s103:根据数据类型结果获取对应的提取规则,并基于提取规则从特征配置列表中提取特征数据。
79.在s103中,若数据类型结果为string类型结果,则提取规则为通过预设正则表达式进行提取的规则,若数据类型结果为xml类型结果或者json类型结果,则提取规则为预设属性表达式进行提取的规则。
80.若数据类型结果为string类型结果,提取规则为预设正则表达式。
81.若数据类型结果为xml类型结果或者json类型结果,提取规则为预设属性表达式,预设属性表达式支持>、<、=、≥、≤、&&(且)、||(或)符号,特征名称用%包裹。如:%a%>100&&%b%=123,表示a特征值大于100且b特征值等于123即满足特征条件并进行提取,提取规则为a>100,且b=123;再如:特征名称用%包裹多特征之间“,”号分隔。如:%a%,%b%,提取规则为提取数据特征a和b的值。
82.具体根据数据类型结果获取对应的提取规则,并基于提取规则从特征配置列表中提取特征数据的过程如c1

c4所示。
83.c1:对数据类型结果进行判定。
84.c2:当数据类型结果为string类型结果时,通过预设正则表达式和第一预设特征
字段对string类型特征配置列表的信息进行正则匹配,并提取符合正则匹配的第一特征数据。
85.其中,当数据类型结果为string类型结果时,提取条件为正则,预设特征字段也为正则,通过预设正则表达式和预设特征字段,对string类型特征配置列表的信息进行正则匹配,匹配成功则提取第一特征数据,匹配不成功则不提取。
86.预设特征字段可以是姓名字段、性别字段等,具体预设特征字段的确定由技术人员根据实际情况进行设置,本技术不做具体限定。
87.第一特征数据用于指示对string类型特征配置列表的信息进行正则匹配成的特征数据。
88.c3:当数据类型结果为xml类型结果时,通过预设属性表达式对xml类型特征配置列表的信息进行计算得到第一计算结果,并基于第一计算结果和预设特征字段,得到第二特征数据。
89.其中,当数据类型结果为xml类型结果时,会抽取xml类型特征配置列表的信息的全部特征数据,从全部特征数中抽取部分特征数据(预设特征字段)代入属性表达式计算,满足属性表达式时,根据预设特征字段配置抽取的特征数据为第二特征数据。
90.第二特征数据用于指示xml类型特征配置列表的信息满足属性表达式的特征数据。
91.为了方便理解当数据类型结果为xml类型结果时,通过预设属性表达式对xml类型特征配置列表的信息进行计算得到第一计算结果,并基于第一计算结果和预设特征字段,得到第二特征数据的过程,这里举例进行说明:
92.例如,个人信息为xml类型数据,首先通过预设属性表达式对xml类型特征配置列表的信息进行计算,满足预设属性表达式后,抽取xml类型特征配置列表的信息的所有特征数据姓名、性别、年龄、省份,预设特征字段为:%省份%=四川、姓名、性别、年龄,则第二特征数据为提取所有四川省个人信息的姓名、性别、年龄的特征数据。
93.c4:当数据类型结果为json类型结果时,通过预设属性表达式对json类型特征配置列表的信息进行计算,得到第二计算结果,并基于第二计算结果和所述预设特征字段,确定第三特征数据。
94.其中,当数据类型结果为json类型结果时,会抽取json类型特征配置列表的信息的特征数据,将抽取的特征数据代入属性表达式计算,满足属性表达式时,根据预设特征字段配置抽取的特征数据为第三特征数据。
95.第三特征数据用于指示json类型特征配置列表的信息满足属性表达式的特征数据。
96.为了方便理解当数据类型结果为json类型结果时,通过预设属性表达式对json类型特征配置列表的信息进行计算得到第二计算结果,并基于第二计算结果和预设特征字段,得到第三特征数据的过程,这里举例进行说明:
97.例如,个人信息为json类型数据,首先通过预设属性表达式对json类型特征配置列表的信息进行计算,满足预设属性表达式后,抽取json类型特征配置列表的信息的所有特征数据姓名、性别、年龄、省份,预设特征字段为:%省份%=云南、姓名、性别,则第三特征数据为提取所有云南省个人信息的姓名、性别的特征数据。
98.可选的,同数据类型结果的特征数据可以为多条。
99.当处理完string类型特征配置列表中的1条string类型结果后,若string类型特征配置列表中还有2条string类型结果,则根据剩余2条string类型结果获取对应的提取规则,并基于提取规则从特征配置列表中提取特征数据。
100.s104:当特征数据符合预设条件时,基于预设摘要规则和符合预设条件的特征数据,生成文本摘要数据;预设摘要规则由特征配置列表的摘要规则字段确定。
101.在s104中,若第一特征数据不为空值,确定第一特征数据符合预设条件,若第二特征数据不为空值,确定第二特征数据符合预设条件,若第三特征数据不为空值,确定第三特征数据符合预设条件。
102.特征配置列表包括string类型特征配置列表、xml类型特征配置列表和json类型特征配置列表。
103.当数据类型结果为string类型结果时,摘要规则字段为正则表达式。
104.当数据类型结果为xml类型结果或者json类型结果时,摘要规则字段为预设属性表达式。预设属性表达式支持数据运算( 、

、*、/)和逻辑运算(&、|),特征名称用%包裹。如:设置摘要规则字段为%a% %b%,则表示抽取特征a值加b值。
105.摘要规则字段的确定由技术人员根据实际情况进行设置,本技术不做具体限定。
106.具体当特征数据符合预设条件时,基于预设摘要规则和符合预设条件的特征数据,生成文本摘要数据的过程如d1

d4所示。
107.d1:判断特征数据(第一特征数据、第二特征数据或第三特征数据)是否为空值。
108.当特征数据为第一特征数据,且第一特征数据不为空值时,执行d2,当特征数据为第二特征数据,且第二特征数据不为空值时,执行d3,当特征数据为第三特征数据,且第三特征数据不为空值时,执行d4。
109.当特征数据为空值时,返回源数据,即返回获取待处理文本数据这一步骤。
110.d2:从string类型特征配置列表中获取第一摘要规则字段,并基于第一摘要规则字段和第一特征数据,生成第一文本摘要数据。
111.其中,第一摘要规则字段可以为姓名字段、年龄字段等,具体第一摘要规则字段的确定由技术人员根据实际情况进行设置,本技术不做具体限定。
112.通过预设消息摘要算法将第一摘要规则字段和第一特征数据拼接后的结果进行计算,得到第一文本摘要数据。
113.预设消息摘要算法可以是md5算法,也可以是sha

256算法,具体预设消息摘要算法由技术人员根据实际情况进行设置,本技术不做具体限定。
114.d3:从xml类型特征配置列表中获取第二摘要规则字段,并基于第二摘要规则字段和第二特征数据,生成第二文本摘要数据。
115.其中,第二摘要规则字段可以为姓名字段、年龄字段等,具体第二摘要规则字段的确定由技术人员根据实际情况进行设置,本技术不做具体限定。
116.通过预设消息摘要算法将第二摘要规则字段和第二特征数据拼接后的结果进行计算,得到第二文本摘要数据。
117.d4:从json类型特征配置列表中获取第三摘要规则字段,并基于第三摘要规则字段和第三特征数据,生成第三文本摘要数据。
118.其中,第三摘要规则字段可以为姓名字段、年龄字段等,具体第三摘要规则字段的确定由技术人员根据实际情况进行设置,本技术不做具体限定。
119.通过预设消息摘要算法将第三摘要规则字段和第三特征数据拼接后的结果进行计算,得到第三文本摘要数据。
120.为了方便理解基于预设摘要规则和符合预设条件的特征数据,生成文本摘要数据的过程,这里举例进行说明:
121.例如,个人信息为json类型数据,首先首先通过预设属性表达式对json类型特征配置列表的信息进行计算,满足预设属性表达式后,抽取json类型特征配置列表的信息的所有特征姓名、性别、年龄、省份等,提取条件为:%省份%=山东,提取特征为:姓名、性别、年龄,提取结果为提取所有山东省个人信息的姓名、性别、年龄特征数据,并将姓名、性别、年龄特征相加拼接后使用md5算法生成文本摘要数据。
122.本技术实施例中,在包含非特殊字符等复杂数据结构下,对不同的数据类型进行特征提取处理,得到各自对应的特征数据,满足了在复杂数据结构下的类型自动识别、特征自动提取、文本摘要自动生成等需求,提高了获取文本摘要数据的准确性。此外,将文本摘要数据进行相似度算法识别,提高了相似度计算结果的准确性。
123.参考图2所示,为上述s102中涉及到对待处理文本数据进行数据类型识别,得到数据类型结果,并基于数据类型结果,确定对应的特征配置列表的过程,主要包括如下步骤:
124.s201:对待处理文本数据进行数据类型识别。
125.s202:当待处理文本数据的数据类型为string类型时,生成string类型结果,并基于string类型结果对待处理文本数据进行解析,得到string类型特征配置列表。
126.s203:当待处理文本数据的数据类型为xml类型时,生成xml类型结果,并基于xml类型结果对待处理文本数据进行解析,得到xml类型特征配置列表。
127.s204:当待处理文本数据的数据类型为json类型时,生成json类型结果,并基于json类型结果对待处理文本数据进行解析得到json类型特征配置列表。
128.s201

s204的执行原理与上述s102的执行原理一致,可参考,此处不再进行赘述。
129.本技术实施例中,对待处理文本数据进行数据类型识别,当待处理文本数据的数据类型为string类型、xml类型或json类型时,生成各自对应的类型结果,并基于各个类型结果对待处理文本数据进行解析,实现得到各个类型特征配置列表的目的。
130.参考图3所示,为上述s103中涉及到根据数据类型结果获取对应的提取规则,并基于提取规则从特征配置列表中提取特征数据的过程,主要包括如下步骤:
131.s301:对数据类型结果进行判定。当数据类型结果为string类型结果时,执行s302,当数据类型结果为xml类型结果,执行s303,当数据类型结果为json类型结果时,执行s304。
132.s302:通过预设正则表达式和预设特征字段,对string类型特征配置列表的信息进行正则匹配,并提取符合正则匹配的第一特征数据。
133.s303:通过预设属性表达式对xml类型特征配置列表的信息进行计算,得到第一计算结果,并基于第一计算结果和预设特征字段,确定第二特征数据。
134.s304:通过预设属性表达式对json类型特征配置列表的信息进行计算,得到第二计算结果,并基于第二计算结果和预设特征字段,确定第三特征数据。
135.s301

s304的执行原理与上述s103的执行原理一致,可参考,此处不再进行赘述。
136.本技术实施例中,对数据类型结果进行判定,当数据类型结果为string类型结果时,通过预设正则表达式对string类型特征配置列表的信息进行正则匹配,并提取符合正则匹配的第一特征数据,当数据类型结果为xml类型结果,通过预设属性表达式对xml类型特征配置列表的信息进行计算,得到第二特征数据,当数据类型结果为json类型结果时,通过预设属性表达式对json类型特征配置列表的信息进行计算,得到第三特征数据。从而实现根据不同类型结果,得到不同类型结果对应的特征数据的目的。
137.参考图4所示,为上述s104中涉及到当特征数据符合预设条件时,基于预设摘要规则和特征数据,生成文本摘要数据的过程,这样包括如下步骤:
138.s401:对特征数据进行判定,当特征数据为第一特征数据,且第一特征数据不为空值时,执行s402,当特征数据为第二特征数据,且第二特征数据不为空值时,执行s403,当特征数据为第三特征数据,且第三特征数据不为空值时,执行s404。
139.s402:从string类型特征配置列表中获取第一摘要规则字段,并基于第一摘要规则字段和第一特征数据,生成第一文本摘要数据。
140.s403:从xml类型特征配置列表中获取第二摘要规则字段,并基于第二摘要规则字段和第二特征数据,生成第二文本摘要数据。
141.s404:从json类型特征配置列表中获取第三摘要规则字段,并基于第三摘要规则字段和第三特征数据,生成第三文本摘要数据。
142.s401

s404的执行原理与上述s104的执行原理一致,可参考,此处不再进行赘述。
143.本技术实施例中,当特征数据符合预设条件时,基于预设摘要规则和特征数据,实现生成文本摘要数据的目的。
144.基于上述实施例图1公开的一种数据处理方法,本技术实施例还对应公开了一种数据处理系统,如图5所示,该数据处理系统主要包括获取单元501、确定单元502、提取单元503和生成单元504。
145.获取单元501,用于获取待处理文本数据;待处理文本数据根据用户需求进行采集得到。
146.确定单元502,用于对待处理文本数据进行数据类型识别,得到数据类型结果,并基于数据类型结果,确定对应的特征配置列表。
147.提取单元503,用于根据数据类型结果获取对应的提取规则,并基于提取规则从特征配置列表中提取特征数据。
148.生成单元504,用于当特征数据符合预设条件时,基于预设摘要规则和特征数据,生成文本摘要数据;预设摘要规则由特征配置列表的摘要规则字段确定。
149.进一步的,确定单元502包括识别模块、第一获取模块、第二获取模块和第三获取模块。
150.识别模块,用于对所述待处理文本数据进行数据类型识别。
151.第一获取模块,用于当待处理文本数据的数据类型为string类型时,生成string类型结果,并基于string类型结果对待处理文本数据进行解析,得到string类型特征配置列表。
152.第二获取模块,用于当待处理文本数据的数据类型为xml类型时,生成xml类型结
果,并基于xml类型结果对待处理文本数据进行解析,得到xml类型特征配置列表。
153.第三获取模块,用于当待处理文本数据的数据类型为json类型时,生成json类型结果,并基于json类型结果对待处理文本数据进行解析,得到json类型特征配置列表。
154.进一步的,提取单元503包括判定模块、第一提取模块、第二提取模块和第三提取模块。
155.判定模块,用于对数据类型结果进行判定。
156.第一提取模块,用于当数据类型结果为string类型结果时,通过预设正则表达式对string类型特征配置列表的信息进行正则匹配,并提取符合正则匹配的第一特征数据。
157.第二提取模块,用于当数据类型结果为xml类型结果,通过预设属性表达式对xml类型特征配置列表的信息进行计算,得到第二特征数据。
158.第三提取模块,用于当数据类型结果为json类型结果时,通过预设属性表达式对json类型特征配置列表的信息进行计算,得到第三特征数据。
159.本技术实施例中,在包含非特殊字符等复杂数据结构下,对不同的数据类型进行特征提取处理,得到各自对应的特征数据,满足了在复杂数据结构下的类型自动识别、特征自动提取、文本摘要自动生成等需求,提高了获取文本摘要数据的准确性。此外,将文本摘要数据进行相似度算法识别,提高了相似度计算结果的准确性。
160.本技术实施例还提供了一种存储介质,存储介质包括存储的指令,其中,在指令运行时控制存储介质所在的设备执行数据处理方法。
161.本技术实施例还提供了一种电子设备,其结构示意图如图6所示,具体包括存储器601,以及一个或者一个以上的指令602,其中一个或者一个以上指令602存储于存储器601中,且经配置以由一个或者一个以上处理器603执行所述一个或者一个以上指令602执行上述数据处理方法。
162.上述各个实施例的具体实施过程及其衍生方式,均在本技术的保护范围之内。
163.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
164.专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
165.对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可
以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
166.以上所述仅是本技术的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献