一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本增强处理方法、装置、设备及存储介质与流程

2022-07-30 14:59:42 来源:中国专利 TAG:


1.本技术涉及增强处理技术领域,尤其涉及一种文本增强处理方法、装置、设备及存储介质。


背景技术:

2.目前,在文本分类问题中,经常需要进行数据增强,数据是机器学习的原材料,而大部分机器学习任务都是有监督任务的,所以非常依赖训练数据,而训练数据就是一种有标注数据,比如做文本分类的任务,就需要一些标注好的文本数据,算法起到一个拟合有标注的数据的作用,从数据中找到一定规律,比如某个数据属于某一类是由于某种特征,通过这个过程,最终收获一个能预测一些规律的模型,从而使用这个模型去做一些预测,因此想要让人工智能模型有更好的效果,需要更大、质量更好的数据,当只有少类样本的时候,就需要数据增强来提高数据量。
3.目前数据增强的方式都是针对句子中词语本身做一些变换,没有考虑句子语义上的变化,经数据增强后的训练数据的难以达到有效扩充训练样本的目的。


技术实现要素:

4.本技术提供了一种文本增强处理方法、装置、设备及存储介质,能够有效提高数据增强后的数据量的质量,而不是简单地在数量上做了增加。
5.第一方面,本技术提供一种文本增强处理方法,所述方法包括:
6.获取至少两个分类标签以及所述分类标签对应的文本数据,根据所述分类标签对应的文本数据的数量,确定待处理文本数据;
7.对所述待处理文本数据进行增强处理,得到增强后的文本数据;其中,所述增强处理包括:同义词替换、随机插入词语、随机交换词语、随机删除词语中的至少一个以及对所述待处理文本数据语义处理;
8.计算所述增强后的文本数据与所述待处理文本数据的语义相似度,得到所述语义相似度结果,根据所述语义相似度结果确定训练样本数据。
9.在一个示例中,若所述增强处理为对所述待处理文本数据语义处理,对所述待处理文本数据进行增强处理,得到增强后的文本数据,包括:
10.对所述待处理文本数据进行预设语种的翻译,得到翻译结果;
11.将所述翻译结果转换至所述待处理文本数据的语种,得到增强后的文本数据。
12.在一个示例中,对所述待处理文本数据进行增强处理,得到增强后的文本数据,包括:
13.对所述待处理文本数据进行分词处理,得到待处理文本数据中的多个词语;
14.对所述多个词语进行语义识别,得到语义识别结果,将所述语义识别结果中的停用词进行剔除后,得到处理后的语义识别结果;
15.将所述处理后的语义识别结果中预设位数的词语进行同义词替换,得到增强后的
文本数据。
16.在一个示例中,对所述待处理文本数据进行增强处理,得到增强后的文本数据,包括:
17.对所述待处理文本数据进行分词处理,得到待处理文本数据中的多个词语;
18.对所述多个词语进行语义识别,得到语义识别结果,识别所述语义识别结果中两两词语之间的位置,在所述位置中随机插入词语,得到随机插入词语后的文本数据;
19.将随机插入词语后的文本数据作为所述增强后的文本数据。
20.在一个示例中,对所述待处理文本数据进行增强处理,得到增强后的文本数据,包括:
21.对所述待处理文本数据进行分词处理,得到待处理文本数据中的多个词语;
22.对所述多个词语进行语义识别,得到语义识别结果,识别所述语义识别结果中至少两个词语的位置,交换所述至少两个词语的位置上的词语,得到随机交换词语后的文本数据;
23.将随机交换词语后的文本数据作为所述增强后的文本数据。
24.在一个示例中,对所述待处理文本数据进行增强处理,得到增强后的文本数据,包括:
25.对所述待处理文本数据进行分词处理,得到待处理文本数据中的多个词语;
26.对所述多个词语进行语义识别,得到语义识别结果,识别所述语义识别结果中每一个词语,任意删除其中一个词语,得到随机删除词语后的文本数据;
27.将随机删除词语后的文本数据作为所述增强后的文本数据。
28.第二方面,本技术提供一种文本增强处理装置,所述装置包括:
29.获取单元,用于获取至少两个分类标签以及所述分类标签对应的文本数据,根据所述分类标签对应的文本数据的数量,确定待处理文本数据;
30.增强处理单元,用于对所述待处理文本数据进行增强处理,得到增强后的文本数据;其中,所述增强处理包括:同义词替换、随机插入词语、随机交换词语、随机删除词语中的至少一个以及对所述待处理文本数据语义处理;
31.计算单元,用于计算所述增强后的文本数据与所述待处理文本数据的语义相似度,得到所述语义相似度结果,根据所述语义相似度结果确定训练样本数据。
32.在一个示例中,增强处理单元,包括:
33.翻译模块,用于对所述待处理文本数据进行预设语种的翻译,得到翻译结果;
34.转换模块,用于将所述翻译结果转换至所述待处理文本数据的语种,得到增强后的文本数据。
35.在一个示例中,增强处理单元,包括:
36.第一处理模块,用于对所述待处理文本数据进行分词处理,得到待处理文本数据中的多个词语;
37.剔除模块,用于对所述多个词语进行语义识别,得到语义识别结果,将所述语义识别结果中的停用词进行剔除后,得到处理后的语义识别结果;
38.替换模块,用于将所述处理后的语义识别结果中预设位数的词语进行同义词替换,得到增强后的文本数据。
39.在一个示例中,增强处理单元,包括:
40.第二处理模块,用于对所述待处理文本数据进行分词处理,得到待处理文本数据中的多个词语;
41.插入模块,用于对所述多个词语进行语义识别,得到语义识别结果,识别所述语义识别结果中两两词语之间的位置,在所述位置中随机插入词语,得到随机插入词语后的文本数据;
42.第一确定模块,用于将随机插入词语后的文本数据作为所述增强后的文本数据。
43.在一个示例中,增强处理单元,包括:
44.第三处理模块,用于对所述待处理文本数据进行分词处理,得到待处理文本数据中的多个词语;
45.交换模块,用于对所述多个词语进行语义识别,得到语义识别结果,识别所述语义识别结果中至少两个词语的位置,交换所述至少两个词语的位置上的词语,得到随机交换词语后的文本数据;
46.第二确定模块,用于将随机交换词语后的文本数据作为所述增强后的文本数据。
47.在一个示例中,增强处理单元,包括:
48.第四处理模块,用于对所述待处理文本数据进行分词处理,得到待处理文本数据中的多个词语;
49.删除模块,用于对所述多个词语进行语义识别,得到语义识别结果,识别所述语义识别结果中每一个词语,任意删除其中一个词语,得到随机删除词语后的文本数据;
50.第三确定模块,用于将随机删除词语后的文本数据作为所述增强后的文本数据。
51.第三方面,本技术提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
52.所述存储器存储计算机执行指令;
53.所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面所述的方法。
54.第四方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所述的方法。
55.第五方面,本技术提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如第一方面所述的方法。
56.本技术提供的一种文本增强处理方法,包括:获取至少两个分类标签以及所述分类标签对应的文本数据,根据所述分类标签对应的文本数据的数量,确定待处理文本数据;对所述待处理文本数据进行增强处理,得到增强后的文本数据;其中,所述增强处理包括:同义词替换、随机插入词语、随机交换词语、随机删除词语中的至少一个以及对所述待处理文本数据语义处理;计算所述增强后的文本数据与所述待处理文本数据的语义相似度,得到所述语义相似度结果,根据所述语义相似度结果确定训练样本数据。采用本技术方案,能够有效提高数据增强后的数据量的质量,而不是简单地在数量上做了增加。
附图说明
57.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
58.图1是根据本技术实施例一提供的一种文本增强处理方法的流程示意图;
59.图2是根据本技术实施例二提供的一种文本增强处理方法的流程示意图;
60.图3是根据本技术实施例三提供的一种文本增强处理装置的结构示意图;
61.图4是根据本技术实施例四提供的一种文本增强处理装置的结构示意图;
62.图5是根据本技术实施例五提供的一种文本增强处理装置的结构示意图;
63.图6是根据本技术实施例六提供的一种文本增强处理装置的结构示意图;
64.图7是根据本技术实施例七提供的一种文本增强处理装置的结构示意图;
65.图8是根据本技术实施例八提供的一种文本增强处理装置的结构示意图;
66.图9是根据一示例性实施例示出的一种电子设备的框图。
67.通过上述附图,已示出本技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
68.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
69.本技术提供的一种文本增强处理方法,旨在解决现有技术的如上技术问题。
70.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
71.图1是根据本技术实施例一提供的一种文本增强处理方法的流程示意图。实施例一中的方法,包括如下步骤:
72.s101、获取至少两个分类标签以及分类标签对应的文本数据,根据分类标签对应的文本数据的数量,确定待处理文本数据。
73.在一个示例中,分类标签用于表征文本数据的共同属性,例如分类标签可以是天气、水果和蔬菜。其中,每一个分类标签都对应大量的文本数据,但是不同的分类标签所对应的文本数据的数量是不同的,通过比较不同分类标签对应的文本数据数据量的多少,最终确定待处理文本数据。其中,待处理文本数据可以是文本数据数据量比较小的文本数据。例如,在获取到至少两个分类标签对应的文本数据后,比较上述文本数据的数量级,将数量级比较小的文本数据筛选出作为待处理文本数据。
74.s102、对待处理文本数据进行增强处理,得到增强后的文本数据;其中,增强处理包括:同义词替换、随机插入词语、随机交换词语、随机删除词语中的至少一个以及对待处理文本数据语义处理。
75.在一个示例中,对待处理文本数据进行增强处理,主要是对待处理文本数据的数
据量进行增多,可以进行的操作是同义词替换和对待处理文本数据进行语义处理,还可以是随机插入词语和对待处理文本数据进行语义处理,还可以是随机交换词语和对待处理文本数据进行语义处理,还可以是随机删除词语和对待处理文本数据进行语义处理。进一步地,对待处理文本数据进行增强处理,还可以是同义词替换、随机插入词语、随机交换词语和随机删除词语之间任意组合后,再与待处理文本数据进行语义处理的结果合并作为增强后的文本数据。具体的,同义词替换是指将文本数据中不是停用词的词语进行替换。例如,文本数据可以是“今天的天气真不错”,则同义词替换可以是将“今天”替换成“今日”,将“不错”替换成“好”。
76.进一步地,随机插入词语可以是在“今天的天气真不错”这句话中的两两词语之间插入一个词语,例如,可以在“今天的天气真不错”中的“天气”之前加“小雨”。
77.进一步地,随机交换词语可以是将“今天的天气真不错”这句话中的“今天”和“天气”进行交换。
78.随机删除词语可以是将“今天的天气真不错”这句话中的“今天”进行删除。
79.对待处理文本数据进行语义处理可以是将“今天的天气真不错”翻译成英文“today'sweather is very good”,并将“today's weather is very good”转换至中文。
80.s103、计算增强后的文本数据与待处理文本数据的语义相似度,得到语义相似度结果,根据语义相似度结果确定训练样本数据。
81.在一个示例中,比较增强后的文本数据与待处理文本数据的语义相似度,将语义相似度结果高于阈值的文本数据进行保留,并将这些文本数据与分类标签对应的文本数据进行合并后作为训练样本数据。例如,语义相似度结果的范围是0到1,阈值可以设为0.8,则将语义相似度结果大于0.8的文本数据进行保留。
82.本技术提供的一种文本增强处理方法,通过获取至少两个分类标签以及分类标签对应的文本数据,根据分类标签对应的文本数据的数量,确定待处理文本数据;对待处理文本数据进行增强处理,得到增强后的文本数据;其中,增强处理包括:同义词替换、随机插入词语、随机交换词语、随机删除词语中的至少一个以及对待处理文本数据语义处理;计算增强后的文本数据与待处理文本数据的语义相似度,得到语义相似度结果,根据语义相似度结果确定训练样本数据。采用本技术方案,能够有效提高数据增强后的数据量的质量,而不是简单地在数量上做了增加。
83.图2是根据本技术实施例二提供的一种文本增强处理方法的流程示意图。实施例二中的方法,包括如下步骤:
84.s201、获取至少两个分类标签以及分类标签对应的文本数据,根据分类标签对应的文本数据的数量,确定待处理文本数据。
85.示例性地,本步骤可以参见步骤s101,在此不再赘述。
86.s202、对待处理文本数据进行预设语种的翻译,得到翻译结果。
87.本实施例中,例如,待处理文本数据为“今天的天气真不错”,则可以对这句话进行翻译,预设语种可以是英文、法文、意大利语或者韩文,得到对应的翻译结果。
88.s203、将翻译结果转换至待处理文本数据的语种,得到增强后的文本数据。
89.在一个示例中,将翻译结果翻译回待处理文本数据的语种,如果待处理文本数据的语种是中文,则可以将翻译结果转换至中文,如果待处理文本数据的语种为英文,则可以
将翻译结果转换至英文,得到增强后的文本数据。由于从一种语种翻译至另一种语种,再由另一种语种翻译回待处理文本数据的语种时,会出现不同的文本数据,因此,可是实现增强文本数据的目的。
90.在一个示例中,对待处理文本数据进行增强处理,得到增强后的文本数据,包括:
91.对待处理文本数据进行分词处理,得到待处理文本数据中的多个词语;
92.对多个词语进行语义识别,得到语义识别结果,将语义识别结果中的停用词进行剔除后,得到处理后的语义识别结果;
93.将处理后的语义识别结果中预设位数的词语进行同义词替换,得到增强后的文本数据。
94.本实施例中,可以将待处理文本数据通过分词工具进行分词处理,然后将文本数据中的每个词语分出,得到文本数据中的多个分词。
95.将语义识别结果中的停用词去掉后,得到处理后的语义识别结果,其中,停用词可以是“啊”“阿”“哎”“哎呀”“哎哟”和“唉”。然后将处理后的语义识别结果中预设位数的词语进行同义词替换,例如,可以是将处理后的语义识别结果中的百分之二十的词语进行同义词替换。其中,预设位数是可以进行任意设置的,替换后得到处理后的语义识别结果。
96.在一个示例中,对待处理文本数据进行增强处理,得到增强后的文本数据,包括:
97.对待处理文本数据进行分词处理,得到待处理文本数据中的多个词语;
98.对多个词语进行语义识别,得到语义识别结果,识别语义识别结果中两两词语之间的位置,在位置中随机插入词语,得到随机插入词语后的文本数据;
99.将随机插入词语后的文本数据作为增强后的文本数据。
100.本实施例中,例如语义识别结果为“今天的天气真不错”,该语义识别结果中存在五个位置,分别是“今天”和“的”之间的位置,“的”和“天气”之间的位置,“天气”和“真”之间的位置以及“真”和“不错”之间的位置,在以上几个位置中随机插入词语。例如,可以在“今天”和“的”之间插入“天津”,得到“今天天津的天气真不错”的文本数据,将该文本数据作为增强后的文本数据。
101.在一个示例中,对待处理文本数据进行增强处理,得到增强后的文本数据,包括:
102.对待处理文本数据进行分词处理,得到待处理文本数据中的多个词语;
103.对多个词语进行语义识别,得到语义识别结果,识别语义识别结果中至少两个词语的位置,交换至少两个词语的位置上的词语,得到随机交换词语后的文本数据;
104.将随机交换词语后的文本数据作为增强后的文本数据。
105.在一个示例中,本实施例中,例如语义识别结果为“今天的天气真不错”,该语义识别结果中存在至少五个词语的位置,如果是交换其中两个词语的位置,例如,交换“今天”和“不错”这两个词语的位置,得到随机交换词语后的文本数据为“不错的天气真今天”。
106.在一个示例中,对待处理文本数据进行增强处理,得到增强后的文本数据,包括:
107.对待处理文本数据进行分词处理,得到待处理文本数据中的多个词语;
108.对多个词语进行语义识别,得到语义识别结果,识别语义识别结果中每一个词语,任意删除其中一个词语,得到随机删除词语后的文本数据;
109.将随机删除词语后的文本数据作为增强后的文本数据。
110.在一个示例中,例如语义识别结果为“今天的天气真不错”,则任意删除其中一个
词语,可以是将“今天”删除,得到随机删除词语后的文本数据为“的天气真不错”,将“的天气真不错”作为增强后的文本数据。
111.s204、计算增强后的文本数据与待处理文本数据的语义相似度,得到语义相似度结果,根据语义相似度结果确定训练样本数据。
112.示例性地,本步骤可以参见步骤s103,在此不再赘述。
113.本技术提供的一种文本增强处理方法,通过获取至少两个分类标签以及分类标签对应的文本数据,根据分类标签对应的文本数据的数量,确定待处理文本数据,对待处理文本数据进行预设语种的翻译,得到翻译结果,将翻译结果转换至待处理文本数据的语种,得到增强后的文本数据,计算增强后的文本数据与待处理文本数据的语义相似度,得到语义相似度结果,根据语义相似度结果确定训练样本数据。采用本技术方案,能够对增强后的数据与原始文本做语义相似度的比较,去掉语义不相近的增强文本,保证增强后的文本数据与原始文本在语义层面的分布高度相似。
114.图3是根据本技术实施例三提供的一种文本增强处理装置的结构示意图。实施例三中的装置30包括如下:
115.获取单元301,用于获取至少两个分类标签以及分类标签对应的文本数据,根据分类标签对应的文本数据的数量,确定待处理文本数据。
116.增强处理单元302,用于对待处理文本数据进行增强处理,得到增强后的文本数据;其中,增强处理包括:同义词替换、随机插入词语、随机交换词语、随机删除词语中的至少一个以及对待处理文本数据语义处理。
117.计算单元303,用于计算增强后的文本数据与待处理文本数据的语义相似度,得到语义相似度结果,根据语义相似度结果确定训练样本数据。
118.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
119.图4是根据本技术实施例四提供的一种文本增强处理装置的结构示意图。实施例四中的装置40包括如下:
120.获取单元401,用于获取至少两个分类标签以及分类标签对应的文本数据,根据分类标签对应的文本数据的数量,确定待处理文本数据;
121.增强处理单元402,用于对待处理文本数据进行增强处理,得到增强后的文本数据;其中,增强处理包括:同义词替换、随机插入词语、随机交换词语、随机删除词语中的至少一个以及对待处理文本数据语义处理;
122.计算单元403,用于计算增强后的文本数据与待处理文本数据的语义相似度,得到语义相似度结果,根据语义相似度结果确定训练样本数据。
123.在一个示例中,增强处理单元402,包括:
124.翻译模块4021,用于对待处理文本数据进行预设语种的翻译,得到翻译结果;
125.转换模块4022,用于将翻译结果转换至待处理文本数据的语种,得到增强后的文本数据。
126.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
127.图5是根据本技术实施例五提供的一种文本增强处理装置的结构示意图。实施例
五中的装置50包括如下:
128.获取单元501,用于获取至少两个分类标签以及分类标签对应的文本数据,根据分类标签对应的文本数据的数量,确定待处理文本数据。
129.增强处理单元502,用于对待处理文本数据进行增强处理,得到增强后的文本数据;其中,增强处理包括:同义词替换、随机插入词语、随机交换词语、随机删除词语中的至少一个以及对待处理文本数据语义处理。
130.计算单元503,用于计算增强后的文本数据与待处理文本数据的语义相似度,得到语义相似度结果,根据语义相似度结果确定训练样本数据。
131.在一个示例中,增强处理单元502,包括:
132.第一处理模块5021,用于对待处理文本数据进行分词处理,得到待处理文本数据中的多个词语;
133.剔除模块5022,用于对多个词语进行语义识别,得到语义识别结果,将语义识别结果中的停用词进行剔除后,得到处理后的语义识别结果;
134.替换模块5023,用于将处理后的语义识别结果中预设位数的词语进行同义词替换,得到增强后的文本数据。
135.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
136.图6是根据本技术实施例六提供的一种文本增强处理装置的结构示意图。实施例六中的装置60包括如下:
137.获取单元601,用于获取至少两个分类标签以及分类标签对应的文本数据,根据分类标签对应的文本数据的数量,确定待处理文本数据。
138.增强处理单元602,用于对待处理文本数据进行增强处理,得到增强后的文本数据;其中,增强处理包括:同义词替换、随机插入词语、随机交换词语、随机删除词语中的至少一个以及对待处理文本数据语义处理。
139.计算单元603,用于计算增强后的文本数据与待处理文本数据的语义相似度,得到语义相似度结果,根据语义相似度结果确定训练样本数据。
140.在一个示例中,增强处理单元602,包括:
141.第二处理模块6021,用于对待处理文本数据进行分词处理,得到待处理文本数据中的多个词语;
142.插入模块6022,用于对多个词语进行语义识别,得到语义识别结果,识别语义识别结果中两两词语之间的位置,在位置中随机插入词语,得到随机插入词语后的文本数据;
143.第一确定模块6023,用于将随机插入词语后的文本数据作为增强后的文本数据。
144.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
145.图7是根据本技术实施例七提供的一种文本增强处理装置的结构示意图。实施例七中的装置70包括如下:
146.获取单元701,用于获取至少两个分类标签以及分类标签对应的文本数据,根据分类标签对应的文本数据的数量,确定待处理文本数据。
147.增强处理单元702,用于对待处理文本数据进行增强处理,得到增强后的文本数
据;其中,增强处理包括:同义词替换、随机插入词语、随机交换词语、随机删除词语中的至少一个以及对待处理文本数据语义处理。
148.计算单元703,用于计算增强后的文本数据与待处理文本数据的语义相似度,得到语义相似度结果,根据语义相似度结果确定训练样本数据。
149.在一个示例中,增强处理单元702,包括:
150.第三处理模块7021,用于对待处理文本数据进行分词处理,得到待处理文本数据中的多个词语;
151.交换模块7022,用于对多个词语进行语义识别,得到语义识别结果,识别语义识别结果中至少两个词语的位置,交换至少两个词语的位置上的词语,得到随机交换词语后的文本数据;
152.第二确定模块7023,用于将随机交换词语后的文本数据作为增强后的文本数据。
153.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
154.图8是根据本技术实施例八提供的一种文本增强处理装置的结构示意图。实施例八中的装置80包括如下:
155.获取单元801,用于获取至少两个分类标签以及分类标签对应的文本数据,根据分类标签对应的文本数据的数量,确定待处理文本数据。
156.增强处理单元802,用于对待处理文本数据进行增强处理,得到增强后的文本数据;其中,增强处理包括:同义词替换、随机插入词语、随机交换词语、随机删除词语中的至少一个以及对待处理文本数据语义处理。
157.计算单元803,用于计算增强后的文本数据与待处理文本数据的语义相似度,得到语义相似度结果,根据语义相似度结果确定训练样本数据。
158.在一个示例中,增强处理单元802,包括:
159.第四处理模块8021,用于对待处理文本数据进行分词处理,得到待处理文本数据中的多个词语;
160.删除模块8022,用于对多个词语进行语义识别,得到语义识别结果,识别语义识别结果中每一个词语,任意删除其中一个词语,得到随机删除词语后的文本数据;
161.第三确定模块8023,用于将随机删除词语后的文本数据作为增强后的文本数据。
162.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
163.图9是根据一示例性实施例示出的一种电子设备的框图,该设备可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
164.装置900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(i/o)接口912,传感器组件914,以及通信组件916。
165.处理组件902通常控制装置900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便
于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
166.存储器904被配置为存储各种类型的数据以支持在装置900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
167.电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理系统,一个或多个电源,及其他与为装置900生成、管理和分配电力相关联的组件。
168.多媒体组件908包括在装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当装置900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
169.音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(mic),当装置900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
170.i/o接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
171.传感器组件914包括一个或多个传感器,用于为装置900提供各个方面的状态评估。例如,传感器组件914可以检测到装置900的打开/关闭状态,组件的相对定位,例如所述组件为装置900的显示器和小键盘,传感器组件914还可以检测装置900或装置900一个组件的位置改变,用户与装置900接触的存在或不存在,装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
172.通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件916还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
173.在示例性实施例中,装置900可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
174.在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由装置900的处理器920执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
175.一种非临时性计算机可读存储介质,当该存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述电子设备的嵌入参数缓存方法。
176.本技术还公开了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如本实施例中所述的方法。
177.本技术以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
178.用于实施本技术的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或电子设备上执行。
179.在本技术的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
180.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
181.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据
电子设备)、或者包括中间件部件的计算系统(例如,应用电子设备)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
182.计算机系统可以包括客户端和电子设备。客户端和电子设备一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-电子设备关系的计算机程序来产生客户端和电子设备的关系。电子设备可以是云电子设备,又称为云计算电子设备或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务("virtual private server",或简称"vps")中,存在的管理难度大,业务扩展性弱的缺陷。电子设备也可以为分布式系统的电子设备,或者是结合了区块链的电子设备。应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本技术中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本技术公开的技术方案所期望的结果,本文在此不进行限制。
183.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求书指出。
184.应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求书来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献