一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

比喻句式特征词语提取方法、装置、介质及设备与流程

2021-12-17 21:59:00 来源:中国专利 TAG:


1.本技术涉及电子通信技术领域,尤其涉及一种比喻句式特征词语提取技术领域,特别涉及一种比喻句式特征词语提取方法、装置、介质及设备。


背景技术:

2.比喻句式在文学和诗歌中有着非常广泛的应用,可以激发读者的想象力,比喻句一般是将一个对象(本体)比喻为另一个对象(喻体),所以比喻句中包含本体和喻体构成的比喻句式特征词语组合。通过比喻句式特征词语组合的提示,可以让用户写出富有创造力的内容。
3.目前,存在可以识别比喻句式特征词语组合的检测模型,但是该检测模型的训练需要大量带有标签的训练样本。也即相关技术中需要人工阅读大量语句挑选出数量较多的比喻句作为样本,再设置样本中的比喻句式特征词语组合作为样本标签,才能训练出检测效果比较好的检测模型,所以相关技术中训练样本的获取难度不仅大,而且还增加了人工成本。


技术实现要素:

4.本技术实施例提供一种比喻句式特征词语提取方法、装置、介质及设备,能够解决现有的训练样本获取方式需要依赖人工获取,训练样本的获取难度不仅大,而且还增加了人工成本的问题。
5.本技术实施例一方面提供了一种比喻句式特征词语提取方法,包括:
6.获取比喻句式特征词语组合;
7.基于所述比喻句式特征词语组合进行比喻句式扩充处理,得到包含所述比喻句式特征词语组合的新增语句;
8.对所述新增语句设置标签,所述标签用于表示所述新增语句包含比喻句式特征词语组合,将设置所述标签的新增语句作为预训练的比喻句式特征词语提取模型新增的第一训练样本,以迭代训练所述预训练的比喻句式特征词语提取模型,得到训练完成的比喻句式特征词语提取模型,以通过所述训练完成的比喻句式特征词语提取模型对待处理语句进行比喻句式特征词语组合的提取。
9.在本技术实施例所述的比喻句式特征词语提取方法中,所述比喻句式特征词语组合包括本体词语及喻体词语。
10.在本技术实施例所述的比喻句式特征词语提取方法中,所述获取比喻句式特征词语组合,包括:
11.获取预先构建的比喻句式特征词语组合;或者
12.通过预训练的比喻句式特征词语提取模型识别第二训练样本是否包含所述比喻句式特征词语组合,若是,则获取所述第二训练样本中的比喻句式特征词语组合。
13.在本技术实施例所述的比喻句式特征词语提取方法中,在所述通过预训练的比喻
句式特征词语提取模型识别第二训练样本是否包含所述比喻句式特征词语组合之前,所述方法还包括:
14.获取待训练的比喻句式特征词语提取的第三训练样本,所述第三训练样本包括设置有标签的第一语句,所述标签用于指示所述第一语句中是否包含比喻句式特征词语组合;
15.通过所述待训练的比喻句式特征词语提取模型对所述第三训练样本中的第一语句进行特征提取得到与所述第一语句对应的第一文本特征向量;
16.通过所述待训练的比喻句式特征词语提取模型,基于所述第一文本特征向量判断所述第三训练样本中的第一语句中是否包含比喻句式特征词语组合,得到所述第一语句的第一识别结果;
17.基于所述第一识别结果及所述第一语句的标签,调整所述待训练的比喻句式特征词语提取的参数,得到所述预训练的比喻句式特征词语提取模型。
18.在本技术实施例所述的比喻句式特征词语提取方法中,所述基于所述比喻句式特征词语组合进行比喻句扩充处理,得到包含所述比喻句式特征词语组合的新增语句,包括:
19.根据所述比喻句式特征词语组合从语料库中进行语句匹配,确定出所述语料库的语料数据中包含所述比喻句式特征词语组合的第二语句;
20.通过预训练的比喻判别器从所述第二语句中筛选出按照第一预设编排规则编排的第三语句;
21.通过预训练的比喻蕴含分类器从所述第三语句中筛选出按照第二预设编排规则编排的第四语句;
22.将所述第四语句作为所述新增语句。
23.在本技术实施例所述的比喻句式特征词语提取方法中,在所述通过预训练的比喻判别器从所述第二语句中筛选出按照第一预设编排规则编排的第三语句之前,所述方法还包括:
24.获取待训练的比喻判别器的第四训练样本,所述第四训练样本包括设置有标签的第五语句,所述标签用于指示所述第五语句是否为按照第一预设编排规则编排;
25.通过所述待训练的比喻判别器对所述第四训练样本中的第五语句进行特征提取得到与所述第五语句对应的第四文本特征向量;
26.通过所述待训练的比喻判别器,基于所述第二文本特征向量判断所述第四训练样本中的第五语句是否为按照所述第一预设编排规则编排,得到与所述第五语句对应的第二识别结果;
27.基于所述第二识别结果及所述第四训练样本的标签,调整所述待训练的比喻判别器的参数,得到预训练的所述比喻判别器。
28.在本技术实施例所述的比喻句式特征词语提取方法中,在所述通过预训练的比喻蕴含分类器从所述第三语句中筛选出句式类型为比喻句式的第四语句之前,所述方法还包括:
29.获取待训练的比喻蕴含分类器的第五训练样本,所述第五训练样本包括设置有标签的第六语句,所述标签用于指示所述语句是否为按照第一预设编排规则编排;
30.通过所述待训练的比喻蕴含分类器对所述第五训练样本中的语句进行特征提取
得到与所述语句对应的第三文本特征向量;
31.通过所述待训练的比喻蕴含分类器,基于所述第五文本特征向量判断所述第五训练样本中的第六语句是否为按照所述第二预设编排规则编排,得到与所述第六语句对应的第三识别结果;
32.基于所述第三识别结果及所述第六语句的标签,调整所述待训练的比喻蕴含分类器的参数,得到预训练的所述比喻蕴含分类器。
33.在本技术实施例所述的比喻句式特征词语提取方法中,所述编排格式规则包括:每个所述第一语句中包含的所述比喻句式特征词语组合的数量为1,且所述比喻句式词语组中的本体词语数量为1,所述喻体词语的数量至少为1。
34.在本技术实施例所述的比喻句式特征词语提取方法中,所述第二编排格式规则包括:每个所述第三语句中的所述比喻句式特征词语组合为预先构建的给定特征词语组,且所述比喻句式特征词语组合中的本体与喻体排列顺序为按照预先设置的给定排列顺序。
35.相应的,本技术实施例另一方面还提供了一种比喻句式特征词语提取装置,包括:
36.数据获取模块,用于获取比喻句式特征词语组合,每个所述比喻句式特征词语组合包括至少两个体现比喻句式特征的词语;
37.语句扩充模块,用于基于所述比喻句式特征词语组合进行比喻句式扩充处理,得到包含所述比喻句式特征词语组合的新增语句;
38.语句识别模块,用于通过预训练的比喻句式特征词语提取识别所述新增语句是否为比喻句式,得到所述新增语句的第一识别结果;
39.模型迭代模块,用于基于所述第一识别结果对所述新增语句设置标签,所述标签用于表示所述新增语句包含比喻句式特征词语组合,将设置所述标签的新增语句作为预训练的比喻句式特征词语提取模型新增的第一训练样本,以迭代训练所述预训练的比喻句式特征词语提取模型,得到训练完成的比喻句式特征词语提取模型,以通过所述训练完成的比喻句式特征词语提取模型对待处理语句进行比喻句式特征词语组合的提取。
40.相应的,本技术实施例另一方面还提供了一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行如上所述的比喻句式特征词语提取方法。
41.相应的,本技术实施例另一方面还提供了一种终端设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器加载所述指令以执行如上所述的比喻句式特征词语提取方法。
42.本技术实施例提供了一种比喻句式特征词语提取方法、装置、介质及设备,该方法通过获取比喻句式特征词语组合;基于所述比喻句式特征词语组合进行比喻句式扩充处理,得到包含所述比喻句式特征词语组合的新增语句;对所述新增语句设置标签,所述标签用于表示所述新增语句包含比喻句式特征词语组合,将设置所述标签的新增语句作为预训练的比喻句式特征词语提取模型新增的第一训练样本,以迭代训练所述预训练的比喻句式特征词语提取模型,得到训练完成的比喻句式特征词语提取模型,以通过所述训练完成的比喻句式特征词语提取模型对待处理语句进行比喻句式特征词语组合的提取。本技术实施例不需要依赖人工获取训练样本,降低了训练样本的获取难度,节省了人工成本。
附图说明
43.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
44.图1为本技术实施例提供的比喻句式特征词语提取方法的流程示意图。
45.图2为本技术实施例提供的比喻句式特征词语提取装置的结构示意图。
46.图3为本技术实施例提供的比喻句式特征词语提取装置的另一种结构示意图。
47.图4为本技术实施例提供的终端设备的结构示意图。
具体实施方式
48.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本技术的保护范围。
49.本技术实施例提供一种比喻句式特征词语提取方法,所述比喻句式特征词语提取方法可以应用于终端设备中。所述终端设备可以是智能手机、平板电脑等设备。
50.比喻句式在文学和诗歌中有着非常广泛的应用,可以激发读者的想象力,比喻句一般是将一个对象(本体)比喻为另一个对象(喻体),所以比喻句中包含本体和喻体构成的比喻句式特征词语组合。通过比喻句式特征词语组合的提示,可以让用户写出富有创造力的内容。
51.目前,存在可以识别比喻句式特征词语组合的检测模型,但是该检测模型的训练需要大量带有标签的训练样本。也即相关技术中需要人工阅读大量语句挑选出数量较多的比喻句作为样本,再设置样本中的比喻句式特征词语组合作为样本标签,才能训练出检测效果比较好的检测模型,所以相关技术中训练样本的获取难度不仅大,而且还增加了人工成本。
52.为了解决上述技术问题,本技术实施例提供一种比喻句式特征词语提取方法。利用本技术实施例提供的比喻句式特征词语提取方法,能够根据比喻句式特征词语组合进行比喻句式扩充处理,得到包含比喻句式特征词语组合的新增语句,并为新增语句打上标签后,自动将打上标签的新增语句作为比喻句式特征词语提取新增的第一训练样本,以迭代训练比喻句式判断模型,使得本技术实施例能够不断更新迭代,提升模型自身的鲁棒性和识别比喻句式的准确性,同时,本技术实施例不需要依赖人工获取训练样本,降低了训练样本的获取难度,节省了人工成本。
53.请参阅图1,图1为本技术实施例提供的比喻句式特征词语提取方法的流程示意图。所述比喻句式特征词语提取方法,应用于终端设备中,所述方法可以包括以下步骤:
54.步骤101,获取比喻句式特征词语组合。
55.在本实施例中,比喻句式特征词语组合指的是包括至少两个能够体现比喻句式特征的词语,也称为命名主体,同一个比喻句式特征词语组合包括的至少两个词语之间具有较强的关联性。在本技术中,体现比喻句式的词语主要指的是比喻句式中的本体词语和喻
体词语。本体词语可以理解为主语,通常是一个名词词组、或者称为逻辑对象,例如“云朵”。喻体词语是指本体词语的比较对象,通常也是名词词组,例如“棉花糖”。除了本体词语与喻体词语之外,还包含比较词,例如“像”、“仿佛”等将本体词语与喻体词语关联起来的词语。按照比喻句式构建规则生成的比喻句式可以是:“云朵像棉花糖”。
56.其中,比喻句式特征词语组合的获取来源包括以下步骤:
57.获取预先构建的比喻句式特征词语组合,即通过人为构建包括本体词语及喻体词语的比喻句式特征词语组合,或者依赖经验从已有的文学作品中摘取包括本体词语及喻体词语的比喻句式特征词语组合。举例来说,“云朵,棉花糖”就是构成一个比喻句式特征词语组合;
58.在另一实施例中,比喻句式特征词语组合的获取来源还可以包括以下步骤:
59.通过预训练的比喻句式特征词语提取识别第二训练样本是否包含所述比喻句式特征词语组合,若是,则获取所述第二训练样本中的比喻句式特征词语组合。
60.在另一实施例中,比喻句式特征词语组合的获取来源还可以包括上述两种情况的结合。
61.需要解释的是,在通过预训练的比喻句式特征词语提取识别第二训练样本是否包含所述比喻句式特征词语组合之前,所述方法还包括以下步骤(此为解释上述预训练的比喻句式特征词语提取的训练过程):
62.获取待训练的比喻句式特征词语提取模型的第三训练样本,所述第三训练样本包括设置有标签的第一语句,所述标签用于指示所述第一语句中是否包含比喻句式特征词语组合;
63.通过所述待训练的比喻句式特征词语提取模型对所述第三训练样本中的第一语句进行特征提取得到与所述第一语句对应的第一文本特征向量;
64.通过所述待训练的比喻句式特征词语提取模型,基于所述第一文本特征向量判断所述第三训练样本中的第一语句中是否包含比喻句式特征词语组合,得到所述第一语句的第一识别结果;
65.基于所述第一识别结果及所述第一语句的标签,调整所述待训练的比喻句式特征词语提取的参数,得到预训练的所述比喻句式特征词语提取模型。
66.需要说明的是,本方案中“待训练的比喻句式特征词语提取模型”指的是最原始的神经网络模型,还未进行样本训练。“预训练的比喻句式特征词语提取模型”指的是通过少量有标签的样本进行训练得到具备一定词语提取功能的中间模型,其精确度较弱。“完成训练的比喻句式特征词语提取模型”指的是基于新增样本得到大量有标签的样本进行训练得到词语提取功能更佳的目标模型。
67.步骤102,基于所述比喻句式特征词语组合进行比喻句式扩充处理,得到包含所述比喻句式特征词语组合的新增语句。
68.在本实施例中,为了解决现有神经网络模型中训练样本数量不易获取或数量少的问题,本技术通过基于获取到的比喻句式特征词语进行比喻句式扩充处理,得到包含比喻句式特征词语组合的新增语句。
69.其中,所述基于所述比喻句式特征词语组合进行比喻句扩充处理,得到包含所述比喻句式特征词语组合的新增语句的具体过程,包括:
70.根据所述比喻句式特征词语组合从语料库中进行语句匹配,确定出所述语料库的语料数据中包含所述比喻句式特征词语组合的第二语句。比喻句式特征词语组合以“云朵,棉花糖”为例,假如语料库中包含大量语料数据,例如语句a:“云朵如同棉花糖一样”、语句b:“这朵花像棉花糖”、语句c:“湖面像一面镜子”,语句d:“棉花糖好像云朵”、语句e:“云朵很好看”等。
71.通过预训练的比喻判别器从所述第二语句中筛选出按照第一预设编排规则编排的第三语句。预训练的比喻判别器具备从大量第二语句中筛选出按照第一预设编排规则编排的第三语句的功能,第一预设编排规则包括:每个第二语句中的比喻句式特征词语组合的数量为1,且比喻句式词语组中的本体词语数量为1,所述喻体词语的数量至少为1。符合第一预设编排规则的语句只有语句a、b、c、d四个语句。
72.由于只有语句a和d包含了比喻句式特征词语组合以“云朵,棉花糖”。
73.通过预训练的比喻蕴含分类器从所述第三语句中筛选出按照第二预设编排规则编排的第四语句。预训练的比喻蕴含分类器具有从大量第三语句中筛选出按照第二预设编排规则编排的第四语句的功能。第二编排格式规则包括:每个第三语句中的比喻句式特征词语组合为预先构建的给定特征词语组,且比喻句式特征词语组合中的本体与喻体排列顺序为按照预先设置的给定排列顺序。具体地说,以比喻句式特征词语组合“云朵,棉花糖”作为给定特征词语组,同时限定云朵在语句中出现的顺序是在棉花糖之前,即给定排列顺序。符合第二预设编排规则的语句只有语句a:“云朵如同棉花糖一样”。
74.将所述第四语句作为所述新增语句,即上述比喻句式。
75.需要解释的是,预训练的比喻判别器的训练过程具体包括:
76.获取待训练的比喻判别器的第四训练样本,所述第四训练样本包括设置有标签的第五语句,所述标签用于指示所述第五语句是否为按照第一预设编排规则编排;
77.通过所述待训练的比喻判别器对所述第四训练样本中的第五语句进行特征提取得到与所述第五语句对应的第二文本特征向量;
78.通过所述待训练的比喻判别器,基于所述第二文本特征向量判断所述第四训练样本中的第五语句是否为按照所述第一预设编排规则编排,得到与所述第五语句对应的第二识别结果;
79.基于所述第二识别结果及所述第五语句的标签,调整所述待训练的比喻判别器的参数,得到预训练的所述比喻判别器。
80.预训练的比喻蕴含分类器的训练过程具体包括:
81.获取待训练的比喻蕴含分类器的第五训练样本,所述第五训练样本包括设置有标签的第六语句,所述标签用于指示所述语句是否为按照第一预设编排规则编排;
82.通过所述待训练的比喻蕴含分类器对所述第五训练样本中的语句进行特征提取得到与所述语句对应的第三文本特征向量;
83.通过所述待训练的比喻蕴含分类器,基于所述第三文本特征向量判断所述第五训练样本中的第六语句是否为按照所述第二预设编排规则编排,得到与所述第六语句对应的第三识别结果;
84.基于所述第三识别结果及所述第六语句的标签,调整所述待训练的比喻蕴含分类器的参数,得到预训练的所述比喻蕴含分类器。
85.步骤103,对所述新增语句设置标签,所述标签用于表示所述新增语句包含比喻句式特征词语组合,将设置所述标签的新增语句作为预训练的比喻句式特征词语提取模型新增的第一训练样本,以迭代训练所述预训练的比喻句式特征词语提取模型,得到训练完成的比喻句式特征词语提取模型,以通过所述训练完成的比喻句式特征词语提取模型对待处理语句进行比喻句式特征词语组合的提取。
86.在本实施例中,得到新增语句后,给新增语句设置标签(即标识为比喻句式),将设置标签的新增语句作为比喻句式特征词语提取新增的第一训练样本,以迭代训练比喻句式特征词语提取,以通过训练完成的比喻句式特征词语提取模型对待处理语句进行比喻句式特征词语组合的提取。
87.上述所有可选技术方案,可以采用任意结合形成本技术的可选实施例,在此不再一一赘述。
88.具体实施时,本技术不受所描述的各个步骤的执行顺序的限制,在不产生冲突的情况下,某些步骤还可以采用其它顺序进行或者同时进行。
89.由上可知,本技术实施例提供的比喻句式特征词语提取方法通过获取比喻句式特征词语组合;基于所述比喻句式特征词语组合进行比喻句式扩充处理,得到包含所述比喻句式特征词语组合的新增语句;对所述新增语句设置标签,所述标签用于表示所述新增语句包含比喻句式特征词语组合,将设置所述标签的新增语句作为预训练的比喻句式特征词语提取模型新增的第一训练样本,以迭代训练所述预训练的比喻句式特征词语提取模型,得到训练完成的比喻句式特征词语提取模型,以通过所述训练完成的比喻句式特征词语提取模型对待处理语句进行比喻句式特征词语组合的提取。本技术实施例能够根据比喻句式特征词语组合进行比喻句式扩充处理,得到包含比喻句式特征词语组合的新增语句,并为新增语句打上标签后,自动将打上标签的新增语句作为比喻句式特征词语提取新增的第一训练样本,以迭代训练比喻句式判断模型,使得本技术实施例能够不断更新迭代,提升模型自身的鲁棒性和识别比喻句式的准确性,同时,本技术实施例不需要依赖人工获取训练样本,降低了训练样本的获取难度,节省了人工成本。
90.本技术实施例还提供一种比喻句式特征词语提取装置,所述比喻句式特征词语提取装置可以集成在终端设备中。所述终端设备可以是智能手机、平板电脑等设备。
91.请参阅图2,图2为本技术实施例提供的比喻句式特征词语提取装置的结构示意图。比喻句式特征词语提取装置30可以包括:
92.数据获取模块31,用于获取比喻句式特征词语组合;
93.语句扩充模块32,用于基于所述比喻句式特征词语组合进行比喻句式扩充处理,得到包含所述比喻句式特征词语组合的新增语句;
94.模型迭代模块33,用于对所述新增语句设置标签,所述标签用于表示所述新增语句包含比喻句式特征词语组合,将设置所述标签的新增语句作为预训练的比喻句式特征词语提取模型新增的第一训练样本,以迭代训练所述预训练的比喻句式特征词语提取模型,得到训练完成的比喻句式特征词语提取模型,以通过所述训练完成的比喻句式特征词语提取模型对待处理语句进行比喻句式特征词语组合的提取。
95.在一些实施例中,所述数据获取模块31,用于获取预先构建的比喻句式特征词语组合;或者通过预训练的比喻句式特征词语提取识别第二训练样本是否包含所述比喻句式
特征词语组合,若是,则获取所述第二训练样本中的比喻句式特征词语组合。
96.在一些实施例中,所述装置还包括第一预训练模块,用于获取待训练的比喻句式特征词语提取的第三训练样本,所述第三训练样本包括设置有标签的第一语句,所述标签用于指示所述第一语句中是否包含比喻句式特征词语组合;通过所述待训练的比喻句式特征词语提取模型对所述第三训练样本中的第一语句进行特征提取得到与所述第一语句对应的第一文本特征向量;通过所述待训练的比喻句式特征词语提取模型,基于所述第一文本特征向量判断所述第三训练样本中的第一语句中是否包含比喻句式特征词语组合,得到所述第一语句的第一识别结果;基于所述第一识别结果及所述第一语句的标签,调整所述待训练的比喻句式特征词语提取的参数,得到预训练的所述比喻句式特征词语提取模型。
97.在一些实施例中,所述语句扩充模块32,用于根据所述比喻句式特征词语组合从语料库中进行语句匹配,确定出所述语料库的语料数据中包含所述比喻句式特征词语组合的第二语句;通过预训练的比喻判别器从所述第二语句中筛选出按照第一预设编排规则编排的第三语句;通过预训练的比喻蕴含分类器从所述第三语句中筛选出按照第二预设编排规则编排的第四语句;将所述第四语句作为所述新增语句。
98.在一些实施例中,所述装置还包括第二预训练模块,用于获取待训练的比喻判别器的第四训练样本,所述第四训练样本包括设置有标签的第五语句,所述标签用于指示所述第五语句是否为按照第一预设编排规则编排;通过所述待训练的比喻判别器对所述第四训练样本中的第五语句进行特征提取得到与所述第五语句对应的第二文本特征向量;通过所述待训练的比喻判别器,基于所述第二文本特征向量判断所述第四训练样本中的第五语句是否为按照所述第一预设编排规则编排,得到与所述第五语句对应的第二识别结果;基于所述第二识别结果及所述第二训练样本的标签,调整所述待训练的比喻判别器的参数,得到预训练的所述比喻判别器。
99.在一些实施例中,所述装置还包括第三预训练模块,用于通过所述待训练的比喻蕴含分类器对所述第三训练样本中的语句进行特征提取得到与所述语句对应的第三文本特征向量;通过所述待训练的比喻蕴含分类器,基于所述第三文本特征向量判断所述第五训练样本中的第六语句是否为按照所述第二预设编排规则编排,得到与所述第六语句对应的第三识别结果;基于所述第三识别结果及所述第五训练样本的标签,调整所述待训练的比喻蕴含分类器的参数,得到预训练的所述比喻蕴含分类器。
100.具体实施时,以上各个模块可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现。
101.由上可知,本技术实施例提供的比喻句式特征词语提取装置30,通过数据获取模块31获取比喻句式特征词语组合;语句扩充模块32基于所述比喻句式特征词语组合进行比喻句式扩充处理,得到包含所述比喻句式特征词语组合的新增语句;模型迭代模块33对所述新增语句设置标签,所述标签用于表示所述新增语句包含比喻句式特征词语组合,将设置所述标签的新增语句作为预训练的比喻句式特征词语提取模型新增的第一训练样本,以迭代训练所述预训练的比喻句式特征词语提取模型,得到训练完成的比喻句式特征词语提取模型,以通过所述训练完成的比喻句式特征词语提取模型对待处理语句进行比喻句式特征词语组合的提取。
102.请参阅图3,图3为本技术实施例提供的比喻句式特征词语提取装置的另一结构示
意图,振动比喻句式特征词语提取装置30包括存储器120、一个或多个处理器180、以及一个或多个应用程序,其中该一个或多个应用程序被存储于该存储器120中,并配置为由该处理器180执行;该处理器180可以包括数据获取模块31,语句扩充模块32,以及模型迭代模块33。例如,以上各个部件的结构和连接关系可以如下:
103.存储器120可用于存储应用程序和数据。存储器120存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器180通过运行存储在存储器120的应用程序,从而执行各种功能应用以及数据处理。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器120还可以包括存储器控制器,以提供处理器180对存储器120的访问。
104.处理器180是装置的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器120内的应用程序,以及调用存储在存储器120内的数据,执行装置的各种功能和处理数据,从而对装置进行整体监控。可选的,处理器180可包括一个或多个处理核心;优选的,处理器180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等。
105.具体在本实施例中,处理器180会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器120中,并由处理器180来运行存储在存储器120中的应用程序,从而实现各种功能:
106.数据获取模块31,用于获取比喻句式特征词语组合;
107.语句扩充模块32,用于基于所述比喻句式特征词语组合进行比喻句式扩充处理,得到包含所述比喻句式特征词语组合的新增语句;
108.模型迭代模块33,用于对所述新增语句设置标签,所述标签用于表示所述新增语句包含比喻句式特征词语组合,将设置所述标签的新增语句作为预训练的比喻句式特征词语提取模型新增的第一训练样本,以迭代训练所述预训练的比喻句式特征词语提取模型,得到训练完成的比喻句式特征词语提取模型,以通过所述训练完成的比喻句式特征词语提取模型对待处理语句进行比喻句式特征词语组合的提取。
109.在一些实施例中,所述数据获取模块31,用于获取预先构建的比喻句式特征词语组合;或者通过预训练的比喻句式特征词语提取识别第二训练样本是否包含所述比喻句式特征词语组合,若是,则获取所述第二训练样本中的比喻句式特征词语组合。
110.在一些实施例中,所述装置还包括第一预训练模块,用于获取待训练的比喻句式特征词语提取的第三训练样本,所述第三训练样本包括设置有标签的第一语句,所述标签用于指示所述第一语句中是否包含比喻句式特征词语组合;通过所述待训练的比喻句式特征词语提取模型对所述第三训练样本中的第一语句进行特征提取得到与所述第一语句对应的第一文本特征向量;通过所述待训练的比喻句式特征词语提取模型,基于所述第一文本特征向量判断所述第三训练样本中的第一语句中是否包含比喻句式特征词语组合,得到所述第一语句的第一识别结果;基于所述第一识别结果及所述第一语句的标签,调整所述待训练的比喻句式特征词语提取的参数,得到预训练的所述比喻句式特征词语提取模型。
111.在一些实施例中,所述语句扩充模块32,用于根据所述比喻句式特征词语组合从语料库中进行语句匹配,确定出所述语料库的语料数据中包含所述比喻句式特征词语组合
的第二语句;通过预训练的比喻判别器从所述第二语句中筛选出按照第一预设编排规则编排的第三语句;通过预训练的比喻蕴含分类器从所述第三语句中筛选出按照第二预设编排规则编排的第四语句;将所述第四语句作为所述新增语句。
112.在一些实施例中,所述装置还包括第二预训练模块,用于获取待训练的比喻判别器的第四训练样本,所述第四训练样本包括设置有标签的第五语句,所述标签用于指示所述第五语句是否为按照第一预设编排规则编排;通过所述待训练的比喻判别器对所述第四训练样本中的第五语句进行特征提取得到与所述第五语句对应的第二文本特征向量;通过所述待训练的比喻判别器,基于所述第二文本特征向量判断所述第四训练样本中的第五语句是否为按照所述第一预设编排规则编排,得到与所述第五语句对应的第二识别结果;基于所述第二识别结果及所述第二训练样本的标签,调整所述待训练的比喻判别器的参数,得到预训练的所述比喻判别器。
113.在一些实施例中,所述装置还包括第三预训练模块,用于通过所述待训练的比喻蕴含分类器对所述第三训练样本中的语句进行特征提取得到与所述语句对应的第三文本特征向量;通过所述待训练的比喻蕴含分类器,基于所述第三文本特征向量判断所述第五训练样本中的第六语句是否为按照所述第二预设编排规则编排,得到与所述第六语句对应的第三识别结果;基于所述第三识别结果及所述第五训练样本的标签,调整所述待训练的比喻蕴含分类器的参数,得到预训练的所述比喻蕴含分类器。
114.本技术实施例还提供一种终端设备。所述终端设备可以是智能手机、电脑、平板电脑等设备。
115.请参阅图4,图4示出了本技术实施例提供的终端设备的结构示意图,该终端设备可以用于实施上述实施例中提供的比喻句式特征词语提取方法。该终端设备1200可以为智能手机或平板电脑。
116.如图4所示,终端设备1200可以包括rf(radio frequency,射频)电路110、包括有一个或一个以上(图中仅示出一个)计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、传输模块170、包括有一个或者一个以上(图中仅示出一个)处理核心的处理器180以及电源190等部件。本领域技术人员可以理解,图4中示出的终端设备1200结构并不构成对终端设备1200的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
117.rf电路110用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯。rf电路110可包括各种现有的用于执行这些功能的电路元件,例如,天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(sim)卡、存储器等等。rf电路110可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。
118.存储器120可用于存储软件程序以及模块,如上述实施例中比喻句式特征词语提取方法对应的程序指令/模块,处理器180通过运行存储在存储器120内的软件程序以及模块,从而执行各种功能应用以及数据处理,可以根据终端设备所处的当前场景来自动选择振动提醒模式来进行比喻句式特征词语提取,既能够保证会议等场景不被打扰,又能保证用户可以感知来电,提升了终端设备的智能性。存储器120可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。
在一些实例中,存储器120可进一步包括相对于处理器180远程设置的存储器,这些远程存储器可以通过网络连接至终端设备1200。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
119.输入单元130可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器180,并能接收处理器180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131,输入单元130还可以包括其他输入设备132。具体地,其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
120.显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端设备1200的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141,可选的,可以采用lcd(liquid crystal display,液晶显示器)、oled(organic light

emitting diode,有机发光二极管)等形式来配置显示面板141。进一步的,触敏表面131可覆盖显示面板141,当触敏表面131检测到在其上或附近的触摸操作后,传送给处理器180以确定触摸事件的类型,随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图4中,触敏表面131与显示面板141是作为两个独立的部件来实现输入和输出功能,但是在某些实施例中,可以将触敏表面131与显示面板141集成而实现输入和输出功能。
121.终端设备1200还可包括至少一种传感器150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板141的亮度,接近传感器可在终端设备1200移动到耳边时,关闭显示面板141和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端设备1200还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
122.音频电路160、扬声器161,传声器162可提供用户与终端设备1200之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号,传输到扬声器161,由扬声器161转换为声音信号输出;另一方面,传声器162将收集的声音信号转换为电信号,由音频电路160接收后转换为音频数据,再将音频数据输出处理器180处理后,经rf电路110以发送给比如另一终端,或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔,以提供外设耳机与终端设备1200的通信。
123.终端设备1200通过传输模块170(例如wi

fi模块)可以帮助用户收发电子邮件、浏
览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图4示出了传输模块170,但是可以理解的是,其并不属于终端设备1200的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
124.处理器180是终端设备1200的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器120内的软件程序和/或模块,以及调用存储在存储器120内的数据,执行终端设备1200的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器180可包括一个或多个处理核心;在一些实施例中,处理器180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器180中。
125.终端设备1200还包括给各个部件供电的电源190,在一些实施例中,电源可以通过电源管理系统与处理器180逻辑相连,从而通过电源管理系统实现管理放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
126.尽管未示出,终端设备1200还可以包括摄像头(如前置摄像头、后置摄像头)、蓝牙模块等,在此不再赘述。具体在本实施例中,终端设备1200的显示单元140是触摸屏显示器,终端设备1200还包括有存储器120,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器120中,且经配置以由一个或者一个以上处理器180执行一个或者一个以上程序包含用于进行以下操作的指令:
127.数据获取指令,用于获取比喻句式特征词语组合;
128.语句扩充指令,用于基于所述比喻句式特征词语组合进行比喻句式扩充处理,得到包含所述比喻句式特征词语组合的新增语句;
129.模型迭代指令,用于对所述新增语句设置标签,所述标签用于表示所述新增语句包含比喻句式特征词语组合,将设置所述标签的新增语句作为预训练的比喻句式特征词语提取模型新增的第一训练样本,以迭代训练所述预训练的比喻句式特征词语提取模型,得到训练完成的比喻句式特征词语提取模型,以通过所述训练完成的比喻句式特征词语提取模型对待处理语句进行比喻句式特征词语组合的提取。
130.在一些实施例中,所述数据获取指令,用于获取预先构建的比喻句式特征词语组合;或者通过预训练的比喻句式特征词语提取识别第二训练样本是否包含所述比喻句式特征词语组合,若是,则获取所述第二训练样本中的比喻句式特征词语组合。
131.在一些实施例中,所述装置还包括第一预训练指令,用于获取待训练的比喻句式特征词语提取的第三训练样本,所述第三训练样本包括设置有标签的第一语句,所述标签用于指示所述第一语句中是否包含比喻句式特征词语组合;通过所述待训练的比喻句式特征词语提取模型对所述第三训练样本中的第一语句进行特征提取得到与所述第一语句对应的第一文本特征向量;通过所述待训练的比喻句式特征词语提取模型,基于所述第一文本特征向量判断所述第三训练样本中的第一语句中是否包含比喻句式特征词语组合,得到所述第一语句的第一识别结果;基于所述第一识别结果及所述第一语句的标签,调整所述待训练的比喻句式特征词语提取的参数,得到预训练的所述比喻句式特征词语提取模型。
132.在一些实施例中,所述语句扩充指令,用于根据所述比喻句式特征词语组合从语
料库中进行语句匹配,确定出所述语料库的语料数据中包含所述比喻句式特征词语组合的第二语句;通过预训练的比喻判别器从所述第二语句中筛选出按照第一预设编排规则编排的第三语句;通过预训练的比喻蕴含分类器从所述第三语句中筛选出按照第二预设编排规则编排的第四语句;将所述第四语句作为所述新增语句。
133.在一些实施例中,所述装置还包括第二预训练指令,用于获取待训练的比喻判别器的第四训练样本,所述第四训练样本包括设置有标签的第五语句,所述标签用于指示所述第五语句是否为按照第一预设编排规则编排;通过所述待训练的比喻判别器对所述第四训练样本中的第五语句进行特征提取得到与所述第五语句对应的第二文本特征向量;通过所述待训练的比喻判别器,基于所述第二文本特征向量判断所述第四训练样本中的第五语句是否为按照所述第一预设编排规则编排,得到与所述第五语句对应的第二识别结果;基于所述第二识别结果及所述第二训练样本的标签,调整所述待训练的比喻判别器的参数,得到预训练的所述比喻判别器。
134.在一些实施例中,所述装置还包括第三预训练指令,用于通过所述待训练的比喻蕴含分类器对所述第三训练样本中的语句进行特征提取得到与所述语句对应的第三文本特征向量;通过所述待训练的比喻蕴含分类器,基于所述第三文本特征向量判断所述第五训练样本中的第六语句是否为按照所述第二预设编排规则编排,得到与所述第六语句对应的第三识别结果;基于所述第三识别结果及所述第五训练样本的标签,调整所述待训练的比喻蕴含分类器的参数,得到预训练的所述比喻蕴含分类器。
135.本技术实施例还提供一种终端设备。所述终端设备可以是智能手机、平板电脑等设备。
136.由上可知,本技术实施例提供了一种终端设备1200,所述终端设备1200执行以下步骤:通过获取比喻句式特征词语组合;基于所述比喻句式特征词语组合进行比喻句式扩充处理,得到包含所述比喻句式特征词语组合的新增语句;对所述新增语句设置标签,所述标签用于表示所述新增语句包含比喻句式特征词语组合,将设置所述标签的新增语句作为预训练的比喻句式特征词语提取模型新增的第一训练样本,以迭代训练所述预训练的比喻句式特征词语提取模型,得到训练完成的比喻句式特征词语提取模型,以通过所述训练完成的比喻句式特征词语提取模型对待处理语句进行比喻句式特征词语组合的提取。本技术实施例能够根据比喻句式特征词语组合进行比喻句式扩充处理,得到包含比喻句式特征词语组合的新增语句,并为新增语句打上标签后,自动将打上标签的新增语句作为比喻句式特征词语提取新增的第一训练样本,以迭代训练比喻句式判断模型,使得通过本技术提供的方法训练得到的比喻句式判断模型能够不断更新迭代,提升模型自身的鲁棒性和识别比喻句式的准确性。
137.本技术实施例还提供一种存储介质,所述存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,所述计算机执行上述任一实施例所述的比喻句式特征词语提取方法。
138.需要说明的是,对本技术所述比喻句式特征词语提取方法而言,本领域普通测试人员可以理解实现本技术实施例所述比喻句式特征词语提取方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读存储介质中,如存储在终端设备的存储器中,并被该终端设备内的至少一个处理器执行,在执行
过程中可包括如所述比喻句式特征词语提取方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储器(rom,read only memory)、随机存取记忆体(ram,random access memory)等。
139.对本技术实施例的所述比喻句式特征词语提取装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
140.以上对本技术实施例所提供的比喻句式特征词语提取方法、装置、存储介质及终端设备进行了详细介绍。本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献