一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据生成方法、装置、计算设备及介质与流程

2022-06-05 02:29:18 来源:中国专利 TAG:
1.本说明书一个或多个实施例涉及自然语言处理
技术领域
:,尤其涉及一种数据生成方法、装置、计算设备及介质。
背景技术
::2.表格问答(tableqa)是一种针对自然语言问题,根据表格内容给出答案的任务,上述任务可以描述为:根据用户输入的自然语言形式的问题,在表格集合(包含一个或多个表格)中进行查询,得到对应的答案。在获取到自然语言形式的问题对应的答案后,需要基于获取到的答案生成对应的回复语句,以便可以将所生成的回复语句反馈给用户。3.相关技术中,可以使用预设的模板来进行回复语句的生成,然而,基于预设的模板所生成的回复语句存在配置量大、回复呆板、冗余的问题,因此,亟需一种用于生成回复语句的数据生成方法,来自动生成流畅的自然语言形式的回复语句。技术实现要素:4.有鉴于此,本说明书一个或多个实施例提供一种数据生成方法、装置、计算设备及介质。5.为实现上述目的,本说明书一个或多个实施例提供技术方案如下:6.根据本说明书一个或多个实施例的第一方面,提出了一种数据生成方法,该方法包括:7.获取目标查询词对应的第一查询结果,第一查询结果为表格形式的数据;8.基于第一查询结果,获取多个查询关键词;9.基于多个查询关键词在第一查询结果中进行查询,得到多个查询关键词对应的第二查询结果;10.按照多种类型的设定模板,基于与任一个查询关键词的相似度满足设定条件的目标关键词,以及第二查询结果,生成多个回复语句。11.在一些实施例中,按照多种类型的设定模板,基于与任一个查询关键词的相似度满足设定条件的目标关键词,以及第二查询结果,生成多个回复语句,包括:12.对于任一查询关键词,获取与查询关键词的相似度满足设定条件的目标关键词;13.按照多种类型的设定短语模板,基于多个查询关键词、每个查询关键词对应的目标关键词以及第二查询结果,生成多个候选短语;14.按照多种类型的设定语句模板,对多个候选短语进行排列组合,得到多个回复语句。15.在一些实施例中,获取目标查询词对应的第一查询结果,包括:16.获取满足第一目标条件的目标查询词;17.通过目标搜索引擎,基于目标查询词进行搜索,得到目标查询词对应的第一查询结果。18.在一些实施例中,获取目标查询词对应的第一查询结果之后,该方法还包括:19.对第一查询结果进行数据清洗处理;20.基于第一查询结果,获取多个查询关键词,包括:21.基于经过数据清洗处理的第一查询结果,获取多个查询关键词。22.在一些实施例中,对第一查询结果进行数据清洗处理,包括下述至少一项:23.基于多个黑名单词语,从第一查询结果中删除包括任一个黑名单词语的表格;24.基于第一查询结果中各个表格所包括的表头,从第一查询结果中删除第一设定词语的占比达到第一比例阈值的表头所对应的表格;25.删除第一查询结果中表格行数或表格列数小于设定数量阈值的表格;26.基于第一查询结果中各个数据的出现次数,从第一查询结果中删除出现次数占比达到第二比例阈值的数据所对应的表格;27.基于第一查询结果所包括的各个数据,从第一查询结果中删除由第二设定词语所组成的数据对应的表格。28.在一些实施例中,基于第一查询结果,获取多个查询关键词,包括:29.基于第一查询结果,构建结构化查询sql语句,sql语句中包括多个查询关键词;30.基于多个查询关键词在第一查询结果中进行查询,得到多个查询关键词对应的第二查询结果,包括:31.基于sql语句在第一查询结果中进行查询,得到多个查询关键词对应的第二查询结果。32.在一些实施例中,基于sql语句在第一查询结果中进行查询,得到多个查询关键词对应的第二查询结果之后,该方法还包括:33.基于第二查询结果对sql语句进行过滤,得到目标sql语句;34.按照多种类型的设定模板,基于与任一个查询关键词的相似度满足设定条件的目标关键词,以及第二查询结果,生成多个回复语句,包括:35.按照多种类型的设定模板,基于与目标sql语句中的查询关键词的相似度满足设定条件的目标关键词,以及第二查询结果,生成多个回复语句。36.在一些实施例中,基于第二查询结果对sql语句进行过滤,得到目标sql语句,包括下述至少一项:37.从sql语句中,删除所对应的第二查询结果大于设定数量的sql语句,将剩余的sql语句作为目标sql语句;38.从sql语句中,删除所对应的第二查询结果为空的sql语句,将剩余的sql语句作为目标sql语句。39.根据本说明书一个或多个实施例的第二方面,提出了一种数据生成装置,该装置包括:40.第一获取模块,用于获取目标查询词对应的第一查询结果,第一查询结果为表格形式的数据;41.第二获取模块,用于基于第一查询结果,获取多个查询关键词;42.查询模块,用于基于多个查询关键词在第一查询结果中进行查询,得到多个查询关键词对应的第二查询结果;43.生成模块,用于按照多种类型的设定模板,基于与任一个查询关键词的相似度满足设定条件的目标关键词,以及第二查询结果,生成多个回复语句。44.在一些实施例中,生成模块,在用于按照多种类型的设定模板,基于与任一个查询关键词的相似度满足设定条件的目标关键词,以及第二查询结果,生成多个回复语句时,用于:45.对于任一查询关键词,获取与查询关键词的相似度满足设定条件的目标关键词;46.按照多种类型的设定短语模板,基于多个查询关键词、每个查询关键词对应的目标关键词以及第二查询结果,生成多个候选短语;47.按照多种类型的设定语句模板,对多个候选短语进行排列组合,得到多个回复语句。48.在一些实施例中,第一获取模块,在用于获取目标查询词对应的第一查询结果时,用于:49.获取满足第一目标条件的目标查询词;50.通过目标搜索引擎,基于目标查询词进行搜索,得到目标查询词对应的第一查询结果。51.在一些实施例中,该装置还包括:52.数据清洗模块,用于对第一查询结果进行数据清洗处理;53.第二获取模块,在用于基于第一查询结果,获取多个查询关键词时,用于:54.基于经过数据清洗处理的第一查询结果,获取多个查询关键词。55.在一些实施例中,数据清洗模块,在用于对第一查询结果进行数据清洗处理时,用于下述至少一项:56.基于多个黑名单词语,从第一查询结果中删除包括任一个黑名单词语的表格;57.基于第一查询结果中各个表格所包括的表头,从第一查询结果中删除第一设定词语的占比达到第一比例阈值的表头所对应的表格;58.删除第一查询结果中表格行数或表格列数小于设定数量阈值的表格;59.基于第一查询结果中各个数据的出现次数,从第一查询结果中删除出现次数占比达到第二比例阈值的数据所对应的表格;60.基于第一查询结果所包括的各个数据,从第一查询结果中删除由第二设定词语所组成的数据对应的表格。61.在一些实施例中,第二获取模块,在用于基于第一查询结果,获取多个查询关键词时,用于:62.基于第一查询结果,构建结构化查询sql语句,sql语句中包括多个查询关键词;63.查询模块,在用于基于多个查询关键词在第一查询结果中进行查询,得到多个查询关键词对应的第二查询结果时,用于:64.基于sql语句在第一查询结果中进行查询,得到多个查询关键词对应的第二查询结果。65.在一些实施例中,该装置还包括:66.过滤模块,用于基于第二查询结果对sql语句进行过滤,得到目标sql语句;67.生成模块,在用于按照多种类型的设定模板,基于与任一个查询关键词的相似度满足设定条件的目标关键词,以及第二查询结果,生成多个回复语句时,用于:68.按照多种类型的设定模板,基于与目标sql语句中的查询关键词的相似度满足设定条件的目标关键词,以及第二查询结果,生成多个回复语句。69.在一些实施例中,过滤模块,在用于基于第二查询结果对sql语句进行过滤,得到目标sql语句时,用于下述至少一项:70.从sql语句中,删除所对应的第二查询结果大于设定数量的sql语句,将剩余的sql语句作为目标sql语句;71.从sql语句中,删除所对应的第二查询结果为空的sql语句,将剩余的sql语句作为目标sql语句。72.根据本说明书一个或多个实施例的第三方面,提出了一种计算设备,该计算设备包括:73.处理器;74.用于存储处理器可执行指令的存储器;75.其中,处理器通过运行可执行指令以实现上述第一方面以及第一方面中任一实施例所提供的数据生成方法所执行的操作。76.根据本说明书一个或多个实施例的第四方面,提出了一种计算机可读存储介质,其上存储有计算机指令,指令被处理器执行时实现上述第一方面以及第一方面中任一实施例所提供的数据生成方法所执行的操作。77.根据本说明书一个或多个实施例的第五方面,提出了一种计算机程序产品,包括计算机程序,程序被处理器执行时实现上述第一方面以及第一方面中任一实施例所提供的数据生成方法所执行的操作。78.本技术通过获取目标查询词对应的第一查询结果,从而基于所获取到的第一查询结果,来进行查询关键词的获取,以便基于所获取到的多个查询关键词在第一查询结果中进行查询,以得到多个查询关键词对应的第二查询结果,进而可以按照多种类型的设定模板,基于与任一个查询关键词的相似度满足设定条件的目标关键词,以及第二查询结果,生成多个回复语句,以实现多种类型的自然语言形式的回复语句的自动生成。附图说明79.图1是一示例性实施例提供的一种数据生成方法的流程图。80.图2是一示例性实施例提供的一种回复语句改写情况的示意图。81.图3是一示例性实施例提供的一种回复语句的领域分布情况示意图。82.图4是一示例性实施例提供的一种本技术所生成的数据集与cosql数据集的对比情况示意图。83.图5是一示例性实施例提供的一种数据生成方法的流程图。84.图6是一示例性实施例提供的一种数据生成装置的框图。85.图7是一示例性实施例提供的一种计算设备的示意结构图。具体实施方式86.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。87.需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。88.本技术提供了一种数据生成方法,用于自动生成多种类型的自然语言形式的回复语句,以实现对表格问答过程中可使用的回复语句的扩充,从而将扩充得到的回复语句作为训练语言模型的训练数据。上述数据生成方法可以由计算设备执行,计算设备可以为服务器,如一台服务器、多台服务器、服务器集群、云计算平台等,或者,计算设备可以为终端设备,如台式计算机、便携式计算机、超级计算机等,本技术对计算设备的具体类型不加以限定。89.在一些实施例中,在通过本技术所提供的数据生成方法实现了对表格问答过程中可使用的回复语句的扩充后,可以将扩充得到的回复语句作为语言模型的训练数据,以便可以基于扩充得到的回复语句来对语言模型进行训练,从而得到用于基于自然语言形式的问题自动给出回复语句的语言模型。90.其中,该语言模型可以为多种类型的神经网络模型,例如,该语言模型可以为转换器(transformer)模型、双向长短时记忆(longshort-termmemory,lstm)网络模型、基于转换器的双向编码器表示(bidirectionalencoderrepresentationsfromtransformers,bert)模型,等等,本技术对语言模型的具体类型不加以限定。91.需要说明的是,该语言模型可以用于多种领域的表格问答场景中,例如,政务、金融、教育、运营商、医疗等多种领域的表格问答场景,本技术对该语言模型所应用的具体场景不加以限定。92.上述为有关本技术的应用环境的介绍,下面基于上述内容所介绍的应用环境,来对本技术所提供的数据生成方法进行进一步说明。93.参见图1,图1是一示例性实施例提供的一种数据生成方法的流程图,该方法包括:94.步骤101、获取目标查询词对应的第一查询结果,第一查询结果为表格形式的数据。95.其中,目标查询词可以为多种类型的词语,例如,目标查询词可以为属于医疗领域的词语,或者,目标查询词可以为属于教育领域的词语,或者,目标查询词可以为属于金融领域的词语,等等,本技术对目标查询词的具体类型不加以限定。96.步骤102、基于第一查询结果,获取多个查询关键词。97.步骤103、基于多个查询关键词在第一查询结果中进行查询,得到多个查询关键词对应的第二查询结果。98.步骤104、按照多种类型的设定模板,基于与任一个查询关键词的相似度满足设定条件的目标关键词,以及第二查询结果,生成多个回复语句。99.本技术通过获取目标查询词对应的第一查询结果,从而基于所获取到的第一查询结果,来进行查询关键词的获取,以便基于所获取到的多个查询关键词在第一查询结果中进行查询,以得到多个查询关键词对应的第二查询结果,进而可以按照多种类型的设定模板,基于与任一个查询关键词的相似度满足设定条件的目标关键词,以及第二查询结果,生成多个回复语句,以实现多种类型的自然语言形式的回复语句的自动生成。100.在介绍了本技术的基本实现过程之后,下面结合本技术的多个可选实施例,对本技术所提供的数据生成方法进行进一步说明。101.在一些实施例中,对于步骤101,在获取目标查询词对应的第一查询结果时,可以包括如下步骤:102.步骤1011、获取满足第一目标条件的目标查询词。103.在一种可能的实现方式中,可以从目标数据集中获取满足第一目标条件的目标查询词,第一目标条件可以为词语的使用频次达到第二设定次数阈值,或者,第一目标条件还可以为按照从大到小的顺序对目标数据集中各个词语的使用频次进行排序后,词语的使用频次的排序位于设定位置之前,或者,第一目标条件还可以为其他条件,本技术对第一目标条件的具体类型不加以限定。104.其中,目标数据集可以为任意一种开源数据集,例如,目标数据集可以为中文理解评估(chineselanguageunderstandingevaluation,clue)数据集,或者,目标数据集还可以为其他类型的数据集,本技术对目标数据集的具体类型不加以限定。105.以目标数据集为clue数据集,第一目标条件为词语的使用频次的排序位于设定位置之前为例,在设定位置为100000位的情况下,可以获取clue数据集所包括的各个词语的使用频次,从而按照使用频次从大到小的顺序对各个词语进行排序,以便获取排序位于第100000位之前的各个词语,从而即可得到作为目标查询词的100000个词语。106.步骤1012、通过目标搜索引擎,基于目标查询词进行搜索,得到目标查询词对应的第一查询结果。107.在一种可能的实现方式中,可以将各个目标查询词分别输入至该目标搜索引擎,通过该目标搜索引擎,基于各个目标查询词分别进行搜索,得到各个目标查询词对应的第一查询结果,也即是,包括各个目标查询词所对应的表格形式的数据。108.可选地,在通过目标搜索引擎,基于目标查询词进行搜索,以得到目标检索词对应的第一查询结果时,可以先通过目标搜索引擎,基于目标查询词进行检索,以得到目标检索词对应的表单,进而对获取到的表单进行解析,得到目标查询词对应的表格形式的数据,从而实现第一查询结果的获取。109.其中,目标搜索引擎可以为任意一种搜索引擎,例如,目标搜索引擎可以为谷歌搜索引擎,可选地,目标搜索引擎还可以为其他搜索引擎,本技术对目标搜索引擎的具体类型不加以限定。110.可选地,在获取到目标查询词对应的第一查询结果后,即可基于所获取到的查询结果来进行查询关键词的获取。另外,需要说明的是,由于第一查询结果是基于目标查询词获取到的,因而所获取到的表格数据中会包括至少一个目标查询词,除此之外,表格数据中还可以包括其他词语,而这些词语中可能存在不符合要求的词语,因而,在更多可能的实现方式中,还可以在获取到目标查询词对应的第一查询结果之后,对第一查询结果进行数据清洗处理,以便后续可以基于经过数据清洗处理的第一查询结果,来获取多个查询关键词。111.在一些实施例中,可以通过如下多种方式中的至少一种,来对第一查询结果进行数据清洗处理:112.一、基于多个黑名单词语,从第一查询结果中删除包括任一个黑名单词语的表格。113.其中,这多个黑名单词语可以是预先设置好的,则在获取到目标查询词对应的第一查询结果后,可以在第一查询结果所包括的各个词语中进行检索,以确定第一查询结果所包括的各个表格中是否包括黑名单词语,从而删除包括黑名单词语的表格。114.例如,对于第一查询结果中的任一表格,可以在该表格所包括的各个词语中进行检索,在该表格所包括的词语中存在黑名单词语的情况下,从获取到的第一查询结果中删除该表格;而在该表格所包括的词语中不存在黑名单词语的情况下,则无需删除该表格。115.可选地,黑名单词语可以为多种类型的词语,例如,黑名单词语可以为包括特殊字符、脏话、色情词语、表情(如绘文字emoji表情)的词语,等等,本技术对黑名单词语的具体类型不加以限定。116.二、基于第一查询结果中各个表格所包括的表头,从第一查询结果中删除第一设定词语的占比达到第一比例阈值的表头所对应的表格。117.其中,第一设定词语可以是预先设置好的,则在获取到目标查询词对应的第一查询结果后,可以在第一查询结果中各个表格所包括的表头(包括行名和列名)中进行检索,以确定各个表格的表头中是否包括第一设定词语以及包括第一设定词语的表头中第一设定词语的占比,从而删除表头中包括第一设定词语且第一设定词语的占比达到第一比例阈值的表格。可选地,第一比例阈值可以为任意取值,例如,第一比例阈值可以为70%,本技术对第一比例阈值的具体取值不加以限定。118.例如,对于第一查询结果中的任一表格,可以在该表格所包括的各个表头中进行检索,在该表格所包括的表头中存在第一设定词语的情况下,确定表头中第一设定词语的占比,进而在第一设定词语的占比达到第一比例阈值的情况下,从获取到的第一查询结果中删除该表格;而在该表格所包括的表头中不存在第一设定词语,或者,该表格所包括的表头中存在第一设定词语但第一设定词语的占比未达到第一比例阈值的情况下,则无需删除该表格。119.可选地,第一设定词语可以为多种类型的词语,例如,第一设定词语可以为日期、英文、数字等,本技术对第一设定词语的具体类型不加以限定。120.三、删除第一查询结果中表格行数或表格列数小于设定数量阈值的表格。121.其中,设定数量阈值可以为任意取值,例如,设定数量阈值可以为2,可选地,设定数量阈值还可以为其他取值,本技术对设定数量阈值的具体取值不加以限定。122.以设定数量阈值为2为例,可以删除第一查询结果中表格行数或表格列数小于2的表格。例如,若某个表格仅有一行,则可以从第一查询结果中删除该表格;又例如,若某个表格仅有一列,则可以从第一查询结果中删除该表格。123.四、基于第一查询结果中各个数据的出现次数,从第一查询结果中删除出现次数占比达到第二比例阈值的数据所对应的表格。124.对于第一查询结果中的任一表格,获取该表格中各个数据的出现次数,从而确定各个数据在该表格中的出现次数占比,以便可以在任一数据的出现次数占比达到第二比例阈值的情况下,从第一查询结果中删除该表格。其中,第二比例阈值可以为任意取值,例如,第二比例阈值可以为50%。125.可选地,还可以确定各个数据在所在行或所在列中的出现次数占比,以便可以删除在某一行或某一列的出现次数占比达到第二比例阈值的数据所对应的表格。126.五、基于第一查询结果所包括的各个数据,从第一查询结果中删除由第二设定词语所组成的数据对应的表格。127.例如,对于第一查询结果中的任一表格,可以在该表格所包括的各个词语中进行检索,在该表格所包括的词语中存在仅由第二设定词语所组成的数据的情况下,从第一查询结果中删除该表格;而在该表格所包括的词语中不存在仅由第二设定词语所组成的数据的情况下,则无需删除该表格。128.其中,第二设定词语可以为多种类型的词语,例如,第二设定词语可以为字母、数字、超文本标记语言(hypertextmarkuplanguage,html)符号等,本技术对第二设定词语的具体类型不加以限定。129.通过上述至少一个过程,即可实现对第一查询结果的数据清洗处理,从而可以剔除第一查询结果中不符合要求或无意义的数据所对应的表格,减少因这些不符合要求或无意义的数据带来的影响,从而使得后续数据处理过程无需对这些数据进行处理,进而可以提高后续数据处理过程的效率和准确性。130.需要说明的是,无论是否对第一查询结果进行了数据清洗处理,均可基于第一查询结果来进行查询关键词的获取。在未对第一查询结果进行数据清洗处理的情况下,可以直接基于目标查询词对应的第一查询结果,来获取多个查询关键词;在对第一查询结果进行了数据清洗处理的情况下,可以基于经过数据清洗处理的第一查询结果,来获取多个查询关键词。131.下面以直接基于目标查询词对应的第一查询结果,来获取多个查询关键词为例,来对步骤102的基于第一查询结果,获取多个查询关键词的过程进行说明。132.在一种可能的实现方式中,可以基于第一查询结果,构建结构化查询(structuredquerylanguage,sql)语句,sql语句中包括多个查询关键词。133.例如,可以按照用于指示sql语句所对应的产生式集合的上下文无关文法以及预设的抽象语法树,将表格数据中的数据填充至产生式集合及抽象语法树中相应的位置,以实现sql语句的生成。134.其中,抽象语法树可以如下所示:135.sql=(selectselect,cond?where)136.select=(agg*aggs)137.agg=(agg_typeagg_id,columncol_id)138.agg_type=noneaggop|max|min|or(condleft,condright)|not(condc)139.用于指示sql语句所对应的产生式集合的上下文无关文法可以如下所示:140.sql→select;141.sql→select,cond;142.select→agg;143.select→agg,agg;144.agg→agg_type,column;145.agg_type→noneaggop;146.agg_type→max;147.agg_type→min;148.cond→and;149.cond→or;150.cond→not;151.需要说明的是,上述过程是以直接基于目标查询词对应的第一查询结果,来获取多个查询关键词为例来进行说明的,基于经过数据清洗处理的第一查询结果,来获取多个查询关键词的过程与之同理,此处不再赘述。152.需要说明的是,在获取到多个查询关键词后,即可基于所获取到的查询关键词在第一查询结果中进行查询,在一些实施例中,对于步骤103,在基于多个查询关键词在第一查询结果中进行查询,得到多个查询关键词对应的第二查询结果时,可以通过如下方式实现:153.在第一查询结果所包括的表格的表头中进行检索,以确定以查询关键词作为表头的表格,从而从该表格中查询关键词对应的位置处获取到这多个查询关键词对应的第二查询结果。154.另外,若在获取多个查询关键词时,是通过构建sql语句的方式实现的,则对于步骤103,在基于多个查询关键词在第一查询结果中进行查询,得到多个查询关键词对应的第二查询结果时,可以通过如下方式实现:155.基于sql语句在第一查询结果中进行查询,得到多个查询关键词对应的第二查询结果。156.例如,可以通过执行该sql语句,以在第一查询结果所包括的表格的表头中进行检索,从而确定以查询关键词作为表头的表格,进而从该表格中查询关键词对应的位置处获取到sql语句对应的查询结果,也即是这多个查询关键词对应的第二查询结果。157.此外,在一些实施例中,在获取到第一查询结果后,还可以将第一查询结果所包括的多个表格存储到目标位置,从而得到位于目标位置处的可查询的查询数据集,以便后续可以在可查询的查询数据集中进行查询。158.可选地,目标位置可以为计算设备上的存储位置,或者,目标位置可以为计算设备所关联的存储位置,本技术对此不加以限定。159.其中,查询数据集可以为公开数据集,也即是,查询数据集为可以被多种类型的数据查询接口访问的数据集。例如,查询数据集可以为包括该表格数据的数据库,如关系数据库,可选地,查询数据集还可以为其他类型的数据库,本技术对查询数据集的具体类型不加以限定。160.通过基于第一查询结果构建可查询的查询数据集,以便多个计算设备均可通过其所对应的数据查询接口,来从查询数据集中获取查询结果。161.在一些实施例中,在通过步骤103基于多个查询关键词在第一查询结果中进行查询,得到多个查询关键词对应的第二查询结果之后,还可以基于第二查询结果对sql语句进行过滤,得到目标sql语句。162.其中,在基于第二查询结果对sql语句进行过滤,得到目标sql语句时,可以通过如下至少一种方式实现:163.在一种可能的实现方式中,从sql语句中,删除所对应的第二查询结果大于设定数量的sql语句,将剩余的sql语句作为目标sql语句。164.其中,设定数量可以为任意取值,本技术对设定数量的具体取值不加以限定。165.在另一种可能的实现方式中,从sql语句中,删除所对应的第二查询结果为空的sql语句,将剩余的sql语句作为目标sql语句。166.需要说明的是,可以通过上述两种方式中的任意一种来对sql语句进行过滤,可选地,还可以采用上述两种方式结合的方式,来对sql语句进行过滤,本技术对具体采用哪种方式不加以限定。167.通过上述过程,即可实现对查询结果过多或查询结果为空的sql语句的过滤,从而可以从sql语句中剔除无意义的sql语句,使得后续无需基于这些sql语句进行回复语句的生成,进而可以提高回复语句的生成效率,并提高所生成的回复语句的准确性。168.在一些实施例中,对于步骤104,在按照多种类型的设定模板,基于与任一个查询关键词的相似度满足设定条件的目标关键词,以及第二查询结果,生成多个回复语句时,可以包括如下步骤:169.步骤1041、对于任一查询关键词,获取与sql语句中的查询关键词的相似度满足设定条件的目标关键词。170.在一种可能的实现方式中,计算设备可以关联有一个词数据库,该词数据库中可以存储有百万量级的候选关键词,从而可以依次确定每个查询关键词与各个候选关键词之间的相似度,进而根据所确定出的相似度,确定与各个查询关键词所对应的与自己的相似度满足设定条件的目标关键词。171.其中,设定条件可以为相似度大于设定相似度阈值,或者,设定条件可以为按照从大到小的顺序对所确定出的相似度进行排序后,相似度的排序位于设定位置之前,或者,设定条件还可以为其他条件,本技术对设定条件的具体类型不加以限定。172.另外,需要说明的是,在确定任一查询关键词与各个候选关键词之间的相似度时,可以通过词向量提取模型,分别获取该查询关键词以及各个候选关键词的词向量,从而确定查询关键词的词向量与各个候选关键词的词向量之间的余弦相似度,从而将所确定出的余弦相似度作为查询关键词与各个候选关键词之间的相似度。173.其中,词向量提取模型可以为多种类型的模型,仅需保证词向量提取模型可以实现词语的词向量提取即可。例如,词向量提取模型可以为bert模型,或者,词向量提取模型还可以为其他类型的模型,本技术对词向量提取模型的具体类型不加以限定。174.需要说明的是,上述仅为确定查询关键词与各个候选关键词之间的相似度的一种示例性方式,在更多可能的实现方式中,还可以采用其他方式,来确定查询关键词与各个候选关键词之间的相似度,本技术对具体采用哪种方式不加以限定。175.以查询关键词为“收益率”和max关键词为例,通过上述过程,可以确定出与作为查询关键词的“收益率”的相似度满足设定条件的目标关键词有“收益”和“赚钱”,与作为查询关键词的max关键词的相似度满足设定条件的目标关键词有“最高”和“最大”。176.步骤1042、按照多种类型的设定短语模板,基于多个查询关键词、每个查询关键词对应的目标关键词以及第二查询结果,生成多个候选短语。177.在一种可能的实现方式中,可以预先设置有多种类型的设定短语模板,以便在确定出与查询关键词的相似度满足设定条件的目标关键词后,即可按照将查询关键词、目标关键词以及查询结果,分别填充至设定短语模板的对应位置处,从而得到多个候选短语。178.例如,设定短语模板可以为名词 形容词、形容词 名词。仍以查询关键词为“收益率”和max关键词为例,则在按照设定短语模板生成候选短语时,可以将查询关键词“收益率”以及与作为查询关键词的“收益率”的相似度满足设定条件的目标关键词填充至设定短语模板中的名词位置处,将与作为查询关键词的max关键词的相似度满足设定条件的目标关键词填充至设定短语模板中的形容词位置处,从而即可得到“收益率最高”、“收益率最大”、“收益最大”、“收益最高”、“最大收益率”、“最高收益率”、“最大收益”、“最高收益”这些候选短语。179.可选地,还可以确定与候选短语的相似度满足设定条件的短语,从而将所确定出的短语也作为候选短语,具体过程与确定与查询关键词的相似度满足设定条件的目标关键词的过程同理,此处不再赘述。180.以候选短语为“收益率最高”、“收益率最大”、“收益最大”、“收益最高”、“最大收益率”、“最高收益率”、“最大收益”、“最高收益”为例,可以确定与这些候选短语的相似度满足设定条件的短语有“最赚钱的”、“最激进的”。181.步骤1043、按照多种类型的设定语句模板,对多个候选短语进行排列组合,得到多个回复语句。182.其中,设定语句模板可以为名词 形容词 设定短语、形容词 名词 设定短语,等等。以候选短语为“收益率最高”、“收益率最大”、“收益最大”、“收益最高”、“最大收益率”、“最高收益率”、“最大收益”、“最高收益”、“最赚钱的”、“最激进的”为例,可以得到诸如“收益率最高的理财方案是×××,最高收益率是×××”、“最赚钱的理财方案是×××,最大收益是×××”、“最激进的理财方案是×××,最大收益是×××”、“收益率最高的理财方案是×××,收益率最高一般能达到×××”之类的回复语句。183.通过上述过程,可以从词粒度、短语粒度和句子粒度三个层面,来实现回复语句的扩充。首先,词粒度上积累了百万量级的词语,以便可以从中确定查询关键词的同义词,通过同义词的替换即可实现词粒度的多样性;其次,短语粒度积累了数十万的短语话术模板,通过话术模板的替换即可实现短语级别的多样性;最后,可以通过短语的排列组合,实现句子粒度的多样性,从而可以保证回复语句的多样性。184.在一些实施例中,在获取到多个回复语句后,还可以由相关技术人员对所获取到的回复语句进行改写,并将改写得到的扩展回复语句上传至计算设备,以便计算设备可以将接收到的扩展回复语句也作为用于训练语言模型的回复语句。另外,相关技术人员在对获取到的回复语句进行改写时,还可以将已生成的回复语句改写成更加简洁、通顺的表述方式。185.在一种可能的实现方式中,相关技术人员可以查看自然语言形式的问题、sql语句、sql语句的查询结果以及所生成的多个回复语句,从而可以在上述内容的基础上,对回复语句进行改写。186.参见图2,图2是一示例性实施例提供的一种回复语句改写情况的示意图,如图2所示,问题为“我是文科类专业的,你知道有什么岗位适合我”、查询结果为“岗位名称=管理岗”的回复语句为“专业限制正好文科类专业的岗位名称是管理岗”,通过上述过程,可以将该回复语句改写为“适合文科类专业的岗位是管理岗”;问题为“aaa或者是女性的职务是什么,学历是什么”、查询结果为“职务=副所长||||学历=本科”、“职务=所长||||学历=大专”的回复语句为“性别正好是女和叫aaa的职务是副所长,学历是本科,职务是所长,学历是大专”,通过上述过程,可以将该回复语句改写为“aaa或者是女性的职务分别是副所长和所长,学历分别是本科和大专”;问题为“bbb的评定机构有哪些”、查询结果为“评定机构=c市财政局”的回复语句为“姓名是bbb的评定机构是c市财政局”,通过上述过程,可以将该回复语句改写为“bbb的评定机构是c市财政局”;问题为“累计净值合计是多少,涨跌额超过0.011的”、查询结果为“sum(累计净值)=36.61200000000001”的回复语句为“涨跌额大于0.011的累计净值总和是36.61200000000001”,通过上述过程,可以将该回复语句改写为“涨跌额超过0.011的累计净值合计是36.61200000000001”。187.通过上述过程,可以实现对自动生成的回复语句的改写,进而将改写得到的回复语句上传至计算设备,以使计算设备所获取到的回复语句更加简洁,且与自然语言形式的问题更加匹配。188.在一些实施例中,还可以由相关技术人员对回复语句以及扩展回复语句的质量进行审核,从而过滤不流畅或者没有严格遵循给定数据输入的回复语句,或者,重新对不流畅或者没有严格遵循给定数据输入的回复语句进行改写,以保证用于训练语言模型的回复语句的准确性,进而保证语言模型的训练效果。189.通过本技术所提供的数据生成方法,可以获取到包含3万条高质量回复语句的数据集,其中,这3万条回复语句的所属领域分布情况可以参见图3,图3是一示例性实施例提供的一种回复语句的领域分布情况示意图,如图3所示,这3万条回复语句中,属于媒体领域的回复语句占比为24%,属于电学领域的回复语句占比为2%,属于交通领域的回复语句占比为2%,属于银行领域的回复语句占比为18%,属于资金领域的回复语句占比为7%,属于保险领域的回复语句占比为19%,属于医疗领域的回复语句占比为2%,属于
技术领域
:的回复语句占比为7%,属于公共服务领域的回复语句占比为11%,属于公共安全领域的回复语句占比为3%,属于资源领域的回复语句的占比为4%,属于制造领域的回复语句的占比为3%。190.通过图3可以看出,通过本技术所提供的数据生成方法,可以获取到涵盖多个领域的回复数据的数据集,数据分布更加广泛,从而更能符合实际场景的多样化需求。191.另外,通过将对本技术中sql语句的查询结果的行数和列数进行统计,可以发现本技术所提供的数据生成方法,可以获取到复杂度更低的数据集,参见图4,图4是一示例性实施例提供的一种本技术所生成的数据集与cosql数据集的对比情况示意图,如图4所示,通过本技术所提供的数据生成方法所获取到的数据集,无论在行数还是列数上,都比cosql(大型通用双引擎数据库管理系统)数据集的复杂度更低,从而使得本技术所生成的数据集更适于在实际场景中使用,也就使得基于本技术所生成的数据集训练得到的语言模型的识别规模更大。192.上述各个实施例所提供的数据生成方法可以参见图5,图5是一示例性实施例提供的一种数据生成方法的流程图,如图5所示,本技术通过获取目标查询词对应的表格数据,以实现表格收集,从而基于所收集到的表格数据来进行sql语句的生成,以便可以通过执行所生成的sql语句,在所收集到的表格数据中进行查询,以便基于sql语句和查询结果来进行基于模板的回复语句的生成,并对回复语句进行改写,进而对改写后的回复语句进行审核,在审核未通过的情况下,可以重新对回复语句进行改写,从而得到审核通过的回复语句,作为后续训练语言模型时的训练数据。193.通过本说明书所提供的数据生成方法,可以基于抽象句法树构建表格问答过程中的自然语言形式的回复语句,从而获取到更加流畅的自然语言形式的回复语句,以便可以将所构建的回复语句作为后续训练语言模型的训练数据,进而实现对语言模型的训练数据的扩充。194.需要说明的是,上述内容仅为对本技术所提供的数据生成方法的简要流程介绍,具体实现方式可以参见上述各个实施例,此处不再赘述。195.与前述方法的实施例相对应,本说明书还提供了装置及其所应用的计算设备的实施例。196.参见图6,图6是一示例性实施例提供的一种数据生成装置的框图,该装置包括:197.第一获取模块601,用于获取目标查询词对应的第一查询结果,第一查询结果为表格形式的数据;198.第二获取模块602,用于基于第一查询结果,获取多个查询关键词;199.查询模块603,用于基于多个查询关键词在第一查询结果中进行查询,得到多个查询关键词对应的第二查询结果;200.生成模块604,用于按照多种类型的设定模板,基于与任一个查询关键词的相似度满足设定条件的目标关键词,以及第二查询结果,生成多个回复语句。201.在一些实施例中,生成模块604,在用于按照多种类型的设定模板,基于与任一个查询关键词的相似度满足设定条件的目标关键词,以及第二查询结果,生成多个回复语句时,用于:202.对于任一查询关键词,获取与查询关键词的相似度满足设定条件的目标关键词;203.按照多种类型的设定短语模板,基于多个查询关键词、每个查询关键词对应的目标关键词以及第二查询结果,生成多个候选短语;204.按照多种类型的设定语句模板,对多个候选短语进行排列组合,得到多个回复语句。205.在一些实施例中,第一获取模块601,在用于获取目标查询词对应的第一查询结果时,用于:206.获取满足第一目标条件的目标查询词;207.通过目标搜索引擎,基于目标查询词进行搜索,得到目标查询词对应的第一查询结果。208.在一些实施例中,该装置还包括:209.数据清洗模块,用于对第一查询结果进行数据清洗处理;210.第二获取模块602,在用于基于第一查询结果,获取多个查询关键词时,用于:211.基于经过数据清洗处理的第一查询结果,获取多个查询关键词。212.在一些实施例中,数据清洗模块,在用于对第一查询结果进行数据清洗处理时,用于下述至少一项:213.基于多个黑名单词语,从第一查询结果中删除包括任一个黑名单词语的表格;214.基于第一查询结果中各个表格所包括的表头,从第一查询结果中删除第一设定词语的占比达到第一比例阈值的表头所对应的表格;215.删除第一查询结果中表格行数或表格列数小于设定数量阈值的表格;216.基于第一查询结果中各个数据的出现次数,从第一查询结果中删除出现次数占比达到第二比例阈值的数据所对应的表格;217.基于第一查询结果所包括的各个数据,从第一查询结果中删除由第二设定词语所组成的数据对应的表格。218.在一些实施例中,第二获取模块602,在用于基于第一查询结果,获取多个查询关键词时,用于:219.基于第一查询结果,构建结构化查询sql语句,sql语句中包括多个查询关键词;220.查询模块603,在用于基于多个查询关键词在第一查询结果中进行查询,得到多个查询关键词对应的第二查询结果时,用于:221.基于sql语句在第一查询结果中进行查询,得到多个查询关键词对应的第二查询结果。222.在一些实施例中,该装置还包括:223.过滤模块,用于基于第二查询结果对sql语句进行过滤,得到目标sql语句;224.生成模块604,在用于按照多种类型的设定模板,基于与任一个查询关键词的相似度满足设定条件的目标关键词,以及第二查询结果,生成多个回复语句时,用于:225.按照多种类型的设定模板,基于与目标sql语句中的查询关键词的相似度满足设定条件的目标关键词,以及第二查询结果,生成多个回复语句。226.在一些实施例中,过滤模块,在用于基于第二查询结果对sql语句进行过滤,得到目标sql语句时,用于下述至少一项:227.从sql语句中,删除所对应的第二查询结果大于设定数量的sql语句,将剩余的sql语句作为目标sql语句;228.从sql语句中,删除所对应的第二查询结果为空的sql语句,将剩余的sql语句作为目标sql语句。229.上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。230.对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。231.本技术还提供了一种计算设备,参见图7,图7是一示例性实施例提供的一种计算设备的示意结构图。请参考图7,在硬件层面,该设备包括处理器702、内部总线704、网络接口706、内存708以及非易失性存储器710,当然还可能包括实现其他功能所需要的硬件。本说明书一个或多个实施例可以基于软件方式来实现,比如由处理器702从非易失性存储器710中读取对应的计算机程序到内存708中然后运行。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。232.本技术还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现本技术任一实施例所提供的数据生成方法。233.上述实施例阐明的系统、装置或模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。234.在一个典型的配置中,计算机包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。235.内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。236.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。237.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。238.上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。239.在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。240.应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。241.以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。当前第1页12当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献