基于TaPas模型的数据处理方法、系统和存储介质与流程

2022-03-23 01:17:06 来源：中国专利 TAG：

基于tapas模型的数据处理方法、系统和存储介质
技术领域：
：1.本发明涉及人工智能
技术领域：
：，尤其是一种基于tapas模型的数据处理方法、系统和存储介质。
背景技术：
：：2.目前很多信息都是以表格的形式存储的，要想从表格中获取问题的答案，通常需要人工来查询这些表格。随着人工智能(artificialintelligence，ai)的快速发展，可逐渐发展成能够通过利用ai技术来使用自然语言查询结构化数据。目前，大部分的预训练语言模型都是在通用文本上进行训练的，在一些需要对结构化数据进行编码的任务上，需要同时对结构化的表格数据进行编码，如果直接使用像bert等预训练语言模型进行训练，就会面临着编码不一致的问题。3.表格数据中通常包含大量的行和列，使用简单的预训练语言模型对其进行编码是很困难的。相关技术中，通常通过对表格数据进行长度限制以提高编码效率，但这往往会导致丢失一些重要信息，并且考虑到表格数据的复杂性(例如包括跨行、跨列等问题)，通过以上方式，将导致最终输出结果的准确率较低。技术实现要素：4.以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。5.本发明实施例提供了一种基于tapas模型的数据处理方法、系统和存储介质，能够有效避免表格数据中重要信息的丢失，提高输出结果的准确率。6.第一方面，本发明实施例提供了一种基于tapas模型的数据处理方法，包括：7.获取预设的表格描述和表格数据中的每一行数据对应的n-gram覆盖率；8.根据所述n-gram覆盖率对所述表格数据进行筛选处理，确定所述表格数据中的若干行数据为关联行数据，其中，所述关联行数据表征与所述表格描述关联的行数据；9.将所述关联行数据与所述表格描述输入到预设的tapas模型中进行数据匹配处理，得到输出数据，其中，所述输出数据表征所述表格描述和所述关联行数据之间的关联数据。10.第二方面，本发明实施例提供了一种基于tapas模型的数据处理系统，包括：11.获取模块，用于获取预设的表格描述和表格数据中的每一行数据对应的n-gram覆盖率；12.筛选模块，用于根据所述n-gram覆盖率对所述表格数据进行筛选处理，确定所述表格数据中的若干行数据为关联行数据，其中，所述关联行数据表征与所述表格描述关联的行数据；13.输出模块，用于将所述关联行数据与所述表格描述输入到预设的tapas模型中进行数据匹配处理，得到输出数据，其中，所述输出数据表征所述表格描述和所述关联行数据之间的关联数据。14.第三方面，本发明实施例提供了一种基于tapas模型的数据处理系统，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前面实施例的基于tapas模型的数据处理方法。15.第四方面，本发明实施例提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行前面实施例的基于tapas模型的数据处理方法。16.本发明实施例的有益效果包括：本发明实施例通过获取预设的表格描述和表格数据中的每一行数据对应的n-gram覆盖率，之后根据n-gram覆盖率对表格数据进行筛选处理，以确定表格数据中的若干行数据为关联行数据，将关联行数据与表格描述输入到预设的tapas模型中进行数据匹配处理，得到输出数据，本发明实施例的输出数据表征表格描述和关联行数据之间的关联数据。本发明实施例与相关技术进行相比，无需对表格数据进行长度限制，从而能够有效避免表格数据中重要信息的丢失，提高输出结果的准确率。17.本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明18.附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。19.图1为本发明实施例的一种基于tapas模型的数据处理方法的流程示意图；20.图2为本发明实施例的得到编码数据的流程示意图；21.图3为本发明实施例的tapas模型的框架流程图；22.图4为本发明实施例的编码数据的具体实施例图；23.图5为本发明实施例的索引数据的流程示意图；24.图6为本发明实施例的第一候选单元格的流程示意图；25.图7为本发明实施例的第二候选单元格和聚合操作符的流程示意图；26.图8为本发明实施例的第二候选单元格的具体流程示意图；27.图9为本发明实施例的输出数据的流程示意图；28.图10为本发明实施例的一种基于tapas模型的数据处理系统的结构示意图。具体实施方式29.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。30.需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。31.可以理解的是，目前很多信息都是以表格数据的形式存储的，这些表格数据见诸于网络、数据库或文件中，要想从表格数据中获取问题(例如本发明实施例的表格描述)的答案，通常需要人工来查询这些表格数据，或使用能提供特定问题的答案的服务。随着人工智能(artificialintelligence，ai)的快速发展，可逐渐发展成能够通过利用ai技术来使用自然语言查询结构化数据。32.表格数据通常包括大量的行数据和列数据，采用简单的语言模型对其进行编码是很困难的。对于预训练语言模型(例如bert模型、ernie模型、gpt-3模型)，其促进了自然语言处理(nlp，naturallanguageprocessing)领域各种任务上的进步，例如阅读理解、命名实体识别等任务。但是，目前的这些预训练语言模型基本上都是在通用文本上进行训练的，在一些需要对结构化数据进行编码的任务上(例如text-to-sql即面向表格的语义解析、table-to-text即关于表格的文本生成)，不仅需要编码通用文本，还需要同时对结构化的表格数据进行编码，且表格数据具有很强的结构关系。如果直接采用现有的bert等预训练语言模型，则将面临着编码文本与预训练文本形式不一致的问题。33.相关技术中，通常通过对表格数据进行长度限制以提高编码效率，但这往往会导致丢失一些重要信息，并且考虑到表格数据的复杂性(例如包括跨行、跨列等问题)，通过以上方式，将导致最终输出结果的准确率较低。34.基于此，本发明实施例提供了一种基于tapas模型的数据处理方法、系统和存储介质。本发明实施例能够有效避免表格数据中重要信息的丢失，提高输出结果的准确率。35.可以理解的是，面向表格的语义解析(例如text-to-sql)不同于一般的问答任务，不仅需要编码通用文本(例如“哪个国家的gdp最高”)，还需要编码结构化的数据(例如有关各国经济情况的若干表格数据)。对于如何理解数据库表格数据中的结构信息(如：数据库名称、数据类型、列名以及数据库中存储的值等)，以及自然语言表达(即本发明实施例的表格描述)和数据库结构的关系(例如gdp可能指的是表格数据中的“国民生产总值”一列)。由于目前基于表格数据的自然语言问答，通常被建模为语义解析任务，若使用有监督的语义解析任务去处理，则需要收集大量自然语言的逻辑表达式作为训练数据，这就需要花费巨大的开销。此外，通过语义解析器对训练数据进行解析，由于语义解析是和特定领域相关的，解析的结构和底层数据库的结构高度耦合，可移植性比较差。为了减轻收集自然语言的逻辑形式表达的巨大开销，大多使用半监督方法，使用标签来代替逻辑表达式。然而，使用这种半监督方法面临两个难点：首先，使用弱监督数据训练语义解析器具有较高难度；其次，大多使用生成的逻辑表达式作为中间件来生成标签。36.而本发明实施例所采用的tapas(表格解析器)模型可实现不生成逻辑表达式的表格问答方法。tapas模型为基于bert预训练语言模型架构的模型，可针对表格数据来处理问题和答案。通过使用弱监督数据训练tapas模型，并通过获取候选单元格和选择性地应用相应的聚合操作符来得到输出数据。tapas模型扩展了bert预训练语言模型架构作为初始化输入，在其中加入了表格数据的结构化信息。37.具体地，参照图1，本发明实施例提供一种基于tapas模型的数据处理方法，包括但不限于以下步骤：38.步骤s100、获取预设的表格描述和表格数据中的每一行数据对应的n-gram覆盖率；39.步骤s200、根据n-gram覆盖率对表格数据进行筛选处理，确定表格数据中的若干行数据为关联行数据，其中，关联行数据表征与表格描述关联的行数据；40.步骤s300、将关联行数据与表格描述输入到预设的tapas模型中进行数据匹配处理，得到输出数据，其中，输出数据表征表格描述和关联行数据之间的关联数据。41.可以理解的是，本发明实施例需要对输入到预设的tapas模型前的数据(即表格描述和表格数据)进行预处理操作。具体地，通过获取预设的表格描述和表格数据中的每一行数据对应的n-gram覆盖率，并根据n-gram覆盖率对表格数据进行筛选处理，以确定表格数据中的若干行数据为关联行数据。上述关联行数据即表征与表格描述关联的行数据。42.例如，预设表格描述和表格数据。通过先从表格数据中选取与预设的表格描述最相关的若干行数据，例如前k行数据作为数据库内容的快照，即作为与表格描述关联的行数据(关联行数据)。之后将关联行数据和表格描述(如自然语言描述)输入到tapas模型中，从而得到输出数据，本发明实施例的输出数据表征表格描述和关联行数据之间的关联数据。43.需说明的是，本发明实施例针对于表格数据中可能包括有大量的行数据，但是通常存在部分/少数的若干行数据与输入的表格描述相关，因此，通过tapas模型对表格数据中的每一行数据都进行编码是不必要的，且由于难以计算容易影响编码效率。因此，通过步骤s100至步骤s200，来获取与表格描述关联的关联行数据，进而能够从表格数据中列值计算出列的表示。44.可以理解的是，步骤s200中根据n-gram覆盖率对表格数据进行筛选处理，确定表格数据中的若干行数据为关联行数据，包括但不限于以下步骤：45.根据n-gram覆盖率对表格数据进行排序，对排序后的表格数据进行筛选处理，得到表格数据中的若干行数据，将表格数据中的若干行数据作为关联行数据。46.具体地，计算表格描述与表格数据中的每一行数据对应的n-gram覆盖率，通过选取n-gram覆盖率最高对应的若干行数据，例如前k行数据，作为与表格描述最关联的行数据以输入到tapas模型中。当k》1，则对表格数据中的每一行数据与输入的表格描述计算对应的n-gram覆盖率，根据n-gram覆盖率以对表格数据进行排序，并选取前k行数据作为关联行数据。当k＝1，则为了尽可能多的获取表格数据中的信息，本发明实施例可通过构建了一个合成行数据，根据表格数据中的每一列数据，均从对应列中选取n-gram覆盖率最高的一个列数据，以作为合成行数据这一列对应的列数据，如此设置，是因为与表格描述关联的行数据可能存在于多行数据中。47.本发明实施例通过tapas模型对结构化的表格数据和与之相关的自然语言文本如自然语言句子(即本发明实施例的表格描述)进行预训练，能够增强表格描述与表格数据两种多模态数据的对齐。48.为了解决表格数据中的行数据和列数据过多导致的编码困难以及重要信息丢失的问题，我们通过步骤s100至步骤s200，以计算表格数据中的每一行数据与表格描述对应的n-gram覆盖率，选取n-gram覆盖率最高的前k行数据作为tapas模型的输入。而为了解决采用通用文本来训练预训练语言模型(例如bert预训练语言模型等)导致编码不一致的问题，减少语义解析任务带来的标注逻辑形式表达困难以及语义解析对底层数据结构的局限性，本发明实施例采用的tapas模型，在不需要生成逻辑表达式的情况下能够直接回答表格问题，即得到输出数据。本发明实施例与相关技术进行相比，无需对表格数据进行长度限制，从而能够有效避免表格数据中重要信息的丢失，有效提高输出结果即本发明实施例的输出数据的准确率。49.参照图2，可以理解的是，tapas模型包括编码层，将关联行数据与表格描述输入到预设的tapas模型中进行数据匹配处理，包括但不限于以下步骤：50.步骤s301、将关联行数据与表格描述输入到预设的tapas模型中，并通过tapas模型对关联行数据与表格描述进行拼接处理，得到拼接数据；51.步骤s302、将拼接数据输入到tapas模型中的编码层；52.步骤s303、通过编码层对拼接数据进行编码处理，得到编码数据，其中，编码数据包括词编码数据、位置编码数据、片段编码数据、行编码数据、列编码数据和序列编码数据中的至少一种。53.可以理解的是，由于tapas模型为基于bert预训练语言模型架构的模型，本发明实施例能够将表格数据进行线性化处理后以适配基于transformer的bert预训练语言模型。54.可理解为，通过tapas模型对每一关联行数据和表格描述(如自然语言描述)进行线性化处理，并将线性化处理后的关联行数据和表格描述即本发明实施例的拼接数据，输入到tapas模型的编码层中，以进行编码处理得到编码数据。55.具体地，对关联行数据与表格描述进行拼接处理，得到拼接数据，可以为：通过tapas模型对表格数据中的每一关联行数据均进行线性化处理，得到连接数据，每一个连接数据可表示成三部分，即列名、类型和单元值，中间使用“|”进行分割。56.对于每一关联行数据，其对应的线性化处理即为将关联行数据中的所有数据进行连接，中间可采用例如“[sep]”数据进行分割，得到连接数据。之后在连接数据前面拼接表格描述(如自然语言描述)，以得到拼接数据。一实施例中，拼接数据即作为transformer的输入数据。[0057]之后，通过编码层对拼接数据进行编码处理，得到编码数据，例如编码后的单词向量和列值向量。可以理解的是，tapas模型的结构基于bert预训练语言模型的编码器，并增加了额外的位置embedding(即嵌入)用于编码表格数据的结构。tapas模型首先将表格数据中的关联行数据平铺成单词数据，并将单词数据分割成字数据(本发明实施例的字数据即token)，再将字数据连接到表格描述之后。[0058]如图3所示，为本发明实施例的tapas模型的框架流程图。根据图3可知，通过本发明实施例的tapas模型，能够根据n-gram覆盖率对表格数据进行筛选处理，以确定表格数据中的若干行数据为关联行数据。如图3中左上角所示，所选表格数据中的若干行数据即{r2,r3,r5}，将作为关联行数据。[0059]可以理解的是，每个字数据(即token，如图3中所示的tok)均可表示成词编码数据、位置编码数据、片段编码数据、行编码数据、列编码数据和序列编码数据的embedding(即嵌入)之和。例如，字数据(即token)embedding(即嵌入)需要与位置embedding(即嵌入)进行结合。[0060]其中，如图4所示，词编码数据(tokenembedding)，包括表格描述和关联行数据中的表格单元格的字数据(即token)编码数据；位置编码数据(positionembedding)表征字数据(即token)在关联行数据序列中的索引数据；片段编码数据(segmentembedding)，用于区分表格描述及关联行数据，如，采用0表示表格描述，1表示关联行数据对应的表头和单元值；行编码数据(rowembedding)，表征关联行数据中表格单元格行索引；列编码数据(columnembedding)，表征关联行数据中表格单元格列索引，其中0表示表格描述；序列编码数据(rankembedding)，若关联行数据中一列的值可以被转换为浮点数数据或日期数据，则将这些数据进行排序，基于上述排序给定对应的embedding(即嵌入)，其中，0表示无法比较，1表示最小，以此类推。[0061]参照图5，可以理解的是，tapas模型还包括自注意力层，在步骤s303的通过编码层对拼接数据进行编码处理，得到编码数据之后，方法还包括但不限于以下步骤：[0062]步骤s304、将编码数据输入到tapas模型中的自注意力层；[0063]步骤s305、通过自注意力层对编码数据进行训练，得到表格描述和每一关联单元格数据对应的索引数据，其中，关联单元格数据表征与表格描述关联的单元格数据。[0064]可以理解的是，tapas模型包括编码层、自注意力层，通过将编码数据输入到tapas模型的自注意力层(transformer层)中，得到表格描述和每一关联单元格数据对应的索引数据，需说明的是，关联单元格数据表征与表格描述关联的单元格数据。[0065]参照图6，可以理解的是，索引数据包括行索引和列索引，在通过自注意力层对编码数据进行训练，得到表格描述和每一关联单元格数据对应的索引数据之后，方法还包括但不限于以下步骤：[0066]步骤s306、根据预设规则对表格描述进行提取处理，得到第一候选单元格。[0067]其中，预设规则包括如下之一：[0068]从表格描述中提取表格列标题和行索引，将具有相同的行索引和列索引对应的关联单元格数据确定为第一候选单元格；[0069]可理解为，若表格描述中包括有表格列标题和行索引，则需要从表格描述中提取该表格列标题和行索引，之后将具有相同的行索引和列索引对应的关联单元格数据确定为第一候选单元格。[0070]从表格描述中提取表格列标题，将表格列标题对应的关联单元格数据中的列单元格确定为第一候选单元格；[0071]可理解为，若表格描述中只包括有表格列标题而不包括行索引，则从表格描述中提取出表格列标题，之后将表格列标题对应的关联单元格数据中的所有列单元格确定为第一候选单元格。[0072]从表格描述中提取行索引，将具有相同的行索引对应的关联单元格数据中的行单元格确定为第一候选单元格。[0073]可理解为，若表格描述中只包括有行索引，则从表格描述中提取行索引，并将具有相同的行索引对应的关联单元格数据中的一整行单元格确定为第一候选单元格。[0074]需说明的是，本发明实施例在步骤s305的得到表格描述和每一关联单元格数据对应的索引数据之后，需要对关联单元格数据根据预设规则进行纠正处理，以得到第一候选单元格，关联单元格数据包括第一候选单元格，且所得到的第一候选单元格与表格描述的关联性较高。本发明实施例通过根据预设规则对关联单元格数据进行纠正处理，可以大大提升模型预测的准确性。[0075]参照图7，可以理解的是，tapas模型还包括至少两个依次连接的线性分类层，在根据预设规则对表格描述进行提取处理，得到第一候选单元格之后，方法还包括但不限于以下步骤：[0076]步骤s307、获取第一候选单元格中每一列单元格对应的第一平均向量值；[0077]步骤s308、将第一候选单元格和第一平均向量值输入到tapas模型中的线性分类层，得到第二候选单元格、第二候选单元格对应的单元格概率、第二候选单元格对应的聚合操作符和聚合操作符对应的操作符概率。[0078]需要说明的是，tapas模型还包括了至少两个依次连接的线性分类层，线性分类层用于选择第二候选单元格和选择对第二候选单元格进行操作的聚合操作符。[0079]可以理解的是，通过tapas模型的线性分类层，以便对第一候选单元格对应的向量值进行线性处理，进而从第一候选单元格中筛选得到第二候选单元格。所得到的第二候选单元格与表格描述的关联性更高，更具有代表性。[0080]可以理解的是，tapas模型的线性分类层主要用于聚合操作符的选择和第二候选单元格的选择。[0081]具体地，将tapas模型中最后一层的第一个字数据(即token)(例如[cls])对应的隐向量值输入到一个线性分类层中，得到每个聚合操作符以及聚合操作符对应的操作符概率。可理解为，聚合操作符由一个线性分类层进行选择，即在第一个字数据(即token)的最后一层应用softmax回归(多项逻辑斯特回归)，得到选取每个聚合操作符对应的操作符概率。[0082]具体地，参照图8，第二候选单元格由以下步骤得到：[0083]步骤s310、通过线性分类层对第一平均向量值进行线性处理，得到列单元格对应的第一对数几率值；[0084]步骤s311、根据第一对数几率值，从列单元格中筛选得到候选列单元格，其中，候选列单元格对应的第一对数几率值大于第一预设阈值；[0085]步骤s312、通过线性分类层对候选列单元格中的每个字数据进行线性处理，得到候选列单元格中的每个字数据对应的第二对数几率值；[0086]步骤s313、根据候选列单元格中的每个字数据对应的第二对数几率值，计算得到候选列单元格对应的第二平均向量值；[0087]步骤s314、将第二平均向量值更新为候选列单元格对应的第一对数几率值；[0088]步骤s315、根据更新后的第一对数几率值，从候选列单元格中筛选得到第二候选单元格，其中，第二候选单元格对应的更新后的第一对数几率值大于第二预设阈值。[0089]可以理解的是，通过获取第一候选单元格中，每一列单元格所有单元值对应的第一平均向量值，通过线性分类层对第一平均向量值进行线性处理，得到列单元格对应的第一对数几率值(本发明实施例为第一logit值)。选取第一对数几率值(第一logit值)大于第一预设阈值对应的列单元格，将该列单元格作为候选列单元格，即根据第一对数几率值，从列单元格中筛选得到候选列单元格。之后将候选列单元格中每个字数据(即token)对应最后一层的隐向量值，输入到一个线性分类层中以进行线性处理，计算得到得到候选列单元格中的每个字数据(即token)对应的第二对数几率值(本发明实施例为第二logit值)。计算每个候选列单元格内所有的字数据(即token)对应的第二平均向量值，并将第二平均向量值作为该候选列单元格对应的第一对数几率值。最后，选取更新后的第一对数几率值大于第二预设阈值对应的候选列单元格，将该候选列单元格作为第二候选单元格，即根据更新后的第一对数几率值，从候选列单元格中筛选得到第二候选单元格。[0090]具体地，线性分类层选取第一候选单元格中每一列单元格所有单元值的一个子集。由于还可能存在聚合操作，因此，这些单元值可以是最终答案(即表格描述对应的答案)，也可以是用于计算最终答案的输入。每个单元值被建模为伯努利分布，首先计算列单元格对应的第一对数几率值，然后再计算每个候选列单元格内所有的字数据(即token)对应的第二平均向量值，以将第二平均向量值作为当前候选列单元格对应的第一对数几率值。可以理解的是，第二预设阈值可以为0.5，在其他实施例中，也可设置其他阈值，本发明实施例对此不作具体限定。[0091]需说明的是，本发明实施例的语义解析任务通常需要对表格数据进行推理，例如求和、计算平均值等。为了在不生成逻辑表达式的情况下处理问题，tapas模型需要对获取得到的第二候选单元格给定一个聚合操作符。[0092]由此，参照图9，以便于得到输出数据，其包括但不限于以下步骤：[0093]步骤s320、根据第二候选单元格对应的聚合操作符，对第二候选单元格对应的数值、第二候选单元格对应的单元格概率和聚合操作符对应的操作符概率进行融合计算，得到融合计算数据；[0094]步骤s321、确定融合计算数据对应的输出数据。[0095]下面以表1和表2，具体描述本发明实施例的步骤s320和步骤s321。如表1所示，为一实施例的聚合操作符相关数据。其中，none表征没有/无；n/a(notapplicable)表征没有数据或此项不可用；count(计数)表征统计数字的个数；sum表征求和；avg表征平均。其中，聚合操作符计算结果表示为：根据聚合操作符和聚合操作符对应的操作符概率，所计算得到的结果。[0096]表1聚合操作符相关数据[0097]聚合操作符操作符概率聚合操作符计算结果none0n/acount0.10.9 0.8 0.2 0.1＝2sum0.80.9*30 0.8*25 0.2*26 0.1*16＝53.8avg0.153.8/2＝26.9[0098]如表2所示，为一实施例的第二候选单元格相关数据。[0099]表2第二候选单元格相关数据[0100][0101]通过上述实施例，可计算得到融合计算数据。具体地，pred表征融合计算数据。本发明实施例中，pred＝0.1*2 0.8*53.8 0.1*26.9＝45.93。可以理解的是，45.93对应融合计算数据，其在tapas模型中对应输出数据，该45.93所对应的输出数据即表征表格描述和关联行数据之间的关联数据。[0102]又如一实施例中，聚合操作符为“sum(求和)”和“avg(平均)”，“sum(求和)”对应的概率为0.8，“avg(平均)”对应的概率为0.2，第二候选单元格对应的数值(个数)为50，对应的单元格概率为0.9，20，对应的单元格概率为0.1。则融合计算具体为：先将第二候选单元格分别与第二候选单元格对应的单元格概率进行乘积后再进行求和计算，得到求和计算结果。再将求和计算结果求平均，得到平均计算结果。之后，再将聚合操作符“sum(求和)”对应的操作符概率与求和计算结果进行乘积，得到第一乘积结果；以及将聚合操作符“avg(平均)”对应的操作符概率与平均计算结果进行乘积,得到第二乘积结果；最后再将第一乘积结果和第二乘积结果进行求和，从而得到融合计算数据。[0103]可理解的是，对于问题(即本发明实施例的表格描述)为：“哪个姓名出现次数最多？”其可直接映射到sql语句，这些查询可以由语义解析器处理。但是，如问题(即本发明实施例的表格描述)的查询为“以下哪些学生的成绩排名在前3位？”等，是很难通过语义解析器进行处理。若将常见的对话元素(例如歧义、长句或同义词等)考虑在内，仅举几例，则可获知使用自然语言与表格数据进行交互的复杂性。而通过本发明实施例的基于tapas模型的数据处理方法，可获取得到表格描述对应的输出数据，即得到表格描述对应的答案。[0104]相关技术中，是单独采用tapas模型来对数据进行处理的。原先的tapas模型是直接将所有的表格数据拼接起来后输入到tapas模型中，若表格数据的长度超过了最大值，则直接截断，这往往会导致重要信息的丢失。目前存在有在将数据输入到模型之前，先通过n-gram覆盖率来选取关联行数据，能够减少重要信息的丢失，以提高模型运行效率，但现有的模型都是基于语义解析器处理的，其需要标注大量的逻辑表达训练数据，无法像tapas模型一样，在不生成逻辑表达式的情况下，也能直接得到答案(即输出数据)。由于本发明实施例的tapas模型是将表格数据中的关联行数据平展开后，再与表格描述进行拼接，以在tapas模型中进行训练。若输入的表格数据长度大于模型对应的最大输入长度，则可能会导致表格数据后面的一些重要信息被丢失，并且使用简单的语言模型对其进行编码是很困难的，因为并不是全部行数据都与表格描述相关。因此，本发明实施例通过步骤s100至步骤s200，能够有效避免表格数据中重要信息的丢失，提高输出结果即本发明实施例的输出数据的准确率。[0105]参照图10，本发明一个实施例还提供了一种基于tapas模型的数据处理系统，包括但不限于：[0106]获取模块100，用于获取预设的表格描述和表格数据中的每一行数据对应的n-gram覆盖率；[0107]筛选模块200，用于根据n-gram覆盖率对表格数据进行筛选处理，确定表格数据中的若干行数据为关联行数据，其中，关联行数据表征与表格描述关联的行数据；[0108]输出模块300，用于将关联行数据与表格描述输入到预设的tapas模型中进行数据匹配处理，得到输出数据，其中，输出数据表征表格描述和关联行数据之间的关联数据。[0109]需说明的是，本发明方法实施例的内容均适用于本系统实施例，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同，在此不再赘述。[0110]另外，本发明一个实施例还提供了一种基于tapas模型的数据处理系统，该基于tapas模型的数据处理系统包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。[0111]处理器和存储器可以通过总线或者其他方式连接。[0112]存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。[0113]需要说明的是，本发明实施例中的基于tapas模型的数据处理系统，可以应用为如上述实施例的基于tapas模型的数据处理方法，本发明实施例中的基于tapas模型的数据处理系统和如上述实施例的基于tapas模型的数据处理方法具有相同的发明构思，因此这些实施例具有相同的实现原理以及技术效果，此处不再详述。[0114]实现上述实施例的基于tapas模型的数据处理方法所需的非暂态软件程序以及指令存储在存储器中，当被处理器执行时，执行上述实施例中的基于tapas模型的数据处理方法，例如，执行以上描述的图1中的方法步骤s100至s300、图2中的方法步骤s301至s303、图5中的方法步骤s304至s305、图6中的方法步骤s306、图7中的方法步骤s307至s308、图8中的方法步骤s310至s315、图9中的方法步骤s320至s321。[0115]以上所描述的基于tapas模型的数据处理系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。[0116]此外，本发明一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个处理器或控制器执行，例如，被上述基于tapas模型的数据处理系统实施例中的一个处理器执行，可使得上述处理器执行上述实施例中的基于tapas模型的数据处理方法，例如，执行以上描述的图1中的方法步骤s100至s300、图2中的方法步骤s301至s303、图5中的方法步骤s304至s305、图6中的方法步骤s306、图7中的方法步骤s307至s308、图8中的方法步骤s310至s315、图9中的方法步骤s320至s321。[0117]本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。[0118]以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。当前第1页12当前第1页12

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：工艺文件的生成方法、系统、存储介质以及电子装置与流程

基于TaPas模型的数据处理方法、系统和存储介质与流程

相关文献

最热文献