一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于字段语义的数据表自动join推荐方法与流程

2021-11-22 17:44:00 来源:中国专利 TAG:

技术特征:
1.一种基于字段语义的数据表自动join推荐方法,其特征在于,包括如下步骤:步骤1,将待join的两数据表中的字段两两组合,作为计算相似度值的集合;步骤2,推断出字段的语义类型;步骤3,判断两字段的数据类型和语义类型是否一致,再判断两字段名是否一致,接着判断两字段值是否存在枚举类;步骤4,分别计算字段名相似度和字段值的相似度,后通过加权求和,得到匹配系数,即两字段的相似度;步骤5,将所有字段的相似度的分值从高到低进行排序并输出提取前20条,作为推荐。2.如权利要求1所述的一种基于字段语义的数据表自动join推荐方法,其特征在于,所述语义类型包括经纬度、国家、省份、城市、邮编、ip地址、url、邮箱、电话、身份证、护照、类别和空,共13种类型;其中经纬度、ip地址、url、邮箱、电话、身份证和护照采用正则匹配;国家、省份、城市和邮编采用人工建表、查表的方式匹配;类别类型的判断依据:不同数值的数量<=12;若以上语义类型都不满足则为空类型。3.如权利要求1所述的一种基于字段语义的数据表自动join推荐方法,其特征在于,所述步骤3,具体为:匹配字段的数据类型,对不同类型的字段不进行推荐,对相同类型的字段先判断字段名是否一样,忽略大小写,若一样则直接返回相似度分值t=1,即匹配系数,否则判断两字段值是否存在枚举类,即判断是否满足:不同数值的数量/总数据量<0.02,若满足则不进行推荐。4.如权利要求3所述的一种基于字段语义的数据表自动join推荐方法,其特征在于,所述步骤4,具体为:若不是枚举类,则分别计算字段名相似度分值t1和字段值的相似度分值t2,再通过加权求和,表达式为:t=0.3
×
t1 0.7
×
t2,得到匹配系数。5.如权利要求4所述的一种基于字段语义的数据表自动join推荐方法,其特征在于,所述字段名和字段值的相似度计算均采用单词词向量来计算,单词词向量维度相同,通过计算词向量距离来衡量单词的语义相似度;所述单词词向量通过神经网络语义模型训练文本分类得到。6.如权利要求5所述的一种基于字段语义的数据表自动join推荐方法,其特征在于,所述神经网络语义模型包括输入层、隐藏层和输出层,输入层输入是构成文档的所有单词及其n

gram的热编码,n

gram为由相邻n个单词或字符组成的词组,输出层输出是文档中特定一个词的概率,隐藏层是对多个词向量的叠加平均。7.如权利要求5所述的一种基于字段语义的数据表自动join推荐方法,其特征在于,所述计算字段名相似度,具体包括如下步骤:s1,对字段名预处理,将大写字母变成小写字,把除字母、数字和中文以外的字符变成空格;s2,将预处理后的字段按空格划分成词组;s3,使用fasttext计算词组内各单词的词向量;s4,各单词的词向量求平均后得到字段的词向量;s5,计算两字段词向量的余弦夹角,作为字段名的相似度。8.如权利要5所述的一种基于字段语义的数据表自动join推荐方法,其特征在于,所述计算字段值的相似度,按字段类型分类,包括:数值类型、日期类型、字符串类型三种情况;
对于数值类型,先计算所有记录的归一化直方图,再计算直方图的余弦相似度;对于日期类型,直接设相似度分值为1,即表示匹配;对于字符串类型,各取x条随机记录作为词组来计算字段值相似度,后将x条字段值相似度按空格组合成一个新的字符串,该相似度计算参考字段名相似度计算过程。9.如权利要求8所述的一种基于字段语义的数据表自动join推荐方法,其特征在于,对于所述的数值类型,具体的,随机取字段值m条,利用m条字段值相似度中最大和最小值划分m个均等大小的空间,统计m中所有相似度值落在所述m个均等大小的空间中的个数,并做归一化处理,得到一个m维向量,计算两字段的m维向量的余弦夹角作为字段值的相似度。10.如权利要求1所述的一种基于字段语义的数据表自动join推荐方法,其特征在于,所述步骤5,具体为:对匹配系数按从高到低排序并输出前20条,若最高匹配系数大于0.8,则自动应用该推荐的字段名。

技术总结
本发明涉及多维数据分析领域,具体为一种基于字段语义的数据表自动join推荐方法,包括:步骤1,将待join的两数据表中的字段两两组合,作为计算相似度值的集合;步骤2,推断出字段的语义类型;步骤3,判断两字段的数据类型和语义类型是否一致,再判断两字段名是否一致,接着判断两字段值是否存在枚举类;步骤4,分别计算字段名相似度和字段值的相似度,后通过加权求和,得到匹配系数,即两字段的相似度;步骤5,将所有字段的相似度的分值从高到低进行排序并输出提取前20条,作为推荐。本发明通过对数据表字段名和字段值的分析来推荐join的联接子句,更准确更全面地帮助用户发现多维数据隐藏的关联信息,有效地提升大数据分析系统的智能化水平。智能化水平。智能化水平。


技术研发人员:罗实 李炜铭 王永恒
受保护的技术使用者:之江实验室
技术研发日:2021.08.12
技术公布日:2021/11/21
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献