一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用户画像标签数据的处理方法与流程

2022-08-21 20:23:20 来源:中国专利 TAG:

技术特征:
1.一种用户画像标签数据的处理方法,包括:生成用于存储用户画像标签的数据库,其中所述用于存储用户画像标签的数据库至少包括:用于存储原始数据的原始数据实时表、用于存储用户数据的用户字典表、用于存储用户以及对应的用户画像标签的用户标签表;其中所述原始数据实时表用于供应用服务写入新产生的用户id和用户画像标签id;且所述原始数据实时表还用于将原始数据增量聚合到用户标签表;其中所述原始数据实时表至少包括:字段主键id、组织机构id、用户id、标签tag_id;其中字段主键id采用自增int8类型,其中标签tag_id采用int类型;且所述原始数据实时表还包括两个布尔型标志位:标识是否删除,是否合并用户字典表;其中所述用户字典表至少包括以下字段:用户的唯一标识user_id字段,其中所述user_id字段为int类型,每一user_id字段占8字节空间;用户组织机构唯一标识org_id字段,用于表示用户所属单位;其中所述org_id字段为int类型,每一org_id字段占8字节空间;当可用于数据表超过100gb后按组织机构分表,行号row_id为int类型,占8字节空间;其中所述用户标签表以标签tag_id为维度,用于标识出每一用户对应的用户画像标签;其中该用户标签表用于为系统提供检索服务;其中该用户标签表包括以下字段:自增整数主键id,标签唯一标识,组织机构唯一标识、用户唯一标识聚合列user_ids;其中可变字串数据类型的用户唯一标识聚合列user_ids采用varbit类型,存储用户字典表中按照rowid顺位的比特字串。2.根据权利要求1所述的用户画像标签数据的处理方法,其特征在于,所述方法还包括:将原始数据实时表中的用户原始数据,合并到用户标签表中;具体包括:获取用户实时数据表中的未更新的原始数据,根据未更新的原始数据更新用户字典表中的用户的唯一标识user_id字段,然后再将数据增量聚合到用户标签表。3.根据权利要求2所述的用户画像标签数据的处理方法,其特征在于,其中所述将原始数据实时表中的用户原始数据合并到用户标签表中的步骤,采用一个事务中完成;即单独标签为一个进程并发执行。4.根据权利要求3所述的用户画像标签数据的处理方法,其特征在于,其中所述将原始数据实时表中的用户原始数据合并到用户标签表中的步骤,包括:获取用户实时的原始数据;获取该原始数据中的用户画像标签,判断该用户画像标签是否存在用户标签表中;如果不存在则在该用户标签表中增加一列新的用户画像标签。5.根据权利要求1所述的用户画像标签数据的处理方法,其特征在于,所述方法还包括:当查询方式为:选择了一个tag,需要列出所有具有该tag的用户;则输入为tagid,输出为用户id;此时需要对用户字典表和用户标签表联合进行查询:首先使用set_bit_array自订函数,对用户标签表对所需tag进行对齐,即获取最大的标签tag的用户rowid字串长度;如果用户没有此标签时,则将该用户rowid字串中的末尾补
0;然后对所选tag取出的用户id在字典表中的行号取并集,得到符合所选tag组的全部为1的rowid的数组,然后关联用户字典表取得用户id。6.根据权利要求1所述的用户画像标签数据的处理方法,其特征在于,所述方法还包括:当查询方式为:列出一个用户的所有tag,则通过get_bit函数,取得所述所有tag中该用户对应字串中的该用户rowid位为1的标签。7.根据权利要求1所述的用户画像标签数据的处理方法,其特征在于,所述用于存储用户画像标签的数据库为以用户画像标签为基本维度生成的基于postgresql的数据库,所述数据库为通过变长位串来存储用户id,且所述数据库中存储有每一个用户id对应的标签tag;其中所述数据库中存储有每一用户id对应的用户画像标签tag。8.根据权利要求1所述的用户画像标签数据的处理方法,其特征在于,所述方法还包括:创建用于辅助读写存储用户id的可变长位串的函数,其中所述函数包括:函数get_bit(varbit,int,int)returns varbit;用于从指定位置开始获取n个bit位,返回varbit;函数set_bit_array(varbit,int,int,int[])returns varbit;用于将指定位置的bit设置为0|1,超出原始长度的部分填充0|1;函数bit_count(varbit,int,int,int)returns int;用于从第n位开始,统计n个bit位中有多少个0或1,如果n超出长度,则只计算已经存在的;函数bit_count(varbit,int)returns int;用于统计出整个比特串bit string中1|0的个数;函数bit_fill(int,int)returns varbit;用于在比特串bit string中填充指定长度的0或1;函数bit_rand(int,int,float)returns varbit;用于在比特串bit string中填充指定长度的随机bit,并指定1或0的随机比例;函数bit_posite(varbit,int,boolean)returns int[];用于返回1|0的位置信息,下标从0开始计数,true时正向返回,false时反向返回;函数bit_posite(varbit,int,int,boolean)returns int[];用于返回1|0的位置信息,下标从0开始计数,true时正向返回,false时反向返回,返回n个为止;函数get_bit_2(varbit,int,int)returns int;用于返回指定位置的bit,下标从0开始,如果超出bit位置,返回指定的0或1。

技术总结
一种用户画像标签数据的处理方法,包括:生成用于存储用户画像标签的数据库,其中所述用于存储用户画像标签的数据库至少包括:用于存储原始数据的原始数据实时表、用于存储用户数据的用户字典表、用于存储用户以及对应的用户画像标签的用户标签表;其中所述原始数据实时表用于供应用服务写入新产生的用户id和用户画像标签id;且所述原始数据实时表还用于将原始数据增量聚合到用户标签表;其中所述用户字典表用于存储用户id;其中所述用户标签表以标签tag_id为维度,用于标识出每一用户对应的用户画像标签;其中该用户标签表用于为系统提供检索服务。供检索服务。供检索服务。


技术研发人员:佘家驹 马胜奎 刘超 肖龙 靳京 李昕 吴泽成
受保护的技术使用者:国网综合能源服务集团有限公司 国家电网有限公司
技术研发日:2022.06.09
技术公布日:2022/8/19
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献