一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于人工智能技术的跨浏览器设备指纹特征生成方法与流程

2022-04-24 22:04:34 来源:中国专利 TAG:


1.本发明涉及安全隐私计算技术领域,具体来说,涉及一种基于人工智能技术的跨浏览器设备指纹特征生成方法。


背景技术:

2.随着互联网的快速发展,寄生在互联网上的黑色产业链也达到了泛滥的地步,设备指纹技术应运而生,即利用设备的特征属性为每个设备生成独一无二的标识。传统的设备指纹技术大多以人工经验挑选特征,由于测试样本量的缘由,这种挑选的方式具有很大的偶然性,更重要的是目前的设备在不同浏览器上会生成不同的设备指纹,指纹技术在跨浏览器指纹识别上面准确率很难保证。
3.通过机器学习的方法建立模型用于设备唯一性的认证策略近年来也不断涌现,但大部分方法重点在于模型的构建,很少注重特征的选择,而特征的选择直接影响着模型的性能,故采取人工智能的方式进行特征的挑选在设备指纹生成环节越来越被重视。
4.但是现有特征工程依赖于给定样本数据量的大小,数据量的多少直接影响到筛选特征的稳定性,且市场上浏览器的更新换代速度迅速,很难满足于在未知的浏览器上的设备指纹识别,且目前的设备指纹生成技术区分度高但稳定性差,即在不同设备之间会生成不同的指纹标识,但在同一设备不同浏览器上却不能生成相同的指纹标识。
5.针对相关技术中的问题,目前尚未提出有效的解决方案。


技术实现要素:

6.针对相关技术中的问题,本发明提出一种基于人工智能技术的跨浏览器设备指纹特征生成方法,以克服现有相关技术所存在的上述技术问题。
7.为此,本发明采用的具体技术方案如下:
8.一种基于人工智能技术的跨浏览器设备指纹特征生成方法,该方法包括以下步骤:
9.步骤s1、对采集到的指纹数据进行数据预处理;
10.步骤s2、根据预处理后的指纹数据对指纹特征进行特征衍生并扩充特征字段;
11.步骤s3、对指纹数据进行降维可视化和关联矩阵可视化操作并生成备选指纹特征;
12.步骤s4、采用适应性方法分别对备选指纹特征的特征区分度及特征稳定度进行计算;
13.步骤s5、根据业务需求和场景并结合特征区分度及特征稳定度对备选指纹特征进行筛选;
14.步骤s6、将筛选出的指纹特征采用拼接组合后加密的方式或比较指纹特征差异性的方式生成指纹特征。
15.进一步的,步骤s1中所述对采集到的指纹数据进行数据预处理包括对指纹数据进
行缺失值处理、异常值处理及数据归一化处理。
16.进一步的,所述缺失值处理采用零值填充、均值填充或最大最小填充的方法,所述异常值处理采用3倍方差法则或箱线图分析的方法,所述数据归一化处理采用最大/最小归一化或z-score归一化的方法。
17.进一步的,所述特征衍生包括对指纹特征进行one-hot编码、暴力交叉及合成特征。
18.进一步的,步骤s3中所述对指纹数据进行降维可视化操作包括采用主成分分析方法对降维后的指纹特征进行数据分布分析、对比分析及统计量分析。
19.进一步的,步骤s3中所述对指纹数据进行关联矩阵可视化操作包括采用皮尔逊相关系数计算不同指纹特征之间的相关性系数,对高相关性的特征进行剔除保留一个。
20.进一步的,采用传统统计学的方式,并依据控制变量的思想,固定在同一浏览器下,计算不同设备在备选指纹特征下的频率分布情况,且特征区分度计算公式如下:
[0021][0022]
其中,ui表示第i个特征的特征区分度,f
k,i
表示在第k个浏览器上不同设备在第i个特征的值分布情况,unique函数是去重函数,返回特征不同值的数量个数,nk表示第k个浏览器上共有多少设备,i表示第i个特征,k表示第k个浏览器,k表示浏览器类型总数,m表示指纹特征总数。
[0023]
进一步的,采用传统统计学和掩码生成的方式对备选指纹特征的特征稳定度进行计算,计算公式如下:
[0024][0025]
其中,pi表示第i个特征根据方差计算指纹特征稳定指标,f
j,i
表示在所有浏览器版本下,第j个设备在第i个特征上值分布情况,d函数是计算方差的函数,j表示第j个设备,j表示设备总数,i表示第i个特征,m表示指纹特征总数。
[0026]
进一步的,所述掩码生成的步骤如下:
[0027]
对于任意两个不同浏览器,对比每个设备在这两个浏览器下特征值是否一样,若一样记为1,反之记为0,2;
[0028]
对于每个设备,上述步骤都会生成一个长度为特征值数量的01字符串,计算每个指纹特征对应的0和1的数量;
[0029]
每个指纹特征对应的1的数量大于0的数量则该指纹特征对应的掩码为1,反之为0,此时掩码生成。
[0030]
进一步的,步骤s6中采用所述拼接组合后加密的方式生成设备指纹后,选取部分测试数据,计算不同设备在同一浏览器版本下生成设备指纹不同的个数占比和同一设备在
两个不同浏览器下生成相同设备指纹的个数占比,依据这两个比例,决定是否进一步进行指纹特征的重新衍生。
[0031]
本发明的有益效果为:
[0032]
(1)本发明采用人工智能的方式进行设备采集特征的衍生,从而增加了特征的维度,更有利于选取较好的特征指标,提高了设备指纹在跨浏览器上识别的准确度;同时本发明在特征选择中兼顾特征稳定性和区分性两个维度,并在计算特征稳定性过程中采用掩码的方式帮助筛选稳定性较高的特征指标。
[0033]
(2)本发明通过结合人工智能的方式进行指纹特征的筛选,较传统的指纹特征生成方式最小化人工干预,且通过特征衍生的方式扩充了特征字段集,从而更好地选取指纹特征。
[0034]
(3)本发明结合统计学和人工智能的方法综合了特征稳定度和区分度两个指标构造指纹特征,解决了跨浏览器设备指纹生成不一致的问题;且通过采用大数据的思想进行区分度和稳定度的计算,提高了设备指纹在不同设备之间的准确度,降低了同设备不同浏览器上设备指纹的差异性。
附图说明
[0035]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0036]
图1是根据本发明实施例的一种基于人工智能技术的跨浏览器设备指纹特征生成方法的流程示意图。
具体实施方式
[0037]
为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
[0038]
根据本发明的实施例,提供了一种基于人工智能技术的跨浏览器设备指纹特征生成方法。
[0039]
现结合附图和具体实施方式对本发明进一步说明,如图1所示,根据本发明实施例的基于人工智能技术的跨浏览器设备指纹特征生成方法,该方法包括以下步骤:
[0040]
步骤s1、对采集到的指纹数据进行数据预处理;
[0041]
在一个实施例中,步骤s1中所述对采集到的指纹数据进行数据预处理包括对指纹数据进行缺失值处理、异常值处理及数据归一化处理。
[0042]
在一个实施例中,所述缺失值处理采用零值填充、均值填充或最大最小填充的方法,所述异常值处理采用3倍方差法则或箱线图分析的方法,所述数据归一化处理采用最大/最小归一化或z-score归一化的方法。
[0043]
步骤s2、根据预处理后的指纹数据对指纹特征进行特征衍生并扩充特征字段;
[0044]
在一个实施例中,所述特征衍生包括对指纹特征进行one-hot编码、暴力交叉(对多个特征通过数学运算进行组合)及合成特征(通过将单独特征进行组合、从线性模型映射到非线性的过程)。
[0045]
步骤s3、对指纹数据进行降维可视化和关联矩阵可视化操作并生成备选指纹特征;
[0046]
在一个实施例中,步骤s3中所述对指纹数据进行降维可视化操作包括采用主成分分析方法(pca,principal component analysis)对降维后的指纹特征进行数据分布分析、对比分析及统计量分析。
[0047]
在一个实施例中,步骤s3中所述对指纹数据进行关联矩阵可视化操作包括采用皮尔逊相关系数计算不同指纹特征之间的相关性系数,对高相关性的特征进行剔除保留一个。
[0048]
具体的,通过对处理后数据进行数据探索,便于帮助分析人员更直观的观测到不同指纹特征的分布情况,同时可结合专家经验进一步综合评估上一步衍生出指纹特征的合理性和有效性。
[0049]
步骤s4、采用适应性方法分别对备选指纹特征的特征区分度及特征稳定度进行计算;
[0050]
在一个实施例中,采用传统统计学的方式,并依据控制变量的思想,固定在同一浏览器下,计算不同设备在备选指纹特征下的频率分布情况,且特征区分度计算公式如下:
[0051][0052]
其中,ui表示第i个特征的特征区分度,f
k,i
表示在第k个浏览器上不同设备在第i个特征的值分布情况,unique函数是去重函数,返回特征不同值的数量个数,nk表示第k个浏览器上共有多少设备,i表示第i个特征,k表示第k个浏览器,k表示浏览器类型总数,m表示指纹特征总数。
[0053]
在一个实施例中,采用传统统计学和掩码生成的方式对备选指纹特征的特征稳定度进行计算,计算公式如下:
[0054][0055]
其中,pi表示第i个特征根据方差计算指纹特征稳定指标,f
j,i
表示在所有浏览器版本下,第j个设备在第i个特征上值分布情况,d函数是计算方差的函数,j表示第j个设备,j表示设备总数,i表示第i个特征,m表示指纹特征总数。
[0056]
在一个实施例中,所述掩码生成的步骤如下:
[0057]
对于任意两个不同浏览器,对比每个设备在这两个浏览器下特征值是否一样,若一样记为1,反之记为0,2;
[0058]
对于每个设备,上述步骤都会生成一个长度为特征值数量的01字符串,计算每个指纹特征对应的0和1的数量;
[0059]
每个指纹特征对应的1的数量大于0的数量则该指纹特征对应的掩码为1,反之为0,此时掩码生成。
[0060]
具体的,传统统计学运用一些稳定性指标例如psi、方差等输出特征稳定度计算结果,作为特征筛选参数之一;掩码是通过对指纹特征进行暴力搜索后所产生的一组01字符串(1代表保留此特征,0代表舍弃此特征),结合掩码可以更准确地生成稳定性特征;
[0061]
此外,特征指纹稳定度的计算结合了掩码和根据方差计算指纹特征稳定指标,首先把掩码为1的特征筛选出,其次通过数据归一化处理过程中已把特征数据值映射到[0,1]之间,故可从掩码为0的特征筛选出pi较小的指纹特征。
[0062]
步骤s5、根据业务需求和场景并结合特征区分度及特征稳定度对备选指纹特征进行筛选(可根据专家经验调节二者权重,若业务需求偏区分度,则区分度指标可筛选多一点,反之稳定性指标筛选多一点);
[0063]
步骤s6、将筛选出的指纹特征采用拼接组合后加密的方式或比较指纹特征差异性的方式(例如在根据方差计算稳定性指标时,特征值不同但很接近)生成指纹特征。
[0064]
在一个实施例中,步骤s6中采用所述拼接组合后加密的方式生成设备指纹后,选取部分测试数据,计算不同设备在同一浏览器版本下生成设备指纹不同的个数占比和同一设备在两个不同浏览器下生成相同设备指纹的个数占比,依据这两个比例,决定是否进一步进行指纹特征的重新衍生,具体的,若这两个比例相差较多则进行指纹特征的重新衍生。
[0065]
综上所述,借助于本发明的上述技术方案,本发明采用人工智能的方式进行设备采集特征的衍生,从而增加了特征的维度,更有利于选取较好的特征指标,提高了设备指纹在跨浏览器上识别的准确度;同时本发明在特征选择中兼顾特征稳定性和区分性两个维度,并在计算特征稳定性过程中采用掩码的方式帮助筛选稳定性较高的特征指标。
[0066]
此外,本发明通过结合人工智能的方式进行指纹特征的筛选,较传统的指纹特征生成方式最小化人工干预,且通过特征衍生的方式扩充了特征字段集,从而更好地选取指纹特征。
[0067]
此外,本发明结合统计学和人工智能的方法综合了特征稳定度和区分度两个指标构造指纹特征,解决了跨浏览器设备指纹生成不一致的问题;且通过采用大数据的思想进行区分度和稳定度的计算,提高了设备指纹在不同设备之间的准确度,降低了同设备不同浏览器上设备指纹的差异性。
[0068]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献