一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于数据云采集的验证系统的制作方法

2022-07-31 05:13:31 来源:中国专利 TAG:


1.本发明涉及应用隐私协议提取验证技术领域,具体为一种基于数据云采集的验证系统。


背景技术:

2.目前在移动互联网时代发展的浪潮中,人们享受移动设备和移动应用带来的便利和快捷的同时,设备和应用的开发者也在过度的收集用户的个人信息、非法窃取用户私密信息、滥用个人信息甚至转售个人信息,严重威胁用户的个人信息安全,用户牺牲了自己的隐私权,换来了移动互联网市场跳跃式的发展,移动智能终端和多样的移动应用也回馈了用户便利的生活,但是无视用户隐私的发展模式带来的不仅仅是市场和便利,还有泛滥的电信诈骗,规模庞大的黑灰产,不良厂商和违法人员肆意贩卖用户隐私信息,人们对于手机应用越来越不信任。
3.因此国内监管机构对个人信息安全监管力度不断加大,相关领域的研究者也不断的通过获取各设备应用的隐私协议,比对其隐私协议和隐私行为,设定相关制度法规加大打击力度,然而由于国内第三方应用商城没有强制app开发者上传应用隐私文档,只能用内嵌在app页面中的隐私协议作为相关研究的分析材料,导致国内相关方面的研究大部分仍然停留在少量地手动地对比分析app隐私行为与隐私协议,不仅费时费力且效率较低,而且通过人工比对隐私协议和隐私行为,没有实现对应用设备调用敏感api行为与隐私协议的自动化比对。因此,设计自动化比对和提高研究效率的一种基于数据云采集的验证系统是很有必要的。


技术实现要素:

4.本发明的目的在于提供一种基于数据云采集的验证系统,以解决上述背景技术中提出的问题。
5.为了解决上述技术问题,本发明提供如下技术方案:一种基于数据云采集的验证系统,包括隐私协议数据模块、隐私行为提取记录模块和统计验证模块,所述隐私协议数据模块用于对程序应用的apk文件包含的数据进行获取调用,所述隐私行为提取记录模块用于对app页面嵌入的隐私协议进行树状图层次遍历的自动提取和记录,所述统计验证模块用于通过构建api与关键词的映射将隐私行为与隐私协议进行匹配分析,所述隐私协议数据模块与隐私行为提取记录模块电连接,所述隐私行为提取记录模块与统计验证模块电连接。
6.根据上述技术方案,所述隐私协议数据模块包括apk文件结构模块、隐私协议模块和api调用行为模块,所述apk文件结构模块用于获取应用程序的数据资源和安装文件,所述隐私协议模块用于获取app开发者在上架app时在应用市场展示的声明权限和隐私协议链接,所述api调用行为模块用于获取app隐私协议中调用其他应用程序的敏感调用接口或函数,所述apk文件结构模块与隐私协议模块电连接,所述隐私协议模块与api调用行为模
块电连接;
7.所述隐私协议模块包括隐私权限子模块、隐私权政策链接子模块,所述隐私权限子模块用于获取app开发者在上架app时在应用市场展示的声明权限,所述隐私权政策链接子模块用于获取app开发者在上架app时是否在应用市场展示隐私协议的跳转链接,所述隐私权限子模块与隐私权政策链接子模块电连接。
8.根据上述技术方案,所述隐私行为提取记录模块包括apk样本预处理模块、静态分析模块、隐私协议文本提取模块和调用行为记录模块,所述apk样本预处理模块用于对获取的数据资源和代码文件样本进行预处理操作,所述静态分析模块用于采集xml文件中的声明信息和生成组件树状图,所述隐私协议文本提取模块用于利用层次遍历树状图进行隐私协议页面的寻找和提取,所述调用行为记录模块用于触发记录应用程序的敏感api调用行为,所述apk样本预处理模块与静态分析模块电连接,所述隐私协议文本提取模块与调用行为记录模块电连接。
9.根据上述技术方案,所述统计验证模块包括关键词映射模块、隐私行为转换模块、匹配分析模块和判定输出模块,所述关键词映射模块用于将敏感api与经人工校验后的隐私协议文本中的关键词建立映射列表,所述隐私行为转换模块用于根据映射列表将隐私行为记录结果转换为对应关键词,所述匹配分析模块用于将隐私行为对应的关键词与隐私协议进行匹配分析,所述判定输出模块用于根据分析判断输出风险等级结果,所述关键词映射模块与隐私行为转换模块电连接,所述匹配分析模块与判定输出模块电连接。
10.根据上述技术方案,所述数据云采集验证方法包括以下步骤:
11.步骤s1:输入待检测的apk样本,进行样本数据的反编译以及xml文件信息提取的预处理操作,生成组件树状图;
12.步骤s2:利用层次遍历策略生成组件树状图队列,使用控制命令打开队首组件页面,通过该页面的控件树判断该页面是否含有隐私协议链接,寻找隐私协议所在页面,提取隐私协议文本;
13.步骤s3:通过词向量模型提取隐私协议中描述隐私信息的关键词,并与选取的敏感api组成映射列表;
14.步骤s4:通过api关键词映射列表,将提取到的隐私行为转换为关键词,将隐私行为对应的关键词与隐私协议进行匹配分析,输出判定结果。
15.根据上述技术方案,所述步骤s1中,所述的apk文件是指使用开发语言开发后,将源代码和应用程序中使用的资源文件和数据资源,通过相关工具签名打包成android程序安装文件进行安装,然后形成的各种可使用的app应用;
16.所述xml文件是记录了应用程序的各种配置信息的文件,主要包括应用程序的包名,所需的最低安卓api级别,各个组件的声明信息等,只有正确配置xml文件才能在将源代码和资源文件打包成apk安装文件;
17.所述api是指一个程序和其他软件的沟通通道,即两个程序或软件间预先定义的调用函数或接口;
18.所述组件树状图又称activity树状图,是安卓应用程序中四大组件之一,主要负责管理程序中的用户界面,通常一个应用程序会包含若干个组件,每一个组件负责一个用户界面的展现。
19.根据上述技术方案,所述步骤s2进一步包括以下步骤:
20.步骤s21:使用反编译软件对apk样本进行反编译,获得文件目录下应用程序可以调试的代码文件和包含各种应用信息的xml文件,提取需要使用的各种app信息数据;
21.步骤s22:创建目标组件类的实例,遍历所有smali文件生成的类名集合,从集合中取出app启动类,设置生成一个根节点为app启动类的树状图,;
22.步骤s23:将app启动类加入队列,取出队列头部节点并将其子节点全部加入队列,判断该节点是否为组件入口类,并设置父子关系去除树状图中的非组件入口类节点,生成组件树状图;
23.步骤s24:采用层次遍历策略根据组件树状图生成对应的组件队列,进行app隐私协议页面所属组件定位,通过队首组件页面中的用户界面控件,判断该页面是否含有隐私协议链接,并进行隐私协议内容提取。
24.根据上述技术方案,所述步骤s3进一步包括以下步骤:
25.步骤s31:选取敏感调用接口或函数,建立关键词列表,形成接口函数与关键词的映射;
26.步骤s32:通过隐私政策报告提取出与隐私信息相关的第一批备选关键词,同步使用经过隐私协议文本训练的词向量模型,计算与第一批关键词语义相近的单词,经过检校后加入到备选关键词中;
27.步骤s33:将备选关键词分为精确匹配词和模糊匹配词,建立得到列表形式的两大类关键词;
28.步骤s34:将选取的敏感调用接口和函数依次与相关的备选关键词建立映射关系。
29.根据上述技术方案,所述步骤s34中,安卓系统中app在进行安装时存在一些敏感的调用函数或接口,作用是调用其他应用程序中的某一类使用权限。
30.根据上述技术方案,所述步骤s4进一步包括以下步骤:
31.步骤s41:通过敏感调用接口或函数与关键词的映射列表,将隐私行为记录结果转换为关键词,查找隐私协议中是否含有对应的关键词,判定该隐私行为是否在隐私协议中进行声明;
32.步骤s42:依照相关法规按照安全风险的高低,将app隐私协议的风险等级由高到低分成三个等级,用声明缺失、模糊匹配和精确匹配进行判定输出。
33.与现有技术相比,本发明所达到的有益效果是:本发明,通过设置有隐私协议数据模块、隐私行为提取记录模块和统计验证模块,通过输入待检测的apk样本,进行样本数据的反编译以及xml文件信息提取的预处理操作,生成组件树状图,利用层次遍历策略生成组件树状图队列,利用控制命令打开队首组件页面,通过该页面的控件树判断该页面是否含有隐私协议链接,寻找隐私协议所在页面,提取隐私协议文本,并通过词向量模型提取隐私协议中描述隐私信息的关键词,并与选取的敏感api组成映射列表,通过api关键词映射列表,将提取到的隐私行为转换为关键词,将隐私行为对应的关键词与隐私协议进行匹配分析,最后输出判定结果。
附图说明
34.附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实
施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
35.图1是本发明的系统模块组成示意图。
具体实施方式
36.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
37.请参阅图1,本发明提供技术方案:一种基于数据云采集的验证系统,包括隐私协议数据模块、隐私行为提取记录模块和统计验证模块,隐私协议数据模块用于对程序应用的apk文件包含的数据进行获取调用,隐私行为提取记录模块用于对app页面嵌入的隐私协议进行树状图层次遍历的自动提取和记录,统计验证模块用于通过构建api与关键词的映射将隐私行为与隐私协议进行匹配分析,隐私协议数据模块与隐私行为提取记录模块电连接,隐私行为提取记录模块与统计验证模块电连接。
38.隐私协议数据模块包括apk文件结构模块、隐私协议模块和api调用行为模块,apk文件结构模块用于获取应用程序的数据资源和安装文件,隐私协议模块用于获取app开发者在上架app时在应用市场展示的声明权限和隐私协议链接,api调用行为模块用于获取app隐私协议中调用其他应用程序的敏感调用接口或函数,apk文件结构模块与隐私协议模块电连接,隐私协议模块与api调用行为模块电连接;
39.隐私协议模块包括隐私权限子模块、隐私权政策链接子模块,隐私权限子模块用于获取app开发者在上架app时在应用市场展示的声明权限,隐私权政策链接子模块用于获取app开发者在上架app时是否在应用市场展示隐私协议的跳转链接,隐私权限子模块与隐私权政策链接子模块电连接,大部分第三方应用市场上架app的信息介绍时仅展示了app的声明权限,没有展示隐私协议,因此国内第三方应用市场app网页中的隐私协议有的形同虚设,有的直接没有设置,因此无法直接使用现有的爬虫技术获取app隐私协议内容。
40.隐私行为提取记录模块包括apk样本预处理模块、静态分析模块、隐私协议文本提取模块和调用行为记录模块,apk样本预处理模块用于对获取的数据资源和代码文件样本进行预处理操作,静态分析模块用于采集xml文件中的声明信息和生成组件树状图,隐私协议文本提取模块用于利用层次遍历树状图进行隐私协议页面的寻找和提取,调用行为记录模块用于触发记录应用程序的敏感api调用行为,apk样本预处理模块与静态分析模块电连接,隐私协议文本提取模块与调用行为记录模块电连接。
41.统计验证模块包括关键词映射模块、隐私行为转换模块、匹配分析模块和判定输出模块,关键词映射模块用于将敏感api与经人工校验后的隐私协议文本中的关键词建立映射列表,隐私行为转换模块用于根据映射列表将隐私行为记录结果转换为对应关键词,匹配分析模块用于将隐私行为对应的关键词与隐私协议进行匹配分析,判定输出模块用于根据分析判断输出风险等级结果,关键词映射模块与隐私行为转换模块电连接,匹配分析模块与判定输出模块电连接。
42.数据云采集验证方法包括以下步骤:
43.步骤s1:输入待检测的apk样本,进行样本数据的反编译以及xml文件信息提取的
预处理操作,生成组件树状图;
44.步骤s2:利用层次遍历策略生成组件树状图队列,使用控制命令打开队首组件页面,通过该页面的控件树判断该页面是否含有隐私协议链接,寻找隐私协议所在页面,提取隐私协议文本;
45.步骤s3:通过词向量模型提取隐私协议中描述隐私信息的关键词,并与选取的敏感api组成映射列表;
46.步骤s4:通过api关键词映射列表,将提取到的隐私行为转换为关键词,将隐私行为对应的关键词与隐私协议进行匹配分析,输出判定结果。
47.步骤s1中,的apk文件是指使用开发语言开发后,将源代码和应用程序中使用的资源文件和数据资源,通过相关工具签名打包成android程序安装文件进行安装,然后形成的各种可使用的app应用;
48.xml文件是记录了应用程序的各种配置信息的文件,主要包括应用程序的包名,所需的最低安卓api级别,各个组件的声明信息等,只有正确配置xml文件才能在将源代码和资源文件打包成apk安装文件;
49.api是指一个程序和其他软件的沟通通道,即两个程序或软件间预先定义的调用函数或接口;
50.组件树状图又称activity树状图,是安卓应用程序中四大组件之一,主要负责管理程序中的用户界面,通常一个应用程序会包含若干个组件,每一个组件负责一个用户界面的展现。
51.步骤s2进一步包括以下步骤:
52.步骤s21:使用反编译软件对apk样本进行反编译,获得文件目录下应用程序可以调试的代码文件和包含各种应用信息的xml文件,提取需要使用的各种app信息数据,反编译已经打包成功的apk文件,使用它可以将其反编译成非常接近打包前的原始格式,需要使用的各种app信息包括app包名,启动页活动图和活动图声明信息、权限声明信息等;
53.步骤s22:创建目标组件类的实例,遍历所有smali文件生成的类名集合,从集合中取出app启动类,设置生成一个根节点为app启动类的树状图,smali文件为类似汇编语言的汇编文件,利用工具包反编译类文件后得到以smali为后缀的文件,这些smali文件就是dalvik的寄存器语言,通过查找app启动类的smali代码中是否含有集合中剩余类名,将含有的类名设置父子关系后从类名集合中取出,加入类名队列,取出队列头部类,重复上述步骤,直到队首取出的类对应的smali代码中不再含有集合中剩余的类名,即若a类smali代码文件中含有b类类名,则在生成转换图时,b类为a类的子节点;
54.步骤s23:将app启动类加入队列,取出队列头部节点并将其子节点全部加入队列,判断该节点是否为组件入口类,并设置父子关系去除树状图中的非组件入口类节点,生成组件树状图,具体为将该节点的子节点设置为该节点父节点的子节点,这样该节点便从树状图中被剔除,直到队列为空树状图中剩余节点均为activity入口类;
55.步骤s24:采用层次遍历策略根据组件树状图生成对应的组件队列,进行app隐私协议页面所属组件定位,通过队首组件页面中的用户界面控件,判断该页面是否含有隐私协议链接,并进行隐私协议内容提取,隐私协议的链接是嵌入在app页面中,其所在页面不需要其它组件的数据,可以独立加载,而组件树状图精确性是随层次逐步递减的,隐私协议
页面在组件树状图中的层次很低,所属组件被树状图捕捉到的概率极高。
56.步骤s3进一步包括以下步骤:
57.步骤s31:选取敏感调用接口或函数,建立关键词列表,形成接口函数与关键词的映射,app涉嫌过度收集或使用的个人隐私信息中,前四位为:位置信息、通讯录信息、身份识别信息和手机号码信息,根据这四种信息在android系统所对应的权限中选取多个与之相关的敏感调用接口和函数;
58.步骤s32:通过隐私政策报告提取出与隐私信息相关的第一批备选关键词,同步使用经过隐私协议文本训练的词向量模型,计算与第一批关键词语义相近的单词,经过检校后加入到备选关键词中,此过程针对隐私协议文本中对于同一隐私信息使用不同单词的情况进行甄别;
59.步骤s33:将备选关键词分为精确匹配词和模糊匹配词,建立得到列表形式的两大类关键词,精确匹配词用以精确描述某种隐私信息的文本,另一类是模糊匹配词,即对某一类隐私信息的统称;
60.步骤s34:将选取的敏感调用接口和函数依次与相关的备选关键词建立映射关系。
61.步骤s34中,安卓系统中app在进行安装时存在一些敏感的调用函数或接口,作用是调用其他应用程序中的某一类使用权限,当存在作用为调用位置信息的函数或接口时,即将与该函数建立映射的关键词为“基站定位,位置信息”。
62.步骤s4进一步包括以下步骤:
63.步骤s41:通过敏感调用接口或函数与关键词的映射列表,将隐私行为记录结果转换为关键词,查找隐私协议中是否含有对应的关键词,判定该隐私行为是否在隐私协议中进行声明;
64.步骤s42:依照相关法规按照安全风险的高低,将app隐私协议的风险等级由高到低分成三个等级,用声明缺失、模糊匹配和精确匹配进行判定输出,“存在声明缺失”即该级别隐私协议中对app所需隐私信息的声明不完整,用户无法通过隐私协议获知有哪些隐私信息被收集,严重侵犯了用户隐私权,是风险等级最高的一类行为;当一个或多个app存在模糊匹配的行为,则该app的隐私协议属于“精确匹配或模糊匹配”,该级别隐私协议虽然对所有隐私行为进行了声明,但是通过使用语义模糊的词语,掩盖隐私收集行为,或扩大隐私收集的声明范围,是一种“打擦边球”的行为,该等级行为风险等级中等;若app的隐私行为判断均属于“精确匹配”,则该app的隐私协议属于“全部精确匹配”,该级别的隐私协议用词精确,对app收集隐私信息的范围做到精确覆盖,用户阅读时不会被误导,且能够得知被收集的所有隐私信息,符合相关法律法规,因此风险等级最低。
65.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
66.最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可
以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献