一种中文安卓应用程序的恶意行为静态检测方法及装置

2022-06-17 22:38:45 来源：中国专利 TAG：

1.本发明属于涉及程序分析与安全领域，尤其涉及一种中文安卓应用程序的恶意行为静态检测方法及装置。

背景技术：

2.近年来移动终端发展速度非常快，包括手机、平板电脑、车载移动设备等移动终端被人们广泛的接受。安卓操作系统(android)是目前移动设备主流的操作系统之一，有非常多的开发者在安卓平台上开发应用软件。然而，包含恶意行为的安卓应用(或者称之为安卓恶意程序)可能非法窃取个人信息从而导致隐私泄露，危害用户的财产甚至生命安全，因此安卓应用中的恶意行为检测也愈发受到关注。
3.目前，针对中文安卓应用程序的恶意行为检测工具主要包括：
4.a.人工检测：成本高，效率低，且恶意行为发现成功率不高；
5.b.以动态分析为主要手段的检测工具：效率低，耗时间，没有完整的整合工具包，且恶意行为发现成功率不高。

技术实现要素：

6.主要针对中文安卓应用程序中的恶意行为，本发明设计了一种中文安卓应用程序的恶意行为静态检测方法及装置，从中文安卓应用程序安装包中解析出有效数据，并通过多种技术相结合对数据进行筛选、分析和处理，一方面对海量中文安卓应用程序进行分析，构建通用模型，并将数据整理为中文安卓应用程序安全信息数据库，另一方面，对于单个应用程序，通过分析其数据并构建模型，发掘可能的恶意行为并给出警告，维护使用者的信息安全。
7.一种中文安卓应用程序的恶意行为静态检测方法，其步骤包括：
8.1)解析训练集中每一安卓应用程序的安装包，得到相应的标签数据与参数数据；
9.2)通过分类标签数据，对参数数据进行分类，以构建参数预测模型；
10.3)将待测安卓应用程序的标签数据输入参数预测模型，并基于得到的相应参数数据，得到恶意行为静态检测结果。
11.进一步地，参数数据包括：页面跳转关系数据和api调用数据。
12.进一步地，通过以下步骤分类标签数据：
13.1)对标签数据进行预处理；
14.2)将预处理后的标签数据转化为标签向量；
15.3)对标签向量进行分类。
16.进一步地，通过以下步骤对标签数据进行预处理：
17.1)使用分词技术，将中文标签数据条目划分为独立词语；
18.2)去除独立词语中的数字、标点符号、非中文字符及停用词。
19.进一步地，将预处理后的标签数据转化为标签向量的方法包括：使用自然语言处
理中的word2vec技术。
20.进一步地，对标签向量进行分类的方法包括：聚类或支持向量机。
21.进一步地，得到恶意行为静态检测结果的方法包括：使用模型检测技术。
22.一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述所述的方法。
23.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机以执行上述所述的方法。
24.与现有技术相比，本发明具有以下优势：
25.1)本发明完整独立，集成度高，在单个工具内即可完成从读取安卓应用程序安装包开始到警告可能的恶意行为的所有功能；
26.2)本发明自动化程度高，操作简单方便，降低用户使用成本；
27.3)本发明对于单个安卓应用程序的检测时间短，效率高；
28.4)本发明较现有技术在恶意行为检测成功率方面有显著提升。
附图说明
29.图1为本发明的系统架构图。
30.图2为本发明的工作流程图。
具体实施方式
31.下面结合附图，通过实施例对本发明作进一步的说明。
32.本发明的恶意行为静态检测方法，对于单个应用程序可以自动安全地发现其可能隐藏的恶意行为，并给出警告，对于中文安卓应用程序使用者，市场监管方和开发者都有良好的积极意义。
33.1.系统组成
34.本发明系统架构如图1所示，主要由4个模块组成，分别是中文安卓应用程序解析方法，数据分析与处理模块，模型构建模块和恶意行为检测模块。
35.2.工作流程
36.本发明的工作流程如图2所示：
37.首先，将中文安卓应用程序安装包输入，通过解析方法提取出重要数据，包括中文标签数据，页面跳转关系数据和api调用数据；
38.其次，在数据分析与处理模块中，通过中文自然语言处理技术和人工智能数据分析技术相结合，准确高效地对相关数据进行排除干扰项，有监督或无监督的分类、聚类等处理；具体数据处理和分析的步骤如下：
39.a.使用自然语言处理中的中文分词技术，将中文文本标签条目划分为一个个独立的中文词语，去除其中的数字、标点符号及非中文字符；
40.b.去除中文词语中对话题和语义贡献不大的“停用词”(排除干扰项)；
41.c.使用自然语言处理中的word2vec技术，将中文词语转化为高维向量；
42.d.根据数据规模和标签情况，使用机器学习中的聚类或支持向量机等分类算法，对中文标签数据进行分类；
43.然后，一方面，利用分类后的中文标签数据对页面跳转关系数据和api调用数据进行整理分类，并将经过处理的数据整理并存入中文安卓应用程序信息数据库，并持续维护和完善该数据库，该数据库将作为构建模型的数据来源，另一方面，由模型构建模块利用相关数据自动构建出与该中文安卓应用程序对应的模型，这里的模型包含两部分，一是从海量中文安卓应用程序中通过泛化抽象出的“通用模型”，刻画了中文安卓应用的普遍共性，会随着中文安卓应用程序信息数据库的更新而更新，二是对于单个安卓应用程序，以该应用程序的页面中文标签数据为输入，从“通用模型”中分离出对该应用程序的页面跳转和api调用的预测模型，是后续分析和检测恶意行为的对象；
44.最后，通过模型检测等技术对该中文安卓应用程序的预测模型和实际运行情况进行分析与检测，能够深度挖掘出可能的恶意行为，并给出警告。
45.实验数据
46.我们已使用本发明的初始版本，对78778个样例安卓应用进行了恶意程序检测的实验：通过输入这些安卓应用的页面所抽取的关键信息来判断其是否属于恶意程序，并将结果数据与其正确结果进行比对。
47.实验表明
48.1)该工具的判断准确率能够达到93.8％以上，能够有效识别安卓恶意软件，高于现有的其他技术(手动分析和动态分析)；
49.2)该工具对于每条输入的平均运行时间在0.2秒以内，能够高效识别安卓恶意软件；
50.以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

技术特征：
1.一种中文安卓应用程序的恶意行为静态检测方法，其步骤包括：1)解析训练集中每一安卓应用程序的安装包，得到相应的标签数据与参数数据；2)通过分类标签数据，对参数数据进行分类，以构建参数预测模型；3)将待测安卓应用程序的标签数据输入参数预测模型，并基于得到的相应参数数据，得到恶意行为静态检测结果。2.如权利要求1所述的方法，其特征在于，参数数据包括：页面跳转关系数据和api调用数据。3.如权利要求1所述的方法，其特征在于，通过以下步骤分类标签数据：1)对标签数据进行预处理；2)将预处理后的标签数据转化为标签向量；3)对标签向量进行分类。4.如权利要求3所述的方法，其特征在于，通过以下步骤对标签数据进行预处理：1)使用分词技术，将中文标签数据条目划分为独立词语；2)去除独立词语中的数字、标点符号、非中文字符及停用词。5.如权利要求3所述的方法，其特征在于，将预处理后的标签数据转化为标签向量的方法包括：使用自然语言处理中的word2vec技术。6.如权利要求3所述的方法，其特征在于，对标签向量进行分类的方法包括：聚类或支持向量机。7.如权利要求1所述的方法，其特征在于，得到恶意行为静态检测结果的方法包括：使用模型检测技术。8.一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1-7中任一所述方法。9.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1-7中任一所述方法。

技术总结
本发明公开了一种中文安卓应用程序的恶意行为静态检测方法，包括：解析训练集中每一安卓应用程序的安装包，得到相应的标签数据与参数数据；通过分类标签数据，对参数数据进行分类，以构建参数预测模型；将待测安卓应用程序的标签数据输入参数预测模型，并基于得到的相应参数数据，得到恶意行为静态检测结果。本发明完整独立，集成度高，在单个工具内即可完成从读取安卓应用程序安装包开始到警告可能的恶意行为的所有功能，从而提升单个安卓应用程序的检测效率与成功率，降低用户使用成本。降低用户使用成本。降低用户使用成本。

技术研发人员：黄承超高嵩张立军付辰
受保护的技术使用者：中国科学院软件研究所
技术研发日：2021.10.08
技术公布日：2022/6/16

再多了解一些

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种可降低返修率的存储卡的制作方法

一种中文安卓应用程序的恶意行为静态检测方法及装置

相关文献

最热文献