一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种识别异常APK的方法、电子设备及可读存储介质与流程

2022-03-14 00:55:12 来源:中国专利 TAG:

一种识别异常apk的方法、电子设备及可读存储介质
技术领域
1.本发明涉及apk文件技术领域,特别涉及一种识别异常apk的方法、电 子设备及可读存储介质。


背景技术:

2.目前,安卓平台中针对安卓安装包(androidpackage,简称apk)具有很多的 类型,其中异常类型的apk会对于用户产生负面效果,例如,泄漏用户信息或 者插入异常插件等。
3.在现有的技术中,对于安装在设备中的apk,统计的异常apk有限,一方 面是由于apk加密无法进行识别,另一方面由于,异常apk会不断的更新, 数据库中无法满足更新后的apk识别,对用户使用造成负面鲜果,影响到用户 的使用安全。


技术实现要素:

4.为了解决现有技术的问题,通过计算出任一apk反编译得到的文本中关键 对应的tf值和textrank值,并基于tf值和textrank值筛选出目标词用于扩展若 干关联词,将关联词和目标词存储值样本数据库中,保证样本数据库的中数据 充足和完善,有利于提高确定异常apk的准确性,同时也优化了本数据库的中 数据;本发明实施例提供了一种识别异常apk的方法、电子设备及可读存储介 质。所述技术方案如下:
5.一方面,一种识别异常apk的方法,所述方法包括如下步骤:
6.s101、获取目标apk列表a=(a1,a2,a3,
……
,am),其中,ai是指 第i个目标apk,m为目标apk数量;
7.s103、根据a对应的目标文件d,得到第一目标列表b=(b1,b2,b3,
……
, bλ)和第二目标列表其中,bx是指 第x个第一目标词,x=1
……
λ,λ为第一目标词数量,是指第y个第二目 标词,y=1
……
γ,γ为第二目标词数量;
8.其中,s103还包括如下方法确定d:
9.将ai进行反编译处理,得到目标代码包,所述目标代码包包括:若干个的 目标文件,所述目标文件是指若干行的编辑代码;
10.将任一行的编辑代码提取的中文语料作为目标语句,并对相邻行的目标语 句之间插入间隔符且对相邻的目标文件之间插入相同的间隔符,得到di;
11.当d1∪d2∪
……
∪dm时且相邻的di插入相同的间隔符,得到d;
12.s105、根据b和得到目标词列表c=(c1,c2,c3,
……
,cn)并存 储至样本数据库,其中,cj是指第j个样本关键词,j=1
……
n,n为样本关键数 量;
13.s107、将任一cj输入至lda模型,得到cj对应的词向量(cj1,c2,cj3,
……
,cjk)并存储至所述样本数据库,其中,cjt是指cj对应的第t个关联词,t=1
……ꢀ
k,k为关联词数量;
14.s109、基于所述样本数据库,确定待测apk是否为异常apk。
15.另一方面,一种电子设备,包括处理器和存储器,所述存储器中存储有至 少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处 理器加载并执行以实现如上述任一项所述识别异常apk的方法。
16.另一方面,一种计算机可读存储介质,所述计算机可读存储介质中存储有 至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理 器加载并执行以实现如上述任一项所述识别异常apk的方法。
17.本发明提供的一种识别异常apk的方法、电子设备及可读存储介质,具有 如下技术效果:
18.发明通过获取目标apk列表,根据目标apk列表中apk反编译后的文件 集成目标文件,根据目标文件得到第一目标词列表和第二目标词列表,根基于 第一目标词列表和第二目标词列表,得到目标词列表并存储至样本数据库;将 目标词列表任一目标词输入至第三模型,得到此目标词进行扩充得到扩充后的 词向量并存储至所述样本数据库;基于所述样本数据库,确定待测apk是否为 异常apk;可见,发明的技术方案中保证样本数据库的中数据充足和完善,有 利于提高确定异常apk的准确性,同时也优化了本数据库的中数据。
附图说明
19.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
20.图1是本发明实施例一提供的一种识别异常apk的方法的流程示意图。
具体实施方式
21.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造 性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
22.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、
ꢀ“
第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。 应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实 施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括
”ꢀ
和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了 一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的 那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品 或设备固有的其它步骤或单元。
23.根据图1,本实施例提供了一种识别异常apk的方法,所述方法包括如下 步骤:
24.s101、获取目标apk列表a=(a1,a2,a3,
……
,am),其中,ai是指 第i个目标apk,m为目标apk数量;
25.具体地,所述目标apk为具有异常标识的apk,其中,a1……am
具有相 同的异常标
识,能够对于同类的apk中关键词进行计算,进而通过关键词扩充 样本数据库,有利于待测apk类型的确定。
26.s103、根据a对应的目标文件d,得到第一目标列表b=(b1,b2,b3,
……
, bλ)和第二目标列表其中,bx是指 第x个第一目标词,x=1
……
λ,λ为第一目标词数量,是指第y个第二目 标词,y=1
……
γ,γ为第二目标词数量;
27.其中,s103还包括如下方法确定d:
28.将ai进行反编译处理,得到目标代码包,所述目标代码包包括:若干个的 目标文件,所述目标文件是指若干行的编辑代码;
29.将任一行的编辑代码提取的中文语料作为目标语句,并对相邻行的目标语 句之间插入间隔符且对相邻的目标文件之间插入相同的间隔符,得到di;
30.当d1∪d2∪
……
∪dm时且相邻的di插入相同的间隔符,得到d。
31.具体地,所述目标语句包括单个字字、单个词组和一段语句中一种或者多 种组合;能够有利于切词处理,避免误切词或者遗漏切词,简化了计算tf值和textrank值过程同时也提高了计算tf值和textrank值的准确性。
32.优选地,所述间隔符可以采用停用词库中任一停用词,例如,“/”“\”等, 例如,登入/包装/
……
/涉及等。
33.具体地,本领域技术人员能够采取任意一种反编译软件进行反编译处理, 对反编译过程在此不再赘述。
34.具体地,所述s103还包括如下步骤:
35.将d进行切词处理和去重处理,得到第一关键词列表t=(t1,t2,t3,
……
,tp)和t对应的tf值列表s=(s1,s2,s3,
……
,sp),tα是指第α个第 一关键词且sα是指tα对应的tf值,α=1
……
p,p为第一关键词数量,其中, s1≥s2≥s3≥
……
≥sp;
36.初始化b=null遍历s;
37.当α≤预设的序号阈值,将tα插入至b。
38.具体地,所述第一关键词是指在对di中目标语句采用第一切词方法进行切 词并进行去重处理得到的关键词,其中,第一切词方法是指遍历di中目标语句 以停用词库中停用词作为间隔进行切词的方法,本领域技术人员可以知晓任一 切词方法和去重方法得到第一关键词,在此不再赘述。
39.在一个具体的实施例中,当α≤预设的序号阈值且sα=sα 1=sα 2=
……ꢀ
sα r>sα r 1时,将t1对应的第一关键词至tα r对应的第一关键词均插入 至b;能够避免遗漏关键词,保证基于关键词可以扩充出足够的关联词存储至样 本词数据库中,有利于异常apk的确定。
40.具体地,λ=α或者α r,r=1
……
p-1。
41.同时,将相同的d进行切词处理和去重处理,得到第二关键词列表同时,将相同的d进行切词处理和去重处理,得到第二关键词列表和对应的textrank值列表对应的textrank值列表对应的textrank值列表是指第β第二关键词且是指对应的textrank值,β=1
……ꢀ
q,q为第二关
键词数量,其中,
42.初始化且遍历
43.当β≤所述序号阈值,将插入至
44.具体地,所述第二关键词是指在对di中目标语句采用第二切词方法进行切 词并进行去重处理得到的关键词,其中,第二切词方法与第一切词方法一致或 者,第二切词方法是指遍历di中目标语句以其他停用词库中停用词作为间隔进 行切词的方法,本领域技术人员可以知晓任一切词方法和去重方法得到第一关 键词,在此不再赘述。
45.在一个具体的实施例中,当β≤预设的序号阈值且在一个具体的实施例中,当β≤预设的序号阈值且时,将对应的第二关键词至对应的第二 关键词均插入至能够避免遗漏关键词,保证基于关键词可以扩充出足够的 关联词存储至样本词数据库中,有利于异常apk的确定。
46.具体地,γ=β或者β g,g=1
……
q-1。
47.s105、根据b和得到目标词列表c=(c1,c2,c3,
……
,cn)并存 储至样本数据库,其中,cj是指第j个样本关键词,j=1
……
n,n为样本关键数 量。
48.具体地,所述方法还包括如下方法确定c:
49.初始化c=null且遍历b和
50.当时,将bx插入至c,能够通过tf-idf模型和textrank模型得到 关键词列表,并选取两个关键词列表的交集,提高了选词的准确率,同时减少 了其他词的干扰,保证确定异常apk的准确性。
51.s107、将任一cj输入至lda模型,得到cj对应的词向量(cj1,c2,cj3,
……
,cjk)并存储至样本数据库;cjt是指cj对应的第t个关联词,t=1
……
k,k为关 联词数量。
52.具体地,所述关联词是指与目标词具有相同或者相似含义的词。
53.上述方法通过采用两种方式选取目标词,能够保证对目标词进行扩充的准 确率,同时对目标词进行扩充得到词向量,提高了样本数据库中数据量和确定 异常apk的准确性。
54.s109、基于所述样本数据库,确定待测apk是否为异常apk。
55.具体地,所述s107步骤还包括如下步骤:
56.获取待测apk对应的文本,所述文本包括若干待测关键词;
57.遍历所述样本数据库,得到待测apk对应的异常值;
58.当所述异常值≥预设的相似度阈值时,确定待测apk为异常apk。
59.具体地,所述待测apk对应的文本与目标文件相同的方法进行确定,在此 不再赘述。
60.具体地,本领域技术人员可以采取任一方法得到异常值,用于判断待测apk 是否为异常apk,此不再赘述。
61.本实施例提供了一种识别异常apk的方法,一方面能够保证样本数据库的 中数据
充足和完善,有利于提高确定异常apk的准确性;另一方面,避免遗漏 目标词,并基于目标词进行扩展,优化了样本数据库的中数据。
62.本发明的实施例还提供了一种电子设备,包括处理器和存储器,所述存储 器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段 程序由所述处理器加载并执行以实现如上述的识别异常apk的方法。
63.本发明实施例的计算机设备以多种形式存在,包括但不限于:
64.(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、 数据通信为主要目标。这类终端包括:智能手机(例如tphone)、多媒体手机、 功能性手机,以及低端手机等。
65.(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处 理功能,一般也具备移动上网特性。这类终端包括:pda、mtd和umpc设备 等,例如tpad。
66.(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括: 音频、视频播放器(例如tpod),掌上游戏机,电子书,以及智能玩具和便携式车 载导航设备。
67.(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、 系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服 务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面 要求较高。
68.(5)其他具有数据交互功能的电子装置。
69.本发明的实施例还提供了一种计算机可读存储介质,所述存储介质可设置 于电子设备之中以保存用于实现方法实施例中一种病毒检测方法相关的至少一 条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并 执行以实现上述方法实施例提供的识别异常apk的方法。
70.可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服 务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包 括但不限于:u盘、只读存储器(rom,read-only memory)、随机存取存储 器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存 储程序代码的介质。
71.以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的 精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的 保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献