一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

检测赌博APP的方法和系统以及存储介质与流程

2022-03-16 13:44:55 来源:中国专利 TAG:

检测赌博app的方法和系统以及存储介质
技术领域
1.本公开涉及安全领域,更具体地涉及检测赌博应用程序(app)的方法和系统。


背景技术:

2.随着互联网技术的快速发展,在互联网应用市场中充斥着许多不良信息,例如宣传赌博、色情、暴力等信息。这些信息严重污染了未成年人的心灵,破坏了社会风气。现有的检测赌博网站的技术通常基于网页文本进行分类,通过网页截图使用深度学习网络直接进行分类,并且针对赌博app的检测尚无较好的方法。赌博app多数使用与游戏开发相同的框架开发,难以对其直接进行分类和检测。
3.为了克服上述缺陷,需要提供一种创新的检测赌博app的方法和系统。


技术实现要素:

4.在下文中给出了关于本公开的简要概述,以便提供关于本公开的一些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
5.根据本公开的一个方面,提供一种检测赌博app的方法,包括:利用相似度匹配算法,计算待检测app的静态特征与应用程序app特征黑库中的静态特征之间的相似度,其中所述静态特征包括app名称、包名、开发者签名、图标、smali源码和strings.xml中的至少一个的app静态特征;在相似度大于第一预定阈值的情况下,动态安装、运行安卓应用程序包apk,获取动态加载后的app小图和首页页面;提取图像矩阵,利用小目标优化后的目标检测模型来目标检测赌博元素,获取赌博元素特征向量;获取图像文本,计算lda主题词向量,使用特征选取方法选取分类词向量,利用自定义文本分类模型计算文本特征作为文本特征向量;融合赌博元素特征向量和文本特征向量,利用分类模型计算待检测的app疑似为赌博app的疑似概率;以及将疑似概率与第二预定阈值进行比较,在疑似概率大于第二预定阈值的情况下,将待检测的app确定为赌博app。
6.根据本公开的第二方面,提供一种用于检测赌博app的系统,包括app静态特征获取单元,用于从下载的待检测的app获取包括app名称、包名、开发者签名、图标、smali源码和strings.xml中的至少一个的app静态特征;app静态特征匹配单元,用于将获取app的特征分别与app白名单库和app特征黑库进行比较以实现白名单过滤和赌博换壳app识别;截图单元,用于通过动态安装、运行apk,获取动态加载后的小图和首页页面;赌博元素特征获取单元,用于提取图像矩阵,使用小目标优化后的yolo目标检测模型来目标检测赌博元素,以获取赌博元素特征向量;文本特征获取单元,用于通过获取图像文本,计算lda主题词向量,使用特征选取方法选取分类词向量,利用自定义文本分类模型计算文本特征作为文本特征向量;以及融合单元,用于融合赌博元素特征向量和文本特征向量,通过分类模型计算待检测app疑似为赌博app的疑似概率,以实现赌博app的识别。
7.根据本公开的又一个方面,提供一种计算机可读存储介质,其包括计算机可执行指令,所述计算机可执行指令在由一个或多个处理器执行时,使得所述一个或多个处理器执行根据本公开的上述方面所述的方法。
附图说明
8.构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
9.参照附图,根据下面的详细描述,可以更清楚地理解本公开,其中:
10.图1示出了根据本公开的实施例的检测赌博app的系统的总体示意图;
11.图2示出了根据本公开的实施例的检测赌博app的方法的流程图;
12.图3a示出了根据本公开的实施例的通过优化的yolo目标检测模型获得赌博元素特征向量的流程图;
13.图3b示出了计算出的赌博元素统计特征的示意图;
14.图4a示出根据本公开的实施例的利用自定义文本分类模型获得文本特征向量的流程图;
15.图4b示出根据本公开的实施例的自定义文本分类模型的示意图;以及
16.图5示出了可以实现根据本公开的实施例的计算设备的示例性配置。
具体实施方式
17.图1示出了根据本公开的实施例的检测赌博app的系统100的示意方框图。该系统100包括相互通信连接的app静态特征获取单元101、app白名单库102、app特征黑库103、app静态特征匹配单元104、截图单元105、赌博元素特征获取单元106、文本特征获取单元107和融合单元108。
18.app静态特征获取单元101用于从下载的待检测的app获取app名称、包名、开发者签名、图标、smali源码和strings.xml等静态特征。
19.app静态特征匹配单元104用于将获取app的静态特征分别与app白名单库102、app特征黑库103中的静态特征进行比较,实现白名单过滤和赌博换壳app识别。
20.截图单元105通过动态安装、运行安卓应用程序包(apk),获取动态加载后的小图,截取加载完成后的登录页面和首页页面。
21.赌博元素特征获取单元106用于提取图像矩阵,通过使用小目标优化的yolo目标检测模型检测回归损失,检测赌博元素筹码、骰子和轮盘等,获取赌博元素概率和数量统计特征作为赌博元素特征向量。
22.文本特征获取单元107通过光学字符识别(ocr)获取图像文本,计算lda加权主题词向量,使用特征选取方法选取分类词向量。利用自注意力方法和自定义文本分类模型,计算赌博抑制词、激励词、灰词文本特征作为文本特征向量。
23.融合单元108用于融合赌博元素特征向量和文本特征向量,通过分类模型计算待检测app疑似为赌博app的疑似概率,实现赌博app的识别。
24.现在参考图2描述根据本公开的实施例的检测赌博app的方法的流程图。
25.首先,在步骤s201中,利用相似度匹配算法,计算待检测app的静态特征与app特征
黑库中的静态特征之间的相似度,其中,app的静态特征包括app名称、包名、开发者签名、图标、smali源码和strings.xml中的至少一个的app静态特征。
26.根据本公开的实施例,通过下载待检测app,来提取原apk文件信息,包括且不限于app名称、包名、开发者签名、smali源码和strings.xml等app静态特征。对smali源码进行预处理,使用压缩方法提取samli源码信息,使用离散余弦变换(dct)多分箱哈希等方法,来获取app的图标特征。
27.利用相似度匹配算法,计算待检测app的静态特征与app白名单库中的静态特征之间的相似度。在与app白名单库中的静态特征之间的相似度小于第三预定阈值的情况下,确定待检测app为正常app。
28.在与app白名单库中的静态特征之间相似度大于第三预定阈值的情况下,计算待检测app的静态特征与app特征黑库中的静态特征之间的相似度。
29.在待检测app的静态特征与app特征黑库中的静态特征之间的相似度大于第一预定阈值的情况下,在步骤s202中,动态安装、运行apk,获取动态加载后的app小图,截取加载完成后的登录和首页页面。
30.在步骤s203中,提取图像矩阵,将图像矩阵输入小目标优化后的yolo目标检测模型,检测赌博元素,获取概率和数量统计特征作为赌博元素特征向量。利用优化的yolo目标检测模型来获得赌博元素特征向量的具体过程将在下面结合图3a和3b进行详细说明。
31.在步骤s204中,获取图像文本,计算lda主题词向量,使用特征选取方法选取分类词向量,利用自定义文本分类模型,计算抑制词、激励词、灰词文本特征作为文本特征向量。利用自定义文本分类模型获得文本特征向量的具体过程将在下面结合图4a和4b进行详细说明。
32.在步骤s205中,融合获得的赌博元素特征向量和文本特征向量,利用分类模型计算待检测的app疑似为赌博app的疑似概率。
33.在步骤s206中,将疑似概率与第二预定阈值进行比较,在疑似概率大于第二预定阈值的情况下,将待检测的app确定为赌博app。
34.图3a示出了根据本公开的实施例的通过优化的yolo目标检测模型获得赌博元素特征向量的流程图。
35.在步骤301中,从获取的app小图和首页页面提取图像矩阵。
36.在步骤302中,检测赌博元素,例如轮盘、筹码、彩球、扑克和骰子等。
37.在步骤303中,将图像矩阵输入小目标优化后的yolo目标检测模型,yolo模型优化后的加权损失函数l为:
[0038][0039]
其中pi,为每一个锚框类别的真值和预测值;ti,为每一个锚框与地面真值(ground truth)的偏差真值与预测值;w和h为地面真值的宽和高;fl(,)(focal loss)为目标检测的分类损失函数;l
reg
为回归损失,λ和μ为权重,0≤λ≤1,0≤μ≤1;c为大于0的常数;以及n
cls
为检测的物体类别。由于针对小目标加入惩罚项和可变常量,提升了小目标检测的效果。
[0040]
在步骤304中,计算出赌博元素的统计特征,包括但不限于赌博元素轮盘、筹码、彩
球、扑克和骰子的最大概率、平均概率、数量等统计特征,作为赌博元素特征向量,如图3b所示。
[0041]
图4a示出利用自定义文本分类模型获得文本特征向量的流程图。
[0042]
在步骤401中,从获取的app小图和首页页面ocr获取图像文本。
[0043]
在步骤402中,计算lda加权主题词向量,使用特征选取方法选取分类词向量。
[0044]
在步骤403中,将ocr后的图像文本输入自定义文本分类模型,使用多尺度卷积层,构建1-gram,

,n-gram多元文本特征,进行动态maxpooling层过滤以获取多元文本特征1-层,3-层,

,n-层,使用dropout层进行模型平均,将多元特征concat成一维特征,加入relu激活函数的全连接层,计算抑制词、灰词、激励词文本特征作为文本特征向量,如图4b所示。
[0045]
根据本公开的检测赌博app的系统和方法,通过获取app小图和首页截图,基于检测的赌博元素和文本信息,利用优化后的yolo目标检测模型和自定义文本分类模型,改进了针对小目标的检测效果,从而实现赌博app的检测。
[0046]
图5示出了能够实现根据本公开的实施例的计算设备500的示例性配置。
[0047]
计算设备500是能够应用本公开的上述方面的硬件设备的实例。计算设备500可以是被配置为执行处理和/或计算的任何机器。计算设备500可以是但不限制于平板计算机、个人数据助手(pda)、智能电话、车载计算机或以上组合。
[0048]
如图5所示,计算设备500可以包括可以经由一个或多个接口与总线502连接或通信的一个或多个元件。总线502可以包括但不限于,工业标准架构(industry standard architecture,isa)总线、微通道架构(micro channel architecture,mca)总线、增强isa(eisa)总线、视频电子标准协会(vesa)局部总线、以及外设组件互连(pci)总线等。计算设备500可以包括例如一个或多个处理器504、一个或多个输入设备506以及一个或多个输出设备508。一个或多个处理器504可以是任何种类的处理器,并且可以包括但不限于一个或多个通用处理器或专用处理器(诸如专用处理芯片)。处理器502例如可以对应于图1中的检测赌博app的系统的各单元。输入设备506可以是能够向计算设备输入信息的任何类型的输入设备,并且可以包括但不限于鼠标、键盘、触摸屏、麦克风和/或远程控制器。输出设备508可以是能够呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。
[0049]
计算设备500还可以包括或被连接至非暂态存储设备514,该非暂态存储设备514可以是任何非暂态的并且可以实现数据存储的存储设备,并且可以包括但不限于盘驱动器、光存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁性介质、压缩盘或任何其他光学介质、缓存存储器和/或任何其他存储芯片或模块、和/或计算机可以从其中读取数据、指令和/或代码的其他任何介质。计算设备500还可以包括随机存取存储器(ram)510和只读存储器(rom)512。rom 512可以以非易失性方式存储待执行的程序、实用程序或进程。ram 510可提供易失性数据存储,并存储与计算设备500的操作相关的指令。计算设备500还可包括耦接至数据链路518的网络/总线接口516。网络/总线接口516可以是能够启用与外部装置和/或网络通信的任何种类的设备或系统,并且可以包括但不限于调制解调器、网络卡、红外线通信设备、无线通信设备和/或芯片集(诸如蓝牙tm设备、802.11设备、wifi设备、wimax设备、蜂窝通信设施等)。
[0050]
本公开可以被实现为装置、系统、集成电路和非瞬时性计算机可读介质上的计算
机程序的任何组合。可以将一个或多个处理器实现为执行本公开中描述的部分或全部功能的集成电路(ic)、专用集成电路(asic)或大规模集成电路(lsi)、系统lsi,超级lsi或超lsi组件。
[0051]
本公开包括软件、应用程序、计算机程序或算法的使用。可以将软件、应用程序、计算机程序或算法存储在非瞬时性计算机可读介质上,以使诸如一个或多个处理器的计算机执行上述步骤和附图中描述的步骤。例如,一个或多个存储器以可执行指令存储软件或算法,并且一个或多个处理器可以关联执行该软件或算法的一组指令,以根据本公开中描述的实施例提供各种功能。
[0052]
软件和计算机程序(也可以称为程序、软件应用程序、应用程序、组件或代码)包括用于可编程处理器的机器指令,并且可以以高级过程性语言、面向对象编程语言、功能性编程语言、逻辑编程语言或汇编语言或机器语言来实现。术语“计算机可读介质”是指用于向可编程数据处理器提供机器指令或数据的任何计算机程序产品、装置或设备,例如磁盘、光盘、固态存储设备、存储器和可编程逻辑设备(pld),包括将机器指令作为计算机可读信号来接收的计算机可读介质。
[0053]
举例来说,计算机可读介质可以包括动态随机存取存储器(dram)、随机存取存储器(ram)、只读存储器(rom)、电可擦只读存储器(eeprom)、紧凑盘只读存储器(cd-rom)或其他光盘存储设备、磁盘存储设备或其他磁性存储设备,或可以用于以指令或数据结构的形式携带或存储所需的计算机可读程序代码以及能够被通用或专用计算机或通用或专用处理器访问的任何其它介质。如本文中所使用的,磁盘或盘包括紧凑盘(cd)、激光盘、光盘、数字多功能盘(dvd)、软盘和蓝光盘,其中磁盘通常以磁性方式复制数据,而盘则通过激光以光学方式复制数据。上述的组合也包括在计算机可读介质的范围内。
[0054]
提供本公开的主题作为用于执行本公开中描述的特征的装置、系统、方法和程序的示例。但是,除了上述特征之外,还可以预期其他特征或变型。可以预期的是,可以用可能代替任何上述实现的技术的任何新出现的技术来完成本公开的部件和功能的实现。
[0055]
另外,以上描述提供了示例,而不限制权利要求中阐述的范围、适用性或配置。在不脱离本公开的精神和范围的情况下,可以对所讨论的元件的功能和布置进行改变。各种实施例可以适当地省略、替代或添加各种过程或部件。例如,关于某些实施例描述的特征可以在其他实施例中被结合。
[0056]
另外,在本公开的描述中,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性和顺序。
[0057]
类似地,虽然在附图中以特定次序描绘了操作,但是这不应该被理解为要求以所示的特定次序或者以顺序次序执行这样的操作,或者要求执行所有图示的操作以实现所希望的结果。在某些情况下,多任务处理和并行处理可以是有利的。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献