基于语料库提升小训练集猜测效率的口令猜测方法与流程

2022-02-19 10:01:19 来源：中国专利 TAG：

ieee trans. on information forensics and security, vol.10, no.8, pp.1776
‑
1791, 2015.)中，进一步加入了键盘串集合，并对语料库的词汇频率进行了laplace平滑。在一定程度上弥补了原有pcfg方法按照字符类型分词的局限性，可以进一步丰富语料库的内容。虽然pcfg方法产生字典的速度较慢，但是可以使用蒙特卡洛采样方法（dell'amico, m. & filippone, m., monte carlo strength evaluation: fast and reliable password checking, proceedings of the 22nd acm sigsac conference on computer and communications security, acm, 2015, 158
‑
169.）有效估计该方法的猜测效率。
7.国外学者（ji, s.; yang, s.; hu, x.; han, w.; li, z. & beyah, r., zero
‑
sum password cracking game: a large
‑
scale empirical study on the crackability, correlation, and security of passwords, ieee transactions on dependable and secure computing, 2017, 14, 550
‑
564. ur, b.; segreti, s. m.; bauer, l.; christin, n.; cranor, l. f.; komanduri, s.; kurilova, d.; mazurek
†
, m. l.; melicher, w. & shay, r. , measuring real
‑
world accuracies and biases in modeling password guessability, 24th usenix security symposium, 2015.）对markov过程、pcfg等方法进行详细的评测，发现在大多数情况下pcfg方法具有最高的猜测效率，而且能适应于不同的语言类型。因此，pcfg方法已经逐渐成为口令猜测学术研究的主流方法。此外，pcfg方法还可以用于定向攻击（wang, d.; zhang, z.; wang, p.; yan, j. & huang, x., targeted online password guessing, proceedings of the 2016 acm sigsac conference on computer and communications security, acm, 2016.），即根据用户的个人信息组合产生猜测口令集合。
8.pcfg方法综合了结构和语料两个层面的口令信息，具有较高的效率。但是它依然具有很大的局限性。主要表现在以下方面：1）在口令结构的描述上仅仅采用了字符类型作为区分口令词汇的标志，难以区分多个词汇构成的口令，例如，口令"ilovemike"都为小写字母，在pcfg中将被作为一个词汇使用，难以体现出口令内在的结构规律。2）除了键盘字符串外，pcfg所产生的词汇表仅仅来源于训练集。3）产生的结构也是训练集中所出现的结构。这直接导致pcfg方法对训练集的依赖程度很高，pcfg所产生的猜测字典不能包含在训练集中没有出现的口令词汇或结构模式。
9.综上所述，pcfg方法等方法具有较高的猜测效率和多种语言的适应能力。但是现有的口令猜测方法研究主要围绕针对大规模真实口令集合开展，对于小训练集学习方法的研究比较欠缺。其主要难点在于小训练集的口令数量有限，现有的训练方法缺少必要的词汇泛化和结构泛化能力，使得其能学习到的词汇和猜测规则非常有限。

技术实现要素：

10.为了解决已有口令猜测方法在训练集规模较小时效果不佳的问题。本发明与传统的pcfg口令猜测方法相比具有以下改进：1）传统pcfg方法对训练口令的分词采用了按照字符类型方式，难以切割口令中同一类型字符的多个词汇。本发明使用基于语料库的分词方法，可以切分出口令中同一字符类型的词汇。2）pcfg方法的学习过程仅仅能发现在训练集中出现的词汇及其相应的概率，所产生的字典中也只能包含训练集中出现的词汇。在训练集较小时，所产生字典中口令的词汇有限，导致猜测效率不高。本发明基于已有的大规模自
然语言语料库，可以扩展训练集中没有出现的同类型词汇，并使用平滑方法计算语料库中所有词汇的概率，所产生的字典可以包含训练集中未出现的词汇。这样可以有效减少对训练集的依赖，在字典中扩展了同一类型的词汇。3）本发明在估算破解率时，首先估计指定猜测次数所对应概率，然后计算测试集每条口令的最大概率并与前述概率对比，大于前述概率者一定会出现在该方法所产生的字典中，可以有效提升破解率检测的效率。
11.本发明的目的至少通过如下技术方案之一实现。
12.基于语料库提升小训练集猜测效率的口令猜测方法，包括以下步骤：s1、构建包括四类语料集合的语料库γ，并确定口令猜测规则的结构；s2、基于语料库γ，针对口令训练集pwd_train中的训练口令pwd产生该口令的猜测规则r，得到多条口令猜测规则构成的口令猜测规则集合r；s3、基于语料库γ和口令猜测规则集合r，计算语料库γ中每条词汇w的概率，记为p(w，pwd_train)，w∈γ；计算口令猜测规则集合r中每条口令猜测规则r的概率，记为q(r, pwd_train)，r∈r；s4、产生猜测次数为s的字典d(s)，利用字典d(s)进行口令猜测。
13.进一步地，步骤s1中，构造具有以下特征的语料库γ：特征1、语料库γ中包括|γ|个语料集合，γ ={c
i
|1≤i≤|γ|}，其中c
i
为第i个语料集合；特征2、每个语料集合包括同一类型且长度相同的词汇；特征3、语料集合的词汇类型包括语言、国家和地区、通用以及暴力语料；语言类型语料包括不同语言（例如英语、俄语等）的词汇、姓氏和名字；国家和地区语料包括地名、电话号码；通用语料包括常见键盘字符序列、年份和日期格式；特征4、非暴力语料的单个语料集合中所有词汇长度相同，且大于等于4；特征5、暴力语料集合的长度小于等于3，并分为小写字母、大写字母、数字和特殊符号；暴力语料集合共计12个：长度为1~3的ascii码小写字母[az_1], [az_2], [az_3]（数量分别为26，262，263），长度为1~3的ascii码大写字母[az_1], [az_2], [az_3]（数量分别为26，262，263）, 长度为1~3的数字[09_1], [09_2], [09_3]（数量分别为10，102，103）,长度为1~3的ascii码其他可打印字符[sp_1], [sp_2], [sp_3] （数量分别为33，332，333）；特征6、语料库γ中任意两个语料集合不包括相同的词汇；第i个语料集合c
i
中词汇的数量定义为|c
i
|，长度定义为l(c
i
)；一条口令猜测规则r是由多个语料集合连接构成，口令猜测规则r描述为r=[c1]
…
[c
s
]，c1,
…
,c
s
∈γ；s表示口令猜测规则r的段数，记为d(r)；称为口令猜测规则r的语料空间尺寸，记为s(r)；|r|条互不相同的口令猜测规则r形成口令猜测规则集合r。
[0014]
进一步地，步骤s2中，口令训练集pwd_train包括若干条训练口令pwd，基于语料库γ产生特定训练口令pwd的口令猜测规则r，具体如下：基于语料库γ构造单条训练口令pwd的有向无环图g=<v, e>，其中，有向无环图g中的每条边都是语料库γ中的从该边的起点到终点的字符子串所属于的语料集合；产生有向无环图g中从起点到终点的所有路径，每个路径都对应训练口令pwd的一
种分词方法，每种分词方法都对应一种猜测规则；从所有可能的猜测规则中选择最小段数的猜测规则作为对应训练口令pwd的口令猜测规则r，如果有多个猜测规则都具有最小的段数，则选择语料尺寸空间最小的猜测规则作为对应的口令猜测规则r；最终得到由多条口令猜测规则r构成的口令猜测规则集合r。
[0015]
进一步地，步骤s3中，对于语料库γ和训练口令集pwd_train，计算语料库γ中每条词汇w的概率和猜测规则集合r中每条口令猜测规则r的概率。具体如下：口令猜测规则集合r中每条口令猜测规则r的概率，记为q(r, pwd_train)，r∈r；口令猜测规则集合r中每条口令猜测规则r对应的概率具有以下特征：1）口令猜测规则集合r中的每条口令猜测规则r均根据训练口令集pwd_train中每条训练口令pwd执行步骤s2产生；2）口令猜测规则集合r中每条口令猜测规则r的频率之和等于1；3）口令猜测规则集合r中每条口令猜测规则r的概率正比于其在训练口令集pwd_train中出现的频度；语料库γ中每条词汇w的概率，记为p(w，pwd_train)，w∈γ；语料库γ中每条词汇的概率具有以下特征：1）统计语料库γ中每条词汇在训练集中出现的频度。然后再将每个语料集合c中所有词汇的频度都加1，这使得没有出现在语料库中的词汇的频度也不为0；2）语料集合c中每个词汇的概率等于上述第1）步得到该词汇的频度除以该语料集合中所有词汇频度之和；3）每个语料集合c中词汇的概率之和等于1；4）如果语料集合c中的特定词汇在训练口令集中没有出现，其概率反比于该语料集合c中的词汇数量之和；5）如果语料集合c中的特定词汇在训练口令集中出现，其概率正比于该词汇在训练口令集中出现的频度，反比于该语料集合c中词汇数量之和。
[0016]
进一步地，步骤s4中，对于口令猜测规则集合r中的一条规则口令猜测规则r=[c1]
…
[c
s
]和s个词汇w1,
…
,w
s
满足w1∈c
1,
w2∈c2,
…
,w
s
∈c
s
，c1,
…
,c
s
∈γ，，称w1|
…
|w
s
为一个基于语料库γ和口令猜测规则集合r的合法词汇组合，其中
‘
|’为字符串拼接操作；合法词汇组合w1|
…
|w
s
成为口令的概率prob(w1|
…
|w
s
)定义为：prob(w1|
…
|w
s
)=∏
1≤i≤s
p(w
i
, pwd_train)
×
q(r, pwd_train) ；给定猜测次数s，如果s个基于语料库γ和口令猜测规则集合r的合法词汇组合的有序序列d(s)=<cp1,cp2,
…
,cp
s
>满足：条件1、prob(cp
j
)≥prob(cp
j 1
), 1≤j≤s
‑
1；条件2、包括s个合法词汇组合的有序序列d(s)中的最后一个合法词汇组合cp
s
的概率大于所有其它未出现在d(s)中的合法词汇组合成为口令的概率；则称d(s)为猜测次数为s的有序字典，d(s)中第s个合法词汇组合成为口令的概率prob(cp
s
)记为α(s)。
[0017]
进一步地，一个字符串str有可能描述为多种合法词汇组合，而每种合法词汇组合都具有不同的成为口令的概率；
字符串str成为口令的概率prob(str)定义为该字符串对应的所有合法词汇组合成为口令概率中的最大者，如果一个字符串无法描述为合法词汇组合，则其成为口令的概率为0。
[0018]
对于包括s个合法词汇组合的有序字典d(s)，具有以下性质：性质1、如果合法词汇组合cp成为口令的概率prob(cp)大于α(s)，则该合法词汇组合cp一定属于d(s)。
[0019]
性质2、如果字符串str成为口令的概率prob(str)大于α(s)，则该字符串str一定属于d(s)。
[0020]
相比与现有技术，本发明的优点在于：1）基于自然语言语料库对训练口令集分词，并产生基于语料集合的口令猜测规则。与pcfg方法相比，所产生的猜测规则更能反应口令设置的内在含义。
[0021]
2）采用自然语言语料库扩充生成字典中的词汇，能有效解决pcfg方法所发现词汇完全依赖于训练集的问题，从而克服该方法在小训练集情况下，猜测效果不佳的缺点。
附图说明
[0022]
图1是本发明基于语料库提升小训练集猜测效率的口令猜测方法的步骤流程图。
[0023]
图2是本发明实施例中训练口令“loverain”产生的简化有向无环图。
[0024]
图3是本发明实施例中与pcfg在口令集rockyou时的破解率对比示意图。
[0025]
图4是本发明实施例中与pcfg在口令集csdn时的破解率对比示意图。
具体实施方式
[0026]
为使本发明的目的、技术方案和优点更加清楚明白，下面结合附图并举实施例，对本发明的具体实施进行详细说明。
[0027]
实施例1：基于语料库提升小训练集猜测效率的口令猜测方法，如图1所示包括以下步骤：s1、构建包括四类语料集合的语料库γ，并确定口令猜测规则的结构；构造具有以下特征的语料库γ：特征1、语料库γ中包括|γ|个语料集合，γ ={c
i
|1≤i≤|γ|}，其中c
i
为第i个语料集合；特征2、每个语料集合包括同一类型且长度相同的词汇；特征3、语料集合的词汇类型包括语言、国家和地区、通用以及暴力语料；语言类型语料包括不同语言（例如英语、俄语等）的词汇、姓氏和名字；国家和地区语料包括地名、电话号码；通用语料包括常见键盘字符序列、年份和日期格式；特征4、非暴力语料的单个语料集合中所有词汇长度相同，且大于等于4；特征5、暴力语料集合的长度小于等于3，并分为小写字母、大写字母、数字和特殊符号；暴力语料集合共计12个：长度为1~3的ascii码小写字母[az_1], [az_2], [az_3]（数量分别为26，262，263），长度为1~3的ascii码大写字母[az_1], [az_2], [az_3] （数量分别为26，262，263）, 长度为1~3的数字[09_1], [09_2], [09_3] （数量分别为10，102，103）, 长度为1~3的ascii码其他可打印字符[sp_1], [sp_2], [sp_3] （数量分别为33，332，333）；
pwd_train)，r∈r；对于语料库γ和训练口令集pwd_train，计算语料库γ中每条词汇w的概率和猜测规则集合r中每条口令猜测规则r的概率。具体如下：口令猜测规则集合r中每条口令猜测规则r的概率，记为q(r, pwd_train)，r∈r；口令猜测规则集合r中每条口令猜测规则r对应的概率具有以下特征：1）口令猜测规则集合r中的每条口令猜测规则r均根据训练口令集pwd_train中每条训练口令pwd执行步骤s2产生；2）口令猜测规则集合r中每条口令猜测规则r的频率之和等于1；3）口令猜测规则集合r中每条口令猜测规则r的概率正比于其在训练口令集pwd_train中出现的频度；语料库γ中每条词汇w的概率，记为p(w，pwd_train)，w∈γ；语料库γ中每条词汇的概率具有以下特征：1）统计语料库γ中每条词汇在训练集中出现的频度。然后再将每个语料集合c中所有词汇的频度都加1，这使得没有出现在语料库中的词汇的频度也不为0；2）语料集合c中每个词汇的概率等于上述第1）步得到该词汇的频度除以该语料集合中所有词汇频度之和；3）每个语料集合c中词汇的概率之和等于1；4）如果语料集合c中的特定词汇在训练口令集中没有出现，其概率反比于该语料集合c中的词汇数量之和；5）如果语料集合c中的特定词汇在训练口令集中出现，其概率正比于该词汇在训练口令集中出现的频度，反比于该语料集合c中词汇数量之和。
[0030]
本实施例中，规则概率和词汇概率的计算如算法2所示；算法
‑
2 规则概率的计算输入：(1)训练口令集合pwd_train(2)语料库γ={c
i
}输出：(1)口令猜测规则集合r；(2)r每条规则规则r的概率q(r,pwd_train), r∈r；(3)γ中每个词汇w的概率p(w，pwd_train),w∈γ；中间变量：(1)γ中每个词汇的频度f(w, pwd_train)，w∈γ1.
ꢀꢀ
r=
∅
2.
ꢀꢀ
f(w, pwd_train)=0，w∈γ3.
ꢀꢀ
对所有pwd∈pwd_train循环3.1
ꢀꢀꢀ
使用算法
‑
1计算pwd= c1…
c
n
对应的规则r=[c1]
…
[c
s
]3.2
ꢀꢀꢀ
如果r∈r则3.2.1
ꢀꢀꢀꢀ
q(r,pwd_train)=q(r,pwd_train) 1/|pwd_train|3.3
ꢀꢀꢀ
否则3.3.1
ꢀꢀꢀꢀ
r=r∪r3.3.3
ꢀꢀꢀꢀ
q(r,pwd_train)=1/|pwd_train|3.4
ꢀꢀꢀ
t=1
3.5
ꢀꢀꢀ
i从1到s循环3.5.1
ꢀꢀꢀꢀ
3.5.2
ꢀꢀꢀꢀ
f(w, pwd_train)= f(w, pwd_train) 13.5.3
ꢀꢀꢀꢀ
t=t l(c
i
)4. 对所有c
i
∈γ循环4.1
ꢀꢀꢀ
4.2
ꢀꢀꢀꢀ
对c
i
中的词汇w循环4.2.1
ꢀꢀꢀꢀ
如果f(w, pwd_train)≠0，则4.2.1.1
ꢀꢀꢀꢀꢀꢀ
p(w, pwd_train)=(f(w, pwd_train) 1)/fsum4.2.2
ꢀꢀꢀꢀ
否则4.2.2.1
ꢀꢀꢀꢀꢀꢀ
p(w, pwd_train)=1/fsums4、产生猜测次数为s的字典d(s)，利用字典d(s)进行口令猜测；对于口令猜测规则集合r中的一条规则口令猜测规则r=[c1]
…
[c
s
]和s个词汇w1,
…
,w
s
满足w1∈c
1,
w2∈c2,
…
,w
s
∈c
s
，c1,
…
,c
s
∈γ，称w1|
…
|w
s
为一个基于语料库γ和口令猜测规则集合r的合法词汇组合，其中
‘
|’为字符串拼接操作；合法词汇组合w1|
…
|w
s
成为口令的概率prob(w1|
…
|w
s
)定义为：prob(w1|
…
|w
s
)=∏
1≤i≤s
p(w
i
, pwd_train)
×
q(r, pwd_train) ；给定猜测次数s，如果s个基于语料库γ和口令猜测规则集合r的合法词汇组合的有序序列d(s)=<cp1,cp2,
…
,cp
s
>满足：条件1、prob(cp
j
)≥prob(cp
j 1
), 1≤j≤s
‑
1；条件2、包括s个合法词汇组合的有序序列d(s)中的最后一个合法词汇组合cp
s
的概率大于所有其它未出现在d(s)中的合法词汇组合成为口令的概率；则称d(s)为猜测次数为s的有序字典，d(s)中第s个合法词汇组合成为口令的概率prob(cp
s
)记为α(s)。
[0031]
一个字符串str有可能描述为多种合法词汇组合，而每种合法词汇组合都具有不同的成为口令的概率；字符串str成为口令的概率prob(str)定义为该字符串对应的所有合法词汇组合成为口令概率中的最大者，如果一个字符串无法描述为合法词汇组合，则其成为口令的概率为0。
[0032]
对于包括s个合法词汇组合的有序字典d(s)，具有以下性质：性质1、如果合法词汇组合cp成为口令的概率prob(cp)大于α(s)，则该合法词汇组合cp一定属于d(s)。
[0033]
性质2、如果字符串str成为口令的概率prob(str)大于α(s)，则该字符串str一定属于d(s)。
[0034]
本实施例中，可以使用参考文献（matt weir, sudhir affarwal, breno de medeiros, bill glodek, "password cracking using probabilistic context
‑
free grammars", in proc. 30th ieee symposium on security and privacy, 2009, pp.391
‑
405.）的next算法产生有序字典d(s)
s5、根据猜测次数估计字典d(s)中最后一个合法词汇组合的概率；本实施例中，由于字典d(s)的生成速度很慢，而且在猜测次数s较大时字典所需要的存储容量很大，因此难以生成字典以评估破解率；基于口令猜测规则集合r，{q(r，pwd_train)|r∈r}, γ, {p(w，pwd_train)|w∈γ}，对于给定概率β，使用文献（dell'amico, m. & filippone, m., monte carlo strength evaluation: fast and reliable password checking, proceedings of the 22nd acm sigsac conference on computer and communications security, acm, 2015, 158
‑
169.）中介绍的蒙特卡洛采样方法计算成为口令概率大于β的合法词汇组合的估计数量，此过程记为n(β)；计算α(s)的估计值，具体如下：首先初始化第一概率值α0和第二概率值α1，满足s介于使用蒙特卡洛采样方法所估计第一概率值α0和第二概率值α1对应的猜测次数n(α0)和n(α1)之间；然后不断调整第一概率值α0和第二概率值α1，使得n((α0 α1)/2)接近s；当|n((α0 α1)/2)
‑
s|<0.1s时，取(α0 α1)/2为α(s)的估计值。
[0035]
本实施例中，估计字典d(s)的最后一个词汇组合成为口令的概率如算法3所示；算法
‑
3 估计字典d(s)的最后一个词汇组合成为口令的概率输入：(1) 猜测规则集合r；(2) r中每条规则的概率{q(r，pwd_train)|r∈r}；(3) 语料库γ；(4) γ中每个词汇的概率{p(w，pwd_train)|w∈γ}(5) 猜测次数s输出：α(s)的估计值1. 选择α0和α1，满足n(α0)<s<n(α1)2. 当，循环2.1
ꢀꢀꢀꢀ
如果，则2.1.1
ꢀꢀꢀꢀꢀꢀ
α0=2.2
ꢀꢀꢀꢀ
否则2.2.1
ꢀꢀꢀꢀꢀꢀ
α1=3.
ꢀꢀ
返回s6、在不实际产生字典d(s)的情况下估计字典d(s)对测试口令集的破解率；基于步骤s5中估计的字典d(s)的最后一个合法词汇组合的概率，依次计算测试口令集中每个字符串成为口令的概率，如果字符串成为口令的概率大于，则表明该
字符串属于字典d(s)；训练集中所有属于字典d(s)的字符串数量除以训练集字符串的总数量为猜测次数等于s时本发明对测试口令集的破解率。
[0036]
本实施例中，检测测试口令集pwd_test的破解率如算法
‑
4所示；算法
‑
4 检测测试口令集pwd_test的破解率输入：(1) 猜测规则集合r；(2) r中每条规则的概率{q(r，pwd_train)|r∈r}；(3) 语料库γ；(4) γ中每个词汇的概率{p(w，pwd_train)|w∈γ}(5) 猜测次数s(6) 测试口令集pwd_test。
[0037]
输出：基于训练集pwd_train和语料库γ，在猜测次数为s时，所生成字典d(s)对测试口令集pwd_test的破解率γ(pwd_train, γ,pwd_test, s)1. g=02. 基于r, {q(r，pwd_train)|r∈r}, γ,{p(w，pwd_train)|w∈γ}和s，使用算法
‑
3计算3. 对pwd∈pwd_test循环3.1
ꢀꢀꢀ
如果prob(pwd)> ，则3.1.1
ꢀꢀꢀꢀꢀ
g=g 14.
ꢀꢀ
返回g/|pwd_test|如图1所示，本发明的实施需要由数据和软件两个部分组成，其中数据包括语料库γ，训练口令集合pwd_train，测试口令集pwd_test。软件包括训练软件、破解率检测软件等两个部分。其中，训练软件中完成算法
‑
1和算法
‑
2，破解率检测软件将完成算法
‑
3和算法
‑
4。
[0038]
实施例2——生成训练口令“loverain”的口令猜测规则；语料库γ
sample
中除了暴力字符集合外，还包括4个字符长度的英语词汇集合en_4={love, rain, blue}, 5个字符长度的英语词汇集合en_5={lover, green}。算法
‑
1产生的简化有向无环图如图2所示。在此图中，可以产生以下规则：r1‑
lovereain
: [en_4][en_4]，段数为2，语料空间尺寸为3
×
3=9；r2‑
loverain
: [en_5][az_3]，段数为2，语料空间尺寸为2
×
263=35152；r3‑
loverain
: [en_4][az_2][az_2]，段数为3，语料空间尺寸为3
×
262×
262=1370928；在loverain所能产生的所有口令猜测规则中，r1‑
loverain
具有最少的段数，且在段数最少的猜测规则中具有最小的语料空间尺寸。因此，该训练口令得到的口令猜测规则为r1‑
loverain
: [en_4][en_4]。
[0039]
实施例3——对训练口令集合pwd_train
sample
的训练结果和若干合法词汇组合；设训练口令集合pwd_train
sample
={loverain, loveblue, greenblue, love3}。
[0040]
使用算法
‑
2后，得到的训练结果：1）口令猜测规则集合r包含3条口令猜测规则：r1=[en_4][en_4], r2= [en_5][en_
4], r3= [en_4][09_1]；2）口令猜测规则的概率：q(r1)=0.5,q(r2)=0.25, q(r3)=0.25；3）en_4中词汇的概率：p(“love”)=4/9, p(“blue”)=3/9, p(“rain”)=2/9, p(“green”)=2/3；en_%中词汇的概率p(“lover”)=1/3；09_1中，除了p(“3”)=2/27外，其他的概率均为1/27；下述给出了基于上述训练结果可以产生的两个合法词汇组合及其成为口令的概率（保留4位有效小数）。
[0041]
(lover|love)= q(r2)
×
p(lover)
×
p(love)=0.0370；prob(blue|4)= q(r3)
×
p(blue)
×
p(4)= 0.0031。
[0042]
实施例3——pcfg方法的比较；对于rockyou和csdn两个大规模口令集合。分别按照3:1、1:3和1:27的比例从中随机选择口令形成训练集和测试集。分别使用经典的pcfg方法和本发明提出的方法对训练集进行训练，并测试对测试集的破解率，如图3和图4所示。
[0043]
由上述测试可以看出以下特征：1）本发明和pcfg的破解率都依赖于训练集大小，训练集越大，破解率越高。在小训练集（1：27）和猜测次数为10
11
的情况下，本发明和pcfg方法对于rockyou口令集的破解率分别为85.59%和51.68%，对csdn口令集的破解率分别为74.10%和30.03%，分别相对提升了65.6%和146%。说明本发明较经典pcfg方法有显著提升。
[0044]
2）随着猜测次数的增加，pcfg的破解率增长并不明显。在小训练集（1：27）时，猜测次数从10
11
提升到10
14
时，pcfg方法对rockyou的破解率仅仅从51.68%提升到52.97%，仅仅提升了1.29%。在同样条件下，本发明对rockyou的破解率从85.59%提升到92.53%，提升了6.94%。说明本发明在猜测次数提高时，破解率的增长较pcfg更加显著。
[0045]
3）在相同的猜测次数下，本发明对训练集的规模不敏感。例如对于rockyou口令集，在猜测次数为10
11
时，对于3：1的大训练集和27：1的小训练集，pcfg方法的破解率从70.79%迅速降低到51.68%，降低了19.11%，而本发明从87.70%降低到85.59%，仅仅降低了2.11%。
[0046]
由上述测试可以看出，本发明扩展了训练集中的词汇，在同样的猜测次数下较已有的pcfg方法具有更高的破解率，且在训练集缩小的情况下本发明依然可以保持较为稳定的破解率。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：目标检测方法、电子设备及存储介质与流程

基于语料库提升小训练集猜测效率的口令猜测方法与流程

相关文献

最热文献