基于语料库提升小训练集猜测效率的口令猜测方法与流程

2022-02-19 10:01:19 来源：中国专利 TAG：

技术特征：
1.基于语料库提升小训练集猜测效率的口令猜测方法，其特征在于，包括以下步骤：s1、构建包括四类语料集合的语料库γ，并确定口令猜测规则的结构；构造具有以下特征的语料库γ：特征1、语料库γ中包括|γ|个语料集合，γ ={c
i
|1≤i≤|γ|}，其中c
i
为第i个语料集合；特征2、每个语料集合包括同一类型且长度相同的词汇；特征3、语料集合的词汇类型包括语言、国家和地区、通用以及暴力语料；特征4、非暴力语料的单个语料集合中所有词汇长度相同，且大于等于4；特征5、暴力语料集合的长度小于等于3，并分为小写字母、大写字母、数字和特殊符号；特征6、语料库γ中任意两个语料集合不包括相同的词汇；第i个语料集合c
i
中词汇的数量定义为|c
i
|，长度定义为l(c
i
)；s2、基于语料库γ，针对口令训练集pwd_train中的训练口令pwd产生该口令的猜测规则r，得到多条口令猜测规则构成的口令猜测规则集合r；s3、基于语料库γ和口令猜测规则集合r，计算语料库γ中每条词汇w的概率；计算口令猜测规则集合r中每条口令猜测规则r的概率；s4、产生猜测次数为s的字典d(s)，利用字典d(s)进行口令猜测。2.根据权利要求1所述的基于语料库提升小训练集猜测效率的口令猜测方法，其特征在于，一条口令猜测规则r是由多个语料集合连接构成，口令猜测规则r描述为r=[c1]
…
[c
s
]，c1,
…
,c
s
∈γ；s表示口令猜测规则r的段数，记为d(r)；称为口令猜测规则r的语料空间尺寸，记为s(r)；|r|条互不相同的口令猜测规则r形成口令猜测规则集合r。3.根据权利要求1所述的基于语料库提升小训练集猜测效率的口令猜测方法，其特征在于，步骤s2中，口令训练集pwd_train包括若干条训练口令pwd，基于语料库γ产生特定训练口令pwd的口令猜测规则r。4.根据权利要求1所述的基于语料库提升小训练集猜测效率的口令猜测方法，其特征在于，步骤s2中，基于语料库γ构造单条训练口令pwd的有向无环图g=<v, e>，其中，有向无环图g中的每条边都是语料库γ中的从该边的起点到终点的字符子串所属于的语料集合；产生有向无环图g中从起点到终点的所有路径，每个路径都对应训练口令pwd的一种分词方法，每种分词方法都对应一种猜测规则；从所有可能的猜测规则中选择最小段数的猜测规则作为对应训练口令pwd的口令猜测规则r，如果有多个猜测规则都具有最小的段数，则选择语料尺寸空间最小的猜测规则作为对应的口令猜测规则r；最终得到由多条口令猜测规则r构成的口令猜测规则集合r。5.根据权利要求1所述的基于语料库提升小训练集猜测效率的口令猜测方法，其特征在于，步骤s3中，口令猜测规则集合r中每条口令猜测规则r的概率，记为q(r, pwd_train)，r∈r；口令猜测规则集合r中每条口令猜测规则r对应的概率具有以下特征：
1）口令猜测规则集合r中的每条口令猜测规则r均根据训练口令集pwd_train中每条训练口令pwd执行步骤s2产生；2）口令猜测规则集合r中每条口令猜测规则r的频率之和等于1；3）口令猜测规则集合r中每条口令猜测规则r的概率正比于其在训练口令集pwd_train中出现的频度。6.根据权利要求1所述的基于语料库提升小训练集猜测效率的口令猜测方法，其特征在于，步骤s3中，语料库γ中每条词汇w的概率，记为p(w，pwd_train)，w∈γ；语料库γ中每条词汇的概率具有以下特征：1）统计语料库γ中每条词汇在训练集中出现的频度，然后再将每个语料集合c中所有词汇的频度都加1，这使得没有出现在语料库中的词汇的频度也不为0；2）语料集合c中每个词汇的概率等于上述第1）步得到该词汇的频度除以该语料集合中所有词汇频度之和；3）每个语料集合c中词汇的概率之和等于1；4）如果语料集合c中的特定词汇在训练口令集中没有出现，其概率反比于该语料集合c中的词汇数量之和；5）如果语料集合c中的特定词汇在训练口令集中出现，其概率正比于该词汇在训练口令集中出现的频度，反比于该语料集合c中词汇数量之和。7.根据权利要求1所述的基于语料库提升小训练集猜测效率的口令猜测方法，其特征在于，步骤s4中，对于口令猜测规则集合r中的一条规则口令猜测规则r=[c1]
…
[c
s
]和s个词汇w1,
…
,w
s
满足w1∈c
1,
w2∈c2,
…
,w
s
∈c
s
，c1,
…
,c
s
∈γ，称w1|
…
|w
s
为一个基于语料库γ和口令猜测规则集合r的合法词汇组合，其中
‘
|’为字符串拼接操作；合法词汇组合w1|
…
|w
s
成为口令的概率prob(w1|
…
|w
s
)定义为：prob(w1|
…
|w
s
)=∏
1≤i≤s
p(w
i
, pwd_train)
×
q(r, pwd_train) 。8.根据权利要求7所述的基于语料库提升小训练集猜测效率的口令猜测方法，其特征在于，给定猜测次数s，如果s个基于语料库γ和口令猜测规则集合r的合法词汇组合的有序序列d(s)=<cp1,cp2,
…
,cp
s
>满足：条件1、prob(cp
j
)≥prob(cp
j 1
), 1≤j≤s
‑
1；条件2、包括s个合法词汇组合的有序序列d(s)中的最后一个合法词汇组合cp
s
的概率大于所有其它未出现在d(s)中的合法词汇组合成为口令的概率；则称d(s)为猜测次数为s的有序字典，d(s)中第s个合法词汇组合成为口令的概率prob(cp
s
)记为α(s)。9.根据权利要求8所述的基于语料库提升小训练集猜测效率的口令猜测方法，其特征在于，一个字符串str有可能描述为多种合法词汇组合，而每种合法词汇组合都具有不同的成为口令的概率；字符串str成为口令的概率prob(str)定义为该字符串对应的所有合法词汇组合成为口令概率中的最大者，如果一个字符串无法描述为合法词汇组合，则其成为口令的概率为0。10.根据权利要求9所述的基于语料库提升小训练集猜测效率的口令猜测方法，其特征在于，对于包括s个合法词汇组合的有序字典d(s)，具有以下性质：
性质1、如果合法词汇组合cp成为口令的概率prob(cp)大于α(s)，则该合法词汇组合cp一定属于d(s)；性质2、如果字符串str成为口令的概率prob(str)大于α(s)，则该字符串str一定属于d(s)。

技术总结
本发明公开了基于语料库提升小训练集猜测效率的口令猜测方法，涉及本发明涉及数据处理和预测技术领域。所述方法包括以下步骤：构建语料库Γ；基于语料库Γ，针对训练口令集PWD_TRAIN产生训练结果：口令猜测规则集合R，R中每条规则r的概率q(r)，Γ中每个词汇w的概率p(w)；根据训练结果和语料库Γ，产生猜测次数为S的字典D(S)；检测D(S)对测试口令集PWD_TEST的破解率。本发明可以通过语料库Γ扩展训练集PWD_TRAIN中的词汇，有效提升训练集较小时对测试口令集的破解率。时对测试口令集的破解率。时对测试口令集的破解率。

技术研发人员：甘晓春陈猛陈虎李东
受保护的技术使用者：华南理工大学
技术研发日：2021.12.06
技术公布日：2022/1/4

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：目标检测方法、电子设备及存储介质与流程

基于语料库提升小训练集猜测效率的口令猜测方法与流程

相关文献

最热文献