一种确定网站类型的方法及其系统与流程

2022-03-31 10:45:04 来源：中国专利 TAG：

1.本技术属于信息处理领域，具体涉及一种确定网站类型的方法及其系统。

背景技术：

2.网络中存在不同类型的网站类型，不同网站类型为用户提供不同的服务类型，因此，网络带给人们巨大的便利。但与此同时，也给一些不法分子可乘之机，比如网上不法案件种类繁多，呈日趋频发的态势。目前在众多网站类型中，存在各种涉诈网站，例如网络购物，谎称其货品为走私物品或海关罚没物品，要求网民支付一定的保证金、押金、定金；一些网站谎称支付宝系统正在维护，要求网民直接将钱汇到其指定的银行账户中；谎称网店正在搞促销、抽奖活动，需要交纳一定的手续费；兼职刷单，不法分子利用求职网站，发布“兼职刷客”的信息，通过帮人刷信誉获得佣金，不法分子以系统故障、商家任务多要求继续加单等种种理由推脱不予返还，骗取钱财；网络游戏，不法分子在一些火爆的网络游戏中发布低价出售游戏金币、装备的虚拟信息，诱骗受害人到虚假交易网站上进行交易，部分玩家贪图低价游戏币或极品装备，又对虚假“客服”、“交易网站”缺乏辨别能力及防范意识，按对方指示汇款后往往得不到想要购买的虚拟物品；网上征婚交友，不法分子通过交友网站，针对不同层次的女性，采取交友、征婚等方式获取对方信任，多数与受害人进行为期数月的qq聊天、电话联系，随后，以帮助投资、自己遭遇意外、生意需要资金周转等方式，骗取受害人钱财。因此及时检测、关闭涉诈网站可以减少网络欺骗给公民带来的损失。
3.因此，如何从众多网站中识别出网站类型，主要是用文本分类任务来解决，应用深度学习解决文本分类问题最重要的是解决文本表示，再利用机器学习的网络结构模型自动获取特征表达能力，去掉繁杂的人工特征工程，端到端的解决问题。
4.现有技术的基于机器学习来确定网站类型的方法严重依赖标注数据，标注数据质量的好坏直接影响模型的效果，且标注不能自动化，需要耗费大量的人力物力，而且该方法可维护性、扩展性不友好，类型的增加、删除等均需要重新训练模型。
5.因此，目前亟需一种确定网站类型的方法及其系统，能够高效准确的确定网站类型。

技术实现要素：

6.本技术实施例的目的是提供一种检测涉诈网站的方法及系统，能够高效准确的检测涉诈网站。
7.第一方面，一种确定网站类型的方法，包括：获取待检测网站的第一文本数据；根据n个关键词集合中每个关键词在所述文本数据中出现的频次，以及所述n个关键词集合中每个关键词集合中的每个所述关键词的权重值，确定所述待检测网站的类型；其中，所述n个关键词集合与n种网站类型一一对应， n为正整数。
8.第二方面，提供一种确定网站类型的系统，包括：获取单元，所述获取单元用于：获取待检测网站的第一文本数据；处理单元，所述处理单元用于：根据n个关键词集合中每个
关键词在所述文本数据中出现的频次，以及所述n 个关键词集合中每个关键词集合中的每个所述关键词的权重值，确定所述待检测网站的类型；其中，所述n个关键词集合与n种网站类型一一对应，n为正整数。
9.应理解，该检测涉诈网站的系统可以执行如第一方面所述的方法的步骤。
10.第三方面，本技术实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
11.第四方面，本技术实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
12.由于本技术实施例提供的方案中n个关键词集合与n种网站类型存在一一对应的关系，因此，本技术提供的方法和系统，能够通过检测n个关键词集合中每个关键词在待测网站的文本中出现的频次，以及每个关键词的权重值，简单高效的确定待检测网站所属的网站类型。
附图说明
13.图1示出了本技术一个实施例的确定网站类型的方法的示意性流程图。
14.图2示出了本技术另一个实施例的确定网站类型的方法的示意性流程图。
15.图3示出了本技术再一实施例的确定网站类型的方法的示意性流程图。
16.图4示出了本技术另一个实施例的确定网站类型的方法的示意性流程图。
17.图5示出了本技术再一实施例的确定网站类型的方法的示意性流程图。
18.图6提供了本技术一个实施例的确定网站类型的系统的示意性结构图。
19.图7提供了本技术一个实施例提供的一种电子设备的示意性结构图。
具体实施方式
20.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本技术保护的范围。
21.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。
22.下面结合附图，通过具体的实施例及其应用场景对本技术实施例提供的检测涉诈网站的方法及系统进行详细地说明。
23.图1示出了本技术一个实施例的方法的示意性流程图，该方法的执行主体为检测涉诈网站的系统，如图1所示，该方法100包括：
24.步骤110，获取待检测网站的第一文本数据；
25.步骤120，根据n个关键词集合中每个关键词在所述第一文本数据中出现的频次，
以及所述n个关键词集合中每个关键词集合中的每个所述关键词的权重值，确定所述待检测网站的类型；其中，所述n个关键词集合与n种网站类型一一对应。
26.具体地，在步骤110中，待检测网站指的是待确定类型的网站，第一文本数据是从待检测网站上获取的文本数据，获取方式本例如可以为从待检测网站上进行网页爬取，也可以人工获取，申请不做限定，例如，采用服务器端渲染方式或者客户端渲染方式进行网页爬取。
27.具体地，在步骤120中，n个关键词集合与n种网站类型一一对应，这n 种网站类型可以包括非法理财类、聊天交友类、游戏充值类、兼职刷单类等，本技术不做限定；在上述n个关键词集合中，每个关键词集合对应一种网站类型，每个关键词集合中包括若干关键词和关键词各自对应的权重值，通过计算每个关键词在第一文本数据种出现频次以及相应的权重值，进而可以确定每个关键词集合的加权值，并根据n个关键词集合的加权值，确定待检测网站所属的类型。
28.具体地，在步骤120中，每个网站类型中的文本数据都会有相应的关键词和权重值来体现该网站的特征，如果获取到体现该网站特征的关键词集合，就能够通过判断该关键词集合对应于待检测网站的一个加权值情况；进一步地，如果存在多个关键词集合时，可以通过比较多个关键词集合的加权值情况，判断待检测网站对应加权值最大的关键词集合，由于关键词集合与网站类型存在一一对应的关系，因此也就能够确定待检测网站的网站类型。
29.应理解，在步骤120中，对于如何获得n个关键词集合和如何获得n个关键词集合中每个关键词的权重值的方式，不做具体限定。
30.由于n个关键词集合与n种网站类型存在一一对应的关系，因此，本技术提供的方法，能够通过检测n个关键词集合中每个关键词在待测网站的第一文本中出现的频次，以及每个关键词的权重值，从而简单高效的确定待检测网站所属的网站类型。
31.在步骤110之前，需要构建n个关键词集合以及确定该n个关键词集合中每个关键词集合中的每个关键词的权重值。
32.上述n个关键词集合指的是2个以上的关键词集合，具体可以通过对n 个网站的第二文本数据进行聚类，得到n个聚类结果，对聚类后的文本数据进行分词后计算每个分词的词频值，从而能够获得n个关键词字典。
33.可选地，作为本技术一个实施例，所述方法还包括：根据所述n种网站类型的第二文本数据，确定n个关键词字典，其中，所述n个关键词字典与所述n种网站类型一一对应，所述n个关键词字典中每个关键词字典包括多个关键词，以及和各关键词对应的词频值，n为正整数；根据所述每个关键词字典中关键词的词频值和所述关键词的筛选策略，得到每个所述关键词字典对应的所述关键词集合。当然，可以明确的是所述关键词集合包括至少一个关键词。
34.也就是说，先根据n种网站类型的第二文本数据，通过聚类、分词等手段可以获得与之对应的n个关键词字典，每个字典都包括关键词和对应的词频；进一步地，需要根据对关键词的筛选策略，得到关键词字典对应的关键词集合，这里的关键词的筛选策略例如可以为：选择词频排名前多少的关键词，或者是在关键词字典中区分度较高的关键词，也可以两者兼顾，具体的筛选策略本技术不做限定，可以根据实际情况进行调整。
35.具体地，关键词的词频值可以为词频逆文本频率指数((term frequency
ꢀ‑
inverse document frequency，简写：tf-idf)，关键词字典的格式可以为，以 dict_1为例，dict_1＝{关键词1：tf-idf值；关键词2：tf-idf值；
…
}，关键词的字典还可以是其他样式，本技术不做限定。
36.可选地，换一种描述方式，作为本技术一个实施例，所述方法还包括：根据n种网站类型的文本数据，构建n个关键词字典，其中，所述n个关键词字典与所述n种网站类型一一对应，所述n个关键词字典中每个关键词字典包括多个关键词和每个关键词对应的词频值，n为正整数；根据所述n个关键词字典中每个关键词的词频值，对所述n个关键词字典进行筛选，构建n个关键词集合，其中，所述n个关键词集合中每个关键词集合包括至少一个关键词，所述n个关键词集合与所述n种网站类型一一对应。
37.下面对如何构建n个关键词字典进行介绍，可选地，作为本技术一个实施例，所述根据n种网站类型的第二文本数据，确定n个关键词字典，包括：利用n个种子点对所述第二文本数据进行聚类处理获得对应的n个聚类，其中n个种子点与所述n种网站类型一一对应；获取所述n个聚类中每个聚类的第三文本数据，其中，所述第三文本数据为每个所述聚类对应的文本数据中与所述每个聚类对应的种子点的相似度排名前n的n条文本数据；根据所述n 个聚类中每个聚类的第三文本数据，确定所述n个关键词字典。
38.应理解，上述每个聚类的第三文本数据也可以指的是每个网站类型进行关键词字典构建时使用的有效文本数据。
39.也就是说，通过用n个种子点对第二文本数据进行聚类处理，可以得到n 个聚类结果，再分别获取n个聚类结果的第三文本数据，利用每个聚类的第三文本数据构建相应的关键词字典，应理解，第三文本数据是与每个聚类的种子点相似度排名前n的文本，这样筛选后的第三文本数据可能会比第二文本数据更能表征网站文本数据的特征。
40.可选地，换一种描述方式，做为本技术一种实施例，所述根据n种网站类型的文本数据，构建n个关键词字典，包括：获取所述n种网站类型的文本数据，设置n个种子点，使用所述n个种子点对所述n种网站类型的文本数据进行聚类处理获得对应的n个聚类；获取所述n个聚类中每个聚类的有效文本数据，其中，所述n个聚类中第s个聚类的有效文本数据为与所述第s个聚类的种子点相似度排名前n的n条文本数据；根据所述n个聚类中每个聚类的有效文本数据，确定所述n个关键词字典、所述n个关键词字典中每个关键词以及每个关键词对应的词频逆文本频率指数tf-idf。
41.具体地，结合图2进行介绍如何构建n个关键词字典，如图2所示，第一步，待识别数据集，也就是n种网站类型的第二文本数据，将获得的待识别文本数据，进行预处理，涉及数据清洗、去除短文本、平衡样本等内容。
42.第二步，聚类，对第一步中预处理后的数据集进行聚类，并设置n个种子点，即每个种子点对应一个不同的类型，聚类方法可以采用k均值聚类算法 (k-means)等，本技术不做限定。
43.第三步，选取有效文本数据，也就是前述第三文本数据。针对第二步中的 n个聚类结果，选取每类和种子点最相似的n条数据，n的取值取决于有效文本聚类结果的准确率，例如n可以为100等数值，本技术不做限定。
44.第四步，分词，对第三步中的每个聚类的第三文本数据分别进行分词。
45.第五步，去除停用词，加载停用词表，对第四步分词结果中的停用词、标点符号以及特殊字符等进行去除。
46.第六步，计算tf-idf，计算每个词的tf-idf值。
47.第七步，加入字典，第四步至第六步，因为有k个聚类结果，需要循环k 次，进而得到n个代表不同文本类型的字典，其中，n＝k。字典的格式，以 dict_1为例，dict_1＝{关键词1：tf-idf值；关键词2：tf-idf值；
…
}。
48.应理解，图2实施例只是描述了构建关键词字典的一种具体的方式，本技术不限定采用其他的方式构建网站类型对应的关键词字典。
49.因此，本技术实施例还提供一种构建关键词字典的方式，因为关键词字典是根据相应的网站中的文本数据处理后获得的，因此，关键词字典能够反映相应的网站类型的特征，能够用于进行后续的网站类型的确定。
50.上述步骤中，得到的n个关键词字典中关键词数量较多，可能只需要筛选出每个关键词字典中影响较大的关键词，构成n个关键词集合，通过对n个关键词字典进行删选，构建更能表征网站类型、区分度更高的关键词集合，由于这n个关键词集合是由n个关键词字典删选关键词得到的，所以这n个关键词集合与n种网站类型依然是存在一一对应的关系。
51.下面对如果通过n个关键词字典得到n个关键词集合进行介绍。
52.可选地，所述根据所述n个关键词字典中每个关键词的词频值，对所述n 个关键词字典进行筛选，构建n个关键词集合，包括：将所述n个关键词字典的第c个关键词字典中排名前m％的关键词加入第c个关键词集合；将所述第c个关键词字典中不属于排名前m％，且不属于其它关键词字典中的关键词加入所述第c个关键词集合，其中，所述其它关键词字典为所述n个关键词字典中除所述第c个关键词字典的其余关键词字典，其中，c为n个中的任意一个。
53.也就是说，在对某个特定的关键词字典进行筛选的时候，先判断该特定关键词种的特定关键词是否属于排名前m％的关键词，如果是就直接放入该特定关键词字典对应的关键词集合种，如果该特定关键词不属于排名前m％，那么再看他是否没有再除特定关键词字典之外的其他关键词字典种出现过。
54.应理解，第c个关键词字典指的可以是所述n个关键词字典中任一个关键词字典，也就是说，通过第c个关键词字典删选关键词后，能够得到对应第c 个关键词集合keyword_c。
55.可选地，换种说法，所述根据所述每个关键词字典中关键词的词频值和所述关键词的筛选策略，得到每个所述关键词字典对应的所述关键词集合，包括：所述关键词的筛选策略为：若所述关键词的词频值在当前的所述关键词字典中的排名属于前m％，则将所述关键词加入所述当前关键词字典对应的关键词集合；若所述关键词在当前的所述关键词字典中词频值排名不属于前m％，且所述关键词不属于目标关键词字典，则将所述关键词加入当前的所述关键词集合，其中，所述目标关键词字典为所述n个关键词字典中除当前的所述关键词字典外的所有关键词字典，m为正整数。
56.当前的关键词字典指的是关键词当前所在的关键词字典，也指的上述第c 个关键词字典，这里的目标关键词字典为所述n个关键词字典除当前的关键词字典之外的所有关键词字典，也就是所述n个关键词字典中除所述第c个关键词字典之外的所有关键词字典。
57.下面结合具体实施例对关键词字典的筛选进行介绍。
58.具体地，如图3，示出了对n个关键词字典进行筛选，获取n个关键词集合中第1个关键词集合keyword_1的方法流程，此时，n个关键词字典中第1 个关键词字典dict_1为权利要求中描述的当前的关键词字典，n个关键词字典中除dict_1之外的关键词字典构成了权利要求中描述的目标关键词字典 key_list。如图3所示，方法包括：
59.第一步，获取目标关键词字典key_list，获取key_list的具体方式是，通过加载关键词字典dict_2，关键词字典dict_3，
…
关键词字典dict_n，合并这些关键词字典中的关键词，得到目标关键词字典key_list。
60.第二步，以dict_1中所有的关键词的词频值逆排序，加载dict_1，并对其以词频值逆排序，例如以tf-idf值的大小对dict_1的关键词进行逆排序(从大到小)。
61.第三步，选取词频值前m％的关键词。如果dict_1中关键词key对应的 tf-idf值排序在前m％，则将关键词key加入到keyword_1中；否则，进入到第四步。其中，m的取值一般为20～30，需结合标注的准确率进行调整。
62.第四步，获取临时关键词集合key_list，也就是将关键词字典dict_1中关键词对应的词频值排序不在前m％的关键词加入到该临时关键词集合key_list 中，应理解，该临时关键词集合key_list只是计算过程中引入的临时概念，目的是为了进一步确定dict_1中词频值排序不在前m％的关键词是否存在 key_list中，实际处理过程中可以不存在该key_list。
63.第五步，遍历元素，循环m’次，其中m’为key_list的长度，即key_list 中关键词的个数。
64.第六步，判断key_list中关键词是否在key_list，如果key_list中的某个关键词不在key_list中，则将该元素加入到keyword_1中；否则，遍历key_list 中一下个元素，直至执行m’次结束。
65.应理解，上述流程是针对dict_1最终获得keyword_1的步骤，同样的，通过改变dict_1，dict_2，
…
dict_n的组合方式，重复上述流程n次，即可得到第1个关键词集合(keyword_1)，第二个关键词集合(keyword_2)，
…
第n个关键词集合(keyword_n)。
66.因此，本技术还提供一种通过关键词字典得到关键词集合的方式，通过对关键词字典中的关键词进行删选，获得的关键词集合更能够体现相应待检测网站的类别。
67.进一步地，需要确定所述n个关键词集合中每个关键词的权重值，其中，所述n个关键词集合中第b个关键词的权重值由下列参数确定：所述第b个关键词在所对应网站类别的第二文本数据中出现的次数，所述第b个关键词所对应网站类别中包含所述第b个关键词的文本数据量，所述n种网站类别的第二文本数据中出现所述第b关键词的文本数据量，所述第b个关键词在所述n个关键词集合中出现次数，其中，b为n中任意一个。
68.也就是说，需要先根据根据n种网站类型的文本数据，构建n个关键词字典，再对n个关键词字典进行处理得到对应的n个关键词集合，并获得n 个关键词集合中每个关键词的权重值，具体计算第b个关键词的权重值的时候，需要考虑的是第b个关键词在所属网站类别的第二文本数据中出现的次数，所述第b个关键词所属网站类别中包含所述第b个关键词的文本数据量，所述n 种网站类别的第二文本数据中出现所述第b关键词的文本数据量以及所述第b 个关键词在所述n个关键词集合中出现次数。
69.因此，本技术实施例中还提供了根据n种网站确定n个关键词集合的方式、确定n个关键词中每个关键词的权重值的方式，该方式维护简单，可以根据实际业务需求更新n个关键词集合，具有良好的迁移性、通用性和可扩展性。
70.应理解，第b个关键词指的可以是所述n个关键词集合中任意一个关键词。
71.下面对如何确定第b个关键词的权重值进行介绍。
72.可选地，作为本技术一个实施例，所述确定所述n个关键词集合中每个关键词的权重值，包括：
73.使用下式确定所述第b个关键词的权重值：
[0074][0075]
其中，p为所述第b个关键词在所属网站类型对应的第三文本数据中出现的次数，w为所述第b个关键词在所属网站类型对应的第三文本数据中包括所述第b个关键词的数据量，q为所述n个网站类型对应的第三文本数据中包括所述第b个关键词的数据量，m为所述第b个关键词在所述n个关键词集合中出现的次数，n用于表征所述第三文本数据中各文本数据与所述每个聚类对应的种子点的相似度的程度，x为初始权重值常数，b为所述n个关键词集合中任一个关键词。
[0076]
由于此处第三文本数据指的前述有效文本数据，因此，可选地，作为本技术另外一个实施例，所述确定所述n个关键词集合中每个关键词的权重值，包括：使用下式确定所述第b个关键词的权重值：
[0077][0078]
其中，p为所述第b个关键词在所属网站类型的有效文本数据中出现的次数，w为所述第b个关键词在所属网站类型对应的有效文本数据中包括所述第 b个关键词的数据量，q为所述n种网站类型的有效文本数据中出现所述第b 个关键词的数据量，m所述第b个关键词在所述n个关键词集合中出现次数， n为确定所述有效文本数据的参数，x为初始权重值常数，b为所述n个关键词集合中一个关键词。
[0079]
下面结合图4对上述确定权重值的方式进行介绍，应理解，下面描述的有效问文本数据指的就是前述第三文本数据，图4示出了如何对第一个关键词集合keyword_1中的某个关键词进行权重值配置的方法，如图4所示，方法包括：
[0080]
第一步，加载keyword_1，即获得keyword_1对应网站类型的关键词列表。
[0081]
第二步，遍历第一步keyword_1中的每个关键词keyword。
[0082]
第三步，获取小数据集，数据集是keyword_1对应网站类型的有效文本数据(第三文本数据)的集合。
[0083]
第四步，获取p；w。其中，p表示：在keyword_1所属类网站类型的有效文本数据(第三文本数据)的集合中有p条文本数据包含关键词keyword；w 表示：在网站类型的有效文本数据(第三文本数据)的集合中包含关键词 keyword的总个数。
[0084]
第五步，获取大数据集。大数据集是所有网站类型的有效文本数据(第三文本数据)的集合。
[0085]
第六步，获取q。q表示：在所有网站类型的有效文本数据集合中包含关键词
keyword的总个数。
[0086]
第七步，加载第二个关键词集合(keyword_2)，第三个关键词集合 (keyword_3)，
…
第n个关键词集合(keyword_n)。
[0087]
第八步，获取m。m表示：关键词keyword在m个网站类型中出现过的次数，即关键词keyword在第七步中所有关键词集合中出现过次数。(第七步中，每个关键词集合对应着一个网站的类型，关键词keyword在某个词表中出现过，就代表在某个网站类型中出现过)。
[0088]
第九步，获取y。y表示：关键词keyword的权重值。计算公式为：
[0089][0090]
其中，x表示初始权重值的大小，依据词表的大小、网站类型的个数等因素制定，并依据最终网站的分类准确率动态调整；n表示网站的类型数；n与图2实施例中获取有效文本数据的n值相等；m，p，q，w，y在上文中已描述。
[0091]
第十步，获取第一关键词集合keyword_1的第一权重值字典dict_weight_1，这里引入了临时概念权重值字典，其实该权重值字典指的就是包括某个关键词集合以及该关键词字典中每个关键词对应的权重值，该概念的引入是为了方便描述后续加权值计算过程。具体地，将第九步得到的关键词keyword对应的权重值加入字典dict_weight_1，格式为{keyword1：y1；keyword2：y2；
…
}，其中，keyword1、keyword2等是keyword_1的关键词；y1、y2等是keyword1、 keyword2等对应的权重值，由第九步计算得到。
[0092]
上述流程是针对第一关键词集合keyword_1最终获得第一权重值字典dict_weight_1的步骤，同样的，通过调整第一步、第三步以及第七步的组合方式，重复上述流程n次，即可得到dict_weight_1，dict_weight_2，
…
dict_weight_n 权重值字典。
[0093]
应理解，上述n个关键词集合与上述n个权重值字典一一对应，也就是在n个关键词集合中的每个关键词后加入其对应的权重值，得到了上述n个权重值字典，该权重值字典的概念引入是为了描述更方便。
[0094]
因此，本技术还提供了一种确定关键词权重值的方式，本技术提供的确定关键词权重值的方式将关键词在所属网站类型的有效文本数据中出现的次数，关键词在所属网站类型中包括关键词的有效文本数据量，n种网站类型的有效文本数据中出现关键词的数据量，关键词在n个关键词集合中出现次数等参数关联起来，提供的关键词权重值更能够体现该关键词在某一个网站类型中的权重。
[0095]
下面对如何根据构建好的n个关键词集合，判断待检测网站的类别进行介绍。
[0096]
可选地，作为本技术一个实施例，根据n个关键词集合中每个关键词在所述文本数据中出现的频次，以及所述n个关键词集合中每个关键词集合中的每个关键词的权重值，确定所述待检测网站的类型，包括：获取所述第一文本数据在所述n个关键词集合中的每个关键词集合的加权值，其中，所述待检测网站文本在所述第j个关键词集合的加权值由下式确定：
[0097]
wj＝∑
i∈j；j∈dyji
*x
ji
，
[0098]
其中，i是所述第j个关键词集合中的任一个关键词；d表示所有关键词集合；yji表示所述关键词i的权重值大小；xji表示所述关键词i在所述第一文本数据中出现的频次；根据所述第一文本数据分别在所述n个关键词集合的加权值，确定所述待检测网站的类型。
[0099]
也就是说，计算每个集合的加权值需要将每个关键词和对应权重值的乘积进行加和得到。
[0100]
上述根据所述第一文本数据分别在所述n个关键词集合的加权值，确定所述待检测网站的类型，换种方式描述可以为：根据所述第一文本数据分别在所述每个关键词集合的权重值，确定所述待检测网站的类型。
[0101]
因此，本技术提供的方法是比较待检测网站的第一文本数据对应于n个关键词集合的加权值，来判断哪个关键词集合更能体现待检测网站的特征，从而确定该待检测网站对应的网站类型。
[0102]
下面介绍如何比较n个关键词结合在待检测网站得文本数据中加权值大小。
[0103]
如果第一文本数据在n个关键词集合中的加权值的最大值是唯一，就说明该最大值对应的关键词集合最能表征待检测网站的特点，可以确定该最大值对应的关键词集合对应的网站类型为待检测网站的类型。
[0104]
可选地，作为本技术一个实施例，所述根据所述第一文本数据分别在所述每个关键词集合的加权值，确定所述待检测网站的类型，包括：若所述第一文本数据分别在所述n个关键词集合的加权值中的最大值是唯一的，则将所述最大值对应的所述关键词集合所对应的网站类型确定为所述待检测网站的类型。
[0105]
也就是说，如果第一文本数据在n个关键词集合中的加权值的最大值不是唯一，则需要对所述最大值对应的关键词集合进行去重处理，进一步比较n个关键词集合的加权值大小，如果这个时候，n个关键词集合中的加权值的最大值仍不是唯一的，那么则需要根据这个最大值对应关键词集合对应的多个网站类型的优先级去进行判断，也就是通过优先级排序，以严重程度大的类型作为涉诈网站的类型进行输出，例如，涉诈网站严重等级(也就是优先级)举例：非法理财类》聊天交友类》游戏充值类》兼职刷单类，应理解本技术重网站类型还可能包括其他种类，涉诈网站严重等级(优先级排序)也可以进行调整，本技术不做限定。
[0106]
具体地，去重的方式可以为统计各个权重值字典中关键词是否出现在待检测网站文本中，出现一次及以上只算1次，没出现就是0次。
[0107]
可选地，作为本技术一个实施例，所述根据所述第一文本数据分别在所述每个关键词集合的加权值，确定所述待检测网站的类型，包括：
[0108]
若所述第一文本数据分别在所述n个关键词集合的加权值的最大值是h 个，则根据所述最大值对应的h个关键词集合所对应的h个网站类型的优先级，确定所述待检测网站的类型，h为大于1的整数。
[0109]
也就是说，当最终确定的加权值的最大值是多个的时候，只能再根据这多个加权值对应的网站类型的优先级进行确定，这h个网站类型有一个预先配置的优先级，例如，涉诈网站严重等级(也就是优先级)举例：非法理财类》聊天交友类》游戏充值类》兼职刷单类，应理解本技术重网站类型还可能包括其他种类，涉诈网站严重等级(优先级排序)也可以进行调整，本技术不做限定。
[0110]
下面结合图5对上述步骤进一步进行介绍，如图5所示，流程如下：
[0111]
第一步，输入待检测网站文本，也就是上述第一文本数据。
[0112]
第二步，计算w1；w2；
…
；wn，也就是获得n个关键词集合。
[0113]
具体地，加载dict_weight_1，dict_weight_2，
…
dict_weight_n，分别统计各个关键词是否出现在待检测网站文本中以及出现的频次，通过计算公式wj 得到w1；w2；
…
；wn，也就是得到n个关键词集合中每个关键词集合的加权值。
[0114]
其中，任意一个关键词集合加权值的计算公式如下：
[0115]
wj＝∑
i∈j；j∈dyji
*x
ji
，
[0116]
其中，wj表示在待检测网站文本(第一文本数据)中第j个关键词集合的加权值；i是第j个关键词集合中任意一个关键词；d表示所有关键词集合； yji表示第j个权重值字典中关键词i的权重值大小；xji表示第j个关键词集合中关键词i在待检测网站文本(第一文本数据)中出现的频次。
[0117]
第三步，进行加权值最大值max》加权值次最大值submax判断，该步骤指的是需要判断w1；w2；
…
wn中最大值max是否大于次大值submax。如果满足条件，则待检测网站文本的类型为最大值对应字典的类型，并输出涉诈网站类型；否则，进入第四步。
[0118]
第四步，去重。是对第二步中的“分别统计各个权重值字典中关键词是否出现在待检测网站文本中以及出现的频次”进行去重，即统计各个权重值字典中关键词是否出现在待检测网站文本中，出现一次及以上只算1次，没出现就是0次。
[0119]
另外，去重的对象只包括第三步中最大值和次大值对应的类型，因为此时最大值与次大值相等，无法得出结论，需要增加其他判别条件，另外，次大值可能有多个。举例：最大值等于100，可能次大值有一个且等于100，也有可能有多个次大值且都等于100)。
[0120]
第五步，计算去重后的最大值tmax；次最大值tsubmax；
…
。通过计算公式tj得到tmax；tsubmax；
…
。
[0121][0122]
其中，tj表示在待检测网站文本(第一文本数据)中第j个关键词集合去重后的权重值之和；i是第j个关键词集合中的任一关键词；d表示第三步中最大值和次大值对应的关键词集合的集合；yji表示第j个关键词集合中关键词i 的权重值大小；xji表示第j个关键词中关键词i在待检测网站文本(第一文本数据)中是否出现，若出现，xji＝1；否则，xji＝0。
[0123]
第六步，进行去重后加权值最大值tmax》去重后加权值次最大值 tsubmax判断。判断tmax；tsubmax；
…
中最大值是否大于次大值。如果满足条件，则待检测网站文本的类型为最大值对应字典的类型，并输出涉诈网站类型；否则，进入第七步。
[0124]
第七步，比较第六步中最大值tmax以及次大值tsubmax对应类型的严重程度，也就是通过优先级排序，以严重程度大的类型作为涉诈网站的类型进行输出，例如，涉诈网站严重等级(也就是优先级)举例：非法理财类》聊天交友类》游戏充值类》兼职刷单类，应理解本技术重网站类型还可能包括其他种类，涉诈网站严重等级(优先级排序)也可以进行调整，本技术不做限定。
[0125]
应理解，当如果上述确定网站类型的方法是为了检测涉诈网站时，上述最大值为0时，说明待检测网站文本中不含有任何类型的关键词，此时就可以将此网站判别为非涉诈网站，则也可以判断待检测网站并非涉诈网站。
[0126]
因此，本技术提供是方法是如果从n个关键词集合的加权值获得待检测网站类型的方法，如果能够从n个关键词集合中获得加权值最大的一个关键词集合，那么该关键词集合对应的网站类型是待检测网站所属的类型，如果无法从 n个关键词集合中确定唯一一个加权值最大的关键词集合，那么可以通过比较这多个加权值最大集合对应网站类型的优先级，确定待检测网站所属的类型。
[0127]
图6示出了本技术一个确定网站类型的系统的示意性结构图，如图6所示，该系统600包括：获取单元610，所述获取单元610用于：获取待检测网站的第一文本数据；
[0128]
处理单元620，所述处理单元620用于：根据n个关键词集合中每个关键词在所述第一文本数据中出现的频次，以及所述n个关键词集合中每个关键词集合中的每个所述关键词的权重值，确定所述待检测网站的类型；其中，所述 n个关键词集合与n种网站类型一一对应，n为正整数。
[0129]
本发明实施例提供的确定网站类型系统能够实现上消息处理方法对应的实施例中的各个过程，为避免重复，这里不再赘述。
[0130]
需要说明的是，本发明实施例提供的确定网站类型系统与本发明实施例提供的确定网站类型方法基于同一发明构思，实现相同的有益效果，因此该实施例的具体实施可以参见前述网络资源的配置方法的实施和有益效果，重复之处不再赘述。
[0131]
图7为本技术一个实施例提供的一种电子设备的示意性结构图。请参考图 7，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(random-accessmemory，ram)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。
[0132]
处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是isa(industry standard architecture，工业标准体系结构)总线、pci(peripheral component interconnect，外设部件互连标准)总线或eisa(extended industry standard architecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。
[0133]
存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。
[0134]
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成数据采集装置。处理器，执行存储器所存放的程序，并具体用于执行图1至图3实施例提供的方法。
[0135]
本发明实施例提供的电子设备应，能够实现上消息处理方法对应的实施例中的各个过程，为避免重复，这里不再赘述。
[0136]
需要说明的是，本发明实施例提供的电子设备应用于数据传输的发送端，与本发明实施例提供的数据传输方法基于同一发明构思，实现相同的有益效果，因此该实施例的具体实施可以参见前述网络资源的配置方法的实施和有益效果，重复之处不再赘述。
[0137]
本技术实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述图1至图5实施例提供的方法实施例的各个过
程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0138]
本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0139]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0140]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0141]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0142]
在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0143]
内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0144]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器 (cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
[0145]
还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要
素的过程、方法、商品或者设备中还存在另外的相同要素。
[0146]
本领域技术人员应明白，本技术的实施例可提供为方法、系统或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0147]
以上所述仅为本技术的实施例而已，并不用于限制本技术。对于本领域技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本技术的权利要求范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：测试脚本生成方法、装置及存储介质与流程

一种确定网站类型的方法及其系统与流程

相关文献

最热文献