一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

网页的自动分类方法及系统与流程

2022-06-05 16:27:03 来源:中国专利 TAG:


1.本发明是有关于一种自动分类方法及系统,且特别是有关于一种网页的自动分类方法及系统。


背景技术:

2.网络已成为生活中不可或缺的部分,人们时常通过电脑浏览网页,当浏览到喜欢的网页或重要的网页时,可通过浏览器的功能储存网页,例如将网页储存在「我的最爱」中,以便下次打开浏览器时,可通过储存在「我的最爱」中的网页快速浏览储存的网页。
3.但是,在储存网页时,使用者常常需花很多时间想网页的分类名称,若分类名称不准确,下次打开浏览器的时,使用者很难快速找到先前储存的网页进行浏览,造成使用不便。
4.因此,如何对网页提供准确的分类名称,已成为业界努力的方向。


技术实现要素:

5.本发明系有关于一种网页的自动分类方法及系统。
6.根据本发明的一实施例,提出一种网页的自动分类方法。网页的自动分类方法包括以下步骤。使用一应用程序界面(api)撷取一网站中的一网页包含的复数个关键字,并给予网页包含的每一关键字一识别符(id)。以网站中所有网页作为母体,计算网页包含的每一关键字的tf-idf值。根据网页包含的每一关键字的识别符及网页包含的每一关键字的tf-idf值产生一矩阵。将矩阵输入至一网页分类模型以产生一预测的分类名称。以预测的分类名称储存网页。
7.根据本发明的另一实施例,提出一种网页的自动分类系统。网页的自动分类系统包括一处理器及一网页分类模型。处理器用以使用一应用程序界面(api)撷取一网站中的一网页包含的复数个关键字,并给予网页包含的每一关键字一识别符(id)。处理器用以以网站中所有网页作为母体,计算网页包含的每一关键字的tf-idf值。处理器用以根据网页包含的每一关键字的识别符及网页包含的每一关键字的tf-idf值产生一矩阵。处理器用以将矩阵输入至网页分类模型以产生一预测的分类名称。处理器用以以预测的分类名称储存网页。
8.为了对本发明的上述及其他方面有更佳的了解,下文特举实施例,并配合附图详细说明如下。
附图说明
9.图1绘示根据本发明一实施例的网页的自动分类系统与网站的方块图。
10.图2绘示根据本发明的一实施例的网页的自动分类方法的流程图。
11.图3绘示根据本发明的一实施例的网页的示意图。
12.图4绘示根据本发明一实施例的矩阵的示意图。
13.图5绘示根据本发明另一实施例的网页的自动分类系统与网站的方块图。
14.图6绘示根据本发明的另一实施例的网页的自动分类方法中网页分类模型130的训练方法的流程图。
15.图7绘示根据本发明的另一实施例的网页的示意图。
16.图8绘示根据本发明的另一实施例的矩阵的示意图。
17.图9绘示根据本发明另一实施例的网页的自动分类方法的流程图。
18.图10绘示根据本发明另一实施例的网页的自动分类系统与网站的方块图。
19.图11绘示根据本发明的另一实施例的网页的自动分类方法的流程图。
20.图12绘示根据本发明的一实施例的文章的示意图。
21.图13绘示根据本发明的另一实施例的网页的自动分类方法的流程图。
22.其中:
23.100:自动分类系统;
24.110:处理器;
25.120-1,120-2,120-10:网页;
26.120:网站;
27.130:网页分类模型;
28.140,160:网站;
29.140-1,140-2,140-8,160-1,160-2,160-3:网页;
30.180:网站;
31.180-1,180-2:网页;
32.180-11,180-21,180-22,180-23:文章;
33.api:应用程序界面;
34.cn
120-1
,cn
140-1
,cn
140-8
,cn
160-1
,cn
160-3
,cn
180-11
:分类名称;
35.kw
1201
,kw
1202
,kw
1205,
kw
1401
,kw
1402
,kw
1406,
kw
1801
,kw
1802
,kw
1806
:关键字;
36.pcn,pcn
180-11
:预测的分类名称;
37.mx,mx
140-1
,mx
140-8
,mx
160-1
,mx
160-3
,mx
180-11
:矩阵;
38.s110,s120,s130,s140,s150,s210,s220,s230,s240,s310,s320,s330,s340,s350,s360,s370,s410,s420,s430,s440,s450,s460,s510,s520,s530,s540,s550,s560,s570:步骤。
具体实施方式
39.请参照图1,其绘示根据本发明一实施例的网页的自动分类系统100与网站120的方块图。网页的自动分类系统100包括一处理器110及一网页分类模型130。网页的自动分类系统100例如是一智能型手机、一平板电脑、一笔记本电脑或一台式电脑。网站120包括多个网页,例如网页120-1、120-2、

、120-10。网页的自动分类系统100可浏览网站120中的网页120-1、120-2、

、120-10,也可通过处理器110使用一应用程序界面api撷取网页120-1、120-2、

、120-10中的信息。
40.以下搭配流程图详细说明上述各项元件的运作。请参照图2,其绘示根据本发明的一实施例的网页的自动分类方法的流程图。
idf值。tf-idf值的计算需要定义一母体。在此实施例中,母体为网站140中的所有网页140-1、140-2、

、140-8以及网站160中的所有网页160-1、160-2、160-3。处理器110基于网站140中的所有网页140-1、140-2、

、140-8以及网站160中的所有网页160-1、160-2、160-3的数量(11),计算网页140-1包含的每一关键字kw
1401
、kw
1402


、kw
1406
的tf-idf值。
50.步骤s230,根据网页包含的每一关键字的识别符及网页包含的每一关键字的tf-idf值产生一矩阵。请参照图8,其绘示根据本发明的另一实施例的矩阵mx
140-1
的示意图。处理器110根据网页140-1包含的每一关键字kw
1401
、kw
1402


、kw
1406
的识别符及网页140-1包含的每一关键字kw
1401
、kw
1402


、kw
1406
的tf-idf值产生矩阵mx
140-1

51.步骤s240,根据矩阵及分类名称训练网页分类模型。处理器110根据矩阵mx
140-1
及分类名称cn
140-1
训练网页分类模型130。以此类推,步骤s210至步骤s240会重复执行,直到获得网站140及160中每个网页140-1、

140-8、140-1

、160-3对应的每一矩阵mx
140-1、...、mx
140-8
、mx
160-1


、mx
160-3
及分类名称cn
140-1、...、cn
140-8
、cn
160-1


、cn
160-3
,以训练网页分类模型130。
52.如此一来,本案所提出的网页的自动分类方法,可对训练一网页分类模型以准确地产生网页的分类名称。
53.请参照图1、3、4及9。图9绘示根据本发明另一实施例的网页的自动分类方法的流程图。以下以网站120的网页120-1为浏览过的网页,且网页120-1未被储存为例。
54.步骤s310,判断一已浏览过的网页是否已被储存。若是,则结束流程;若否,则执行步骤s320。处理器110判断网页120-1为浏览过的网页,且网页120-1未被储存,接着执行步骤s320。
55.步骤s320,当已浏览过的网页未被储存时,使用应用程序界面撷取已浏览过的网页包含的复数个关键字,并给予已浏览过的网页的每一关键字一识别符。处理器110使用应用程序界面撷取已浏览过的网页120-1包含的复数个关键字kw
1201
、kw
1202


、kw
1205
,并给予已浏览过的网页120-1包含的每一关键字kw
1201
、kw
1202


、kw
1205
一识别符。
56.步骤s330,基于已浏览过的网页所属的网站中所有网页的数量,计算已浏览过的网页的每一关键字的tf-idf值。tf-idf值的计算需要定义一母体。在此实施例中,母体为已浏览过的网页120-1所属的网站120中的所有网页120-1、120-2、

、120-10。处理器110基于网站120中所有网页120-1、120-2、

、120-10的数量(10),计算已浏览过的网页120-1包含的每一关键字kw
1201
、kw
1202


、kw
1205
的tf-idf值。
57.步骤s340,根据已浏览过的网页的每一关键字的识别符以及已浏览过的网页的每一关键字的tf-idf值产生矩阵。处理器110根据已浏览过的网页120-1包含的每一关键字kw
1201
、kw
1202


、kw
1205
的识别符及已浏览过的网页120-1包含的每一关键字kw
1201
、kw
1202


、kw
1205
的tf-idf值产生矩阵mx。
58.步骤s350,将矩阵输入至网页分类模型以产生预测的分类名称。处理器110将矩阵mx输入至网页分类模型130以产生一预测的分类名称pcn。
59.步骤s360,以预测的分类名称储存已浏览过的网页至一资料库。处理器110以预测的分类名称pcn储存已浏览过的网页120-1至一资料库(未绘示)。资料库用以储存已储存过的网页及其分类名称。
60.步骤s370,根据资料库中各分类名称的网页的数量识别出一偏好信息,并推荐与
偏好信息相关的广告。处理器110选择网页数量最多的分类名称作为偏好信息,并推荐与偏好信息相关的广告。例如在资料库中,分类名称「运动类新闻」的网页的数量最多,则以「运动类新闻」作为偏好信息,推荐与「运动类新闻」相关的广告(例如中华职棒开幕战的新闻信息)。在一实施例中,资料库可根据不同使用者来区分已储存的网页及其分类名称。
61.如此一来,本案所提出的网页的自动分类方法,可依据不同使用者识别出不同的偏好信息。
62.请参照图10、11及12。图10绘示根据本发明另一实施例的网页的自动分类系统100与网站180的方块图。图11绘示根据本发明的另一实施例的网页的自动分类方法的流程图。图12绘示根据本发明的一实施例的文章180-11的示意图。在此实施例中,网页的自动分类系统100可判断网站180的网页180-1、180-2中是否有具有一文章分类名称的文章被发布。以下以具有一文章分类名称cn
180-11
的一文章180-11在网站180的网页180-1中被发布为例。网页180-2中包含多个文章180-21、180-22、180-23。
63.步骤s410,判断具有一文章分类名称的一文章是否被发布。若是,则执行步骤s420;若否,则结束流程。处理器110判断具有一文章分类名称cn
180-11
的一文章180-11被发布,接着执行步骤s420。
64.步骤s420,当具有文章分类名称的文章被发布时,使用应用程序界面撷取文章包含的复数个关键字,并给予文章包含的每一关键字一识别符。当具有文章分类名称cn
180-11
的文章180-11被发布时,处理器110使用应用程序界面撷取文章180-11包含的复数个关键字kw
1801
、kw
1802


、kw
1806
,并给予文章180-11包含的每一关键字kw
1801
、kw
1802


、kw
1806
一识别符。
65.步骤s430,基于文章所属的网站中所有文章的数量,计算该文章包含的每一关键字的tf-idf值。tf-idf值的计算需要定义一母体。在此实施例中,母体为网站180中的所有文章180-11、180-21、180-22、180-23。处理器110基于网站180中所有文章180-11、180-21、180-22、180-23的数量(4),计算文章180-11包含的每一关键字kw
1801
、kw
1802


、kw
1806
的tf-idf值。
66.步骤s440,根据文章包含的每一关键字的识别符id以及文章包含的每一关键字的tf-idf值产生矩阵。处理器110根据文章180-11包含的每一关键字kw
1801
、kw
1802


、kw
1806
的识别符及文章180-11包含的每一关键字kw
1801
、kw
1802


、kw
1806
的tf-idf值产生矩阵mx
180-11

67.步骤s450,将矩阵输入至网页分类模型以产生预测的分类名称。处理器110将矩阵mx
180-11
输入至网页分类模型130以产生一预测的分类名称pcn
180-11

68.步骤s460,当文章分类名称与预测的分类名称不同时,以预测的分类名称发布文章。处理器110判断文章分类名称cn
180-11
与预测的分类名称pcn
180-11
是否相同,当文章分类名称cn
180-11
与预测的分类名称pcn
180-11
不同时,以预测的分类名称pcn
180-11
发布文章180-11。
69.如此一来,本案所提出的网页的自动分类方法,可对发布的文章所包含的每一关键字对应的识别符即tf-idf值产生一矩阵,并输入至已训练的网页分类模型以准确地产生发布的文章的分类名称。
70.请参照图1及图13。图13绘示根据本发明的另一实施例的网页的自动分类方法的
流程图。步骤s510至步骤s550分别与图2的步骤s110至步骤s150类似,在此不多赘述。在处理器110以预测的分类名称pcn储存网页120-1的后,执行步骤s560。
71.步骤s560,判断已储存的网页的预测的分类名称是否被更改。若是,则执行步骤s570;若否,则结束流程。处理器110判断已储存的网页120-1的预测的分类名称pcn被更改,则执行步骤s570。
72.步骤s570,当已储存的网页的预测的分类名称被更改,则根据矩阵及更改后的分类名称训练网页分类模型。当已储存的网页120-1的预测的分类名称pcn被更改,表示使用者不满意网页分类模型130的预测的分类名称,则处理器110根据矩阵mx及更改后的分类名称训练网页分类模型130。
73.如此一来,本案所提出的网页的自动分类方法,可判断预测的分类名称是否被更改,来优化网页分类模型。
74.综上所述,虽然本发明已以实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中普通技术人员,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视后附的权利要求书所界定者为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献