一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

网页的自动分类方法及系统与流程

2022-06-05 16:27:03 来源:中国专利 TAG:

技术特征:
1.一种网页的自动分类方法,包括:使用一应用程序界面撷取一网站中的一网页包含的复数个关键字,并给予该网页包含的每一该些关键字一识别符;基于该网站中所有网页的数量,计算该网页包含的每一该些关键字的tf-idf值;根据该网页包含的每一该些关键字的识别符及该网页包含的每一该些关键字的tf-idf值产生一矩阵;将该矩阵输入至一网页分类模型以产生一预测的分类名称;以及以该预测的分类名称储存该网页。2.如权利要求1所述的自动分类方法,其特征在于,在使用该应用程序界面撷取该网站的该网页包含的该些关键字的前还包括:判断该网页是否已先前储存过;当该网页先前未被储存过,则执行该自动分类方法。3.如权利要求1所述的自动分类方法,其特征在于,该网页分类模型的一训练方法包括:使用该应用程序界面撷取该网站的该网页包含的该些关键字及一分类名称,并给予该网页包含的每一该些关键字一识别符;基于复数个网站中所有网页的数量,计算该网页包含的每一该些关键字的tf-idf值;根据该网页包含的每一该些关键字的识别符及该网页包含的每一该些关键字的tf-idf值产生该矩阵;根据该矩阵及该分类名称训练该网页分类模型。4.如权利要求1所述的自动分类方法,其特征在于,还包括:判断一已浏览过的网页是否已被储存;当该已浏览过的网页未被储存时,使用该应用程序界面撷取该已浏览过的网页包含的复数个关键字,并给予该已浏览过的网页的每一该些关键字一识别符;基于该已浏览过的网页所属的网站中所有网页的数量,计算该已浏览过的网页的每一该些关键字的tf-idf值;根据该已浏览过的网页的每一该些关键字的识别符以及该已浏览过的网页的每一该些关键字的tf-idf值产生该矩阵;将该矩阵输入至该网页分类模型以产生该预测的分类名称;以该预测的分类名称储存该已浏览过的网页至一资料库;根据该资料库中各分类名称的网页的数量识别出一偏好信息,并推荐与该偏好信息相关的广告。5.如权利要求1所述的自动分类方法,其特征在于,还包括:判断具有一文章分类名称的一文章是否被发布;当具有该文章分类名称的该文章被发布时,使用该应用程序界面撷取该文章包含的复数个关键字,并给予该文章包含的每一该些关键字一识别符;基于该文章所属的网站中所有文章的数量,计算该文章包含的每一该些关键字的tf-idf值;根据该文章包含的每一该些关键字的识别符id以及该文章包含的每一该些关键字的
tf-idf值产生该矩阵;将该矩阵输入至该网页分类模型以产生该预测的分类名称;当该文章分类名称与该预测的分类名称不同时,以该预测的分类名称发布该文章。6.如权利要求1所述的自动分类方法,其特征在于,还包括:判断已储存的该网页的该预测的分类名称是否被更改;以及当已储存的该网页的该预测的分类名称被更改,则根据该矩阵及更改后的分类名称训练该网页分类模型。7.一种网页的自动分类系统,包括:一处理器,用以使用一应用程序界面撷取一网站中的一网页包含的复数个关键字,并给予该网页包含的每一该些关键字一识别符,基于该网站中所有网页的数量,计算该网页包含的每一该些关键字的tf-idf值,根据该网页包含的每一该些关键字的识别符及该网页包含的每一该些关键字的tf-idf值产生一矩阵;以及一网页分类模型,用以根据该矩阵产生一预测的分类名称;其中,该处理器以该预测的分类名称储存该网页。8.如权利要求7所述的自动分类系统,其特征在于,该处理器还用以判断该网页是否已先前储存过。9.如权利要求7所述的自动分类系统,其特征在于,该处理器还用以使用该应用程序界面撷取该网站的该网页包含的该些关键字及一分类名称,并给予该网页包含的每一该些关键字一识别符,基于复数个网站中所有网页的数量,计算该网页包含的每一该些关键字的tf-idf值,根据该网页包含的每一该些关键字的识别符及该网页包含的每一该些关键字的tf-idf值产生该矩阵,以及根据该矩阵及该分类名称训练该网页分类模型。10.如权利要求7所述的自动分类系统,其特征在于,该处理器还用以判断一已浏览过的网页是否已被储存,当该已浏览过的网页未被储存时,使用该应用程序界面撷取该已浏览过的网页包含的复数个关键字,并给予该已浏览过的网页的每一该些关键字一识别符,基于该已浏览过的网页所属的网站中所有网页的数量,计算该已浏览过的网页的每一该些关键字的tf-idf值,根据该已浏览过的网页的每一该些关键字的识别符以及该已浏览过的网页的每一该些关键字的tf-idf值产生该矩阵,将该矩阵输入至该网页分类模型以产生该预测的分类名称,以该预测的分类名称储存该已浏览过的网页至一资料库,以及根据该资料库中各分类名称的网页的数量识别出一偏好信息,并推荐与该偏好信息相关的广告。11.如权利要求7所述的自动分类系统,其特征在于,该处理器还用以判断具有一文章分类名称的一文章是否被发布,当具有该文章分类名称的该文章被发布时,使用该应用程序界面撷取该文章包含的复
数个关键字,并给予该文章包含的每一该些关键字一识别符,基于该文章所属的网站中所有文章的数量,计算该文章包含的每一该些关键字的tf-idf值,根据该文章包含的每一该些关键字的识别符id以及该文章包含的每一该些关键字的tf-idf值产生该矩阵,将该矩阵输入至该网页分类模型以产生该预测的分类名称,以及当该文章分类名称与该预测的分类名称不同时,以该预测的分类名称发布该文章。12.如权利要求7所述的自动分类系统,其特征在于,该处理器还用以判断已储存的该网页的该预测的分类名称是否被更改,以及当已储存的该网页的该预测的分类名称被更改,则根据该矩阵及更改后的分类名称训练该网页分类模型。

技术总结
一种网页的自动分类方法及系统。网页的自动分类方法包括以下步骤。使用一应用程序界面(API)撷取一网站中的一网页包含的复数个关键字,并给予网页包含的每一关键字一识别符(ID)。基于网站中所有网页的数量,计算网页包含的每一关键字的TF-IDF值。根据网页包含的每一关键字的识别符及网页包含的每一关键字的TF-IDF值产生一矩阵。将矩阵输入至一网页分类模型以产生一预测的分类名称。以预测的分类名称储存网页。称储存网页。称储存网页。


技术研发人员:陈冠儒 陈良其
受保护的技术使用者:宏碁股份有限公司
技术研发日:2020.12.02
技术公布日:2022/6/4
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献