一种基于深度图神经网络的新闻收集及自动化提取方法与流程

2022-06-02 13:32:17 来源：中国专利 TAG：

1.本发明涉及深度学习技术领域，更具体的，涉及一种基于深度图神经网络的新闻收集及自动化提取方法。

背景技术：

2.现今处于大数据时代，热点新闻层出不穷，令人目不接暇，若要对大量的新闻事件进行分析处理，涉及到两个技术问题：一、找到大量新闻的链接。二、对新闻进行结构化的解析，提取出其标题、内容、作者、发表时间等信息。目前，大部分技术集中在新闻正文的提取上，怎么获得大量的新闻链接研究不多。大部分新闻正文提取技术通过正则表达式或者网页模板来完成此类工作，该类技术可以胜任以上工作，但存在弊端如下：网页模板、或正则表达式的构建耗费大量人力，而且当网站进行改版，需要重新修改网页模板或正则表达式，费时费力。另外，部分技术通过计算文本密度等特征，将新闻正文提取出来，存在弊端如下：一、仅能提取出正文内容。二、对于新闻正文过短或者网页其他干扰信息过多的网页，容易提取错误。
3.针对存在的不足与缺陷，现有技术公开了一种基于多模态机器学习的新闻网页正文抽取系统及方法，基于多模态机器学习的新闻网页正文抽取方法包括：进行不同类型特征的提取；多模态融合，进行特征的联合表示；进行网页正文分类模型训练。然而现有技术计算复杂，不能方便快捷地提取新闻中的重要信息，且也无法解决新闻链接获取困难的问题。因此如何发明一种能够方便快捷地从网站中获取大量新闻链接，并提取新闻信息的新闻自动化提取方法，是本技术领域亟需解决的问题。

技术实现要素：

4.本发明为了解决现有技术计算复杂，不能方便快捷地提取新闻中的重要信息的问题，提供了一种基于深度图神经网络的新闻收集及自动化提取方法，其具有计算简单，高效方便的特点，对比现有的自动化抽取技术，能较好地解决新闻链接的获取问题，且在新闻正文内容的抽取上，也有较高的准确率。
5.为实现上述本发明目的，采用的技术方案如下：
6.一种基于深度图神经网络的新闻收集及自动化提取方法，包括以下具体步骤：
7.s1.收集用于训练的新闻站点；
8.s2.以html标签为单位，标注收集到的新闻站点中的新闻链接，并通过深度图神经网络进行训练，得到链接提取模型；
9.s3.以html标签为单位，标注收集到的新闻链接中的新闻内容，并构建新闻内容提取模型；
10.s4.标注收集到的新闻内容中的正文内容，构建正文分类模型；
11.s5.收集需要分析的新闻站点的主页html源码，将所述的主页html源码输入到所述的链接提取模型中，并得到新闻链接；然后将得到的新闻链接输入新闻内容提取模型，得
到新闻内容；最后将得到的新闻内容输入正文分类模型，提取到新闻信息。
12.优选的，步骤s2，具体步骤为：
13.s201.以html标签为单位，分别标注出站点html页面中的“板块”并且从每个“板块”中标注出其中的“新闻链接”标签；
14.s202.通过得到的“新闻链接”标签，构建异构图的第一节点分类模型，将第一节点分类模型作为链接提取模型；
15.s203.训练并得到训练后的链接提取模型。
16.进一步的，步骤s202，具体为；以html源码中标签为深度图神经网络的节点，html源码中标签的父子关系和兄弟关系作为深度图神经网络的边，标签中的属性、文字作为节点的特征，构建异构图的第一节点分类模型，并将第一节点分类模型作为链接提取模型。深度图神经网络可选用图卷积网络算法(gcn)。
17.更进一步的，步骤s203，具体为：将新闻链接的提取任务看作是深度图神经网络的节点分类任务，将s201中标注数据划分为训练集、验证集和测试集，对所述的链接提取模型进行训练。
18.更进一步的，步骤s3，具体步骤为：
19.s301.对步骤s2中收集到的“新闻链接”进行标注，以新闻正文页的html标签为单位，分别标注出新闻正文页中的“标题”标签、“发表时间”标签、“作者”标签、“内容”标签、“来源”标签；
20.s302.通过构建异构图的第二节点分类模型，将第二节点分类模型作为新闻信息提取模型；
21.s303.训练所述的新闻信息提取模型。
22.更进一步的，步骤s302，具体为：以html源码中标签为深度图神经网络的节点，html源码中标签的父子关系和兄弟关系作为深度图神经网络的边，标签中的属性、文字作为节点的特征，构建异构图的节点分类模型，并将第二节点分类模型作为新闻信息提取模型；
23.更进一步的，步骤s303，具体为：将新闻信息提取的任务看作是深度图神经网络的节点分类任务，将s301中标注数据划分为训练集、验证集和测试集，对所述的新闻信息提取模型进行训练。
24.更进一步的，步骤s4，具体步骤为：
25.s401.对步骤s3中得到的“内容”进行标注，每个新闻内容分别标注为“新闻”标签或“杂音”标签；
26.s402.根据收集到的“新闻”标签或“杂音”标签，得到并训练正文分类模型。
27.更进一步的，步骤s401中，所述的“杂音”标签包括招聘信息、广告、新闻网站介绍。
28.更进一步的，步骤s402中，根据收集到的“新闻”标签或“杂音”标签，通过自然语言算法建立并训练正文分类模型。正文分类模型可选用基于预训练模型的微调(fine-tune)的方式构建。
29.本发明的有益效果如下：
30.本发明通过收集并标注用于训练的新闻站点，构建并训练得到了链接提取模型、新闻内容提取模型、正文分类模型，实现了对新闻内容进行自动化提取，解决了现有技术计
算复杂，不能方便快捷地提取新闻中的重要信息的问题，具有计算简单，高效方便的特点。
附图说明
31.图1是本基于深度图神经网络的新闻收集及自动化提取方法的流程示意图。
32.图2是本基于深度图神经网络的新闻收集及自动化提取方法的针对html源码的标注结果。
33.图3是本基于深度图神经网络的新闻收集及自动化提取方法的深度图神经网络示例图。
34.图4是本基于深度图神经网络的新闻收集及自动化提取方法，用于具体门户网站，进行新闻收集及自动化提取的流程图
具体实施方式
35.下面结合附图和具体实施方式对本发明做详细描述。
36.实施例1
37.如图1所示，一种基于深度图神经网络的新闻收集及自动化提取方法，包括以下具体步骤：
38.s1.收集用于训练的新闻站点；本实施例可以通过现有技术手段，采集到新闻站点的主页html源码，用作标注数据，收集了1000个新闻主页网页；
39.s2.以html标签为单位，标注收集到的新闻站点中的新闻链接，并通过深度图神经网络进行训练，得到链接提取模型；
40.s3.以html标签为单位，标注收集到的新闻链接中的新闻内容，并构建新闻内容提取模型；
41.s4.标注收集到的新闻内容中的正文内容，构建正文分类模型；
42.s5.收集需要分析的新闻站点的主页html源码，将所述的主页html源码输入到所述的链接提取模型中，并得到新闻链接；然后将得到的新闻链接输入新闻内容提取模型，得到新闻内容；最后将得到的新闻内容输入正文分类模型，提取到新闻信息。
43.实施例2
44.如图1所示，一种基于深度图神经网络的新闻收集及自动化提取方法，包括以下具体步骤：
45.s1.收集用于训练的新闻站点；
46.s2.以html标签为单位，标注收集到的新闻站点中的新闻链接，并通过深度图神经网络进行训练，得到链接提取模型；
47.s3.以html标签为单位，标注收集到的新闻链接中的新闻内容，并构建新闻内容提取模型；
48.s4.标注收集到的新闻内容中的正文内容，构建正文分类模型；
49.s5.收集需要分析的新闻站点的主页html源码，将所述的主页html源码输入到所述的链接提取模型中，并得到新闻链接；然后将得到的新闻链接输入新闻内容提取模型，得到新闻内容；最后将得到的新闻内容输入正文分类模型，提取到新闻信息。
50.如图2所示，在一个具体实施例中，步骤s2，具体步骤为：
51.s201.以html标签为单位，标注人员可以凭经验判断点击该标签后，将会进入存在大量新闻链接的网页，其中，“新闻”、“视频”、“体育”、“科技”标签，均被标注人员标注为“板块”标签；标注人员在各个“板块中”点击“新闻”相关标签，并将
“××
市昨日举行盛大
××
仪式”、“世卫组织：新冠肺炎病例突破
××”
标注为“新闻正文”标签；本实施例中，标注人员通过css选择器的表达式批量标注；
52.s202.通过得到的“新闻链接”标签，构建异构图的第一节点分类模型，将第一节点分类模型作为链接提取模型；
53.s203.训练并得到训练后的链接提取模型。
54.如图3所示，在一个具体实施例中，步骤s202，具体为；以html源码中标签为深度图神经网络的节点，html源码中标签的父子关系和兄弟关系作为深度图神经网络的边，标签中的属性、文字作为节点的特征，构建异构图的第一节点分类模型，并将第一节点分类模型作为链接提取模型，经测试，模型的提取的链接精准率和召回率可达95％左右。
55.在一个具体实施例中，步骤s203，具体为：将新闻链接的提取任务看作是深度图神经网络的节点分类任务，将s201中标注数据划分为训练集、验证集和测试集，对所述的链接提取模型进行训练。
56.实施例3
57.如图1所示，一种基于深度图神经网络的新闻收集及自动化提取方法，包括以下具体步骤：
58.s1.收集用于训练的新闻站点；
59.s2.以html标签为单位，标注收集到的新闻站点中的新闻链接，并通过深度图神经网络进行训练，得到链接提取模型；
60.s3.以html标签为单位，标注收集到的新闻链接中的新闻内容，并构建新闻内容提取模型；
61.s4.标注收集到的新闻内容中的正文内容，构建正文分类模型；
62.s5.收集需要分析的新闻站点的主页html源码，将所述的主页html源码输入到所述的链接提取模型中，并得到新闻链接；然后将得到的新闻链接输入新闻内容提取模型，得到新闻内容；最后将得到的新闻内容输入正文分类模型，提取到新闻信息。
63.如图2所示，在一个具体实施例中，步骤s2，具体步骤为：
64.s201.以html标签为单位，标注人员可以凭经验判断点击该标签后，将会进入存在大量新闻链接的网页，其中，“新闻”、“视频”、“体育”、“科技”标签，均被标注人员标注为“板块”标签；标注人员在各个“板块中”点击“新闻”相关标签，并将
“××
市昨日举行盛大
××
仪式”、“世卫组织：新冠肺炎病例突破
××”
标注为“新闻正文”标签；本实施例中，标注人员通过css选择器的表达式批量标注；
65.s202.通过得到的“新闻链接”标签，构建异构图的第一节点分类模型，将第一节点分类模型作为链接提取模型；
66.s203.训练并得到训练后的链接提取模型。
67.如图3所示，在一个具体实施例中，步骤s202，具体为；以html源码中标签为深度图神经网络的节点，html源码中标签的父子关系和兄弟关系作为深度图神经网络的边，标签中的属性、文字作为节点的特征，构建异构图的第一节点分类模型，并将第一节点分类模型
作为链接提取模型。本身实施例获得了1000个深度图神经网络。
68.本实施例中深度图神经网络节点的属性包括该html标签的标签类型、id属性、class属性、href属性、标签所处位置、子标签数量、子标签类型等。
69.本实施例中标签所在位置，可通过出现顺序给标签排序，然后作为特征。
70.本实施例中子标签数量，即以该html标签作为父节点的标签数量；子标签类型，以子标签是否包含文字、是否包含链接作为特征。
71.在一个具体实施例中，步骤s203，具体为：将新闻链接的提取任务看作是深度图神经网络的节点分类任务，将s201中标注数据划分为训练集、验证集和测试集，对所述的链接提取模型进行训练。
72.本实施例中，随机分配800个深度图神经网络作为训练集，100个深度图神经网络作为验证集，剩余100个深度图神经网络作为测试集，建立深度图神经网络进行模型训练，得到链接提取模型。
73.本实施例采用gcnn深度神经网络作为深度图神经网络模型架构。
74.在一个具体实施例中，步骤s3，具体步骤为：
75.s301.对步骤s2中收集到的“新闻链接”进行标注，以新闻正文页的html标签为单位，分别标注出新闻正文页中的“标题”标签、“发表时间”标签、“作者”标签、“内容”标签、“来源”标签；本实施例抽取了1000个s003中的新闻链接进行标注；本实施例中，本实施例中，新闻正文标签一般为《p》标签，且为连续的多个标签，一般占网页篇幅最大；标题标签一般处于新闻正文标签之上；作者标签、来源标签，一般位于新闻正文标签与标题标签之间，或紧接在新闻正文标签之后；发表时间标签一般位于新闻正文标签与标题标签之间；本实施例采用css选择器的表达式批量标注；
76.s302.通过构建异构图的第二节点分类模型，将第二节点分类模型作为新闻信息提取模型；
77.s303.训练所述的新闻信息提取模型。
78.在一个具体实施例中，步骤s302，具体为：以html源码中标签为深度图神经网络的节点，html源码中标签的父子关系和兄弟关系作为深度图神经网络的边，标签中的属性、文字作为节点的特征，构建异构图的节点分类模型，并将第二节点分类模型作为新闻信息提取模型，经测试，模型对新闻结构化提取的精准率和召回率可达90％以上；
79.本实施例采用gcnn深度神经网络作为深度图神经网络模型架构。
80.在一个具体实施例中，步骤s303，具体为：将新闻信息提取的任务看作是深度图神经网络的节点分类任务，将s301中标注数据划分为训练集、验证集和测试集，对所述的新闻信息提取模型进行训练。
81.本实施例中，对3000条数据进行标注，并确保打上“新闻”标签的数据和打上“杂音”标签的数据均不少于1000条。
82.实施例4
83.如图1所示，一种基于深度图神经网络的新闻收集及自动化提取方法，包括以下具体步骤：
84.s1.收集用于训练的新闻站点；
85.s2.以html标签为单位，标注收集到的新闻站点中的新闻链接，并通过深度图神经
网络进行训练，得到链接提取模型；
86.s3.以html标签为单位，标注收集到的新闻链接中的新闻内容，并构建新闻内容提取模型；
87.s4.标注收集到的新闻内容中的正文内容，构建正文分类模型；
88.s5.收集需要分析的新闻站点的主页html源码，将所述的主页html源码输入到所述的链接提取模型中，并得到新闻链接；然后将得到的新闻链接输入新闻内容提取模型，得到新闻内容；最后将得到的新闻内容输入正文分类模型，提取到新闻信息。
89.如图2所示，在一个具体实施例中，步骤s2，具体步骤为：
90.s201.以html标签为单位，分别标注出站点html页面中的“板块”并且从每个“板块”中标注出其中的“新闻链接”标签；
91.s202.通过得到的“新闻链接”标签，构建异构图的第一节点分类模型，将第一节点分类模型作为链接提取模型；
92.s203.训练并得到训练后的链接提取模型。
93.如图3所示，在一个具体实施例中，步骤s202，具体为；以html源码中标签为深度图神经网络的节点，html源码中标签的父子关系和兄弟关系作为深度图神经网络的边，标签中的属性、文字作为节点的特征，构建异构图的第一节点分类模型，并将第一节点分类模型作为链接提取模型。
94.在一个具体实施例中，步骤s203，具体为：将新闻链接的提取任务看作是深度图神经网络的节点分类任务，将s201中标注数据划分为训练集、验证集和测试集，对所述的链接提取模型进行训练。
95.在一个具体实施例中，步骤s3，具体步骤为：
96.s301.对步骤s2中收集到的“新闻链接”进行标注，以新闻正文页的html标签为单位，分别标注出新闻正文页中的“标题”标签、“发表时间”标签、“作者”标签、“内容”标签、“来源”标签；
97.s302.通过构建异构图的第二节点分类模型，将第二节点分类模型作为新闻信息提取模型；
98.s303.训练所述的新闻信息提取模型。
99.在一个具体实施例中，步骤s302，具体为：以html源码中标签为深度图神经网络的节点，html源码中标签的父子关系和兄弟关系作为深度图神经网络的边，标签中的属性、文字作为节点的特征，构建异构图的节点分类模型，并将第二节点分类模型作为新闻信息提取模型；
100.在一个具体实施例中，步骤s303，具体为：将新闻信息提取的任务看作是深度图神经网络的节点分类任务，将s301中标注数据划分为训练集、验证集和测试集，对所述的新闻信息提取模型进行训练。
101.在一个具体实施例中，步骤s4，具体步骤为：
102.s401.对步骤s3中得到的“内容”进行标注，每个新闻内容分别标注为“新闻”标签或“杂音”标签；
103.s402.根据收集到的“新闻”标签或“杂音”标签，得到并训练正文分类模型。
104.在一个具体实施例中，步骤s401中，所述的“杂音”标签包括招聘信息、广告、新闻
网站介绍。
105.在一个具体实施例中，步骤s402中，根据收集到的“新闻”标签或“杂音”标签，通过自然语言算法建立并训练正文分类模型，经测试分类的精准率和召回率可达95％以上。
106.本实施例中，具体流程图可见图4以某大型门户新闻网站的数据收集为例，每周采集其主页html源码，并将其转换成一个个深度图神经网络，输入到链接提取模型中，输出主页中对应的板块链接和新闻正文链接；将得到的板块链接，记录到该主页的采集记录中，如板块链接未出现过在采集记录中，则采集该链接的html源码，将其转换成深度图神经网络，输入到链接提取模型中，模型可输出网页中对应的板块链接和新闻正文链接，对于板块链接，重复执行采集、预测的任务。
107.本实施例中，通过提取出的新闻正文链接，采集该链接的html源码，将其转换成深度图神经网络，输入到新闻信息提取模型中，输出对应的新闻正文、标题、发表日期、作者和来源。
108.本实施例中，对提取出来的新闻正文，输入正文分类模型，对输出为“新闻”分类的新闻信息进行存储。至此，已经完成该新闻网站的新闻提取，得到一批新闻，及新闻对应的结构化数据，如标题、正文、作者、发表时间、来源。
109.本发明通过收集并标注用于训练的新闻站点，构建并训练得到了链接提取模型、新闻内容提取模型、正文分类模型，实现了对新闻内容进行自动化提取，解决了现有技术计算复杂，不能方便快捷地提取新闻中的重要信息的问题，其具有计算简单，高效方便的特点。
110.显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种元宇宙虚拟数字人制作方法和系统与流程

一种基于深度图神经网络的新闻收集及自动化提取方法与流程

相关文献

最热文献