网页内文抽取方法与流程

2022-03-31 06:23:26 来源：中国专利 TAG：

1.本发明涉及一种内文抽取方法，尤其涉及一种网页的内文的抽取方法。

背景技术：

2.随着网际网络的普及化，人们可在网络上进行各种数据的编写、交换与传播，使得网络上存在着相当丰富的数据，进而成为大数据分析的主要数据来源。
3.为了能够自动、有效且大量地搜集网络数据，进而能够对数据进行分析，并直接影响舆情分析结果，网页内容的抽取技术因应而生。
4.目前常见的网页抽取技术主要包括规则式抽取方法和机器学习式抽取方法这两大类。规则式抽取方式需要针对不同的网页分别撰写对应的脚本，而不同结构的网页就必须制定不同的抽取规则并撰写不同的脚本，不但耗费时间，也无法被广泛使用。
5.至于机器学习式抽取方法，常会因为网页中存在着内文以外的大量文字(例如广告、推荐文章等)、内文的来源网页的数量过多、每一个网页的特征皆不相同、难以定义出每个网页都符合的规则等因素，使得通过演算法来直接抽取网页内文的效果相当不稳定。
6.有鉴于此，为了能够更有效率且更精准地搜集网络数据以因应大数据技术的分析需求，现有的网页内文抽取技术实有加以改良的必要与急迫性。

技术实现要素：

7.本发明的主要目的，在于提供一种网页内文抽取方法，可通过至少两条不同的路径来分别取得网页内文并且互相比对，以确保最终得到的网页内文的正确性。
8.为了实现上述目的，本发明的网页内文抽取方法主要是运用于一电子装置，并且至少包括下列步骤：取得一特定网页的一网页截图及一网页原始码；通过一物件检测模块对该网页截图进行辨识，以取得至少一个目标区块在该网页截图中的位置，其中该目标区块至少包括一特定文字内容；通过一文字辨识模块对该目标区块执行一字元辨识处理，以取得该特定文字内容；及，通过一文字比对模块将该特定文字内容与该网页原始码的内容进行比对以取得与该特定文字内容的相似度最高的一特定原始码内文，并输出该特定原始码内文以作为该特定网页的一网页内文。
9.本发明相对于相关技术所能达到的技术效果在于，通过网页截图以及网页原始码来分别取得一笔抽取数据，再经由比对两笔抽取数据来得到最终的网页内文，因此可以提升网页内文的精确度。并且，本发明可以从单一个网页中直接抽取并输出所需的网页内文，不需要检索与参考其他网页的内容，因此可以有效节省抽取时间。
10.如上所述，本发明是先通过两条不同的路径取得两笔不同的抽取数据，再通过比对这两笔抽取数据以决定并输出最终的网页内文，因此可以使用误差范围较大的辨识模块，进而允许以极少量的数据来训练要使用的辨识模块。并且，本发明的抽取方法不需要由使用者来自订抽取规则，因此对于不同的网页也具有泛用性。
附图说明
11.图1为本发明的抽取系统的方框图的第一具体实施例。
12.图2为本发明的抽取方法流程图的第一具体实施例。
13.图3为特定网页的示意图。
14.图4为本发明的目标区块示意图的第一具体实施例。
15.图5a为标题截图的第一具体实施例。
16.图5b为内文截图的第一具体实施例。
17.图6为本发明的网页原始码比对流程图的第一具体实施例。
18.图7为网页原始码的示意图。
19.图8为本发明的目标区块辨识流程图的第一具体实施例。
20.图9为本发明的目标区块示意图的第二具体实施例。
21.图10为内文截图的第二具体实施例。
22.其中，附图标记说明如下：
[0023]1…
电子装置
[0024]
11
…
网页影像获取模块
[0025]
12
…
原始码分析模块
[0026]
13
…
物件检测模块
[0027]
14
…
文字辨识模块
[0028]
15
…
文字比对模块
[0029]
16
…
输出模块
[0030]2…
特定网页
[0031]
21
…
标题
[0032]
22
…
内文
[0033]
23
…
照片
[0034]
24
…
功能键
[0035]
25
…
其他信息
[0036]
30
…
定位框
[0037]
31
…
标题区块
[0038]
310
…
裁切后标题影像
[0039]
32
…
内文区块
[0040]
320、320
’…
裁切后内文影像
[0041]4…
网页原始码
[0042]
41
…
原始码内文
[0043]
42
…
标签
[0044]
s10～s16
…
抽取步骤
[0045]
s120～s128
…
目标区块截取步骤
[0046]
s160～s166
…
比对步骤
具体实施方式
[0047]
兹就本发明的一优选实施例，配合附图，详细说明如后。
[0048]
参阅图1，为本发明的抽取系统的方框图的第一具体实施例。本发明公开了一种网页内文抽取方法(下面将于说明书中简称为抽取方法)，所述抽取方法运用于如图1所示的电子装置1中。所述电子装置1为一种可以连接网际网络并且能够通过浏览器(browser)来开启并浏览网页的电子装置，例如但不限于个人电脑、笔记本电脑、云端服务器、智能手机、平板电脑等。本发明将所述电子装置1作为抽取系统，并用以实现本发明的抽取方法。
[0049]
所述电子装置1至少具有处理器及存储单元(图未标示)，由处理器来对特定网页2进行分析并抽取特定网页2的网页内文，并且由存储单元来存储处理器所抽取的网页内文，以利于后续的分析动作。并且，所述电子装置1还可具备如电池、键盘、触控式屏幕、鼠标、连接器、喇叭、无线传输单元等一般电子装置的通用元件，于此不再赘述。
[0050]
所述处理器可以运行特定的软件、固件或演算法，以执行本发明的抽取方法。并且，基于所述软件、固件或演算法所能实现的多个功能，所述处理器可以被逻辑切割成多个软件模块。借此，本发明可由这些软件模块来构成一个用以执行本发明的抽取方法的抽取系统。
[0051]
如图1所示，当本发明的电子装置1通过处理器执行了特定的软件、固件或演算法时，可至少将处理器逻辑配合上述如特定的软件，切割成网页影像获取模块11、原始码分析模块12、物件检测模块13、文字辨识模块14、文字比对模块15及输出模块16，并且通过这些模块11-16来实现本发明的抽取方法。
[0052]
具体地，电子装置1可通过浏览器开启一个特定网页2，接着，处理器通过网页影像获取模块11获取特定网页2的网页截图，并且通过原始码分析模块12检视并取得特定网页2的网页原始码。其中，所述网页截图包含特定网页2上的完整内容，包括标题、内文、图片、广告、推荐文章、留言及其他信息等等。另外，本实施例中特定网页2是以超文本标记语言(hyper text markup language,html)所建构的网页，并且所述网页原始码指的是html的内文。
[0053]
html为本技术领域中的常用技术手段，于此不再赘述。
[0054]
物件检测模块13是一个以深度学习演算法预先训练完成的影像辨识模块。具体地，电子装置1的存储单元可以预先存储多种不同结构的网页的网页截图，其中，使用者是以人工方式预先在这些网页截图上标出一或多个目标区块的位置，例如标题区块、内文区块、广告区块、留言区块等，不加以限定。电子装置1的处理器基于这些网页截图来执行深度学习演算法，以训练出可以自动辨识一个网页上的各个目标区块的位置的物件检测模块13。
[0055]
于上述实施例中，标题区块指的是记载了网页标题的区块、内文区块指的是记载了网页内文的区块、广告区块指的是记载了网页上的广告的区块、留言区块指的是记载了网页中的留言的区块。并且，所述深度学习演算法为本技术领域中常用的训练手段，于此不再赘述。
[0056]
本发明中，电子装置1的处理器将网页影像获取模块11所获取的特定网页2的网页截图汇入物件检测模块13中，以由物件检测模块13自动判定一或多个目标区块在网页截图中的位置。于一实施例中，物件检测模块13至少于网页截图中自动判定记载了网页标题的
标题区块以及记载了网页内文的内文区块的位置，但不加以限定。
[0057]
值得一提的是，本发明的抽取方法是基于网页截图来取得第一笔抽取数据，并且基于网页原始码来取得第二笔抽取数据，最后将第一笔抽取数据与第二笔抽取数据进行比对后，再决定要输出什么信息。借此，可以有效确保最终输出的网页内文的正确性。
[0058]
由于本发明采用了双重识别的机制，因此可以允许所使用的物件检测模块13具有较大的辨识误差范围。换句话说，电子装置1只要采用极少量的数据对物件检测模块13进行训练(例如200笔至250笔的网页截图)，即可令物件检测模块13达到本发明的抽取方法能够接受的准确率。例如，若以目标检测评价指标(ap-50)来对训练完成的物件检测模块13进行评估，只要物件检测模块13达到75％以上，即可符合本发明的抽取方法的使用标准。借此，可以有效降低训练时间并提高本发明的使用便利性。
[0059]
上述目标检测评价指标为本技术领域中常用的评估手段，于此不再赘述。
[0060]
文字辨识模块14主要用以对网页截图进行文字辨识，以抽取出网页截图中的文字。于本实施例中，处理器主要是将物件检测模块13所标示的一或多个目标区块的位置汇入文字辨识模块14，以令文字辨识模块14锁定网页截图中的目标区块来进行文字辨识，并抽取出目标区块内的特定文字内容。如此一来，可以有效缩短字元辨识的时间，同时提高字元辨识的准确性。
[0061]
于一实施例中，文字辨识模块14为一种光学字元辨识(optical character recognition,ocr)模块，所述文字辨识为光学字元辨识处理。值得一提的是，所述文字辨识模块14的功能在于将图片中的文字转换为对应的文字内容，而不必然以ocr为主要辨识手段。
[0062]
文字比对模块15用以将文字辨识模块14抽取出来的特定文字内容与原始码分析模块12所取得的特定网页2的网页原始码的内容进行比对，并且于网页原始码中取得和所述特定文字内容的相似度最高的一或多笔特定原始码内文。
[0063]
如前文所述，文字辨识模块14仅从网页截图中辨识并抽取目标区块内的文字，而目标区块在网页截图中的位置则是由物件检测模块13所自动辨定的，因此，被抽取出来的特定文字内容可能会因为目标区块的位置的辨定误差而不完全正确。相对之下，网页原始码中所记载的文字是与特定网页2上显示的内容完全对应的，不会错误。因此，本发明通过文字比对模块15来从网页原始码中取得与上述特定文字内容最相近的一或多个特定原始码内文，可确保最终输出的数据的正确性。
[0064]
输出模块16是从文字比对模块15接收与特定文字内容最相近的一或多个特定原始码内文，并且输出所述特定原始码内文，以作为特定网页2的网页内文。借此，电子装置1可通过上述软件模块11-16来实现本发明的抽取方法，以自动抽取特定网页2的网页内文，同时确保所输出的网页内文的正确性。
[0065]
续请参阅图2，为本发明的抽取方法流程图的第一具体实施例。图2公开了本发明的抽取方法的各个具体步骤，其中各个步骤是分别由如图1所示的电子装置1的处理器通过所述多个软件模块11-16来分别实现，具体说明如下。
[0066]
首先，处理器取得一个特定网页2的网页截图以及网页原始码(步骤s10)。本发明中，处理器会从网页截图中取得第一笔抽取数据，并从网页原始码中取得第二笔抽取数据，并且基于第一笔抽取数据与第二笔抽取数据的比对结果来决定最终输出的网页内文。
[0067]
于一实施例中，处理器于步骤s10中是先取得特定网页2的网址，并将所述网址输入浏览器中以开启特定网页2(例如可由使用者手动输入网址，或由处理器接收所述网址后自动填入浏览器中，不加以限定)。接着，处理器可通过浏览器软件(图未标示)完整截取特定网页2的网页截图，并且通过浏览器软件检视特定网页2以获取特定网页2的网页原始码。于本实施例中，所述浏览器软件可例如为谷歌公司(google)所开发的chrome浏览器，并且通过selenium软件模拟浏览器检视特定网页2，而所述网页截图为一影像档，但不加以限定。
[0068]
值得一提的是，处理器可以通过多工处理来同时取得所述网页截图以及网页原始码，亦可于步骤s10中先取得特定网页2的网页截图，并且于要将基于网页截图所取得的第一笔抽取数据汇入文字比对模块15时，再获取特定网页2的网页原始码，而不以图2所示的执行顺序为必要。
[0069]
步骤s10后，处理器通过所述物件检测模块13对网页截图进行辨识，以取得至少一个目标区块在网页截图中的位置(步骤s12)。本实施例中，所述目标区块内至少涵盖了一组特定文字内容。
[0070]
于一实施例中，所述目标区块至少包括一个内文区块，并且所述内文区块涵盖了特定网页2中的内文文字。于另一实施例中，所述目标区块至少包括一个标题区块，并且所述标题区块涵盖了特定网页2中的标题文字。于又一实施例中，所述目标区块同时包括了所述内文区块及标题区块，但不以此为限。
[0071]
请同时参阅图3及图4，分别为特定网页的示意图以及本发明的目标区块示意图的第一具体实施例。如图3所示，本发明中所指的特定网页2，是为一种记载了以文字以及其他信息共同呈现的文章(例如新闻、技术发展报告、学习笔记等)的网页。并且，本发明中所指的网页截图，是指完整地包含了一个网页中的所有信息，例如包括标题21、内文22、照片23、功能键24、其他信息25等，以及未显示于图3中的留言、广告、推荐文章、超连结等信息的影像，但不以上述者为限。
[0072]
本发明中，使用者可以对物件检测模块13设定作为抽取目标的一或多个目标区块，并且如图4所示，物件检测模块13可以在从网页截图上辨识出目标区块后，于目标区块上产生定位框30以进行标记。于图4的实施例中，所述定位框30为矩形框，并且物件检测模块13基于使用者的设定而于网页截图上标记了标题区块31以及内文区块32，但不以此为限。
[0073]
回到图2。于步骤s12后，处理器是接着由所述文字辨识模块14来对网页截图中的目标区块执行字元辨识处理，以取得目标区块中所包含的特定文字内容(步骤s14)。于一实施例中，若文字辨识模块14为光学字元辨识模块，则所述字元辨识处理则为光学辨识处理，但不加以限定。
[0074]
于一实施例中，物件检测模块13在对网页截图进行了辨识后，会记录目标区块在网页截图上的覆盖范围。例如，物件检测模块13可于网页截图上产生所述定位框30，并以定位框30来标记所述标题区块31与内文区块32的覆盖范围。于一实施例中，物件检测模块13以定位框30左上角和右下角的坐标位置来表示标题区块31以及内文区块32的覆盖范围；于另一实施例中，物件检测模块13以定位框30左下角和右上角的坐标位置来表示标题区块31以及内文区块32的覆盖范围，但不加以限定。并且，处理器会同时将网页截图以及所述覆盖
范围及/或所述坐标位置汇入文字辨识模块14。
[0075]
于此实施例中，文字辨识模块14在步骤s14中可以基于目标区块的覆盖范围对网页截图执行字元辨识处理，以取得目标区块内的特定文字内容。具体地，若使用者设定的目标区块包括所述标题区块31以及内文区块32，则于此实施例中，文字辨识模块14在步骤s14中是基于标题区块31的覆盖范围对网页截图执行字元辨识处理以取得特定网页2的网页标题，并且基于内文区块32的覆盖范围对网页截图执行字元辨识处理以取得特定网页2的网页内文。
[0076]
于另一实施例中，物件检测模块13在对网页截图进行了辨识后，会基于目标区块的位置对网页截图进行裁切，以产生一张裁切后影像。并且，处理器会将裁切后影像(即，只包含了目标区块的内容的影像)汇入文字辨识模块14。借此，文字辨识模块14在步骤s14中可直接对裁切后影像执行字元辨识处理，以取得目标区块内的特定文字内容。
[0077]
请同时参阅图5a及图5b，分别为标题截图的第一具体实施例以及内文截图的第一具体实施例。若使用者设定的目标区块包括所述标题区块31以及内文区块32，则如图5a及图5b所示，物件检测模块13在对网页截图进行了辨识后，可基于标题区块31的位置对网页截图进行裁切以产生一张裁切后标题影像310，并且可基于内文区块32的位置对网页截图进行裁切以产生一张裁切后内文影像320。其中，裁切后标题影像310中仅包含了特定网页2的网页标题，裁切后内文影像320中仅包含了特定网页2的网页内文。
[0078]
于此实施例中，处理器是可将物件检测模块13产生的裁切后标题影像310以及裁切后内文影像320汇入文字辨识模块14，并且文字辨识模块14在步骤s14中是直接对裁切后标题影像310执行字元辨识处理以取得特定网页2的网页标题，并且直接对裁切后内文影像320执行字元辨识处理以取得特定网页2的网页内文。
[0079]
值得一提的是，文字辨识模块14可以依照使用者的设定值，仅辨识并取得特定网页2的网页标题、仅辨识并取得特定网页2的网页内文、同时辨识并取得特定网页2的网页标题以及网页内文、或是辨识并取得特定网页2中的其他信息(例如广告、留言、推荐文章等)，而不以上述的网页标题以及网页内文为限。
[0080]
回到图2。步骤s14后，处理器将文字辨识模块14辨识所得的特定文字内容(例如上述的网页标题及网页内文)以及特定网页2的网页原始码汇入所述文字比对模块15，并且由文字比对模块15将特定文字内容与网页原始码的内容进行比对，以取得并输出与特定文字内容的相似度最高的一或多组特定原始码内文(步骤s16)。最后，处理器即可通过输出模块16输出由文字比对模块15在步骤s16中所取得的特定原始码内文。
[0081]
如上所述，本发明的抽取方法通过网页原始码以及文字比对模块15来弥补物件检测模块13与文字辨识模块14可能出现的辨识误差。例如，当定位框30未能精准框选文字区块时(参考图9)，可通过文字比对模块15令电子装置1可以校正结果，并抽取出更完整且正确的网页标题以及网页内文。
[0082]
续请同时参阅图6及图7，分别为本发明的网页原始码比对流程图的第一具体实施例及网页原始码的示意图。其中，图6用以对图2所示的步骤s16做更进一步的具体说明。
[0083]
如图6所示，在与文字辨识模块14辨识出来的特定文字内容进行比对之前，处理器先通过原始码分析模块12对特定网页2的网页原始码进行分析，以取得网页原始码中的多笔原始码内文(步骤s160)。如图7所示，一个网页的网页原始码4中是至少包含以html语法
构成多笔原始码内文41，其中各笔原始码内文41分别对应至网页原始码4中的至少一个标签类别42。
[0084]
于图7所示的实施例中，所述特定网页2是以html所建构的网页，并且所述标签类别42是以html语法中的内文标签(《p》《/p》)为例。于其他实施例中，所述标签类别42亦可为html语法中的其他标签，例如标题标签(《title》《/title》)、主体标签(《body》《/body》)、文章标签(《article》《/article》)、段落标签(《section》《/section》)、分组标签(《div》《/div》)等，但并不以此为限。
[0085]
接着，处理器通过所述文字比对模块15来将文字辨识模块14辨识所得的特定文字内容与原始码分析模块12所取得的多笔原始码内文41进行比对(步骤s162)，并且从多笔原始码内文41中取得与特定文字内容的相似度最高的一或多笔特定原始码内文(步骤s164)，如levenshtein distance中距离最短者。最后，文字比对模块15将相似度最高的一或多笔特定原始码内文输出到输出模块(步骤s166)，以作为特定网页2在目标区块(例如前述的标题区块31与内文区块32)的位置上的文字信息。
[0086]
值得一提的是，于步骤s162中，文字比对模块15是将各笔原始码内文41(不包含标签本身)分别与特定文字内容进行纯文字比对，并且依据比对结果产生一个相似度数值。并且，文字比对模块15将相似度数值最高的一或多笔原始码内文41视为所述特定原始码内文，并且认定这些特定原始码内文即为特定网页2在使用者所设定的目标区块的位置上的文字内容。
[0087]
通过上述与网页原始码4的比对程序，即使物件检测模块13及/或文字辨识模块14的辨识结果与特定网页2上显示的实际文字具有误差，本发明的抽取方法仍然可以输出完整且正确的文字内容。
[0088]
值得一提的是，本发明的物件检测模块13主要是对一张完整的网页截图进行辨识，并且于网页截图上标示出一或多个目标区块。对于某些类型的网页来说(例如显示技术发展报告的网页)，网页内文的部分相当冗长，进而会导致内文区块以外的其他区块(例如标题区块)于网页截图中的比例过小。于此情况下，文字辨识模块14在进行文字辨识时，将可能无法正确地辨识出此类区块中的文字内容，进而导致辨识失败。
[0089]
为了避免上述问题的发生，本发明的抽取方法亦可通过多次裁切的方式来进行目标区块的辨识程序。
[0090]
具体地，上述多次裁切的方式，指的是本发明可以在对网页截图进行了辨识后，先判断出网页截图中的一个主要目标区块(例如第一区块)的位置，接着再基于这个主要目标区块在网页截图中的位置，进一步判断出一个次要目标区块(例如第二区块)在网页截图中的位置。
[0091]
于一实施例中，本发明的物件检测模块13可以在辨识了网页截图并且判断出所述第一区块的位置后，基于第一区块的位置来对整个网页截图进行裁切，并且只保留有可能存在所述第二区块的部分的影像。如此一来，物件检测模块13在进行第二次的辨识动作时，只需要对裁切后的影像进行辨识，即可以判断所述第二区块的位置。并且，于辨识完成后，物件检测模块13再将所述第一区块与第二区块汇入文字辨识模块14中，以进行文字内容的辨识动作。
[0092]
通过上述技术手段，本发明可以克服上述在第一区块的内文过于冗长，导致第二
区块于网页截图中的整体比例过小，导致文字辨识模块14无法正确辨识出第二区块中的文字内容的问题。
[0093]
请参阅图8，为本发明的目标区块辨识流程图的第一具体实施例。图8用以说明本发明如何通过分次裁切的方式来辨识网页截图中的一个大范围区块与一或多个小范围区块。于本实施例中，所述大范围区块指的是涵盖网页截图中的大部分面积(例如超过50％)的区块，所述小范围区块指的是涵盖网页截图中的小部分面积(例如小于10％)的区块，但不加以限定。
[0094]
为便于说明，下面将以辨识网页截图中的一个标题区块31(即，小范围区块)与一个内文区块32(即，大范围区块)为例，但并不以此为限。
[0095]
如图8所示，在对网页截图进行辨识时，所述物件检测模块13主要会先识别出网页截图中的内文区块32的位置(步骤s120)，意即，物件检测模块13会先于网页截图中标记出大范围区块的位置。于一实施例中，物件检测模块13于步骤s120中主要是针对内文区块32的位置对网页截图进行裁切，并产生所述裁切后内文影像320，但不加以限定。
[0096]
步骤s120后，物件检测模块13对网页截图进行裁切，仅保留网页截图中位于内文区块32的上方的影像，并且产生一张部分影像(步骤s122)。本实施例中，所述部分影像记录了网页截图的一部分，并且部分影像中不包含内文区块32的影像，并且不包含位于内文区块32的下方的所有影像。
[0097]
于步骤s122后，物件检测模块13再接着对所述部分影像进行辨识，以识别出部分影像中的标题区块31的位置(步骤s126)，意即，物件检测模块13于部分影像中标记出小范围区块的位置。于一实施例中，物件检测模块13于步骤s126中主要是针对标题区块31的位置对部分影像进行裁切，并产生所述裁切后标题影像310，但不加以限定。
[0098]
值得一提的是，为了令标题区块31的影像较为明显，进而提高文字辨识模块14的文字辨识效果，物件检测模块13在上述步骤s122后可以先对所述部分影像进行放大处理(步骤s124)，并且于步骤s126中再对放大后的部分影像进行辨识。然而，只要可以得出符合需求的辨识结果，则本发明的抽取方法并不必然执行所述步骤s124。
[0099]
于步骤s126后，物件检测模块13已分别标示出所述标题区块31与内文区块32的位置，因此可将标题区块31与内文区块32汇入文字辨识模块14(步骤s128)，以由文字辨识模块14来执行后续的文字辨识动作(例如执行如图2所示的步骤s14)。
[0100]
于一实施例中，物件检测模块13主要是分别将所述部分影像、标题区块31在部分影像中的覆盖范围、所述网页截图以及内文区块32在网页截图中的覆盖范围分别输出至文字辨识模块14。于另一实施例中，物件检测模块13是分别将所述裁切后标题影像310与裁切后内文影像320分别输出至文字辨识模块14。而，上述仅为本发明的部分具体实施范例，但不应以此为限。
[0101]
如前文所述，由于内文区块32属于网页截图中的一个大范围区块，且特定网页2中的网页标题的位置必然在网页内文的上方，因此本发明令物件检测模块13对所述部分影像进行网页标题的辨识动作，将可以完整且正确地取得特定网页2中的网页标题，进而大幅提升辨识成功率以及辨识结果的正确性。
[0102]
然而，如前文中所述，本发明的其中一个技术效果在于，允许使用者以极少量的数据来训练一个可能具有较大辨识误差范围的物件检测模块13，因此，物件检测模块13于图2
的步骤s12、图8的步骤s120及/或图8的步骤s126中所标示的标题区块31与内文区块32，将可能会与特定网页2实际上的网页标题与网页内文的显示位置不完全相符。
[0103]
请同时参阅图9及图10，分别为本发明的目标区块示意图的第二具体实施例以及内文截图的第二具体实施例。如图9所示，物件检测模块13在于网页截图上辨识出目标区块后，会于目标区块上产生定位框30以对目标区块进行标记。于图9的实施例中，物件检测模块13所标记的内文区块32具有误差，而没有完整涵盖特定网页2中的所有网页内文。因此如图10所示，物件检测模块13在裁切了网页截图后所产生的裁切后内文影像320’中，同样不会涵盖特定网页2中的所有网页内文。如此一来，当文字辨识模块14对裁切后内文影像320’进行了文字辨识后，必然无法得到完整且正确的网页内文。
[0104]
然而，如同前文所述，本发明的抽取方法并不会直接输出文字辨识模块14的文字辨识结果，而是会与将所述文字辨识结果(即，前文中所述的特定文字内容)与网页原始码4中的多笔原始码内文41进行比对，并且将与所述文字辨识结果的相似度最高的一或多笔特定原始码内文作为最后的输出标的。
[0105]
如上所述，由于网页原始码4中记载的文字内容必然与特定网页2上实际显示的文字内容完全相符，因此，本发明将比对相似度最高的一或多笔特定原始码内文作为最终的输出标的，即使物件检测模块13及/或文字辨识模块14的辨识结果不完全正确，亦不会影响本发明所抽取的网页内文的正确性。如此一来，可以有效地改良相关技术在抽取网页内文时所难以克服的正确性问题。
[0106]
以上所述仅为本发明的优选具体实例，非因此即局限本发明的专利范围，故举凡运用本发明内容所为的等效变化，均同理皆包含于本发明的范围内，合予陈明。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于带有具有扫描寄存器的数据寄存器的微扇区基础架构的逻辑结构的制作方法

网页内文抽取方法与流程

相关文献

最热文献