一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

搜索引擎优化方法及装置、电子设备及可读存储介质与流程

2022-05-26 22:53:32 来源:中国专利 TAG:


1.本发明涉及搜索引擎优化技术领域,具体而言,涉及一种搜索引擎优化方法及装置、电子设备及可读存储介质。


背景技术:

2.为了提升搜索词的准确度,通过对网站内的html页面和客户端上的native页面进行遍历,从中获取关键信息,并通过关键词匹配,选出合适的页面,在搜索列表中展示标题、核心文本等信息,并分发给用户。
3.目前业界通用的页面采集技术,只采集页面的结构信息和内容信息。如果页面只提供了用户所见即所得的信息,那么在大多数情况下,这些信息不足以判断页面是否合适在一个搜索关键词下分发,更不足以挖掘出合适的标题、核心文本等信息以展示给用户。传统搜索引擎的搜索效果,重度依赖于被采集网站本身的seo(search engine optimization,搜索引擎优化)实现。即一个网站只有建立了良好的seo,才能在传统搜索引擎中得到较好的展现,而搜索引擎在大多数时候要做的,只是直接读取网站提供的seo信息来判断页面是否要收录,并将seo信息中的建议标题和核心文本直接展示给用户。
4.申请人在实现本发明的过程中,发现相关技术中至少存在以下技术问题。
5.从上述现有技术方案可以看出,网站能否在搜索结果中实现标题和核心文本的良好展现,甚至能否作为搜索结果分发给用户,很大程度上依赖于网站本身是否有良好的seo。如果页面本身seo做得不够好,则其往往很容易被搜索引擎误过滤。即使被分发,由于抽取到的标题和核心文本的质量比较低,其在搜索结果中的排名和展示也会比较差。
6.由于移动终端的应用程序app中的搜索从未有过这样的检索能力,网站内的大多数页面也没有被外部搜索引擎收录的需求,因此网站内大多数页面的seo手段都比较弱;另外,seo的规则都是针对html文档,对于客户端上的native页面,甚至完全没有seo的规范,页面维护方自然也不会做seo。这就导致了,若只使用业界通用的技术只针对网页端进行seo,不对app端进行seo,是绝对无法达到传统搜索引擎的搜索效果的。
7.可见,相关技术中针对上述的问题,目前尚未提出有效的解决方案。


技术实现要素:

8.本发明实施例提供了一种搜索引擎优化方法及装置、电子设备及可读存储介质,以至少解决由于相关技术中目标页面中没有进行搜索引擎优化,而导致无法准确获取目标页面的内容信息的技术问题。
9.根据本发明实施例的一个方面,提供了一种搜索引擎优化方法,包括:获取目标页面的视觉信息;根据所述视觉信息确定目标页面中的页面标题以及核心文本;根据所述页面标题以及所述核心文本对目标页面进行收录。
10.进一步地,获取目标页面的视觉信息,包括:在所述目标信息界面注入预设脚本;根据所述预设脚本获取所述目标页面的页面文档,其中,所述页面文档包括所述视觉信息;
根据所述页面文档获取所述视觉信息。
11.进一步地,在所述目标信息界面注入预设脚本,包括:在所述目标页面为html页面的情况下,将预设脚本注入至所述html页面的预设接口;或,在所述目标页面为应用程序页面的情况下,在所述应用程序页面对应的应用程序源码中增加预设脚本。
12.进一步地,根据所述预设脚本获取所述目标页面的页面文档,包括:遍历所述页面文档中的视图树;获取所述视图树中的每个节点的节点属性;根据所述节点属性生成所述页面文档。
13.进一步地,根据所述页面文档获取所述视觉信息,包括:确定所述页面文档中关键字位于所述目标页面的关键字位置;根据所述关键字位置获取所述视觉信息。
14.进一步地,根据所述视觉信息确定目标页面中的页面标题以及核心文本,包括:将所述视觉信息对应的视觉信息特征、所述目标页面的页面特征、所述目标页面的文本语言特征输入至预先训练完成的页面标题预测模型,以得到所述目标页面的页面标题;将所述视觉信息特征、所述目标页面中核心区域的内容特征输入至预先训练完成的核心文本预测模型,以得到所述目标页面的核心文本。
15.进一步地,所述页面特征包括以下至少之一:所述目标页面的html页面特征、dom特征;所述内容特征包括以下至少之一:所述核心区域的文本特征、图片特征以及链接特征。
16.根据本发明实施例的另一方面,还提供了一种搜索引擎优化装置,包括:获取单元,用于获取目标页面的视觉信息;确定单元,用于根据所述视觉信息确定目标页面中的页面标题以及核心文本;优化单元,用于根据所述页面标题以及所述核心文本对目标页面进行收录。
17.根据本发明实施例的另一方面,还提供了一种电子设备,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如上所述的搜索引擎优化方法的步骤。
18.根据本发明实施例的另一方面,还提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如上所述的搜索引擎优化方法的步骤。
19.在本发明实施例中,通过获取目标页面的视觉信息;根据视觉信息确定目标页面中的页面标题以及核心文本;根据页面标题以及核心文本对目标页面进行收录,通过目标视觉信息来确定目标页面中的页面标题以及核心文本,进而实现通过页面标题以及核心文本对目标页面进行收录,实现对搜索引擎的优化,进而解决了由于相关技术中目标页面中没有进行搜索引擎优化,而导致无法准确获取目标页面的内容信息的技术问题。
附图说明
20.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
21.图1是根据本发明实施例的一种可选的搜索引擎优化方法的流程示意图;
22.图2a是根据本发明实施例的一种可选的应用页面的示意图;
23.图2b是根据本发明实施例的一种可选的页面代码的示意图;
24.图2c是根据本发明实施例的一种可选的页面视觉信息的示意图;
25.图3a是根据本发明实施例的一种可选的应用页面的示意图;
26.图3b是根据本发明实施例的又一种可选的应用页面的示意图;
27.图3c是根据本发明实施例的又一种可选的应用页面的示意图;
28.图4是根据本发明实施例的一种可选的搜索引擎优化装置的结构示意图。
具体实施方式
29.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
30.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
31.实施例1
32.在介绍本发明的技术方案之前,首先以下名词进行解释:
33.遍历:对目标网页的页面内容的采集,此处需要说明的是,本发明技术方案的实施过程中,对页面内容等数据的采集,均是在得到数据所有方或数据所有用户的授权与允许下进行的。
34.seo:search engine optimization,搜索引擎优化,分析搜索引擎的排名规律,了解各种搜索引擎怎样进行搜索、怎样抓取互联网页面、怎样确定特定关键词的搜索结果排名的技术。搜索引擎采用易于被搜索引用的手段,对网站进行有针对性的优化。
35.以下对遍历网页内容的流程进行介绍,在具体的网站中,对网站的页面内容的遍历过程可以包括以下步骤:
36.s1,定义初始页面集,例如定义初始需要采集的一些高质量页面,例如门户网站等;
37.s2,依次采集这些高质量页面,以及这些页面能够跳转的页面(也称下一级页面),然后继续采集跳转页面的下一级页面;
38.s3,根据规则或模型,过滤低质页面,剩余页面作为收录页面;
39.s4,将收录页面根据规则或模型,挖掘标题候选集和核心文本(摘要)候选集。
40.以下对seo的索引构建流程进行介绍,具体可以包括以下步骤:
41.s1,对于收录的每个页面,将其标题、摘要、内容进行分词,这样就能知道每个页面包含哪些关键词,也称正排索引;
42.s2,统计这些关键词都被哪些页面包含,这样就能根据用户查询的关键词展示对
应页面的结果,也称倒排索引。同时,这一步骤也能算出每个词的tf(单文本词汇频率,term frequency)、idf(逆文本频率指数,inverse documentfrequency)。
43.为了解决现有技术中目标页面中没有进行搜索引擎优化,而导致无法准确获取目标页面的内容信息的问题,根据本发明实施例,提供了一种搜索引擎优化方法,如图1所示,该方法具体包括以下几个步骤:
44.s102,获取目标页面的视觉信息;
45.s104,根据视觉信息确定目标页面中的页面标题以及核心文本;
46.s106,根据页面标题以及核心文本对目标页面进行收录。
47.具体地,在本实施例中,目标页面包括但不限于网站页面以及应用程序的应用程序页面等。网站页面例如html页面,应用程序页面例如手机app客户端native页面。
48.需要说明的是,本实施例中的目标页面包括但不限于目标页面对应的当前页面内容、目标页面中跳转链接对应的网页或应用页面的页面内、以及目标页面接收相关操作后渲染得到的页面内容等。
49.在具体地应用场景中,视觉信息包括但不限于目标页面中每个元素所在屏幕坐标、大小;文字的字体、字号、粗细、颜色以及是否可见等信息。在本实施例中,视觉信息用于指示目标页面中展示的各个元素展示参数以及展示效果。
50.在本实施例中,根据目标页面的视觉信息确定目标页面中的页面标题以及核心文本,例如根据网页元素中文字的粗细、颜色以及坐标确定目标页面的页面标题,一般情况下页面标题的特征是位于网页视图的中间顶端位置,格式为居中、加粗且字号较大,通过页面标题的特征来确定页面的页面标题。此外,还可以进一步地确定网页中页面标题所对应的正文部分。
51.然后,在通过视觉信息确定目标页面中的页面标题以及核心文本之后,可以根据页面标题以及核心文本来进行搜索引擎优化,对页面标题以及核心文本对目标页面进行关联,然后对目标页面进行索引构建,进而将目标页面的页面内容收录到搜索引擎的数据库中。
52.需要说明的是,通过本实施例,获取目标页面的视觉信息;根据视觉信息确定目标页面中的页面标题以及核心文本;根据页面标题以及核心文本对目标页面进行收录,通过目标视觉信息来确定目标页面中的页面标题以及核心文本,进而实现通过页面标题以及核心文本对目标页面进行收录,实现对搜索引擎的优化,进而解决了由于相关技术中目标页面中没有进行搜索引擎优化,而导致无法准确获取目标页面的内容信息的技术问题。
53.可选地,在本实施例中,获取目标页面的视觉信息,包括但不限于:遍历目标页面的页面内容,以得到目标页面的页面文档;在页面文档中注入预设脚本,以得到目标页面对应的视图树;根据视图树得到视觉信息。
54.在本实施例中,首先遍历目标页面的页面内容,本实施例中的目标页面包括但不限于html页面和客户端native页面。
55.一方面,对于html页面,使用selenium框架 webdriver中间件 chrome浏览器进行html文档采集,以得到html文档,即页面文档;
56.另一方面,对于指定应用程序app客户端native页面,通过获取app源码,在源码中增加对指令应用程序的布局树的遍历和转储逻辑,获取类似html文档结构的页面文档。
57.在通过上述方式来遍历目标页面的页面文档后,通过向页面文档中注入预设脚本来获取目标页面的视图树html dom树,该html dom树中包括多个dom节点,每个节点具备对应的节点属性,可以从视图树中的dom节点上计算得到视觉信息。
58.可选地,在本实施例中,在页面文档中注入预设脚本,以得到目标页面对应的视图树,包括但不限于:在目标页面为html页面的情况下,将预设脚本注入至html页面的预设接口;或,在目标页面为应用程序页面的情况下,在应用程序页面对应的应用程序源码中增加预设脚本。
59.具体地,在一个例子中,假定预设脚本为一段javascript代码,对于html页面,selenium框架提供了注入预设脚本javascript代码的接口,通过该接口注入一段javascript代码,触发css层叠样式计算,然后遍历视图树html dom树,并读取每个dom节点上计算得到的视觉信息。获取视觉信息后,通过节点属性的方式注入到页面文档中,再提取视觉文档html文档。注入属性时,通过避开w3c标准的方式,避免了属性冲突。
60.在另一个例子中,对于指定应用程序的客户端native页面,通过获取app源代码,在app源代码中直接增加遍历视图树view树,并读取每个view属性,来获取视觉信息。同样地,将视觉信息通过节点属性的方式注入到xml文档中,来得到视觉文档。
61.需要说明的是,存在很多框架和方案都能注入代码获取视觉信息,本实施例中通过注入代码来获取视觉信息的方案,包括但不限于上述列出的具体实现方式,并不会对本实施例的技术方案产生任何限定。
62.可选地,在本实施例中,根据预设脚本获取目标页面的页面文档,包括但不限于:遍历页面文档中的视图树;获取视图树中的每个节点的节点属性;目标页面对应的视觉文档,其中,视觉文档中包括视觉信息。
63.具体地,在本实施例中,获取视觉文档是通过将上述列出的视图树的节点属性重新写入到由目标页面遍历得到的页面文档中,以得到带有视觉信息的视觉文档。具体地,通过遍历html页面或客户端native页面的视图树,并在视图树的每一个节点上增加了视图所在屏幕坐标、大小、文字的字体、字号、粗细、颜色、是否可见等信息,并作为xml属性放到对应节点中,此时输出的视觉文档即包含了视觉信息。
64.需要说明的是,视觉信息不仅包含上述列出的属性,还包含但不限于无法获取到,但页面访问者能够看到或感知到的未列出的信息;文档的内容结构也不仅限于作为xml属性放到对应节点中,还包括其他任何能将视觉信息存储成文档,并和原始文档中的节点相关联的手段,本实施例对此不做任何限定。
65.在一个例子中,以图2a所示的目标页面为例,通过获取目标页面的源码,如图2b所示,为目标页面的源代码,该源代码为搜索引擎能够采集得到的信息,在html源码中直接体现的内容和结构信息。采集得到的信息如图2c所示,图2c中框中内容显示了每个元素的坐标、字号、文字颜色、粗细、是否可见等信息。依据这些信息,内容处理引擎就可以识别出哪些内容处于页面靠上的位置,哪些内容是页面加粗高亮强调的,哪些内容实际是不可见的。需要说明的是,不可见的内容不适合作为关键词命中、标题、摘要等直接特征,但适合作为相关性或紧密度等间接特征,因此在采集时直接去除也是不合适的。
66.通过上述实施例,遍历目标页面的页面内容,在页面文档中注入预设脚本,以得到目标页面对应的视图树;根据视图树得到视觉信息,能够实现对不同类型页面的视觉信息
的采集,提升了视觉信息的采集效率。
67.可选地,在本实施例中,在根据节点属性生成目标页面对应的视觉文档之后,还包括:获取视觉文档中每个节点的可见性信息;根据可见性信息对每个节点对应的页面内容进行筛选。
68.在具体地应用场景中,有些网页由于网络连接问题或内容质量问题,无法在网页中显示有效内容。例如“404not found”、“网页迷路了”、“加载中”以及网页中的内容没有有效内容(显示的内容为推荐内容)等等。
69.为了避免质量较低的网页内容的影响,在本实施例中,根据视觉文档中获取到的每个dom节点的可见性信息,就可以剔除属性为不可见的dom节点的干扰,进而提取出核心的正文内容。然后根据预先设置的匹配内容过滤规则进行内容筛选。可见性信息包括但不限于“加载中”、“404not found”、“网页迷路了”等可见性关键字以及可见性关键字的位置信息。
70.例如可见性关键字“加载中”位于应用页面的页面顶端,则表示当前应用页面中的页面内容未加载出来,若可见性关键字“加载中”位于应用页面的底部,则表示,应用页面中的页面内容的部分可能未加载出来。
71.在具体的应用场景中,如图3a、图3b以及图3c所示,分别为应用程序的应用页面示意图。
72.在一个例子中,采集到的是图3a所示的一个空白页,则该页面属于低质页面(加载慢或加载不出来),不适合分发给用户,页面质量判定系统会依据其含有可见性关键字“正在加载”的字样,且位于应用页面的正中间,则将该应用页面过滤掉。
73.在另一个例子中,采集到的是图3b所示的应用页面,同样存在可见性关键字“正在加载”的字样,但该字样位于页面底部、屏幕之外(截图是将该页面拉到底部后的场景),这是一个正常的应用页面,不应该由于其含有“正在加载”的字样而将其过滤。
74.而在又一个例子中,采集到的是图3c所示的应用页面,同样存在可见性关键字“正在加载”的字样,但该字样位于页面顶部,实际上应用页面的主要内容没有加载出来,加载出来的是根据用户信息推荐的个性化推荐内容,也应该将其过滤。
75.由上述内容可知,不能仅仅通过页面上是否有内容来判断是否过滤;也不能根据“正在加载”元素在html代码中的位置来判断是否需要过滤,因为页面内容靠上,并不代表其html代码对应的内容靠前。因此,在此类场景下,只有通过可见性信息中的可见性关键字以及可见性关键字的位置信息能容易且准确地对不可分发的应用页面进行筛选过滤。
76.通过上述实施例,获取视觉文档中每个节点的可见性信息,根据可见性信息对每个节点对应的页面内容进行筛选,避免了应用页面中的无效内容对应用页面的优化工作的工作量,提高了应用页面的优化效率。
77.可选地,在本实施例中,根据视觉信息确定目标页面中的页面标题以及核心文本,包括但不限于:将视觉信息对应的视觉信息特征、目标页面的页面特征、目标页面的文本语言特征输入至预先训练完成的页面标题预测模型,以得到目标页面的页面标题;将视觉信息特征、目标页面中核心区域的内容特征输入至预先训练完成的核心文本预测模型,以得到目标页面的核心文本。
78.在本实施例中,一方面,根据应用页面的页面内容中的视觉信息特征、页面特征、
文本语言特征页面标题构建第一训练样本,进而根据第一训练样本构建标题训练数据集,然后根据标题训练数据集训练页面标题预测模型,直至模型收敛。
79.在上述的模型训练完成后,将视觉信息对应的视觉信息特征、目标页面的页面特征、目标页面的文本语言特征输入至预先训练完成的页面标题预测模型,以得到目标页面的页面标题
80.另一方面,根据页面内容中的视觉信息特征、核心区域的内容特征以及核心文本构建第二训练样本,进而根据第二训练样本构建核心文本训练数据集,然后根据核心文本训练数据集训练核心文本预测模型,直至模型收敛。
81.在上述的模型训练完成后,将视觉信息特征、目标页面中核心区域的内容特征输入至预先训练完成的核心文本预测模型,以得到目标页面的核心文本。
82.通过上述实施例,通过将视觉信息对应的视觉信息特征分别输入至预先训练完成的页面标题预测模型以及核心文本预测模型,以得到目标页面的页面标题以及核心文本,简化了引擎优化的操作,提升了目标页面的优化效率。
83.可选地,在本实施例中,页面特征包括以下至少之一:目标页面的html页面特征、dom特征;内容特征包括以下至少之一:核心区域的文本特征、图片特征以及链接特征。
84.一方面,应用页面中大部分页面标题的视觉信息通常强于页面其他文本,比如字号会较大,颜色会较显眼等,因此页面标题的视觉信息可以辅助页面标题抽取策略。
85.为了更高效更自动化地提取页面标题,引入文本视觉信息特征,并加入html页面特征、dom特征、文本自然语言特征4大类特征,构建标题抽取模型,页面标题预测模型构建步骤为以下:
86.1)样本清洗及构建:对有seo信息的页面进行标题抽取构成模型训练正样本,页面其他文本构成模型训练负样本。
87.2)特征构建:基于文本视觉信息特征,h5页面特征、dom特征、文本自然语言特征共构建44维特征,其中,文本视觉特征包含文本粗细值、文本页面位置、文本字号、文本颜色。
88.3)模型训练和分类:在训练集上训练xgboost模型,同时得到44维特征对应的权重,对测试页面所有文本进行预测,得到页面最优的标题文本。
89.另一方面,在搜索场景下,文本的相关性非常重要,需要基于网页元素提取文本信息,再与搜索词进行相关度匹配。但网页中有很多无意义文本,比如导航栏、头部区域、底部区域中的文本,这部分的文本与页面的主题内容无关。但如果使用页面中所有文本,这类无意义区域的文本会影响相关度的计算效果。因此需要挖掘页面的核心区域的核心文本。
90.根据文档中的视觉信息,如:元素位置。结合文本元素的位置信息,定位首屏中下部结构区域,以此区域的文本作为核心文本。
91.核心文本预测模型构建步骤为以下:
92.1)特征构建:核心区域的文本,核心区域的图片、核心区域的跳转链接等,并构建各种特征变种,如:tf-idf、图片质量分、外部链接数量等。
93.2)模型训练和分类:基于核心区域挖掘到的特征,结合xgboost、dnn等模型,以优化点击率为目标,训练模型。
94.通过本技术实施例,获取目标页面的视觉信息;根据视觉信息确定目标页面中的页面标题以及核心文本;根据页面标题以及核心文本对目标页面进行收录,通过目标视觉
信息来确定目标页面中的页面标题以及核心文本,进而实现通过页面标题以及核心文本对目标页面进行收录,实现对搜索引擎的优化,进而解决了由于相关技术中目标页面中没有进行搜索引擎优化,而导致无法准确获取目标页面的内容信息的技术问题。
95.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
96.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
97.实施例2
98.根据本发明实施例,还提供了一种用于实施上述搜索引擎优化方法的搜索引擎优化装置,如图4所示,该装置包括:
99.1)获取单元40,用于获取目标页面的视觉信息;
100.2)确定单元42,用于根据所述视觉信息确定目标页面中的页面标题以及核心文本;
101.3)优化单元44,用于根据所述页面标题以及所述核心文本对目标页面进行收录。
102.可选地,本实施例中的具体示例可以参考上述实施例1中所描述的示例,本实施例在此不再赘述。
103.实施例3
104.根据本发明实施例,还提供了一种电子设备,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如实施例1所述的搜索引擎优化方法的步骤。
105.可选地,在本实施例中,存储器被设置为存储用于执行以下步骤的程序代码:
106.s1,获取目标页面的视觉信息;
107.s2,根据所述视觉信息确定目标页面中的页面标题以及核心文本;
108.s3,根据所述页面标题以及所述核心文本对目标页面进行收录。
109.可选地,本实施例中的具体示例可以参考上述实施例1中所描述的示例,本实施例在此不再赘述。
110.实施例4
111.本发明的实施例还提供了一种可读存储介质。所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如实施例1所述的搜索引擎优化方法的步骤。
112.可选地,在本实施例中,可读存储介质被设置为存储用于执行以下步骤的程序代码:
113.s1,获取目标页面的视觉信息;
114.s2,根据所述视觉信息确定目标页面中的页面标题以及核心文本;
115.s3,根据所述页面标题以及所述核心文本对目标页面进行收录。
116.可选地,存储介质还被设置为存储用于执行上述实施例1中的方法中所包括的步骤的程序代码,本实施例中对此不再赘述。
117.可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
118.可选地,本实施例中的具体示例可以参考上述实施例1中所描述的示例,本实施例在此不再赘述。
119.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
120.上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
121.在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
122.在本技术所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
123.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
124.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
125.以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献