w88w88手机版登录登录_优德88官方网站_www.w88.com

w88w88手机版登录登录_优德88官方网站_www.w88.com

网站首页 > www.w88.com > seo分享

搜索引擎抓取与收录策略

      搜索引擎对网页的抓取实际上就是在互联网上进行数据采集,这是搜索引擎最基础的工作。搜索引擎的数据采集能力直接决定了搜索引擎可提供的信息量以及对互联网覆盖的范围,从而影响搜索引擎查询结果的质量。因此,搜索引擎总是想方设法地提高它的数据采集能力。

      番禺专业建网站的公司-宏品网络本节首先分析搜索引擎抓取页面的流程以及方式,再介绍搜索引擎对已抓取页面的存储以及维护方式。

170205520.jpg

      1、页面抓取流程

在互联网中,URL是每个页面的入口地址,搜索引擎蜘蛛程序就是URL抓取页面的。搜索引擎蜘蛛程序从原始URL列表出发,通过URL抓取并存储原始页面;同时,提取原始页面的URL资源并加入到URL列表中。如此不断地循环,就可以从互联网中获取到足够多的页面。

而对于网站来说,如果想要被搜索引擎收录,首要的条件就是加入搜索引擎的域名列表。下面向大家介绍两种常用的加入搜索引擎域名列表的方法。

      第一:利用搜索引擎提供的网站登录入口,向搜索引擎提交网站域名。对于提交的域名列表,搜索引擎只会定期进行更新。因此,这种做法比较被动,从域名提交到网站被收录花费的时间也比较长。

      第二:通过与外部网站建立连接关系,使搜索引擎可以通过外部网站发现我们的网站,从而实现对网站的收录。这种做发主动权掌握在我们自己手里,而且收录速度也比向搜索引擎主动提交快得多。视乎外部链接的数量、质量及相关性,一般情况下,2~7天左右就会被搜索引擎收录。

      2、页面抓取

      通过上面的介绍,相信读者们已经掌握了加快网站被搜索引擎收录的方法。然而,怎样才能提高网站中的页面被收录的数量呢?这就要从了解搜索引擎收录页面的工作原理开始说起。

      如果网站页面组成的集合看做是一个有向图,从指定的页面出发,沿着页面中的链接,按照某种特定的策略对网站中的页面进行浏览。不停地从URL列表中移出已经访问过的URL,并存储原始页面,同事提取原始页面中URL信息;再讲URL分为域名及内部URL两大类,同事判断URL是否被访问过,将未被访问过的URL加入URL列表中。递归扫描URL列表,直至耗尽所有URL资源为止。经过这些工作,搜索引擎就可以建立庞大的域名列表、页面URL列表和存储足够多的原始页面。

      3、页面抓取方式

      通过以上内容,大家已经了解搜索引擎抓取页面的流程和原理。然而,在互联网数以亿计的页面中,搜索引擎怎样才能从中抓取更多相对重要的页面呢?

      *广度优先

      如果把整个网站看做一棵树,首先是根,每个页面是叶,广度优先是一种横向页面抓取的方式,先从输的比较浅层开始抓取页面,直至抓取完同一层次上的所有页面后才进行下一层。

      *深度优先

      与广度优先抓取方式恰恰相反,深度优先是一种纵向的页面抓取方式,首先跟踪的是浅层页面中的某一个链接,从而逐步抓取深层次页面,直至抓取完最深层次的页面后才返回浅层页面继续向深层页面抓取。实用深度优先的抓取方式,搜索引擎可以抓取到网站中比较隐蔽、冷门的页面,这样才能满足用户的需求。

            *大站优先

由于大型网站比小型网站更有价值更有内容,因此,搜索引擎优先抓取大型网站的网页。

      *高权重优先

      权重,简单地说就是搜索引擎对网页重要性的一种评定。所谓的重要性归根到底就是网站或者网页的信息家中,高权重优先就是对URL资源列表中的高权重网页进行优先抓取策略。权重计算基于部分数据而得出的结果,可能会与真实权重有出入,因此,这种高权重优先的抓取策略也有可能会对次要页面进行优先抓取。

      还有很多因素,对于掌握搜索引擎的抓取和收录,有很好的帮助,下回继续分解。



标签:   搜索引擎 收录方法 抓取方式