1、爬取和收录的关系:
爬取和收录并不是包含关系,他们两个是搜索引擎工作的环节,蜘蛛爬取页面后放入临时数据库,等内容通过审查后背放出就形成了收录。所以这两个环节是前后关系,但是没有必然的联系。
2.蜘蛛抓取页面的过程:
第一阶段:大小通吃
搜索引擎蜘蛛过来抓取时,就需要对网站的URL进行一个统一的抓取,也就是站长常说的“大小通吃”的情况。搜索引擎蜘蛛对网页中出现地链接,都会逐一加入到待抓取URL中,机械性的将新抓取的网页中的URL提取出来。这对于很多的站点来说,是比较好的情况。搜索引擎蜘蛛过来抓取时,站长可以通过网站日志有一个清楚的记录。站长可以通过网站日志分析网站优化的基本情况,这仅仅是第一阶段。
第二阶段:网页评级
搜索引擎蜘蛛对网站的页面进行抓取以后,就需要对网站的页面进行评级。PageRank是一种著名的链接分析算法,可以用来衡量网页的重要性,很自然的,站长可以用PageRank的思路来对URL进行排序。搜索引擎蜘蛛抓取页面后,会对网站的页面进行下载。但PageRank是个全局性算法,也就是当所有网页有下载完成后,其计算结果才是可靠的。对于中小网站来讲,服务器如果质量不好,如果在抓取过程中,只看到部分内容,在抓取阶段是无法获得可靠的PageRank得分。
3、蜘蛛爬取成功却不放出来的原因:
蜘蛛爬取后会将页面放入到临时数据库,搜索引擎再对临时数据库中的内容进行审查,将优质的内容放出并建立索引。所以并不是说爬取就会被收录,还需要内容质量过关才能被放出来并建立索引。不同的蜘蛛抓取的页面评测也不一样,有的是低权重的蜘蛛,有的是高权重的蜘蛛和抓取待定的蜘蛛,这个可以百度搜下各种蜘蛛的情况,来做出各种应对情况
正常情况下网站提交后次日,spider会放出一个网站主页的快照。再接下来的时间内,会不断的收录索引内容页,并持续的放出。这个过程维护一月、二月、或者是三月,时间不等。如果网站已经有首页放出,说明百度蜘蛛已经有来抓取过,只是内容还没有放出来,多等待些时间即可。如果在等待收录放出的时间阶段不要做任何大的发动。比如说 修改title标题、修改url 等。否则会延长放出的时间,周期也会变长。
其次,如果内容和首页都没有放出来,就需要重新向百度提交,通知百度蜘蛛来抓取网站的内容,最好是提交个sitemap地图,手动提交一下。