百度蜘蛛返回的状态代码是什么意思?Seoer或网站管理员将定期查看蜘蛛状态代码,以观察网站对搜索引擎蜘蛛的友好程度,因此在日志中返回正确的状态代码,一些页面返回404,一些页面返回403。这些状态代码向蜘蛛反映了什么?让我们看看一些常见的返回状态代码意味着什么。
百度爬虫在抓取和处理时,会根据http协议规范设置相应的逻辑,所以请尽量参考http协议中返回代码的定义。
百度蜘蛛对常用http返回代码的处理逻辑如下:
1.返回代码404表示“未找到”。百度会认为网页已经过期,所以通常会从搜索结果中删除,蜘蛛不会在短时间内再次抓取这个网址。
第二,503返回代码的意思是“服务不可用”,百度会认为网页暂时无法访问,通常网站暂时关闭,带宽有限。当网页返回503时,百度蜘蛛不会直接删除这个网址,并会在短时间内再次访问它。那时,如果网页已经恢复,它将被正常抓取;如果你继续返回503,你将在短时间内访问它几次。然而,如果网页长时间回到503,那么这个网址仍然会被百度认为是一个死链接,并从搜索结果中删除。
第三,返回代码403表示“禁止”,百度会认为该网页目前被禁止访问。在这种情况下,如果是一个新发现的网址,百度蜘蛛暂时不会抓取,短期内会再次检查;如果百度已经包含了这个网址,它目前不会被直接删除,短期内会被重新访问。那时,如果网页被允许访问,它将被正常抓取;如果访问仍然不被允许,它将在短期内重复几次。然而,如果网页长时间回到403,百度也会认为它是无效链接,并将其从搜索结果中删除。
4.301返回代码的意思是“永久移动”,百度会认为该网页目前正在跳转到新的网址。在网站迁移、域名变更和网站修订的情况下,建议使用301返回代码,以最大限度地减少修订造成的流量损失。虽然百度蜘蛛对301跳转的响应时间很长,但我们建议你这样做。
搜索引擎推荐:
1.如果网站暂时关闭,当网页无法打开时,不要立即返回404。建议使用503状态。503可以告诉百度蜘蛛,这个页面暂时无法访问。请过一会儿再试。
2.如果百度蜘蛛给你的网站施加了太大的压力,请尽量不要使用404。还建议返回503。这样,百度蜘蛛会在一段时间后再次尝试抓取这个链接。如果该站点当时处于空闲状态,它将被成功爬网。
3.有些网站希望百度只会收录一些内容,比如经过审查的内容,新用户一段时间积累的页面,等等。在这种情况下,建议将新发布的内容暂时返回到403,然后在批准或处理后返回正常状态下的返回代码。
4.如果网站迁移或域名变更,请使用301返回。
事实上,网站管理员通过这些状态码与百度等搜索引擎进行交流。当他返回任何状态代码给你时,他认为你的网站有问题。如果没有什么问题,有必要根据这些反馈信息调整网站,这将增加对搜索引擎的友好性。一旦建立了友好关系,这当然会对排名有很大帮助。
转载,请注明原网站:http://www.seolhj.com/xaseo/287.html
以上是全部相关内容,如果您有任何疑问请找客服了解。
2021-06-18 13:57:16