Robots 协议是蜘蛛访问网站的开关,决定蜘蛛可以抓取哪些内容,不可以抓取哪些内容。卓趣科技quhr.cn从网站管理者的角度,我们通过 robots 的书写,可以决定让蜘蛛抓取哪些文件,而不抓取哪些文件,从而更有利于网站的优化。
目录:
1.robots协议分析、书写规则和书写方法
2.robots协议是什么?它有什么用?
知识扩展:Nofollow 与 Disallow 的区别
1.robots协议分析、书写规则和书写方法
Robots 是指网站与搜索引擎之间的协议
1.Robots 是存放在网站根目录
3.robots.txt 文件名改的是不可修
2.Robots.txt 是放在网站根目录
4.Robots 也是百度蜘蛛抓取站点优先级最高的
2、robots 形式及定义:
User-agent: Baiduspider (定义所有的百度蜘蛛)
Disallow: /
User-agent: 定义所有的蜘蛛
Baiduspider: 百度蜘蛛
Googlebot: 谷歌机器人
MSNBot: msn 机器
Baiduspider-image:百度图片
Disallow: 定义那些文件可以抓取,那些文件不可以抓取
比如说下面这个是 discuz 论坛的都是不允许蜘蛛抓取
User-agent: *
Disallow: /api/
Disallow: /data/
Disallow: /source/
Disallow: /install/
Disallow: /template/
Disallow: /config/
Disallow: /uc_client/
Disallow: /uc_server/
Disallow: /static/
Disallow: /admin.php
Disallow: /search.php
Disallow: /member.php
Disallow: /api.php
Disallow: /misc.php
Disallow: /connect.php
Disallow: /forum.php?mod=redirect*
Disallow: /forum.php?mod=post*
Disallow: /home.php?mod=spacecp*
Disallow: /userapp.php?mod=app&*
Disallow: /*?mod=misc*
Disallow: /*?mod=attachment*
Disallow: /*mobile=yes*
//不想站点文件被抓取情况下,那么按照这个格式后面增加自己所需要的文件即可
当然,也可以用通配符*禁止某一类页面被抓取。
Allow:允许
//允许搜索引擎搜抓取文件格式
小结:网站优化必须要有 robots,robots 格式区分大小的,区分大小写格式为:Disallow 首字母必须是大写的,在本地新建记事本编辑时需要注意的是不要写成”disallow” 重点开头是大写字母 D
2. robots协议是什么?它有什么用?
Robots 是站点与 spider 沟通的重要渠道,站点通过 robots 文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用 robots.txt 文件。对于站长而言,出于对 SEO 的要求,通过需要通过书写 robots 协议来限制蜘蛛抓取某些不参与排名或不利于排名的文件。在某些情况下,如果不限制蜘蛛抓取特定的文件,有可能导致网站保密信息的泄漏。曾经有一个高校网站因为没有设置好 robots 协议,导致学生信息被蜘蛛抓取而公布到网上。如果是商业性网站,会员信息被公开被网站后果是非常严重的。因为我们站长在管理网站的过程中,要注意 robots 协议的书写。
3.知识扩展:Nofollow 与 Disallow 的区别
Robots 是站点与 spider 沟通的关口,蜘蛛在访问网站之前,首先要找到 robots.txt 协议,通过阅读 robots 决定抓取哪些内容,不抓取哪些内容。当然,这个协议需要搜索引擎各方遵守才行,否则写得再好的 robots.txt 也是白瞎。
disallow 完全禁止某个页面被抓取,也就是不会被收录和传递权重。而 nofollow 是某个链接的属性,一个页面如果有多个链接导入,只要有一个没有带 nofollow,那么它依然会被传递权重。
不过一般我们所看到的 robots 里面都是 disallow,如果我们要禁止百度抓取,那么就 user-agent:baiduspider 这样,
如果禁止谷歌抓取,那么就 user-agent:googlebot。而如果要禁止所以搜索引擎抓取 User-agent:* Disallow:/
当然,一般网站内容我们都希望抓取,这样可以通过文字标题的长尾关键词引入很多流量。而收录对于网站排名来讲,目前没有什么有力的证据说明这一点。比如淘宝,百度就只收录了一个主页,但是流量和排名大家可以自己看看。而如果你的网站内容是受到版权保护,某些产品介绍,或者是新闻类,但是在别的网站转载过来的,那么即使收录了,如果重复页面太多,对自己的站点依然不好,所以也可以禁止抓取。