Robots.txt是网站管理员创建的文本文件,用于指示网络机器人(通常是搜索引擎机器人)如何抓取其网站上的网页。robots.txt文件是机器人排除协议(REP)的一部分,该协议是一组Web标准,用于管理机器人如何抓取网络,访问和索引内容,以及将内容提供给用户。
REP还包括元机器人等指令,以及关于搜索引擎应如何处理链接(例如“跟随”或“nofollow”)的页面,子目录或站点范围的说明。
实际上,robots.txt文件指示某些用户代理(网络爬行软件)是否可以抓取网站的某些部分。这些爬行指令通过“禁止”或“允许”某些(或所有)用户代理的行为来指定。
基本格式:
用户代理:[用户代理名称]
禁止:[不要抓取URL字符串]
这两行被认为是一个完整的robots.txt文件 - 尽管一个机器人文件可以包含多行用户代理和指令(即,禁止,允许,爬行延迟等)。
在具有多个用户代理指令的robots.txt文件中,每个禁止或允许规则仅适用于在该特定行分隔符集中指定的用户。如果文件包含适用于多个用户代理的规则,则爬网程序将仅关注(并遵循指令)最具体的指令组。
示例robots.txt:
以下是www.example.com网站上robots.txt的几个示例:
Robots.txt文件网址:www.example.com/robots.txt
阻止所有内容的所有网络抓取工具
用户代理: *
不允许: /
在robots.txt文件中使用此语法会告诉所有网络抓取工具不要抓取www.example.com上的任何网页,包括主页。
允许所有网络抓取工具访问所有内容
用户代理: *
不允许:
在robots.txt文件中使用此语法可告知网络抓取工具抓取www.example.com上的所有网页 ,包括主页。
阻止特定文件夹中的特定Web爬网程序
用户代理:Googlebot
禁止:/ example-subfolder /
此语法仅告知Google的抓取工具(用户代理名称Googlebot)不要抓取包含URL字符串www.example.com/example-subfolder/的任何网页。
阻止特定网页中的特定网络抓取工具
用户代理:Bingbot
禁止:/example-subfolder/blocked-page.html
此语法仅告知Bing的抓取工具(用户代理名称Bing),以避免在www.example.com/example-subfolder/blocked-page抓取特定页面。
robots.txt如何运作?
搜索引擎有两个主要工作:
抓取网络以发现内容;
索引该内容,以便可以向正在寻找信息的搜索者提供。
为了抓取网站,搜索引擎会关注从一个网站到另一个网站的链接 - 最终会抓取数十亿个链接和网站。这种爬行行为有时被称为“蜘蛛”。
到达网站后但在搜索网站之前,搜索爬虫会查找robots.txt文件。如果找到一个,则爬网程序将在继续浏览页面之前首先读取该文件。由于robots.txt文件包含有关搜索引擎应如何抓取的信息,因此在此处找到的信息将指示此特定网站上的进一步抓取操作。如果robots.txt文件并没有包含禁止用户代理的活动的任何指示(或如果网站没有robots.txt文件),它会继续抓取网站上的其他信息。
为什么需要robots.txt?
Robots.txt文件控制抓取工具访问您网站的某些区域。虽然如果您不小心禁止Googlebot抓取您的整个网站(!!),这可能会非常危险,但在某些情况下robots.txt文件可能会非常方便。
一些常见用例包括:
防止重复内容出现在SERP中(请注意,元机器人通常是更好的选择)
将网站的整个部分保密(例如,您的工程团队的临时站点)
保持内部搜索结果页面不会出现在公共SERP上
指定站点地图的位置
防止搜索引擎索引您网站上的某些文件(图像,PDF等)
指定爬网延迟,以便在爬网程序一次加载多个内容时防止服务器过载
如果您的站点上没有要控制用户代理访问的区域,则可能根本不需要robots.txt文件。