
由于Google 旨在使robots.txt 排除协议成为标准,因此他们提出了一些更改并于前几天提交了这些更改。现在,Google 围绕robots.txt 规范更新了自己的开发人员文档以进行匹配。以下是已更改内容的列表。
- 删除了本文档中的“要求语言”部分,因为该语言是特定于Internet 草案的。
- Robots.txt 现在接受所有基于URI 的协议。
- Google 至少遵循五个重定向跃点。由于尚未获取规则,因此重定向至少会进行五跳,如果未找到robots.txt,Google 会将其视为robots.txt 的404。不鼓励基于返回2xx(框架、JavaScript 或元刷新类型重定向)的HTML 内容处理robots.txt 文件的逻辑重定向,并且第一页的内容用于查找适用的规则。
- 对于5xx,如果robots.txt 无法访问的时间超过30 天,则使用robots.txt 的最后缓存副本,或者如果不可用,Google 会假定没有抓取限制。
- Google 将不成功的请求或不完整的数据视为服务器错误。
- “记录”现在根据情况称为“线”或“规则”。
- Google 不支持处理
具有简单错误或拼写错误的元素(例如,“useragent”而不是“user-agent”)。 - Google 目前强制执行500 KB 的大小限制,并忽略该限制之后的内容。
- 将正式语法更新为符合RFC5234 的有效增强巴科斯范式(ABNF),并涵盖robots.txt 中的UTF-8 字符。
- 更新了“组”的定义,使其更短、更切题。添加了空组的示例。
- 删除了对已弃用的Ajax 爬行方案的引用。
最大的变化是(1)GoogleBot将遵循5个重定向跃点(我们在2014年就知道了),(2)如果不可用时间超过30天,则没有抓取限制,(3)不成功的请求=服务器错误,(4)有大小限制为500 KiB,并且(5) 支持基于URI 的协议。
✒️更新了Google 的Robots.txt 规范以匹配REP 草案✒️
🐰遵循5 个重定向跃点
🕷️如果超过30 天不可用,则没有抓取限制
⚠️请求不成功=服务器错误
🛑500 KiB 大小限制
💪支持基于URI 的协议完整更改列表:https://t.co/GXd6FWt2D0 #robotstxt25
— 莉齐·哈维(@LizziHarvey) 2019 年7 月1 日
以下是一些额外的答案:
正确的。如果缓存中没有,则完全允许我们假设
— Gary “鲸理” Illyes (@methode) 2019 年7 月1 日
这是正确的
— Gary “鲸理” Illyes (@methode) 2019 年7 月1 日
每次状态改变时定时器都会重置
— Gary “鲸理” Illyes (@methode) 2019 年7 月1 日
论坛讨论于 推特。