所有GoogleBot Robots.txt 规范更改的列表

由于Google 旨在使robots.txt 排除协议成为标准,因此他们提出了一些更改并于前几天提交了这些更改。现在,Google 围绕robots.txt 规范更新了自己的开发人员文档以进行匹配。以下是已更改内容的列表。

  • 删除了本文档中的“要求语言”部分,因为该语言是特定于Internet 草案的。
  • Robots.txt 现在接受所有基于URI 的协议。
  • Google 至少遵循五个重定向跃点。由于尚未获取规则,因此重定向至少会进行五跳,如果未找到robots.txt,Google 会将其视为robots.txt 的404。不鼓励基于返回2xx(框架、JavaScript 或元刷新类型重定向)的HTML 内容处理robots.txt 文件的逻辑重定向,并且第一页的内容用于查找适用的规则。
  • 对于5xx,如果robots.txt 无法访问的时间超过30 天,则使用robots.txt 的最后缓存副本,或者如果不可用,Google 会假定没有抓取限制。
  • Google 将不成功的请求或不完整的数据视为服务器错误。
  • “记录”现在根据情况称为“线”或“规则”。
  • Google 不支持处理 具有简单错误或拼写错误的元素(例如,“useragent”而不是“user-agent”)。
  • Google 目前强制执行500 KB 的大小限制,并忽略该限制之后的内容。
  • 将正式语法更新为符合RFC5234 的有效增强巴科斯范式(ABNF),并涵盖robots.txt 中的UTF-8 字符。
  • 更新了“组”的定义,使其更短、更切题。添加了空组的示例。
  • 删除了对已弃用的Ajax 爬行方案的引用。

最大的变化是(1)GoogleBot将遵循5个重定向跃点(我们在2014年就知道了),(2)如果不可用时间超过30天,则没有抓取限制,(3)不成功的请求=服务器错误,(4)有大小限制为500 KiB,并且(5) 支持基于URI 的协议。

以下是一些额外的答案:

论坛讨论于 推特

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
搜索