谷歌将放弃对robots.txt 中抓取延迟、nofollow 和noindex 的任何支持

谷歌今天早上发布消息称,他们将停止非正式支持robots.txt 文件中的noindex、nofollow 和scrape-delay 指令。事实上,谷歌多年来一直在说不要这样做,并暗示这很快就会到来,现在它就在这里。

谷歌写道:“在开源我们的解析器库的同时,我们分析了robots.txt 规则的使用情况。特别是,我们重点关注了互联网草案不支持的规则,例如抓取延迟、nofollow 和noindex。因为这些规则从未被使用过。”由Google 记录,自然,它们与Googlebot 相关的使用率非常低。进一步挖掘,我们发现它们的使用与互联网上除0.001% 之外的所有robots.txt 文件中的其他规则相矛盾。这些错误损害了网站在谷歌的搜索结果以我们认为网站管理员不希望的方式出现。 ”

简而言之,如果您在robots.txt 文件中提及抓取延迟、nofollow 和noindex,Google 将在2019 年9 月1 日停止遵守它。他们目前确实遵守其中一些实施,尽管它们是“不受支持和未发布的规则”,但将于2019 年9 月1 日停止这样做。

如果您在robots.txt 文件中使用这些不受支持的命令,Google 可能会通过Google Search Console 发送通知。

正如我上面所说,Google 一直告诉网站管理员和SEO 不要在robots.txt 中使用noindex:

谷歌告诉我们这种变化最终会发生:

加里·伊利斯(Gary Illyes) 对此负有责任:

他说他真的很抱歉:

但谷歌查看并分析了影响,因此影响很小(如果有的话)。事实上,他们在几个月内不会做出改变,就像我上面所说的,可能会向那些将受到影响的人发送电子邮件:

因此,现在是时候加强审核,以确保您的客户不依赖robots.txt 文件中的这些不受支持的命令。

以下是Google 发布的noindex 指令替代方案:

  • 机器人元标记中的Noindex: noindex 指令在HTTP 响应标头和HTML 中均受支持,是在允许爬网时从索引中删除URL 的最有效方法。
  • 404 和410 HTTP 状态代码: 这两个状态代码都表示该页面不存在,一旦抓取和处理此类网址,就会从Google 索引中删除这些网址。
  • 密码保护: 除非使用标记来指示订阅或付费内容,否则隐藏登录后的页面通常会将其从Google 索引中删除。
  • robots.txt 中禁止: 搜索引擎只能索引它们知道的页面,因此阻止页面被抓取通常意味着其内容不会被索引。虽然搜索引擎也可能根据其他页面的链接对URL 进行索引,但不会看到内容本身,但我们的目标是在未来使此类页面不那么明显。
  • 搜索控制台删除网址工具: 该工具是一种快速、简单的方法,可用于暂时从Google 搜索结果中删除URL。

论坛讨论于 推特

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
搜索