
谷歌今天早上发布消息称,他们将停止非正式支持robots.txt 文件中的noindex、nofollow 和scrape-delay 指令。事实上,谷歌多年来一直在说不要这样做,并暗示这很快就会到来,现在它就在这里。
谷歌写道:“在开源我们的解析器库的同时,我们分析了robots.txt 规则的使用情况。特别是,我们重点关注了互联网草案不支持的规则,例如抓取延迟、nofollow 和noindex。因为这些规则从未被使用过。”由Google 记录,自然,它们与Googlebot 相关的使用率非常低。进一步挖掘,我们发现它们的使用与互联网上除0.001% 之外的所有robots.txt 文件中的其他规则相矛盾。这些错误损害了网站在谷歌的搜索结果以我们认为网站管理员不希望的方式出现。 ”
简而言之,如果您在robots.txt 文件中提及抓取延迟、nofollow 和noindex,Google 将在2019 年9 月1 日停止遵守它。他们目前确实遵守其中一些实施,尽管它们是“不受支持和未发布的规则”,但将于2019 年9 月1 日停止这样做。
如果您在robots.txt 文件中使用这些不受支持的命令,Google 可能会通过Google Search Console 发送通知。
这听起来像一个好主意。您在阅读我们的电子邮件吗?
/慢慢转身扫视房间— 🍌 约翰🍌 (@JohnMu) 2019 年7 月2 日
正如我上面所说,Google 一直告诉网站管理员和SEO 不要在robots.txt 中使用noindex:
好吧,我们多年来一直在说不要依赖它:)。
— 🍌 约翰🍌 (@JohnMu) 2019 年7 月2 日
您是否意识到我们多年来一直告诉人们不要依赖它?
— 🍌 约翰🍌 (@JohnMu) 2019 年7 月2 日
谷歌告诉我们这种变化最终会发生:
正如几周前所承诺的那样,我对robotstxt 中的noindex 进行了分析。自我伤害的网站数量非常多。老实说,我相信这对生态系统来说是更好的,那些正确使用它的人会找到更好的方法来实现同样的目标。 https://t.co/LvdhsN2pIE
— Gary “鲸理” Illyes (@methode) 2019 年7 月2 日
加里·伊利斯(Gary Illyes) 对此负有责任:
提前抱歉…😶 pic.twitter.com/IhT8zUzhK1
— Gary “鲸理” Illyes (@methode) 2019 年7 月2 日
他说他真的很抱歉:
老实说…现在…是的
— Gary “鲸理” Illyes (@methode) 2019 年7 月2 日
但谷歌查看并分析了影响,因此影响很小(如果有的话)。事实上,他们在几个月内不会做出改变,就像我上面所说的,可能会向那些将受到影响的人发送电子邮件:
是的!我们实际上不会随意做出这些改变:-)。
— 🍌 约翰🍌 (@JohnMu) 2019 年7 月2 日
因此,现在是时候加强审核,以确保您的客户不依赖robots.txt 文件中的这些不受支持的命令。
以下是Google 发布的noindex 指令替代方案:
- 机器人元标记中的Noindex: noindex 指令在HTTP 响应标头和HTML 中均受支持,是在允许爬网时从索引中删除URL 的最有效方法。
- 404 和410 HTTP 状态代码: 这两个状态代码都表示该页面不存在,一旦抓取和处理此类网址,就会从Google 索引中删除这些网址。
- 密码保护: 除非使用标记来指示订阅或付费内容,否则隐藏登录后的页面通常会将其从Google 索引中删除。
- robots.txt 中禁止: 搜索引擎只能索引它们知道的页面,因此阻止页面被抓取通常意味着其内容不会被索引。虽然搜索引擎也可能根据其他页面的链接对URL 进行索引,但不会看到内容本身,但我们的目标是在未来使此类页面不那么明显。
- 搜索控制台删除网址工具: 该工具是一种快速、简单的方法,可用于暂时从Google 搜索结果中删除URL。
论坛讨论于 推特。