
Google 发布了一份名为大型网站所有者管理抓取预算指南的帮助文档。这是一份高级帮助文档,可帮助开发人员管理其网站上的Googlebot 抓取。这让我想起了谷歌的Gary Illyes 在2017 年写的关于抓取预算的博文。
Google 首先定义了谁应该考虑管理抓取预算:
- 内容更改频率适中(每周一次)的大型网站(超过100 万个独特页面),或
- 内容变化非常快(每天)的中型或大型网站(超过10,000 个独特页面)。
对于其他人来说,抓取预算被高估了。
它们的文档分为以下部分:
- 爬行的一般理论
- 最佳实践
- 监控您网站的抓取和索引
- 紧急爬行减少
- 关于爬行的神话和事实
我最喜欢的部分是神话部分,这里有一些引起了我的注意:
(1) 抓取是排名因素:错误:提高抓取率不一定会在搜索结果中获得更好的排名。 Google 使用许多信号对结果进行排名,虽然抓取对于页面出现在搜索结果中是必要的,但这不是排名信号。
(2) nofollow 指令影响抓取预算:部分正确:任何被抓取的URL 都会影响抓取预算,因此即使您的页面将URL 标记为nofollow,如果您网站上的另一个页面或网络上的任何页面仍然可以被抓取, 不会将链接标记为nofollow。
(3) 您的内容越靠近主页,它对Google 越重要:部分正确:您网站的主页通常是您网站上最重要的页面,因此直接链接到主页的页面可能被视为更重要,因此爬得更频繁。但是,这并不意味着这些网页的排名会高于您网站上的其他网页。
(4) 备用网址和嵌入内容计入抓取预算:正确:通常,Googlebot 抓取的任何网址都会计入网站的抓取预算。备用URL(如AMP 或hreflang)以及嵌入式内容(如CSS 和JavaScript)(包括XHR 提取)可能必须被抓取,并且会消耗网站的抓取预算。
是的,这些都不是真正的新内容,但该文档对那些在大型网站上工作且关注爬网预算的人非常有帮助。
很高兴找到Adam Gent!
通过以下方式找到此Google 搜索指南 @googlesearchc 👇
大型网站所有者管理爬网预算的指南:https://t.co/RWru0IPTtk
网站所有者指南:
🏨 大型网站(超过100 万个独立页面)
📈10,000 多个每天变化的独特页面没有新信息,但很有趣📚。
— 亚当·根特(@Adoubleagent) 2020 年12 月1 日
论坛讨论于 推特.