关于高级抓取预算管理的Google 帮助文档

Google 发布了一份名为大型网站所有者管理抓取预算指南的帮助文档。这是一份高级帮助文档,可帮助开发人员管理其网站上的Googlebot 抓取。这让我想起了谷歌的Gary Illyes 在2017 年写的关于抓取预算的博文。

Google 首先定义了谁应该考虑管理抓取预算:

  • 内容更改频率适中(每周一次)的大型网站(超过100 万个独特页面),或
  • 内容变化非常快(每天)的中型或大型网站(超过10,000 个独特页面)。

对于其他人来说,抓取预算被高估了。

它们的文档分为以下部分:

  • 爬行的一​​般理论
  • 最佳实践
  • 监控您网站的抓取和索引
  • 紧急爬行减少
  • 关于爬行的神话和事实

我最喜欢的部分是神话部分,这里有一些引起了我的注意:

(1) 抓取是排名因素:错误:提高抓取率不一定会在搜索结果中获得更好的排名。 Google 使用许多信号对结果进行排名,虽然抓取对于页面出现在搜索结果中是必要的,但这不是排名信号。

(2) nofollow 指令影响抓取预算:部分正确:任何被抓取的URL 都会影响抓取预算,因此即使您的页面将URL 标记为nofollow,如果您网站上的另一个页面或网络上的任何页面仍然可以被抓取, 不会将链接标记为nofollow。

(3) 您的内容越靠近主页,它对Google 越重要:部分正确:您网站的主页通常是您网站上最重要的页面,因此直接链接到主页的页面可能被视为更重要,因此爬得更频繁。但是,这并不意味着这些网页的排名会高于您网站上的其他网页。

(4) 备用网址和嵌入内容计入抓取预算:正确:通常,Googlebot 抓取的任何网址都会计入网站的抓取预算。备用URL(如AMP 或hreflang)以及嵌入式内容(如CSS 和JavaScript)(包括XHR 提取)可能必须被抓取,并且会消耗网站的抓取预算。

是的,这些都不是真正的新内容,但该文档对那些在大型网站上工作且关注爬网预算的人非常有帮助。

很高兴找到Adam Gent!

论坛讨论于 推特.

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
搜索