
Merkle 的Alexis Sanders 去年(在COVID 之前)与Google 的Martin Splitt 坐下来谈了抓取预算。它可能是迄今为止SEO 神话破坏系列中信息量更大的视频之一。
如果您只对扫描视频感兴趣,以下是包含时间戳的内容:
- 为什么爬网预算是一个值得讨论的有趣话题(0:00)
- 什么是抓取预算? (1:15)
- 什么是抓取率,什么是抓取需求? (1:47)
- Googlebot 如何做出抓取速度和抓取需求决策? (2:44)
- ETag、HTTP 标头、上次修改日期等(3:43)
- 什么规模的网站应该担心抓取预算? (4:35)
- 服务器设置与爬网预算(5:00)
- 抓取频率与内容质量(6:18)
- 如果Google 正在测试一个人的服务器,那么期望在一个人的日志文件中看到什么? (7:45)
- 有关如何在网站迁移期间准确抓取网站的提示(8:18)
- 爬网预算和站点基础设施的不同级别(9:40)
- 抓取预算是否也会影响渲染? (10:37)
- 缓存资源和爬网预算(11:46)
- 抓取预算和特定行业,例如出版业(13:34)
- 一般而言,在抓取网站时可以推荐什么来帮助Googlebot 解决问题? (15:03)
- 人们在抓取预算方面通常会遇到哪些陷阱? (16:52)
- 可以告诉Googlebot 抓取更多的站点吗? (17:40)
作为额外的奖励,以下是Martin 在Twitter 上回答的与此次演讲相关的一些问题:
这种模式有点正常,因为Googlebot 可能会围绕最大合理的抓取速度曲折变化。
抓取预算问题是当您看到我们发现但没有抓取您关心的页面很长一段时间并且页面没有其他问题时。
– Martin Splitt 在🏡🇨🇭 (@g33konaut) 2020 年7 月15 日
这对我们来说不是很大的成本
– Martin Splitt 在🏡🇨🇭 (@g33konaut) 2020 年7 月15 日
404em 或保留em。
– Martin Splitt 在🏡🇨🇭 (@g33konaut) 2020 年7 月15 日
这符合动态渲染的条件,但总的来说,这些设置是“footguns”——听起来不错并且可能有效,但结果却引入了许多不必要的复杂性,最终适得其反。
– Martin Splitt 在🏡🇨🇭 (@g33konaut) 2020 年7 月15 日
如果这是你关心的事情,它可能是有道理的。我认为通常没有必要,不过。
– Martin Splitt 在🏡🇨🇭 (@g33konaut) 2020 年7 月15 日
相关性不是因果关系🙃
简而言之:不。– Martin Splitt 在🏡🇨🇭 (@g33konaut) 2020 年7 月15 日
这取决于下拉菜单的实现方式。如果链接是有效链接并且在呈现的HTML 中,则爬虫可以拾取它们。
– Martin Splitt 在🏡🇨🇭 (@g33konaut) 2020 年7 月15 日
许多网站管理员给我们提供了无用的日期。
– Martin Splitt 在🏡🇨🇭 (@g33konaut) 2020 年7 月14 日
论坛讨论于 推特.