谷歌的搜索关系团队表示,在最新一期的 Search Off the Record 播客中,大多数网站不需要担心抓取预算。
谷歌的 Gary Illyes 详细讨论了这个话题,称该团队一直在推迟他们之前的消息传递,并补充说一个“实质性部分” 做 必须关心它。
但是,抓取预算不应该成为一个问题 多数 Illyes 解释说:
“从历史上看,我们一直在推迟抓取预算,通常会告诉人们你不必关心它。
我坚持自己的立场,我仍然说大多数人不必关心它。 我们确实认为生态系统中有很大一部分必须关心它。
……但我仍然相信——我在这里试图加强这一点——绝大多数人不必关心它。”
为了澄清之前的消息,谷歌最近发布了更多关于抓取预算的信息。
例如,就在上个月,谷歌将其 SEO Mythbusting YouTube 系列的一整集专门用于抓取预算主题。
那么谁应该关心抓取预算,谁不应该关心呢?
何时关心抓取预算/何时不关心
在抓取预算时,SEO 通常希望听到一个硬数字——例如,在抓取预算成为问题之前,您的网站必须有 X 个页面。
但它不是那样工作的,Illyes 说:
“……嗯,不太一样。 就像您可以在您的网站上做一些愚蠢的事情,然后 Googlebot 开始疯狂地爬行。
或者你可以做其他类型的蠢事,然后 Googlebot 将完全停止抓取。“
如果被迫给出一个数字,Illyes 说大约一百万个 URL 是网站所有者真正需要关心抓取预算之前的基线。
URL 少于一百万的网站不必关心抓取预算。
影响抓取预算的因素
对于拥有超过一百万个 URL 的网站,这些是可能导致或表明抓取预算问题的一些因素。
因素一:页面长时间未爬取
“我要看什么? 可能从未抓取过的 URL。 这是一个很好的指标,表明网站的发现程度、爬取程度……
所以我会查看从未被爬过的页面。 为此,您可能需要查看您的服务器日志,因为这可以为您提供绝对的真相。”
因素 2:长时间后的广泛变化
“然后我还会查看刷新率。 就像您发现网站的某些部分在很长一段时间内(例如几个月)没有刷新,并且您确实对该部分的页面进行了更改,那么您可能需要开始考虑抓取预算。”
修复抓取预算问题
Illyes 提供了两个解决爬虫预算问题的建议。
首先,尝试删除非必要页面。 Googlebot 必须抓取的每个页面都会减少其他页面的抓取预算。
因此,过多的“乱码”内容可能会导致重要内容无法被抓取。
“比如,如果你删除、砍掉、删减网站上可能对一般用户不太有用的内容,那么 Googlebot 将有时间专注于对用户真正有益的更高质量的页面。”
Illyes 的第二个建议是避免向 Googlebot 发送“退避”信号。
回退信号是某些服务器代码,它们会告诉 Googlebot 立即停止抓取网站。
“如果您向我们发送回退信号,那么这将影响 Googlebot 的抓取。 因此,如果您的服务器可以处理它,那么您要确保您不会向我们发送 429、50X 状态代码,并且您的服务器响应迅速、快速。”
要了解有关抓取预算的复杂性的更多信息,请收听下面的播客集。