谷歌:大多数网站不需要担心抓取预算

谷歌的搜索关系团队表示,在最新一期的 Search Off the Record 播客中,大多数网站不需要担心抓取预算。

谷歌的 Gary Illyes 详细讨论了这个话题,称该团队一直在推迟他们之前的消息传递,并补充说一个“实质性部分” 必须关心它。

但是,抓取预算不应该成为一个问题 多数 Illyes 解释说:

“从历史上看,我们一直在推迟抓取预算,通常会告诉人们你不必关心它。

我坚持自己的立场,我仍然说大多数人不必关心它。 我们确实认为生态系统中有很大一部分必须关心它。

……但我仍然相信——我在这里试图加强这一点——绝大多数人不必关心它。”

为了澄清之前的消息,谷歌最近发布了更多关于抓取预算的信息。

例如,就在上个月,谷歌将其 SEO Mythbusting YouTube 系列的一整集专门用于抓取预算主题。

那么谁应该关心抓取预算,谁不应该关心呢?

何时关心抓取预算/何时不关心

在抓取预算时,SEO 通常希望听到一个硬数字——例如,在抓取预算成为问题之前,您的网站必须有 X 个页面。

但它不是那样工作的,Illyes 说:

“……嗯,不太一样。 就像您可以在您的网站上做一些愚蠢的事情,然后 Googlebot 开始疯狂地爬行。

或者你可以做其他类型的蠢事,然后 Googlebot 将完全停止抓取。“

如果被迫给出一个数字,Illyes 说大约一百万个 URL 是网站所有者真正需要关心抓取预算之前的基线。

URL 少于一百万的网站不必关心抓取预算。

影响抓取预算的因素

对于拥有超过一百万个 URL 的网站,这些是可能导致或表明抓取预算问题的一些因素。

因素一:页面长时间未爬取

“我要看什么? 可能从未抓取过的 URL。 这是一个很好的指标,表明网站的发现程度、爬取程度……

所以我会查看从未被爬过的页面。 为此,您可能需要查看您的服务器日志,因为这可以为您提供绝对的真相。”

因素 2:长时间后的广泛变化

“然后我还会查看刷新率。 就像您发现网站的某些部分在很长一段时间内(例如几个月)没有刷新,并且您确实对该部分的页面进行了更改,那么您可能需要开始考虑抓取预算。”

修复抓取预算问题

Illyes 提供了两个解决爬虫预算问题的建议。

首先,尝试删除非必要页面。 Googlebot 必须抓取的每个页面都会减少其他页面的抓取预算。

因此,过多的“乱码”内容可能会导致重要内容无法被抓取。

“比如,如果你删除、砍掉、删减网站上可能对一般用户不太有用的内容,那么 Googlebot 将有时间专注于对用户真正有益的更高质量的页面。”

Illyes 的第二个建议是避免向 Googlebot 发送“退避”信号。

回退信号是某些服务器代码,它们会告诉 Googlebot 立即停止抓取网站。

“如果您向我们发送回退信号,那么这将影响 Googlebot 的抓取。 因此,如果您的服务器可以处理它,那么您要确保您不会向我们发送 429、50X 状态代码,并且您的服务器响应迅速、快速。”

要了解有关抓取预算的复杂性的更多信息,请收听下面的播客集。

给TA打赏
共{{data.count}}人
人已打赏
WordPress 教程

如何为房地产设置和成功

2022-9-12 22:57:58

主题

Malena - 博客和杂志 HubSpot 主题

2022-8-16 9:39:36

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索