谷歌想让抓取更高效、更环保

谷歌的Gary Illyes 在上一期Search Off The Record 播客中表示,谷歌在2022 年希望让抓取变得更加高效和环保。虽然谷歌正在研究如何使用IndexNow 来做到这一点,但Gary 表示它不会以“人们期望的”方式来完成。

这是播客嵌入,从大约2:30 开始进入播客:

刷新爬网

他说这样做的一种方法是让谷歌查看刷新爬虫,并了解一种对于那些刷新爬虫不太频繁地爬取某些页面和URL 的方法。发现调用是针对谷歌尚未编入索引的新网址,但刷新抓取是对谷歌之前已经抓取过的网址的重新抓取,但要查看页面是否已更新并有新信号。因此,Google 可能会减少抓取旧网址的频率,或者更有效地抓取旧网址。

Gary 说:“我们如何才能减少更多的Googlebot 和其他爬虫,以及Google 爬虫在互联网和环境中的足迹。然后,如果你想一想,我们做的一件事可能不需要做那么多,那就是刷新抓取。这意味着一旦我们发现了一个文档,一个URL,然后我们去抓取它,然后,最终,我们将返回并重新访问该URL。这就是刷新抓取。然后每一次我们回到那个URL,那将永远是一次刷新爬网。现在,我们需要多久回到那个URL?

Gary 补充说:“你可以说,例如,如果你访问CNN 或华尔街日报的主页,每五秒钟就会更改一次,那么我们确实需要经常返回。但是这些新闻的关于页面网点,它们不会经常变化。所以你不必回到那里。而且通常,我们无法很好地估计这一点,而且我们在刷新爬网时肯定有改进的空间,因为有时,它我们一遍又一遍地访问同一个URL 似乎很浪费。有时我们会访问404 页面,例如,没有充分的理由或没有明显的原因。所有这些基本上都是我们可以改进的东西,然后减少我们的足迹更大。”

立即索引

加里随后对IndexNow 发表评论说他们正在试验它,但如果谷歌确实用它做点什么,它就不会是我们正在考虑的格式。他说:“但IndexNow 可能是有用的东西,我们正在进行一些实验,看看是否是这种情况。可能它不会以人们期望的形式出现,但我们会看到的。但我绝对可以至少在某些情况下,它可能会被证明是有用的。”

XML 站点地图

他们谈到了XML 站点地图以及它在改进发现和抓取方面的问题。基本上,当URL 没有更改时,人们会更改XML 站点地图中的最后一个mod 日期。所以加里说“我们只是不打算使用它”,因为人们没有正确和准确地生成这些站点地图。

爬取和排名

并且有一种误解,即爬得越多,排名越高,这不是Gary 和John 所说的。约翰说:“所以我想这也是人们的一种误解,他们认为如果一个页面被爬得越多,它的排名就会越高。这是一个误解,这是正确的,还是真的如此?” 加里说:“这是一个误解。”

谷歌可能会在2022 年对抓取的工作方式更加透明,因此请做好准备。

论坛讨论在 推特.

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索