
Google 在有机免费网络爬虫GoogleBot 和付费Google 爬虫Google AdsBot 之间共享相同的爬行预算。请记住,Google 有许多抓取工具,它们可能都共享相同的抓取预算。
我猜这是Google 搜索团队与Google Ads 团队共享任何内容的罕见情况之一?
出现这种情况的原因是因为我看到微软也说抓取预算是在有机和广告之间共享的。所以我问谷歌的约翰·穆勒,谷歌是否也有同样的情况。约翰没有明确说是或否。他说的话 推特 是“目标是防止爬行导致服务器崩溃,本质上,所以你必须计算所有请求,无论爬虫类型如何。”
这是问答:
目标是防止爬行从本质上破坏服务器,因此您必须计算所有请求,而不管爬行器类型如何。
— 🍌 约翰🍌 (@JohnMu) 2020 年11 月17 日
听起来这是对我的肯定?
我的意思是,我后来问John 是或否的答案,他给了我“这不是新的”这句话——所以是的,它是共享的:
这不是新的:-)。爬网统计数据还显示组合请求。
— 🍌 约翰🍌 (@JohnMu) 2020 年11 月17 日
是的,这并不是什么新鲜事,Glenn Gabe 在3 月份报导John 时说了这句话:
GSC 中的抓取统计报告有多准确?通过 @johnmu: 报告是准确的。它基于我们从爬行日志中提取的内容。但是,它包括从其他谷歌服务(如谷歌广告、产品搜索等)获取的网址。它不仅仅是Gbot https://t.co/jKlOsn5vSj pic.twitter.com/K8vNgwSZ42
– 格伦加布(@glenngabe) 2020 年3 月10 日
道恩·安德森(Dawn Anderson) 分享了约翰多年前所说的一些屏幕截图:
这是John 在2016 年10 月7 日的回复 pic.twitter.com/YyvCnhpD6S
— 道恩·安德森(@dawnieando) 2020 年11 月17 日
这是有道理的,谷歌不希望其系统作为一个整体影响您网站的性能。
我不认为这是什么大阴谋——谷歌在其所有爬虫中共享这些资源是有道理的,这些爬虫基本上使用相同的robots.txt 和GoogleBot 基础设施。如果不是为了Google 内部效率,也是为了您自己网站的健康?
但谷歌自然搜索与付费谷歌广告合作的情况也很少见。
约翰还补充说:
大多数网站不受抓取预算的限制,因此您不会在那里看到任何变化。此外,我们会抓取以刷新很多我们不一定期望有新内容的东西(例如404),因此通常很容易重新确定优先级而不会对整体产生负面影响。
— 🍌 约翰🍌 (@JohnMu) 2020 年11 月17 日
他们共享相同的索引吗?一般不会…
来自不同用户代理的请求往往不会在处理中混在一起。例如,某些站点专门阻止某些用户代理,仅根据其他用户代理的抓取来填补空白是不好的。
— 🍌 约翰🍌 (@JohnMu) 2020 年11 月17 日
论坛讨论于 推特.