
Britney Muller 在抓取网站时发现有人使用带有GoogleBot 用户代理名称的Apache Nutch。 Google 已确认GoogleBot 未在其用户代理中使用Nutch。 Nutch 是“高度可扩展和可伸缩的开源网络爬虫软件项目”。
以下是布兰妮发布的内容:
Googlebot/Nutch-1.7 是官方的Googlebot 爬虫吗?
在网上看到一些混合信息(可能是针对大型网站的罕见大型爬虫)? 🤷
IP DNS 查找确认这些不是来自googlebot[dot]com 或谷歌[dot]com属性?抄送: @JohnMu
谢谢!
– 布兰妮穆勒(@BritneyMuller) 2020 年10 月1 日
Google 的John Mueller 证实Google 根本不使用nutch:
我只是仔细检查以确保:)。我们在用于搜索或共享基础设施的其他用途的任何Googlebot 用户代理中根本不使用“nutch”。
— 🍌 约翰🍌 (@JohnMu) 2020 年10 月2 日
他说:“我们在用于搜索或共享基础设施的其他用途的任何Googlebot 用户代理中根本不使用“nutch”。”
因此,如果您在GoogleBot 中看到它,则它不是真正的GoogleBot,如果它给您带来问题,您可以阻止它。
论坛讨论于 推特.