
谷歌为谷歌用于Duplex 的网络爬虫添加了一个支持文档,它的谷歌助手语音功能可以与人进行对话。该机器人的用户代理名为DuplexWeb-Google,现在是现代GoogleBot 爬虫集的一部分。
Google 写道:“DuplexWeb-Google 是支持Duplex on the web 服务的用户代理。”
以下是它的爬行方式:
- 使用DuplexWeb-Google 用户代理的任何服务都不会在抓取您的网站时执行任何购买或任何其他重要操作。
- DuplexWeb-Google 用户代理抓取每天发生几次到每小时几次,具体取决于正在训练的功能,但这些运行不会使您的网站超载或干扰您的流量。
- Google 搜索不使用DuplexWeb-Google 用户代理抓取来编制索引。因为它们不用于索引,所以DuplexWeb-Google 用户代理无法识别noindex 指令。
- Google Analytics 不会记录DuplexWeb-Google 用户代理在抓取和分析期间发出的页面请求。
Google 表示要阻止它,“您必须使用Disallow robots.txt 规则明确阻止DuplexWeb-Google 用户代理,以防止它抓取您的网站。” DuplexWeb bot 将遵循robots.txt 规则集,但以下情况除外:
- 当使用Search Console(默认)启用Duplex on web 时,DuplexWeb-Google 用户代理会忽略* 通配符用户代理组中的Disallow 规则。
- 当使用Search Console 禁用Duplex on the web 时,DuplexWeb-Google 用户代理遵守* 通配符用户代理组中的禁止规则。
需要明确的是,Duplex 并不是新事物,它自2018 年或更早以来就已经存在。但我以前从未见过Duplex 的蜘蛛/机器人的任何细节,我确信它已经存在,但我从未见过。
论坛讨论在 推特.