
谷歌的约翰穆勒写了一篇非常详细和诚实的解释,解释了为什么谷歌(和第三方SEO 工具)不抓取和索引网络上的每个URL 或链接。他解释说,抓取不客观,成本高昂,效率低下,网络变化很大,有垃圾邮件和垃圾邮件,所有这些都必须考虑在内。
约翰在Reddit 上写了这个详细的回复,回答了为什么“为什么SEO 工具不显示所有外链?” 但他从谷歌搜索的角度回答了这个问题。他说:
没有客观的方法可以正确地抓取网络。
理论上不可能全部抓取,因为实际URL 的数量实际上是无限的。由于没有人负担得起在数据库中保留无限数量的URL,所有网络爬虫都会对真正值得爬取的内容进行假设、简化和猜测。
即使那样,出于实际目的,您也无法一直抓取所有这些内容,互联网没有足够的连接和带宽,如果您想定期访问大量页面,则需要花费很多钱(对于爬虫和网站所有者)。
过去,有些页面变化很快,有些页面已经10 年没有变化了——所以爬虫试图通过更多地关注他们期望改变的页面而不是他们期望不会改变的页面来节省工作量。
然后,我们触及爬虫试图找出哪些页面真正有用的部分。网络上充满了没人关心的垃圾,被垃圾邮件发送到无用的页面。这些页面可能仍会定期更改,它们可能具有合理的URL,但它们只是注定要被填埋,任何关心用户的搜索引擎都会忽略它们。有时它也不仅仅是明显的垃圾。越来越多,网站在技术上还可以,但从质量的角度来看,只是没有达到“标准”,才值得被更多地抓取。
因此,所有爬虫(包括SEO 工具)都在一组非常简化的URL 上工作,他们必须计算出爬取的频率、更频繁地爬取哪些URL,以及忽略Web 的哪些部分。这方面没有固定的规则,因此每个工具都必须在此过程中做出自己的决定。这就是为什么搜索引擎有不同的内容索引,为什么SEO 工具列出不同的链接,为什么建立在这些之上的任何指标都如此不同。
我觉得强调这一点会很好,因为它对SEO 阅读和理解它很有用。
Reddit 上的论坛讨论。