
今天早上,我们的Google 朋友John Mueller、Martin Splitt、Gary Illyes 和Lizzi Harvey(Google 的技术作家)发布了一个新的播客。听起来显然很有趣,但在其中,Gary Illyes 深入探讨了Google 如何处理重复内容检测,即重复检测和规范化。它们不是同一件事。
简短的版本是谷歌为每个页面创建一个校验和,它基本上就像是基于页面上的文字的文档的唯一指纹。因此,如果有两个页面具有相同的校验和,那么这基本上就是Google 找出哪些页面彼此重复的方式。校验和是从数字数据块中导出的小型数据,用于检测在其传输或存储过程中可能引入的错误。就其本身而言,校验和通常用于验证数据完整性,但并不依赖于验证数据真实性。
重复检测和规范化不是一回事。 Gary 说:“首先你必须检测被骗者,基本上将它们聚集在一起,也就是说所有这些页面都是彼此被骗的,然后你必须基本上为所有这些页面找到一个领导页面。” “这就是规范化。所以,你有重复,这是整个术语,但在其中你有集群建设,比如重复集群建设和规范化,”他补充说。
重复检测是如何工作的?加里说“对于欺骗检测,我们所做的是,嗯,我们试图检测欺骗。我们如何做到这一点可能是其他搜索引擎的大多数人所做的,基本上,将内容减少为哈希或校验和,并且然后比较校验和。这是因为这样做比比较3,000 个单词要容易得多,而3,000 个单词是在任何搜索引擎中排名靠前的最低要求。”
他们开了一会儿关于一页3,000 字的玩笑。
加里继续解释说:“我们正在将内容缩减为校验和。我们这样做是因为我们不想扫描整个文本,因为它本质上没有意义。它需要更多的资源,结果会几乎相同。所以,我们计算关于页面文本内容的多种校验和,然后比较校验和。”
Gary 解释说,这不仅是完全重复,而且是近似重复。他说“它可以捕获两者”他说“它也可以捕获几乎重复的”。 “我们有几种算法,例如,尝试检测然后从页面中删除样板文件。因此,例如,我们从校验和计算中排除导航,我们也删除页脚,然后剩下什么我们称之为核心,这是页面的中心内容,”他补充道。
然后他们就开始讲肉的笑话和素食的笑话,其中很多都是素食者。 Gary 和Liz 以及许多人似乎会过滤掉来自他们的老板Sundar Pichai 的电子邮件。 🙂
Gary 深入探讨了这种欺骗检测:
是的。然后,基本上,如果数字发生变化,那么dupe 集群将再次不同,因为两个集群的内容将不同,因为集群中有一个新数字。因此,这只会进入另一个集群,本质上是与该数字相关的集群。
然后,一旦我们计算了这些校验和并且我们有了dupe 集群,我们就必须选择一个我们想要在搜索结果中显示的文档。
我们为什么这样做?我们这样做是因为,通常情况下,用户不喜欢在许多搜索结果中重复相同的内容。我们这样做也是因为我们在索引中的故事空间不是无限的。
基本上,当用户不喜欢它时,我们为什么要在我们的索引中存储重复项?所以,基本上,我们可以减少索引大小。
但是计算哪个页面是规范的,哪个页面领导集群,实际上并不是那么容易,因为在某些情况下,即使对于人类来说,也很难判断哪个页面应该出现在搜索结果中。
所以,我认为,我们使用了20 多个信号。我们使用20 多个信号来决定从欺骗集群中选择哪个页面作为规范页面。
你们中的大多数人可能会猜到这些信号是什么。显然,其中一个是内容。但它也可能是页面排名之类的东西,例如,哪个页面的页面排名更高,因为这些年来我们仍然使用页面排名。
它可能是,尤其是在同一站点上,哪个页面位于HTTPS URL 上,哪个页面包含在站点地图中。或者,如果一个页面重定向到另一个页面,那么这是一个非常明确的信号,表明另一个页面应该成为规范的。
rel=canonical 属性,这也是– 它是一个属性吗?标签。这不是标签。
所以在欺骗检测之后,谷歌会进行规范化部分。 Google 获取所有重复的URL 并决定在搜索中显示哪个。 Google 如何决定显示哪一个?加里说,那部分由大约20 种不同的信号组成。这些信号包括:
- 内容
- 网页排名
- HTTPS
- 站点地图文件中的页面
- 服务器重定向信号
- 相关规范
他们不手动为这些信号分配权重,他们为此使用机器学习。为什么不手动分配权重,好吧,如果他们只是手动为事物分配权重可能会导致问题。但是机器学习对重定向和规范标签的权重更高。
Gary 解释了为什么使用机器学习:
所以,这是一个很好的问题。几年前,我从事规范化工作,因为我试图将GIF 链接作为信号引入计算中,手动微调权重是一场噩梦。
因为即使您将权重更改0.1 个数字——我不认为它有一个衡量标准——然后它可能会丢掉一些其他数字然后突然,例如,其URL 较短的页面可能会出现或更有可能出现在搜索结果中,这有点愚蠢,因为就像,你为什么要看那个,就像谁在乎URL 长度一样?
因此,当您引入新信号时,找到合适的权重绝对是一场噩梦。然后你也可以看到错误。我知道,例如,John 基本上根据他在Twitter 或论坛或其他任何地方收集到的内容,将相当多的内容升级为索引欺骗。
然后,有时,他会升级一个实际的错误,骗子的团队会说……你为什么笑,约翰?你不应该笑。这是关于你的。我让你当场,你应该感激这一点。但不管怎么说。
所以,然后他升级了一个潜在的错误,并确认这是一个错误并且与权重有关。假设我们使用站点地图信号,或者站点地图信号的权重太高。
然后假设受骗者的团队说,“好吧,让我们稍微减少一点信号。” 但是,当他们稍微减少一点信号时,其他一些信号就会变得更强大。但是您实际上无法控制哪个信号,因为它们大约有20 个。
然后你调整那个突然变得更强大或更重的其他信号,然后又会引发另一个信号。然后你调整那个,基本上,它基本上是一个永无止境的游戏。
所以,这是一个打地鼠。因此,如果您将所有这些信号提供给机器学习算法以及所有期望的结果,那么您可以训练它为您设置这些权重,然后使用机器学习算法计算或建议的那些权重。
约翰当然知道SEO 在想什么,所以约翰问加里一个垒球问题“那些权重也像排名因素吗?就像,你提到它在站点地图文件中,我们会说,“好吧,如果它在站点地图文件,它的排名会更好。 “或者规范化是否独立于排名?”
Gary 回应说:“因此,规范化完全独立于排名。但是我们选择作为规范的页面,最终会出现在搜索结果页面中,并且会被排名,但不是基于这些信号。”
这是播客音频,它从大约6:05 开始播客:
论坛讨论于 推特.