Google 如何选择规范页面

Google 的 Gary Illyes 分享了大量关于 Google 如何检测重复页面然后选择要包含在搜索引擎结果页面中的规范页面的信息。

他还分享了如何对至少 20 个不同的信号进行加权以帮助识别规范页面,以及为什么使用机器学习来调整权重。

Google 如何处理规范化

Gary 首先说明网站是如何被抓取的以及文档是如何被索引的。 然后他继续下一步,规范化和重复检测。

他详细介绍了如何将内容简化为校验和,一个数字,然后将其与其他页面的校验和进行比较以识别相同的校验和。

加里:

“我们收集信号,现在我们完成了下一步,这实际上是规范化和欺骗检测。

……首先你必须检测出骗子,基本上将它们聚集在一起,说所有这些页面都是彼此的骗子。 然后你必须基本上为所有这些找到一个领导页面。

而我们的做法可能是大多数人、其他搜索引擎的做法,基本上是将内容简化为哈希或校验和,然后比较校验和。

那是因为这样做比比较三千个单词要容易得多……

…所以我们将内容简化为校验和,我们这样做是因为我们不想扫描整个文本,因为它没有意义。 本质上它需要更多的资源,结果几乎是一样的。 因此,我们计算了有关页面文本内容的多种校验和,然后与校验和进行比较。”

如果此过程捕获近乎重复或完全重复,Gary 会回答:

好问题。 它可以抓住两者。 它还可以捕获附近的重复项。

我们有几种算法,例如,尝试检测然后从页面中删除样板。

因此,例如,我们从校验和计算中排除导航。 我们也删除了页脚。 然后你就剩下我们所谓的中心部分了,它是页面的中心内容,有点像页面的肉。

当我们计算校验和并将校验和相互比较时,那些非常相似或至少有点相似的校验和,我们会将它们放在一个重复集群中。”

然后问加里什么是校验和:

“校验和基本上是内容的散列。 基本上是指纹。 基本上它是某物的指纹。 在这种情况下,它是文件的内容……

然后,一旦我们计算了这些校验和,我们就有了 dupe 集群。 然后我们必须选择一个文档,我们想在搜索结果中显示它。”

加里随后讨论了谷歌阻止重复页面出现在 SERP 中的原因:

“我们为什么要这样做? 我们这样做是因为通常用户不喜欢在许多搜索结果中重复相同的内容。 我们这样做也是因为我们在索引中的存储空间不是无限的。 基本上,我们为什么要在索引中存储重复项?”

接下来他回到主题的核心,检测重复并选择规范页面:

“但是,要计算出哪个是规范,哪个页面引导集群,实际上并不那么容易。 因为在某些情况下,即使对于人类来说,也很难判断哪个页面应该是搜索结果中的那个页面。

因此,我认为,我们使用了超过 20 个信号,我们使用了超过 20 个信号,来决定从欺骗集群中选择哪个页面作为规范。

你们中的大多数人可能会猜到这些信号会是什么。 喜欢一个显然是内容。

但也可能是 PageRank 之类的东西,比如哪个页面的 PageRank 更高,因为这些年来我们仍然使用 PageRank。

可能是,尤其是在同一个站点上,哪个页面在 https URL 上,哪个页面包含在站点地图中,或者如果一个页面重定向到另一个页面,那么这是一个非常明确的信号,表明另一个页面应该成为规范, rel=canonical 属性……又是一个非常强烈的信号……因为……有人指定其他页面应该是规范的。

然后,一旦我们比较了所有页面对的所有这些信号,我们就会得到实际的规范。 然后我们使用的每个信号都有自己的权重。 我们使用一些机器学习巫术来计算这些信号的权重。”

他现在细化并解释了为什么谷歌会给予重定向比 http/https URL 信号更重的权重:

“但是例如,给你一个想法,301 重定向,或者实际上任何类型的重定向,在规范化方面应该比页面是在 http URL 还是 https 上更高的权重。

因为最终用户会看到重定向目标。 因此,在搜索结果中包含重定向源是没有意义的。”

穆勒问他为什么谷歌使用机器学习来调整信号权重:

“所以我们有时会犯错吗? 为什么我们需要机器学习,就像我们清楚地写下这些权重一次然后它就完美了,对吧?”

然后,Gary 分享了一个从事规范化工作的轶事,试图将 hreflang 作为信号引入计算。 他说,尝试手动调整权重是一场噩梦。 他说,手动调整权重会甩掉其他权重,导致意想不到的结果,例如没有意义的奇怪搜索结果。

他分享了一个带有短 URL 的页面突然排名更好的错误示例,Gary 称之为愚蠢。

他还分享了手动减少站点地图信号以处理与规范化相关的错误的轶事,但这会使另一个信号更强,从而导致其他问题。

关键是所有的权重信号都是紧密相关的,需要机器学习才能成功地改变权重。

加里:

“比方说……站点地图信号的权重太高了。 然后,假设骗子团队说,好吧,让我们稍微减少一下这个信号。

但是当他们稍微减少那个信号时,其他一些信号就会变得更强大。

但是您实际上无法控制哪个信号,因为它们大约有 20 个。

然后你调整那个突然变得更强大或更重的另一个信号,然后又抛出另一个信号。 然后你调整那个,基本上它本质上是一个永无止境的游戏,它是一个打地鼠。

因此,如果您将所有这些信号以及所有期望的结果提供给机器学习算法,那么您可以训练它为您设置这些权重,然后使用机器学习算法计算或建议的权重。”

约翰·穆勒接下来询问这 20 个权重,如前面提到的站点地图信号是否可以被视为排名信号。

穆勒:

“这些权重也是排名因素吗? ……还是规范化与排名无关?”

加里回答:

“因此,规范化完全独立于排名。 但我们选择作为规范的页面最终会出现在搜索结果页面中,并且会进行排名,但不是基于这些信号。”

外卖

Gary 分享了很多关于规范化如何工作的内容,包括它的复杂性。 他们讨论过在以后写下这些信息,但他们对把这些都写下来的任务感到畏惧。

播客节目的标题是“Google 如何编写和发布技术搜索内容,等等!” 但我不得不说,到目前为止,最有趣的部分是 Gary 对 Google 内部规范化的描述。

收听整个播客:

搜索记录播客

给TA打赏
共{{data.count}}人
人已打赏

微软广告的新推出和更多数字营销新闻

2021-4-5 22:45:09

外链建设

谷歌:垃圾邮件链接网络彼此共享易受攻击的来源

2023-7-25 19:21:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
搜索