
来自Google 的Martin Splitt 解释了核心注释的概念,该术语在Google 中用于定义页面或站点的主要内容。 Martin 说他们能够理解页面的主要主题在A 上,而该页面上的其余内容可能不是主要内容。因此,谷歌将基于此对内容进行不同的权衡,马丁说。
他在这个Duda 网络研讨会上的28:50 时说了这句话,这是Martin 所说的:
我不知道我们对此公开说过什么,但我想我在其中一个播客剧集中提到了它,所以我可能会说我们有一个叫做核心注释的东西,我们还有一些其他注释. 我们在哪里查看语义内容以及潜在的布局树。
但从根本上说,我们已经可以从HTML 中的内容结构中读取它,然后从我们对整个文本内容所做的所有自然语言处理中弄清楚,这看起来就像这主要是关于主题的一、狗粮。然后这里还有另外一个东西,它似乎是相关产品的链接,但它并不是真正的核心部分,它不是这里真正的主要内容,这似乎是额外的东西。然后就像一堆样板,所以嘿,我们发现所有这些页面上的菜单看起来都差不多,这个看起来很像我们在所有其他页面或这个域的这个菜单上的菜单,例如,或者我们以前见过。
我们实际上什至没有按域或喜欢哦,这看起来像一个菜单。我们找出看起来像样板的东西,然后它的权重也不同。因此,如果您碰巧在页面上的内容与其余内容的主题无关,我们可能不会像您想像的那样考虑它。我们仍然使用该信息进行链接发现并确定您的站点结构以及所有这些。但是,如果一个页面有10,000 个单词关于狗粮,然后是3,000,或2,000 或1,000 个单词关于自行车,那么这可能不是自行车的好内容。
这是嵌入:
是的,他确实在5 月27 日的节目中简短地提到了这一点,他说“我经常遇到的一个关于JavaScript 的问题是,我们是否以不同的方式处理JavaScript 内容。我们确实有内容注释——我们认为这是一篇文章的核心或者我们认为是内容方面的内容。”
Glenn Gabe 总结了这一点 推特 说“谷歌有一个核心注释(和其他)。它着眼于语义内容和布局树。从NLP 中,G 可以识别一个页面是关于主题X,然后是ID 补充内容与主要内容、样板等。然后可以谷歌的权重不同。”
这是有道理的,我只是不完全知道谷歌在内部称之为“核心注释”。
论坛讨论在 推特.