Lizzi Sassman 和Martin Splitt 在他们的Google 搜索记录播客中邀请了一位特殊的Google 嘉宾来讨论结构化数据。来宾名叫Ryan Levering,他在Google 工作超过11 年,致力于结构化数据。
谷歌过去的结构化数据
简而言之,Ryan Levering 解释说,当他第一次开始从事结构化数据项目时,他从事的是Search Console 中的旧数据突出显示工具。但在早期,谷歌似乎试图不再要求我们突出或标记我们的内容,而是希望使用机器学习来解决所有问题,谷歌的Gary Illyes 早在2017 年就说过,但在2018 年又收回了这一点。所以谷歌倾注了在机器学习方面付出了很多努力来解决这个问题。
谷歌提供的结构化数据
但随着时间的推移,Ryan 说,“只要求人们向我们提供他们的数据,而不是从网页中提取数据要容易得多。” “它出奇地准确,”他补充道。因此,他们随后将更多资源用于构建结构化数据和支持文档,以供站点所有者使用和移交数据。
但是机器学习现在被抛到了窗外。 Ryan 说,他们仍然经常将它用于(1) 不使用结构化数据的网站,谷歌仍希望为这些网站显示丰富的结果,(2) 用于错误或滥用,因此谷歌可以验证页面的真正含义结构化数据。所以Ryan 说这是使用结构化数据和机器学习来理解这一切的“多管齐下的方法”。
所以这就是谷歌今天使用它的方式,但未来呢。
谷歌的结构化数据未来
“中期未来”,Ryan 表示,他们计划使用结构化数据,“不仅是视觉处理,而且实际上有助于更多地理解页面。” 谷歌之前提到过,结构化数据可以帮助谷歌理解页面,但它不是排名因素。我想谷歌会在这方面做更多的工作。另外,中期未来”Ryan 表示,谷歌想要弄清楚“如何在我们的许多功能中更普遍地使用结构化数据,而不是像四处散布一样。 ”
从长远来看,谷歌表示谷歌如何使用结构化数据以及谷歌如何“将其解释为我们的内部图表”。 Ryan 说,他“希望转向我们通过结构化数据特定渠道调整越来越多数据的地方,而不是必须在网页本身上传达我们所有的信息。” 基本上是想出一种“在数据提供商和谷歌之间进行数据传输的更干净的方式”。他说,谷歌是如何做到这一点的,也许是通过与大型CMS 平台合作,以便他们可以直接将其构建到他们的平台中。
这是播客嵌入:
以下是部分成绩单:
Ryan Levering:所以,我的介绍是,当我开始在Google 工作时,我们正在研究从网页中提取。所以就像通过ML 做的一样。所以我们进来了,我做的第一件事是数据荧光笔产品,它是外部的。我们正在查看网页并从非结构化文本中提取结构化数据,我的整个团队都非常关注它的实际ML 方面。那么我们如何提取数据,在学术界常被称为“包装器归纳”呢?因此,当您使用- 您构建一个可以将数据从模板中提取出来的包装器。所以对数据库进行逆向工程。但经过几年的努力,还有另一个项目是并行提取结构化数据,这成为我们现在使用的核心。
在与人们交谈了很长时间之后,我确信,让人们向我们提供他们的数据而不是从网页上提取数据要容易得多。出乎意料地更准确。因此可能会发生其他问题,但通常更容易做到。这对我们来说工作量要少得多,而对提供商来说要好得多。所以我是从ML 开始的,一开始我将结构化数据视为敌人。然后我作为一个好的机制被说服了。
所以机器学习是——我认为我们获取东西的方法有多个方面。我们希望将机器学习用于我们没有更多信息且没有提供给我们的情况。但我认为,将数据显示给我们总是会更容易。所以我们会尝试——我认为这就像一种多层方法,在我们没有专门的数据的情况下,你可以使用机器学习。但是供应商总是可以选择向我们提供数据,这通常会提高准确性,这通常会给实际供应商带来更好的利益。所以我总是认为他们在一个理想的世界里并肩工作。
随着时间的推移,我们的大多数功能都会迁移到我们摄取它的方法。也许我们从只使用ML 的一种方法开始。然后我们最终添加标记,以便人们可以控制。或者相反。然后我们开始——我们在一个生态系统方法中引导标记,人们向我们提供数据。然后我们通过添加ML long run 来增强该功能的覆盖率。所以,我认为它们非常兼容。但是,授权给你数据的人控制它总是好的。所以我认为结构化数据通常是整体战略的一部分非常重要,这样人们才能真正控制我们展示的内容。
主要挑战是我们必须找到一种方法来验证结构化数据是否准确。有时这是来自实际的滥用。有时这只是因为同步性存在问题。有时人们会为他们的网站生成结构化数据,但它会与视觉上显示的实际内容不同步。我们都看到了很多。因此,需要有其他机制来找出执行这些事情的一些平衡行为。所以这就是结构化数据的成本,我猜,就是额外的检查。
Lizzi Sassman:是的,谈到已经完成的工作,接下来几年的结构化数据工作呢?如果您让我们展望未来,结构化数据的下一步是什么?
Ryan Levering:从中期来看,我认为我们……我的意思是,我们将继续充实结构化数据的使用,以添加更多功能并研究更多方式,我们可以将其用于更酷的事情,而不仅仅是视觉处理,但实际上有助于更多地理解页面,我认为。并弄清楚如何在我们的许多功能中更普遍地使用结构化数据,而不是像四处散布一样。我认为这就是我们在中期考虑的问题。
从长远来看,我认为它将在与我们一般将其解释为内部图表的方式进行交互方面发挥非常有趣的作用。所以我希望看到更多的机器学习,弄清楚——我希望通过结构化的数据特定渠道调整越来越多的数据,而不是必须在网页本身上传达我们所有的信息。所以我认为这是一种更清洁的方法,特别是对于我们的一些结构化数据摄取路径。因此,想办法绕过实际的视觉表示,想办法将结构化数据与网页链接,但不一定将其嵌入网页。所以我认为有一种更简洁的方式可以在数据提供商和谷歌之间进行数据传输。
我认为这将使插件和CMS 更容易创建这些信息。因为我觉得很多生态系统已经朝着这个方向发展,人们没有自己实现结构化数据,而是使用内容创建工具。我认为我们拥有直接与这些内容创建工具合作的机制以编程方式摄取数据以使其更新鲜和更容易变得越来越重要。
论坛讨论在 推特.