Google 的Gary Illyes 解释咖啡因的作用

谷歌发布了下一个Search Off the Record 播客,实际上是至少两个月前录制的,来自谷歌的Gary Illyes 分解了谷歌咖啡因索引和系统的实际作用。

如果您还记得的话,咖啡因问题是不久前Google 搜索出现问题的原因之一。

这是录音,但这部分对话从大约9 分钟开始:

这是加里所说的:

我们有咖啡因。那是我们的索引系统。只有在外部它被称为咖啡因。在内部,它有其他名称。但这并不重要。它做了很多事情。而且我认为外部并不清楚它做了很多事情。对于人们来说,这就像我们有爬虫,也就是Googlebot,然后它就变成了谷歌神奇的东西。好吧,人们知道它被渲染了,然后是谷歌魔法,然后我们有一个索引。

我们实际上无法分解谷歌的魔力,一般人都知道谷歌的魔力,或者如果他们愿意的话可以弄清楚,但谷歌的魔力本质上就是咖啡因所做的。基本上,摄取、拾取Googlebot 生成的任何内容,这是一个协议缓冲区——您可以在您最喜欢的搜索引擎上查找协议缓冲区是什么。然后那个协议缓冲区被Caffeine 拾取,然后我们收集信号,等等,等等,然后我们将Caffeine 产生的信息添加到我们的索引中。

咖啡因内部发生了什么?好吧,第一步是协议缓冲区摄取。基本上,它获取协议缓冲区并开始处理它。摄入后的第一步是转化。

Martin 然后阻止Gary 解释转换部分的含义。加里继续解释。它确实将协议缓冲区转换为不同的格式,但它也必须规范化HTML。

但我们仍然试图理解它。如果您真的破坏了HTML,那就有点困难了。所以我们通过HTML 词法分析器推送所有HTML。再次,搜索名称。你可以弄清楚那是什么。但是,基本上,我们规范化了HTML。然后,处理它就容易多了。然后,出现了hotstepper:h1、h2、h3、h4。

我知道。所有这些标题标签也通过渲染进行了规范化。我们试图了解应用于h 标签的样式,因此我们可以确定h 标签相互比较的相对重要性。让我们看看,我们还在那里做什么?

我们是否也转换东西,比如PDF 或……哦,是的。 Google 搜索可以索引多种格式,而不仅仅是文本HTML,我们可以索引PDF,我们可以索引电子表格,我们可以索引Word 文档文件,我们可以索引……还有什么? Lotus 文件,出于某种原因。

等待。回到PDF。 PDF 是一种二进制格式。处理起来没那么容易。因此,据我所知,我们从Adob​​e 获得解码器许可,我们使用它基本上将PDF 转换为HTML。从那以后,我们只使用HTML。我们可以在网络搜索中索引的所有其他二进制格式都会发生这种情况。当然,这些也是标准化的。所以HTML 最终将是格式良好的。

然后我们开始查看元标记,因为有一些元标记是我们非常关心的。例如,元名称=“机器人”。

当它们发生时,当它们出现在我们的处理管道中时。这就是错误处理页面所做的事情。基本上,我们有非常大的语料库,实际上是错误页面的语料库,然后我们尝试将文本与这些页面进行匹配。

这也可能导致非常有趣的错误,我会说,例如,您正在写一篇关于一般错误页面的文章,而您一生都无法将其编入索引。有时这是因为我们的错误页面处理系统根据您使用的关键字将您的文章误检测为软错误页面。而且,基本上,它会提示Caffeine 停止处理这些页面。

当然,错误页面处理也适用于其他类型的错误页面,而不仅仅是404。例如,如果服务器发送“我超载”消息HTML 页面但状态代码为200,那么我们可能能够理解。我们有不太明显的重定向,我们也可以检测到它们。还有什么?

我们还尝试在此处检测登录页面。我不确定为什么有用,但我们知道登录页面。

所以正如你所看到的,它做了很多,真的很多。

绝对值得一听。整个部分持续约10 分钟。

哦,Gary 可能会为他的Life of a Query 演讲做一些录音,但不是仅供内部使用,而是供公众使用。

Twitter 上的论坛讨论。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
搜索