谷歌的 Gary Illyes 透露搜索索引使用分层系统,其中最流行的内容在更快、更昂贵的存储上建立索引。
这个话题在谷歌的最新一集中进行了讨论 搜索记录 播客处理搜索索引选择中的语言复杂性。
在解释 Google 如何构建其搜索索引时,Illyes 表示内容在三种类型的存储上建立索引:
- 内存 (随机存取存储器):最快且最昂贵
- 固态硬盘 (固态驱动器):非常快但成本过高
- 硬盘 (硬盘驱动器):最慢且成本最低
Google 会为可能会频繁出现在搜索结果中的文档保留最快的存储空间。
Illyes 指出:
“然后,当我们建立索引时,我们会使用我们拥有的所有这些信号。 让我们选择一个,比如说,页面排名,然后我们尝试估计我们将为那些我们索引的文档提供多少服务。
那么它会像每一秒一样吗? 我们会有一个触发这些文档的查询吗? 还是每周一次还是每年一次?
在此基础上,我们可能会使用不同类型的存储来构建索引。”
Illyes 继续举例说明哪些内容将存储在 RAM 上,哪些内容将存储在 SSD 上,哪些内容将存储在 HDD 上。
每秒访问的内容最终将存储在 RAM 或 SSD 上。 这仅占 Google 整个索引的一小部分。
Google 的大部分索引都存储在硬盘上,因为用 Illyes 的话来说,硬盘便宜、易于访问且易于更换。
“因此,例如,对于我们知道可能每秒都会出现的文件,例如,它们最终会以超快的速度出现。 超快的将是 RAM。 就像我们的服务索引的一部分在 RAM 上。
然后我们会有另一层,例如固态驱动器,因为它们速度快而且不像 RAM 那样昂贵。 但仍然不是——指数的大部分不会在那个上面。
该指数的大部分内容将是便宜、可访问、易于更换且不会破坏银行的东西。 那将是硬盘驱动器或软盘。”
当然,Illyes 是在拿软盘开玩笑,这就是你在播客上从他那里得到的那种干巴巴的幽默。
据我所知,这是谷歌第一次让公众了解有关其搜索索引存储层的信息。 有趣的是,搜索最多的内容存储在 RAM 和 SSD 上。
即使是在 RAM 和 SSD 上存储 Google 索引的一部分,其成本也一定很高。 尽管内部文档对人们的重要性很可能证明更快存储的成本是合理的。
对内容的需求必须如此之高,以至于谷歌不想冒险延迟将其发布给搜索者。
由于它与 SEO 相关,因此无法针对一种存储类型进行优化。 并且无法判断您的站点在哪些存储层上建立索引。
我的猜测是,一小部分网页在 RAM 或 SSD 上编入索引。 将其带回 SEO,这是一件好事,因为这意味着大多数网站在索引存储速度方面都在公平竞争。