不,Google SMITH 算法不可用

在某些SEO 组和论坛中有一些猜测,谷歌推出了一种名为SMITH 的新算法,该算法优于BERT 和RankBrain。 SMITH 代表Siamese Multi-depth Transformer-based Hierarchical (SMITH) Encoder。这不是实时的,它目前只是谷歌的一篇研究论文。来自谷歌的Danny Sullivan 为我们证实了这一点 推特 说“不。我们没有”将SMITH 投入生产。

以下是这些推文:

猜测并非来自写作研究论文的罗杰·蒙蒂(Roger Montti)。他只是报导了最近发表的一篇研究论文,但他没有说它在生产中使用。事实上,罗杰写道,“说它是否在使用纯粹是推测”。该论文于2020 年4 月26 日首次提交,第二版于2020 年10 月13 日发布。

我相信猜测来自一些Black Hat World 论坛线程,其中一些人看到排名变化并声称它与SMITH 有关。谷歌从未说过它在生产搜索中推出了SMITH。

什么是史密斯?这是下面的摘要,但似乎SMITH 改进了BERT,它可以在“长格式文档匹配”中更好地理解语言,而不是BERT 闪耀的“短文本,如几句话或一段”。

许多自然语言处理和信息检索问题都可以形式化为语义匹配的任务。该领域的现有工作主要集中在短文本之间的匹配(例如,问答)或短文本和长文本之间的匹配(例如,即席检索)。长篇文档之间的语义匹配在新闻推荐、相关文章推荐和文档聚类等方面有许多重要的应用,但研究相对较少,需要更多的研究工作。近年来,Transformers 和BERT 等基于自注意力的模型在文本匹配任务中取得了最先进的性能。然而,由于自注意力相对于输入文本长度的二次计算复杂度,这些模型仍然仅限于短文本,如几句话或一段。在本文中,我们通过提出用于长格式文档匹配的孪生多深度基于变换器的分层(SMITH)编码器来解决这个问题。我们的模型包含多项创新,以适应较长文本输入的自注意力模型。我们提出了一种基于转换器的分层编码器来捕获文档结构信息。为了更好地捕获文档中的句子级语义关系,除了BERT 使用的掩码词语言建模任务之外,我们还使用一种新颖的掩码语句块语言建模任务对模型进行预训练。我们在几个用于长篇文档匹配的基准数据集上的实验结果表明,我们提出的SMITH 模型优于之前的最新模型,包括分层注意力、基于多深度注意力的分层递归神经网络和BERT。与基于BERT 的基线相比,我们的模型能够将最大输入文本长度从512 增加到2048。我们将开源基于维基百科的基准数据集、代码和预训练的检查点,以加速未来对长格式文档匹配的研究。

罗杰写了一篇关于他认为是什么的文章。 Roger 说“SMITH 是一种试图理解整个文档的新模型。像BERT 这样的模型被训练来理解句子上下文中的单词。在非常简化的描述中,SMITH 模型被训练来理解整个上下文中的段落文档。” 事实上,谷歌研究人员表示,SMITH 将最大输入文本长度从512 增加到2048。

论坛中的人们在谈论他们网站上的排名变化时说“Bert Smith 更新昨天过去了”。另一位说:“谷歌的新SMITH 算法比BERT 更能理解长格式内容。也许这个算法对某些网站有影响。”

所以不,没有证据表明谷歌在生产中推出了SMITH。并且谷歌已经确认它没有在搜索中推出SMITH。

还有一个老提醒,仅仅因为谷歌拥有专利或研究论文,并不意味着他们正在、已经或将永远使用它。

是的,谷歌的Danny Sullivan 在2021 年说过:

Black Hat World 论坛讨论。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
搜索