Google 的 SMITH 算法优于 BERT

谷歌最近发表了一篇关于一种名为 SMITH 的新算法的研究论文,声称该算法在理解长查询和长文档方面优于 BERT。 特别是,使这个新模型更好的是它能够像 BERT 理解单词和句子一样理解文档中的段落,这使得算法能够理解更长的文档。

2020 年 11 月 3 日,我读到了一种名为 Smith 的 Google 算法,该算法声称其性能优于 BERT。 我于 11 月 25 日在 11 月下旬的 SEO 101 播客的第 395 集中简要讨论了它。

我一直在等到有时间写一个总结,因为 SMITH 似乎是一个重要的算法,值得深思熟虑,我谦虚地尝试了。

所以在这里,我希望你喜欢它,如果你喜欢,请分享这篇文章。

Google 是否使用 SMITH 算法?

谷歌一般不会说它使用的是什么具体算法。 尽管研究人员表示该算法优于 BERT,但在 Google 正式声明 SMITH 算法用于理解网页中的段落之前, 说它是否在使用纯粹是推测性的。

什么是史密斯算法?

SMITH 是一种尝试理解整个文档的新模型。 训练诸如 BERT 之类的模型来理解句子上下文中的单词。

在一个非常简化的描述中,SMITH 模型被训练来理解整个文档上下文中的段落。

虽然像 BERT 这样的算法在数据集上进行训练,以从句子中的上下文随机预测隐藏的单词,但 SMITH 算法被训练来预测下一个句子块是什么。

研究人员表示,这种训练有助于算法比 BERT 算法更好地理解更大的文档。

BERT 算法有局限性

这就是他们如何呈现 BERT 的缺点:

“近年来,Transformers 和 BERT 等基于自注意力的模型在文本匹配任务中取得了最先进的性能。 然而,由于自注意力相对于输入文本长度的二次计算复杂性,这些模型仍然仅限于短文本,如几句话或一个段落。

在本文中,我们通过提出用于长格式文档匹配的 Siamese Multi-depth Transformer-based Hierarchical (SMITH) 编码器来解决这个问题。 我们的模型包含多项创新,以适应自我注意模型以适应更长的文本输入。”

据研究人员称,BERT 算法仅限于理解短文档。 由于研究论文中解释的各种原因,BERT 不太适合理解长篇文档。

研究人员提出了他们的新算法,他们说该算法在更长的文档上优于 BERT。

然后他们解释了为什么长文档很困难:

“……由于以下几个原因,长文本之间的语义匹配是一项更具挑战性的任务:

1)当两个文本都很长时,匹配它们需要更深入地理解语义关系,包括长距离文本片段之间的匹配模式;

2) 长文档包含部分、段落和句子等内部结构。 对于人类读者来说,文档结构通常对内容理解起着关键作用。 同样,模型也需要考虑文档结构信息以获得更好的文档匹配性能;

3)如果没有仔细的模型设计,长文本的处理更有可能引发实际问题,例如 TPU/GPU 内存不足。”

更大的输入文本

BERT 受限于文档的长度。 正如您将在下面看到的,SMITH 文档越长,性能越好。

这是 BERT 的一个已知缺点。

他们是这样解释的:

“长格式文本匹配的几个基准数据的实验结果……表明我们提出的 SMITH 模型优于以前的最先进模型,并且与基于 BERT 的基线相比,将最大输入文本长度从 512 增加到 2048。”

SMITH 能够做 BERT 无法做的事情这一事实使 SMITH 模型很有趣。

SMITH 模型不会取代 BERT。

SMITH 模型通过完成 BERT 无法完成的繁重工作来补充 BERT。

研究人员对其进行了测试并说:

“我们在长篇文档匹配的几个基准数据集上的实验结果表明,我们提出的 SMITH 模型优于以前的最先进模型,包括分层注意力……、基于多深度注意力的分层递归神经网络……和 BERT .

与基于 BERT 的基线相比,我们的模型能够将最大输入文本长度从 512 增加到 2048。”

长对长匹配

如果我正确理解了研究论文,研究论文指出将长查询与长内容匹配的问题尚未得到充分探索。

据研究人员称:

“据我们所知,长文档对之间的语义匹配具有许多重要的应用,如新闻推荐、相关文章推荐和文档聚类,但探索较少,需要更多的研究工作。”

在文件的后面,他们指出已经有一些研究接近他们正在研究的内容。

但总体而言,在研究将长查询与长文档匹配的方法方面似乎存在差距。 这就是研究人员正在使用 SMITH 算法解决的问题。

Google 的 SMITH 的详细信息

我不会深入探讨算法的细节,但我会挑选一些通用特征来传达它的高级视图。

该文件解释说,他们使用类似于 BERT 和许多其他算法的预训练模型。

首先是一些背景信息,以便文档更有意义。

算法预训练

预训练是在数据集上训练算法的地方。 对于这类算法的典型预训练,工程师将屏蔽(隐藏)句子中的随机单词。 该算法试图预测被屏蔽的单词。

例如,如果一个句子写成,“老麦克唐纳有一个____,“经过充分训练的算法可能会预测,”农场”是缺少的词。

随着算法的学习,它最终会得到优化,以减少对训练数据的错误。

进行预训练的目的是训练机器准确并减少错误。

论文是这样说的:

“受近期 BERT 等语言模型预训练方法取得成功的启发,SMITH 也采用了”无监督预训练+微调”范式为模型训练。

对于 Smith 模型的预训练,除了 BERT 中用于长文本输入的原始掩码词语言建模任务外,我们还提出了掩码句子块语言建模任务。”

句子块隐藏在预训练中

研究人员在这里解释了算法的一个关键部分,即在预训练过程中如何使用文档中句子块之间的关系来理解文档的内容。

“当输入文本变长时,句子块中单词之间的关系以及文档中句子块之间的关系对于内容理解都变得很重要。

因此,我们在模型预训练期间屏蔽了随机选择的单词和句子块。”

研究人员接下来更详细地描述了该算法如何超越 BERT 算法。

他们正在做的是加强训练,超越单词训练来接受句子块。

以下是研究文件中的描述:

“除了 BERT 中的掩码词预测任务外,我们还提出了掩码句子块预测任务来学习不同句子块之间的关系。”

SMITH 算法被训练来预测句子块。 我个人对此的感觉是……这很酷。

该算法正在学习单词之间的关系,然后升级以学习句子块的上下文以及它们在长文档中如何相互关联。

标题为“Masked Sentence Block Prediction”的第 4.2.2 节提供了有关该过程的更多详细信息(研究论文链接如下)。

史密斯测试的结果

研究人员指出,SMITH 在处理较长的文本文档时表现更好。

“与其他标准自注意力模型相比,具有更长输入文本长度的 SMITH 模型是长文档表示学习和匹配的更好选择。”

最后,研究人员得出结论,对于长文档,SMITH 算法比 BERT 做得更好。

为什么史密斯研究论文很重要

我更喜欢阅读研究论文而不是专利的原因之一是,研究论文分享了所提出模型是否比现有模型和最先进模型更好的细节。

许多研究论文最后说需要做更多的工作。 对我来说,这意味着算法实验很有希望,但可能还没有准备好投入实际环境。

一小部分研究论文表示,结果优于最先进的技术。 这些是我认为值得关注的研究论文,因为它们更有可能进入谷歌的算法。

当我说更可能时,我并不是说该算法现在或将在 Google 的算法中。

我的意思是,相对于其他算法实验,那些声称优于最先进技术的研究论文更有可能进入谷歌的算法。

SMITH 在长格式文档方面的表现优于 BERT

根据研究论文中得出的结论,SMITH 模型在理解长内容方面优于包括 BERT 在内的许多模型。

“在几个基准数据集上的实验结果表明,我们提出的 SMITH 模型在长篇文档匹配方面优于以前最先进的连体匹配模型,包括 HAN、SMASH 和 BERT。

此外,与基于 BERT 的基线方法相比,我们提出的模型将最大输入文本长度从 512 增加到 2048。”

史密斯在使用吗?

如前所述,在 Google 明确声明他们正在使用 SMITH 之前,无法准确地说 Google 正在使用 SMITH 模型。

也就是说,不太可能使用的研究论文是那些明确指出这些发现是迈向新型算法的第一步并且需要进行更多研究的论文。

这篇研究论文并非如此。 研究论文的作者自信地表示,SMITH 在理解长篇内容方面领先于最先进的技术。

对结果的信心以及缺乏需要进行更多研究的声明使得这篇论文比其他论文更有趣,因此非常值得了解,以防它在未来或现在的某个时候被纳入谷歌的算法。

引文

阅读原始研究论文:

SMITH 算法的描述

下载 SMITH 算法 PDF 研究论文:

Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical Encoder for Long-Form Document Matching (PDF)

给TA打赏
共{{data.count}}人
人已打赏
主题

Leon - 使用 Online Builder 为代理商、初创公司和创意团队提供响应式电子邮件

2022-8-10 7:32:14

谷歌看不到验证码背后的内容

2021-9-28 8:01:39

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索