必应在全球范围内推出大规模拼写校正

Microsoft Bing 的大规模多语言拼写校正模型(统称为 Speller100)正在全球推出,以 100 多种语言提供高精度和高召回率。

Bing 表示,用户提交的查询中约有 15% 存在拼写错误,这可能导致错误答案和次优搜索结果。

为了解决这个问题,必应构建了它所说的最全面的拼写纠正系统。

在使用和不使用 Speller100 的 A/B 测试查询中,Bing 观察到以下结果:

  • 没有结果的页面数量减少了 30%。
  • 用户必须手动重新编写查询的次数减少了 5%。
  • 用户点击拼写建议的次数从个位数增加到 67%。
  • 用户点击页面上任何项目的次数从个位数上升到 70%。

必应是如何做到这一点的? 继续阅读以了解有关 Speller100 的更多信息。

改进 Bing 搜索结果中的拼写纠正

拼写更正长期以来一直是必应的优先事项,搜索引擎正在更进一步,包括来自世界各地的更多语言。

“为了让 Bing 更具包容性,我们着手将我们目前的拼写纠正服务扩展到 100 多种语言,为最初的两打语言设定了同样高的质量标准。”

Speller100 的推出代表了 Bing 向前迈出的重要一步,并且由于人工智能的最新进展而成为可能。

Speller100 背后的技术在该公司最近的博客文章中进行了解释。 以下是必应新拼写纠正技术的一些关键细节。

微软必应的 Speller100 技术

必应积分 零样本学习 作为人工智能的一项重要进步,它有助于使 Speller100 成为可能。

零样本学习允许 AI 模型准确地学习和纠正拼写,而无需任何额外的特定语言标记训练数据。 这与传统的拼写纠正解决方案形成鲜明对比,传统的拼写纠正解决方案仅依靠训练数据来学习语言的拼写。

在纠正数据量不足的语言拼写时,依靠训练数据具有挑战性。 这就是零样本学习旨在解决的问题。

“想象一下,有人教你如何用英语拼写,而你自动学会了用德语、荷兰语、南非荷兰语、苏格兰语和卢森堡语拼写。 是零样本学习所实现的,它是 Speller100 中的一个关键组件,它使我们能够扩展到几乎没有数据的语言。”

拼写纠正不是自然语言处理

必应的区别在于,尽管自然语言处理已经取得了重大进展,但拼写纠正完全是一项不同的任务。

所有的拼写错误都可以分为两类:

  • 非单词错误:当单词不在给定语言的词汇表中时发生。
  • 实际错误:当单词有效但不适合更大的上下文时发生。

Bing 开发了一种深度学习方法来纠正这些拼写错误,其灵感来自 Facebook 的 BART 模型。 但是,它与 BART 的不同之处在于拼写纠正被视为字符级问题。

为了解决字符级问题,B​​ing 的 Speller100 模型使用模仿拼写错误的字符级突变进行训练。

Bing 将这些称为“噪声函数”:

“我们设计了噪声函数来生成常见的旋转、插入、删除和替换错误。

噪声函数的使用显着降低了我们对机器学习中经常需要的人工标注标注的需求。 这对于我们几乎没有或没有训练数据的语言非常有用。”

噪声函数允许 Bing 训练 Speller100 来纠正没有大量拼写错误查询数据可用的语言的拼写。

相反,Bing 使用从网页中提取的常规文本,这些文本是通过常规网络爬虫收集的。 据说网络上有足够数量的文本来促进数百种语言的培训。

“这项预训练任务被证明是解决 100 多种语言的多语言拼写纠正问题的第一步。 在我们的训练数据为零的语言中,它有助于达到 50% 的最佳候选者的校正召回率。”

虽然这是一个有意义的进步,但 Bing 说 50% 的召回率还不够好。 这就是零样本学习的用武之地。

对于没有训练数据的语言,Bing 利用零样本学习属性来定位语言族。 这是基于世界上大多数语言都与其他语言相关的概念而完成的。

“同一组语言之间的这种拼写、形态和语义相似性使得零样本学习错误模型非常高效和有效……

零样本学习使学习这些低资源或无资源语言的拼写预测成为可能。”

在 Bing 中推出 Speller100 是在更多 Microsoft 产品中实施该技术的更大努力的第一步。

资源: 微软研究博客

给TA打赏
共{{data.count}}人
人已打赏
WordPress 教程

如何创建生活方式博客并吸引受众

2022-9-10 4:39:51

主题

Houm - 房地产 Elementor 模板套件

2022-8-18 20:05:26

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索