Google KELM 减少偏差并提高事实准确性

谷歌 AI 博客宣布了 KELM,一种可用于减少搜索中的偏见和有毒内容的方法(开放域问答)。 它使用一种称为 TEKGEN 的方法将知识图谱事实转换为自然语言文本,然后可用于改进自然语言处理模型。

什么是 KELM?

KELM 是 Knowledge-Enhanced Language Model Pre-training 的缩写。 像 BERT 这样的自然语言处理模型通常在 Web 和其他文档上进行训练。 KELM 建议添加可信赖的事实内容(知识增强) 对语言模型进行预训练,以提高事实准确性并减少偏差。

TEKGEN 将知识图结构化数据转换为称为 KELM 语料库的自然语言文本

KELM 使用可信赖的数据

谷歌研究人员提议使用知识图谱来提高事实准确性,因为它们是值得信赖的事实来源。

“信息的替代来源是知识图 (KG),它由结构化数据组成。 KG 本质上是事实,因为信息通常是从更受信任的来源中提取的,而后处理过滤器和人工编辑可确保删除不适当和不正确的内容。”

谷歌在使用 KELM 吗?

谷歌没有说明 KELM 是否在使用中。 KELM 是一种语言模型预训练方法,显示出强大的前景,并在 Google AI 博客上进行了总结。

偏差、事实准确性和搜索结果

根据研究论文,这种方法提高了事实准确性:

“它具有进一步的优势,即提高了事实准确性并降低了生成的语言模型的毒性。”

这项研究很重要,因为减少偏见并提高事实准确性 可以 影响网站的排名方式。

但在 KELM 投入使用之前,无法预测它会产生什么样的影响。

Google 目前不对搜索结果进行事实核查。

可以想象,如果引入 KELM,它可能会对宣传不正确的陈述和想法的网站产生影响。

骗子 可以 影响大于搜索

KELM 语料库已在知识共享许可下发布(CC BY-SA 2.0)。

这意味着, 理论上,任何其他公司(如 Bing、Facebook 或 Twitter)也可以使用它来改进他们的自然语言处理预训练。

它是 可能的 那么 KELM 的影响力可以扩展到许多搜索和社交媒体平台。

与 MUM 的间接联系

谷歌还表示,在谷歌确信偏见不会对其给出的答案产生负面影响之前,不会发布下一代 MUM 算法。

根据 Google MUM 的公告:

“正如我们仔细测试了自 2019 年以来推出的许多 BERT 应用程序一样,MUM 将经历与我们在搜索中应用这些模型相同的过程。
具体来说,我们将寻找可能表明机器学习存在偏见的模式,以避免将偏见引入我们的系统。”

KELM 方法专门针对减少偏差,这可能使其对开发 MUM 算法很有价值。

机器学习会产生有偏见的结果

研究论文指出,BERT 和 GPT-3 等自然语言模型用于训练的数据可能会导致“有毒成分”和偏见。

在计算中有一个古老的首字母缩写词 GIGO,它代表 Garbage In – Garbage Out。 这意味着输出的质量取决于输入的质量。

如果你训练算法的质量是高质量的,那么结果将是高质量的。

研究人员的提议是提高 BERT 和 MUM 等技术接受训练的数据质量,以减少偏差。

知识图谱

知识图谱是结构化数据格式的事实集合。 结构化数据是一种标记语言,它以机器易于使用的方式传达特定信息。

在这种情况下,信息是关于人、地点和事物的事实。

Google 知识图谱于 2012 年推出 作为帮助 Google 了解事物之间关系的一种方式。 因此,当有人问起华盛顿时,谷歌可以辨别出问这个问题的人是在问华盛顿这个人、州还是哥伦比亚特区。

谷歌的知识图谱被宣布由来自可信事实来源的数据组成。

谷歌 2012 年的公告将知识图谱描述为构建我们目前正在享受的下一代搜索的第一步。

知识图谱和事实准确性

本研究论文中使用知识图数据来改进 Google 的算法,因为这些信息是值得信赖和可靠的。

谷歌研究论文提出将知识图谱信息整合到训练过程中,以消除偏差并提高事实准确性。

谷歌的研究提出了两方面的建议。

  1. 首先,他们需要将知识库转换为自然语言文本。
  2. 其次,生成的语料库,称为知识增强语言模型预训练 (KELM),然后可以集成到算法预训练中以减少偏差。

研究人员这样解释这个问题:

“大型预训练自然语言处理 (NLP) 模型,例如 BERT、RoBERTa、GPT-3、T5 和 REALM,利用源自 Web 并针对特定任务数据进行微调的自然语言语料库……

然而,仅自然语言文本就代表了有限的知识覆盖范围……此外,文本中存在的非事实信息和有毒内容最终会导致结果模型出现偏差。”

从知识图谱结构化数据到自然语言文本

研究人员表示,将知识库信息集成到训练中的一个问题是知识库数据是结构化数据的形式。

解决方案是使用称为数据到文本生成的自然语言任务将知识图结构化数据转换为自然语言文本。

他们解释说,由于数据到文本的生成具有挑战性,他们创建了他们所谓的新“管道”称为“来自 KG 生成器 (TEKGEN) 的文本”来解决问题。

引文: 用于知识增强语言模型预训练的基于知识图的综合语料库生成 (PDF)

TEKGEN 自然语言文本提高了事实准确性

TEKGEN 是研究人员创建的用于将结构化数据转换为自然语言文本的技术。 正是这个最终结果,即事实文本,可用于创建 KELM 语料库,然后可将其用作机器学习预训练的一部分,以帮助防止偏见进入算法。

研究人员指出,将这种额外的知识图谱信息(语料库)添加到训练数据中可以提高事实准确性。

TEKGEN/KELM 论文指出:

“我们进一步表明,用语言表达一个全面的、百科全书式的知识图谱(如 Wikidata)可用于整合结构化的知识图谱和自然语言语料库。

…我们的方法将 KG 转换为自然文本,使其能够无缝集成到现有的语言模型中。 它具有进一步的优势,即提高了事实准确性并降低了生成的语言模型的毒性。”

KELM 文章发布了一个插图,展示了如何连接一个结构化数据节点,然后从那里转换为自然文本(口头化)。

我把插图分成两部分。

下面是表示知识图结构化数据的图像。 数据连接到文本。

TEKGEN转换过程第一部分截图

谷歌 KELM 连接

下图表示 TEKGEN 流程的下一步,该流程采用连接的文本并将其转换为自然语言文本。

文本转换为自然语言文本的屏幕截图

Google KELM 语言化知识图谱数据

生成 KELM 语料库

还有一个插图显示了如何生成可用于预训练的 KELM 自然语言文本。

TEKGEN 论文显示了这个插图和描述:

TEKGEN 的工作原理

  • “在第 1 步中,KG 三元组使用远程监督与维基百科文本对齐。
  • 在步骤 2 和 3 中,首先在这个语料库上依次微调 T5,然后在 WebNLG 语料库上进行少量步骤,
  • 在步骤 4 中,对 BERT 进行微调,为生成的句子 wrt 三元组生成语义质量分数。
  • 步骤 2 、 3 和 4 一起形成 TEKGEN。
  • 为了生成 KELM 语料库,在步骤 5 中,使用步骤 1 中生成的训练语料库中的关系对对齐计数来创建实体子图。
    然后使用 TEKGEN 将子图三元组转换为自然文本。”

KELM 致力于减少偏差并提高准确性

发表在 Google 的 AI 博客上的 KELM 文章指出,KELM 具有实际应用,特别是对于与信息检索(搜索)和自然语言处理(BERT 和 MUM 等技术)明确相关的问答任务。

谷歌研究了很多东西,其中一些似乎是探索什么是可能的,但在其他方面似乎是死胡同。 可能不会进入谷歌算法的研究通常会以这样的声明结束,即需要更多的研究,因为该技术无法以某种方式满足期望。

但 KELM 和 TEKGEN 的研究并非如此。 这篇文章实际上对这些发现的实际应用持乐观态度。 这往往使 KELM 最终以一种或另一种形式进入搜索的可能性更高。

这就是研究人员如何总结关于 KELM 以减少偏见的文章:

“这对于知识密集型任务具有实际应用,例如问答,在这些任务中提供事实知识是必不可少的。 此外,这样的语料库可以应用于大型语言模型的预训练,并且可以潜在地降低毒性并提高真实性。”

KELM 会很快使用吗?

谷歌最近宣布的 MUM 算法需要准确性,这是创建 KELM 语料库的目的。 但KELM的应用并不局限于MUM。

减少偏见和事实准确性是当今社会的一个关键问题,研究人员对结果持乐观态度这一事实往往会使其在未来以某种形式用于搜索的可能性更高。

引文

Google AI 文章是骗局
KELM:将知识图与语言模型预训练语料库集成

KELM 研究论文 (PDF)
用于知识增强语言模型预训练的基于知识图的综合语料库生成

GitHub 上的 TEKGEN 培训语料库

给TA打赏
共{{data.count}}人
人已打赏

Google 更新 AMP 验证工具以支持网络故事

2020-7-28 21:24:53

TikTok揭示了在其平台上制作高性能广告的原因

2021-9-6 15:18:03

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索