从 BERT 到 GPT-2 再到 GPT-3,大模子的限制是全部看涨,推崇也越来越惊艳。增大模子限制照旧被阐扬是一条可行的蜕变旅途,并且 DeepMind 前段本事的一些商讨标明:这条路还莫得走到头,继续增大模子依然有着可观的收益。
但与此同期,咱们也澄莹,增大模子可能并不是擢升性能的唯全部径,前段本事的几个商讨也阐扬了这少量。其中比拟有代表性的商讨要数 DeepMind 的 RETRO Transformer 和 OpenAI 的 WebGPT。这两项商讨标明,若是咱们用一种搜索 / 查询信息的花样来增强模子,小少量的生成言语模子也能达到之前大模子才略达到的性能。
在大模子一统六合的今天,这类商讨显得相配难能难得。
在这篇著作中,擅长机器学习可视化的知名博客作家 Jay Alammar 详备分析了 DeepMind 的 RETRO(Retrieval-Enhanced TRansfOrmer)模子。该模子与 GPT-3 性能相当,但参数目仅为 GPT-3 的 4%。


RETRO 整合了从数据库中检索到的信息,将其参数从腾贵的事实和宇宙学问存储中自若出来。
在 RETRO 之前,商讨社区也有一些使命经受了访佛的行为,因此本文并不是要解释它的新颖性,而是该模子自己。
将言语信息和宇宙学问信息鉴别开来
一般来讲,言语模子的任务等于做填空题,这项任务有本事需要与事实讨论的信息,比如

但有本事,若是你对某种言语比拟老到,你也不错胜仗猜出空缺部分要填什么,举例:

这种区别相配垂危,因为大型言语模子将它们所澄莹的一切都编码到模子参数中。天然这关于言语信息是挑升思真义的,但是关于事实信息和宇宙学问信息是无效的。加入检索行为之后,言语模子不错收缩许多。在文本生成经由中,神经数据库不错匡助模子检索它需要的事实信息。

跟着磨炼数据追想量的减少,咱们不错使用较小的言语模子来加快磨炼。任何人都不错在更小、更低廉的 GPU 上部署这些模子,并把柄需要对它们进行休养。
从结构上看,RETRO 是一个编码器 - 解码器模子,就像原始的 Transformer。关联词,它在检索数据库的匡助下加多了输入序列。该模子在数据库中找到最可能的序列,并将它们添加到输入中。RETRO 诈欺它的魅力生成输出量度。

在探索模子架构之前,让咱们先潜入挖掘一下检索数据库。
RETRO 的检索数据库此处的数据库是一个键值存储(key-value store)数据库。其中 key 是圭臬的 BERT 句子镶嵌,value 是由两部分组成的文本:
Neighbor,用于缱绻 key; Completion,原文献汉文本的延续。RETRO 的数据库包含基于 MassiveText 数据集的 2 万亿个多言语 token。neighbor chunk 和 completion chunk 的长度最多为 64 个 token。

RETRO 数据库里面展示了 RETRO 数据库中键值对的示例。
RETRO 将输入请示分红多个 chunk。为肤浅起见,此处重心温雅若何用检索到的文本推论一个 chunk。但是,模子会针对输入请示中的每个 chunk(第一个 chunk 以外)实行此经由。
数据库查找在点击 RETRO 之前,输入请示插足 BERT。对输出的险阻文向量进行平均以构建句子镶嵌向量。然后使用该向量查询数据库。

使用 BERT 惩处输入请示会生成险阻文化的 token 镶嵌 。对它们求平均值会产生一个句子镶嵌。
然后将该句子镶嵌用于近似最隔邻搜索。检索两个最隔邻,它们的文本成为 RETRO 输入的一部分。

BERT 句子镶嵌用于从 RETRO 的神经数据库中检索最隔邻。然后将这些添加到言语模子的输入中。
当今 RETRO 的输入是:输入请示偏激来自数据库的两个最隔邻(偏激延续)。
从这里开动,Transformer 和 RETRO 块将信息归并到它们的惩处中。

检索到的隔邻被添加到言语模子的输入中。关联词,它们在模子里面的惩处花样略有不同。
高等次的 RETRO 架构
RETRO 的架构由一个编码器堆栈和一个解码器堆栈组成。

RETRO Transformer 由一个编码器堆栈(惩处隔邻)和一个解码器堆栈(惩处输入)组成
编码器由圭臬的 Transformer 编码器块(self-attention + FFNN)组成。Retro 使用由两个 Transformer 编码器块组成的编码器。
解码器堆栈包含了两种解码器 block:
圭臬 Transformer 解码器块(ATTN + FFNN) RETRO 解码器块(ATTN + Chunked cross attention (CCA) + FFNN)
组成 RETRO 的三种 Transformer 模块
编码器堆栈会惩处检索到的隔邻,生成后续将用于瞩主张的 KEYS 和 VALUES 矩阵。
解码器 block 像 GPT 相似惩处输入文本。它对请示 token 应用自瞩主张(因此只温雅之前的 token),然后通过 FFNN 层。

惟有到达 RETRO 解码器时,它才开动归并检索到的信息。从 9 开动的每个第三个 block 是一个 RETRO block(允许其输入温雅隔邻)。是以第 9、12、15…32 层是 RETRO block。

下图展示了检索到的信息不错浏览完成请示所需的节点法子。
