跳到内容

什么是GPT-3,新的Openai语言模型?

瑞恩•泰勒

8月4日,2020年8月4日

什么是OpenAI GPT-3

>博客>人工智能>什么是GPT-3,新的Openai语言模型?

回到1968年,一个名为Shrdlu的程序被设计为在虚拟世界中堆叠块,并以下列方式与人类互动:

人:请您堆叠两个红色块和绿色多维数据集或金字塔吗?

计算机:好的。

人:哪个立方体坐在桌子上?

计算机:大的绿色支撑着红色的金字塔。

人:在金字塔后面有一个大石块吗?

计算机:是的,其中三个:一个大红色的一个,一个大的绿色立方体和蓝色。

当他们目睹自然语言处理(NLP)能力和“智能”等互动小说程序时,初步惊奇的人Shrdlu.伊丽莎这与OpenAI的《生成预训练变压器3》(GPT-3)所产生的兴奋感非常相似。

GPT-3如何捕捉人们的想象力

创造性的演示GPT-3确实令人印象深刻,并且获得了Openai的首席执行官等“令人沮丧的好”等恭维的恭维,Sam Altman,建议它用少量盐拍摄

“GPT-3炒作太多了。这令人印象深刻(谢谢你的恭维!)但它仍然具有严重的弱点,有时会产生愚蠢的错误。AI将改变世界,但GPT-3只是一瞥。我们有很多仍然弄清楚。“

萨姆-奥特曼Openai的首席执行官

那么GPT的“秘密酱”是什么?

变压器模型是利用一系列专用神经网络的关键突破,以捕获生成数额的矩阵的公式的单词模式。

这些数字是成为语言模型(LM)的一部分的概率值,它表示单词彼此相关的强烈。在下面的图像中显示了粗略的插图,其中较暗的颜色在矩阵中表示较大的数字,表示更强的关联。

这些数字(称为“注意力分数”)反映了句子的上下文和风格。这种注意力模型允许对整个句子进行评估,从而加快计算和并行计算的速度。GPT将生成的上下文存储为“神经权值”(代表神经网络节点之间关联强度的数字)。当给定单词作为输入时,这些广义神经权值有助于GPT产生相应的文本输出。

可以矩阵可以理解语言吗?

传统上,NLP需要大量的手工注释、规则创建和微调,因为句子中单词的上下文通常位于前面的句子或不清楚。例如,在句子"机器人闪耀着苹果,因为它很小“,话语””和“可以指苹果,也可以指机器人。就像SHRDLU一样,即使是GPT-3也不懂语言。它仅仅捕捉句子中的句型。以下是GPT的演变过程:

GPT-1

第一个版本的方法使用一个稍微修改过的变压器模型。它需要执行的各种任务(如下图所示)需要专门的体系结构和人工监督的微调。

GPT-2

GPT-2不再需要创建微调架构。要理解它,想想说英语的人是怎么知道的。我们都喜欢喜剧片是不正确的语法,即使他们可能无法解释为什么它是错误的(“我们”是复数代词)。

反复遇到正确的语法,就会产生这种记忆。研究人员意识到,由于句子包含一个内在的结构,注意力概念也可以在没有人监督的情况下“记忆”和理解任务,仅仅是暴露在许多高质量的句子中。例如,这个句子“把“hello”从德语翻译成拉丁语“提到输入作为德语,输出作为拉丁语和任务作为翻译。使用125亿个神经重量和大量的40千兆字节(GB)的高质量文本数据集,GPT-2的结果令人印象深刻。

它将语言一般化到足以生成新闻文章,进行语言翻译并回答诸如“他写了《物种起源》这本书”。

GPT-3

通过更大的数据集改善模型的学习的事实鼓励,研究人员用改进的注意层调整了GPT-2,创建了GPT-3,并在来自书籍和互联网的570 GB文本上培训。它需要175亿美元的神经重量(参数)来捕获此数据。

GPT-3对语言建模,翻译,致辞推理和回答问题的特定任务进行了比较良好。然而,自然语言推理(理解句子之间的关系)基准部分暴露了GPT-3的弱点,导致Word Repetitition,产生句子时缺乏连续性和矛盾。

更重要的是,它没有理解现实世界的工作原理(它无法回答问题“奶酪会在冰箱里融化吗?“)。此外,模型的纯粹尺寸使训练成千上万的速度昂贵数学运算/ S-Days,易于偏见,一般来说,作为AI系统不方便。

结束

虽然研究论文在GPT-3上表明它可以根据具体用例定制它,Openai(和AI研究一般)在策划相关培训内容并在语音识别或转录等领域进行测试时,有很长的路要走。

在这些域中,REV的机器学习算法是时间测试的,客户验证的和我们仍然坚强,因为世界上最好的语音识别引擎。

免费电子书:如何过渡到使用更多的人工智能