什么是GPT-3,新的Openai语言模型?
回到1968年,一个名为Shrdlu的程序被设计为在虚拟世界中堆叠块,并以下列方式与人类互动:
人:请您堆叠两个红色块和绿色多维数据集或金字塔吗?
计算机:好的。
人:哪个立方体坐在桌子上?
计算机:大的绿色支撑着红色的金字塔。
人:在金字塔后面有一个大石块吗?
计算机:是的,其中三个:一个大红色的一个,一个大的绿色立方体和蓝色。
当他们目睹自然语言处理(NLP)能力和“智能”等互动小说程序时,初步惊奇的人Shrdlu.和伊丽莎这与OpenAI的《生成预训练变压器3》(GPT-3)所产生的兴奋感非常相似。
GPT-3如何捕捉人们的想象力
- 汇总页面上的数据回答一个问题和简化法律文件。
- 检测模式序列自动填充数据在Excel和产生颜色刻度。
- 生成段落或诗歌在提示有样品句时。
- 生成网站前端布局和SQL查询从普通英语。
- 用作搜索引擎也可以接受培训的“我不知道“奇怪的问题。
- 语言翻译,基本算术,解读单词和学习利用新词。
而创造性的演示GPT-3确实令人印象深刻,并且获得了Openai的首席执行官等“令人沮丧的好”等恭维的恭维,Sam Altman,建议它用少量盐拍摄:
“GPT-3炒作太多了。这令人印象深刻(谢谢你的恭维!)但它仍然具有严重的弱点,有时会产生愚蠢的错误。AI将改变世界,但GPT-3只是一瞥。我们有很多仍然弄清楚。“
萨姆-奥特曼那Openai的首席执行官
那么GPT的“秘密酱”是什么?
这变压器模型是利用一系列专用神经网络的关键突破,以捕获生成数额的矩阵的公式的单词模式。
这些数字是成为语言模型(LM)的一部分的概率值,它表示单词彼此相关的强烈。在下面的图像中显示了粗略的插图,其中较暗的颜色在矩阵中表示较大的数字,表示更强的关联。
这些数字(称为“注意力分数”)反映了句子的上下文和风格。这种注意力模型允许对整个句子进行评估,从而加快计算和并行计算的速度。GPT将生成的上下文存储为“神经权值”(代表神经网络节点之间关联强度的数字)。当给定单词作为输入时,这些广义神经权值有助于GPT产生相应的文本输出。
可以矩阵可以理解语言吗?
传统上,NLP需要大量的手工注释、规则创建和微调,因为句子中单词的上下文通常位于前面的句子或不清楚。例如,在句子"机器人闪耀着苹果,因为它很小“,话语”它”和“小可以指苹果,也可以指机器人。就像SHRDLU一样,即使是GPT-3也不懂语言。它仅仅捕捉句子中的句型。以下是GPT的演变过程:
GPT-1
这第一个版本的方法使用一个稍微修改过的变压器模型。它需要执行的各种任务(如下图所示)需要专门的体系结构和人工监督的微调。
GPT-2
GPT-2不再需要创建微调架构。要理解它,想想说英语的人是怎么知道的。我们都喜欢喜剧片是不正确的语法,即使他们可能无法解释为什么它是错误的(“我们”是复数代词)。
反复遇到正确的语法,就会产生这种记忆。研究人员意识到,由于句子包含一个内在的结构,注意力概念也可以在没有人监督的情况下“记忆”和理解任务,仅仅是暴露在许多高质量的句子中。例如,这个句子“把“hello”从德语翻译成拉丁语“提到输入作为德语,输出作为拉丁语和任务作为翻译。使用125亿个神经重量和大量的40千兆字节(GB)的高质量文本数据集,GPT-2的结果令人印象深刻。
它将语言一般化到足以生成新闻文章,进行语言翻译并回答诸如“他写了《物种起源》这本书”。
GPT-3
通过更大的数据集改善模型的学习的事实鼓励,研究人员用改进的注意层调整了GPT-2,创建了GPT-3,并在来自书籍和互联网的570 GB文本上培训。它需要175亿美元的神经重量(参数)来捕获此数据。
GPT-3对语言建模,翻译,致辞推理和回答问题的特定任务进行了比较良好。然而,自然语言推理(理解句子之间的关系)基准部分暴露了GPT-3的弱点,导致Word Repetitition,产生句子时缺乏连续性和矛盾。
更重要的是,它没有理解现实世界的工作原理(它无法回答问题“奶酪会在冰箱里融化吗?“)。此外,模型的纯粹尺寸使训练成千上万的速度昂贵数学运算/ S-Days,易于偏见,一般来说,作为AI系统不方便。
结束
虽然研究论文在GPT-3上表明它可以根据具体用例定制它,Openai(和AI研究一般)在策划相关培训内容并在语音识别或转录等领域进行测试时,有很长的路要走。
在这些域中,REV的机器学习算法是时间测试的,客户验证的和我们仍然坚强,因为世界上最好的语音识别引擎。
免费电子书:如何过渡到使用更多的人工智能