海量研报在线阅读 高效提升商业认知
解析ChatGPT背后的技术演进
2023-03-27
1
敬请关注文后特别声明与免责条款
[Table_Summary]
解析 ChatGPT 背后的技术演进
方正证券研究所证券研究报告
行业专题报告
行业研究
计算机行业
2023.03.22/推荐
分析师:
方闻千
登记编号
S1220517040005
[Table_Author]
重要据:
[Table_IndustryInfo]
上市公司总家数
287
总股本(亿股)
1974.76
销售收入(亿元)
14902.06
利润总额(亿元)
1543.42
行业平均 PE
69.82
平均股价()
27.66
行业对指表现
数据来源:
wind
方正证券研究所
相关研究
[TABLE_REPORTINFO]
《方正证券计算机行业事件点评报告:办公
正式进入 AI 时代》2023.03.19
《启明星辰:运营商国资云核心标的,未来
有望迎来估值重塑》2023.03.02
《中科创达:业务快速增长,持续看好汽车
+IOT 成长空间》2023.03.01
《数字中国规划发布,开启数字经济新浪潮》
2023.02.28
自然语言处理(Natural Language Processing, NLP)的发展
历程可分为三个阶段;
1)上世纪 80 年代之前,人工智能开始萌芽,基于规则的语言
系统占据主导,出现了机器翻译以及语言对话的初级产品;
21980 年之后,机器学习在全球范围内兴起,自然语言处理
走向纯粹的统计学,90 年代后神经网络引入,NLP 进入了快速
发展期,并在 2000 年后逐渐开启了商业化进程;
32017 年,Google Attention is All You
Need提出了基于 Attention 注意力机制构建的 Transformer
模型,2018 OpenAI GPT 模型以及 Google BERT 模型均
是在 Transformer 的基础上构建,大语言模型时代正式开启。
Attention 注意力机制与 Transformer 是大语言模型的基石。
1Attention 机制在并行计算(效率更高)以及解决长距离信
息依赖的能力(效果更好)上优于过去的神经网络模型。
2Transformer 模型没有使用传统 CNN RNN 结构,其完全
是由 Attention 机制组成,其中 Self-Attention(自注意力
Transformer 的核心。
3OpenAI GPT 模型和 Google BERT 模型虽然都是基于
Transformer 所构建,但 GPT 模型仅使用了解码器的部分,而
BERT 仅使用了编码器的部分,二者在技术路线上也走向了两条
不同的道路。
GPT 模型的持续进化与能力突变:从 CPT-1 CPT-4
1GPT-1:有监督学习和无监督学习的结合,模型的语言泛化
能力不够,更接近于处理特定语言任务的专家模型,而非通用
的语言模型;
2GPT-2:舍弃了模型微调,让多个不同的任务在同一个模型
上学习,构建了换一个泛化能力更强的语言模型,开始让语言
模型的通用性得到了更加充分的展现;
3GPT-3在训练方法上则采取 In-context 学习数量相
较于 GPT-2 提升了两个数量级,到了 1750 亿,数据集在处理
前容量达到了 45TB,是真正意义上的超大语言模型
4ChatGPT:引入人类反馈的强化学习(RLHF)及近端策略优
化算法PPO等新的训练方式后,语言生成能力大幅提升,
且涌现出了思维链及逻辑推理等多种能力。
5GPT-4:在推理能力、文本生成能力、对话能力等方面有了
进一步提升的同时,实现了从大语言模型向多模态模型进化的
第一步。
2
[Table_Page]
计算机-行业深度报告
敬请关注文后特别声明与免责条款
未来展望:多模态和 AIGC近年来 Google微软等海外大厂均
已经在大模型上展开布局,行业竞争门槛正在迅速提升,头部
厂商在算力资源、数据积累等方面的竞争优势将进一步凸显。
目前大模型的应用已经不局限于 NLP 领域,计算机视觉、多模
态等领域的大模型开始涌现,而生成算法、大模型与多模态为
三大底层技术的突破成为了 AIGC 的质变的关键。AIGC 作为人
工智能最重要的演进方向,能够自主生成创造出文字、图片、
语音、视频、代码等各种形式的内容,将深度改变办公、商、
娱乐、教育、媒体等各行各业,并引领人工智能实现从感知理
解到生成创造的跃迁。
相关标的:ChatGPT 及大语言模型受益标的涉及平台、算法、
场景、算力四大类厂商:1台:百度、阿里、腾讯、3602
应用:金山办公、科大讯飞、光云科技、同花顺、万兴科技、
致远互联、福昕软件、漫步者、虹软科技、当虹科技、凌志软
件;3算法:科大讯飞、拓尔思、海天瑞声、云从科技、商汤
科技;4算力:寒武纪,海光信息、浪潮信息、紫光股份、
科曙光、优刻得、青云科技。
风险提示:产业变革和新技术落地节奏不及预期;AI 技术的发
展易引起法律和监管问题;中美贸易摩擦加剧风险
hYdWdVsUqNqNtOaQcMbRnPpPsQnOlOrRtQkPoMtPaQnMsOwMnRmNMYtPtN
3
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
目录
1 自然语言处理的发展历史回顾 ................................................................................................... 5
2 Attention 注意力机制的基本原理............................................................................................... 6
3 Transformer 构建大模型的基石 ................................................................................................ 15
4 持续进化:从 GPT-1 GPT-3 ................................................................................................. 20
5 能力突变:从 ChatGPT GPT-4 ........................................................................................... 24
6 未来展望:多模态和 AIGC ...................................................................................................... 31
7 投资策略 ..................................................................................................................................... 37
8 风险提示 ..................................................................................................................................... 38
4
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
图表目录
图表 1NLP 技术发展的主要阶 ........................................................................................................................ 6
图表 2:人类视觉的注意力机制 ........................................................................................................................... 7
图表 3RNN 主要用于序列数据处理 ................................................................................................................... 8
图表 4RNN 的基本结构 ....................................................................................................................................... 9
图表 5LTSM 的基本结构 .................................................................................................................................... 10
图表 6CNN 的基本结 ..................................................................................................................................... 11
图表 7Attention 的基本结构 ............................................................................................................................. 12
图表 8:计算机视觉中的感受野 ......................................................................................................................... 12
图表 9Attention 用于表示词与词的相关程度 ................................................................................................. 13
图表 10Self-Attention 的计算过程 .................................................................................................................... 15
图表 11:语言理解与生成的基本原理 ............................................................................................................... 16
图表 12Transformer 由编码器和解码器两部分构成 ....................................................................................... 16
图表 13Transformer 的基本结构 ....................................................................................................................... 17
图表 14Masked Self-attention 机制 ................................................................................................................... 18
图表 15:不带 Masked Self-attention 机制 ..................................................................................................... 18
图表 16GPT 模型的语言生成模 .................................................................................................................... 19
图表 17Transformer 是大语言模型的基石 ....................................................................................................... 20
图表 18:针对不同下游任务进行训练 ............................................................................................................... 21
图表 19GPT-2 舍弃了模型微调部分 ................................................................................................................. 22
图表 20GPT-3 In-context 方式与传统微调方式的对比 ............................................................................... 23
图表 21:训练不同模型所需要的算力对比 ....................................................................................................... 24
图表 22GPT-3 Few-shot 上有很好的表现 .................................................................................................... 24
图表 23:从 GPT-3 ChatGPT 的迭代路径 ........................................................................................................ 25
图表 24ChatGPT 在文本生成方面展现出了强大的能力 ................................................................................. 26
图表 25:强化学习的基本原理 ........................................................................................................................... 27
图表 26ChatGPT 的训练过程 ............................................................................................................................ 28
图表 27ChatGPT 人工标注团队 ........................................................................................................................ 29
图表 28GPT-4 模型性能要显著优于 GPT-3.5.................................................................................................... 30
图表 29GPT 模型演进的 5 个阶段 .................................................................................................................... 30
图表 30:海外大语言模型整体情况 ................................................................................................................... 32
图表 31:国内大模型现 ................................................................................................................................... 33
图表 32:生成算法、大模型、多模态 AIGC 的底层技术 .............................................................................. 34
图表 33AIGC 的应用场景 .................................................................................................................................. 35
图表 34GPT-4 嵌入 Offcie .................................................................................................................................. 36
图表 35:百度文心大模型全景图 ....................................................................................................................... 37
5
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
1 自然语言处理的发展历史回顾
自然语言处理Natural Language Processing, NLP作为人工智能的
研究在帮解释类语
NLP 的主要发展历程,可大致分为三个阶段:1上世纪 80 年代之前,
人工智能开始萌芽,基于规则的语言系统占据主导;280 年代之后,
从机器学习的兴起到神经网络的引入,带动了 NLP 的快速发展和商
化;32017 年至今,基于 Attention 注意力机制构建的 Transformer
模型开启了大语言模型时代。
第一阶段:基于规则的语言系统。在上世纪 50 年代前后,人工
能就已经诞生1956 召开了达特茅斯会议,首次正式提出了“人工智
能”1980 年,自然语言处理的分为了两大阵营,分别为基于语言
则的符号派和基于概率统计的随机派,而当时基于规则方法的势头明
显强于基于概率统计的势头,因此当时大多数 NLP 系统都使用复杂
的逻辑规则,能够处理包括字符匹配、词频统计等一些简单的任务
同时在这一时期,也产生了一些机器翻译以及语言对话的初级产品
比较著名的是 1966 MIT 发布的世界上第一台聊天机器人 Eliza
Eliza 能够遵循简单的语法规则来实现交流。但总体来看,这一时期
NLP 领域形成的成果还无法商业化包括机器翻译的成本还是远高于
人工翻译,而且还无法与人真正实现基本的对话。
第二阶段:从机器学习到神经网络。1980 年美国的卡内基梅隆大学召
开了第一届机器学习国际研讨会标志着机器学习在全世界兴起,
自然语言处理也逐渐走向纯粹的统计学。90 年代以后,神经网络模型
被引入到 NLP 领域,其中最著名的两个神经网络模型为循环神经网
Recurrent Neural Network, RNN)和卷积神经网络(Convolutional
Neural NetworksCNN),特别是 RNN 因其处理序列数据的特性,
成为了大部分 NLP 模型的主流选择2000 年后,一方面 Multi-task
learningWord EmbeddingSeq2seq 等层出不穷的新技术推动了 NLP
技术的快速进步,另一方面 NLP 逐步实现了商业化,包括机器翻译
文本处理等商业化产品开始大量出现。
第三阶段:基于 Attention 注意力机制构建的 Transformer 模型奠定
了大语言模型的基础。2017 Google 机器翻译团队发布了著名论文
Attention is All You Need》,提出了基于 Attention 注意力机制构建
Transformer 模型,这也成为了 NLP 历史上的一个标志性的事件。
相较于传统的神经网络, Attention 注意力机制构建的 Transformer
模型在提升了语言模型运行的效(效率更高)同时能够更好的
捉语言长距离依赖的信息(效果更好2018 OpenAI 公司的 GPT
以及 Google 公司的 BERT Attention
Transformer 而构建, NLP 也正式进入到了大语言模型的全新阶段。
6
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
图表 1NLP 技术发展的主要阶段
资料来源:真格CSDN、方正证券研究所绘制
2 Attention 意力机制的基本原理
注意力Attention机制与 Transformer 模型构建了大语言模型的基
石。注意力(Attention)机制最早由 Bengio 团队在 2014 年提出,随
后开始广泛应用在深度学习中的各个领域。Attention 的思想很简单,
它的最初灵感来源于人类的视觉即当人用眼睛观察东西的时候,
首先快速扫描全局图像,然后再捕捉需要重点关注的目标区域,将视
觉重点聚焦在这个目标区域,对重点区域投入更多注意力资源,同时
忽略其他信息。因此 Attention 机制最早应用在计算机视觉领域,用
于捕捉图像上的感受野,随后在 NLP 领域也开始得到应用,并且在
NLP 2017 Google 发布
Transformer 模型, Transformer 中抛弃了传统的 CNN RNN 结构,
整个网络完全是 Attention 机制组成,2018 Google BERT 模型
以及 OpenAI 公司的 GPT 模型都是在 Transformer 的基础上构建。
7
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
图表 2:人类视觉的注意力机
资料来源:Usable World、方正证券研究所
Attention 注意力机制应用于 NLP 领域以前,大部分语言模型都是
基于 RNN CNN 所构建,特别是 RNN 处理序列信息的特性,使得
其在 NLP 领域得以广泛应用。RNN 对处理具有序列特性的数据非常
有效,比如在自然语言处理领域,将每一个字或每一个词的组合作为
一个序列;在语音处理领域,将每一帧的声音信号的组合作为一个
;在时间序列方面,比如股价数据将每一天或者每一时刻的股票
价格的组合作为一个序列。因此通过利用了 RNN 处理序列数据的能
在语机器中取多成期的
NLP 商业化产品都是基于 RNN 所构建。与此同时,为什么说后来的
Attention 机制优于之前的 RNN 以及 CNN,可以从运算机制和算法思
想等方面对三者的角度做一个直观对比。
8
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
图表 3RNN 主要用于序列数据处理
语言序列
语音序列
时间序列
将每一帧的声音信号的组
合作为一个序列
RNN
将每一个字或每一个词的
组合作为一个序列
将每一时点的数据组合作
为一个序列
......
将每一帧的声音信号的组
合作为一个序列
资料来源:方正证券研究所绘
首先,RNN NLP 领域得到广泛应用的同时,其算法机制一直存在
着两个缺点,第一个缺点就是语言的长距离信息会被弱化。比如在这
样的长句子中原来是你把我的苹果拿走了,下次记得提前跟我说
一声,我还得用它来发邮件呢”,我们要确定苹果指代的是苹果电
/手机还是水果,就需要进行通过长距离的信息学习。由于在 RNN
模型中,对序列中的元素是按顺序处理的,比如在第一个 RNN 层中
的第二个节点 h2,它的计算是由第一个节点 h1,即词向量 1 输入模
型后得出的结算结果,以及词向量 2 输入,二者共同决定的。在
RNN 模型中,两个词之间的交互距离可以认为是他们之间的相对距
离,因此第 1 个词和第 n 个词之间的交互距离 n-1,因此如果一个
序列足够长,RNN 模型中的节点经过许多阶段的计算后,之前比较长
的时间片的特征已经被覆盖,很难将将信息从较早的时间步传送到
面的时间步,距离越远的信息越容易被忽略掉。虽然在实际情况下
大多数词的词义在一个较小范围的上下文语义环境中就可以确定
于一个更好的语言模型而言,我们的期望是模型能够更好的获取长
离的信息。
RNN 的第二个缺点就是 RNN 是串行处理机制所带来的计算效率低的
问题。从 RNN 实现的原理来讲,是因为每个时间步(time step)的
计算,都依赖于对前一时间步的计算和输出结果,难以进行并行化运
算进行加速。并且在长句中的每个时间步都包括一 memory I/O
作,这导致了模型的性能严重受限于 GPU 的最大线程和最大内存带
宽的约束。特别是在处理长句的训练样本时,RNN 存在的模型运行速
度慢的问题会体现的更加明显因此导致了语言模型中能够堆叠 RNN
的数量受到了明显的限制。
9
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
图表 4RNN 的基本结构
词向量1
词向量1
词向量2
词向量2
词向量3
词向量3
• • •
• • •
词向量n-1
词向量n-1
词向量n
词向量n
输入
RNN
RNN
输出
• • •
h1 h2 h3 • • •
h
n--1
h
n
h2
资料来源:CSDN、方正证券研究所绘制
为了应对 RNN 模型存在的缺陷,一般会使用双向的 RNN LSTM
长时间的短期记忆网络(Long Short-Term Memory Networks),比
传统 RNN 在长距离信息识别方面有更好的表现。双向 RNN 结构作为
RNN 的变体,在使用一个 RNN 对序列中的元素从左往右进行处理的
同时,另一个 RNN 对序列从右向左进行处理,因此能够在一定程度
化对息的考虑子的双向
RNN 的缺点在于需要完整数据的序列,比如语音识别系统中必须等
待一个人说完整句话,才能做出识别这样就有一个比较长的等待
间。而 LSTM 作为一种带有门控Gate)机制 RNN 模型,是一种
让信息选择式通过的方法,门控可以只保留有效信息来进行预测,
忘记不相关的数据。因此能够记住重要的信息,而忽略无关紧要的信
息。LSTM 虽然理论上可以对历史信息进行有选择的存储和遗忘,
是门控参数量一定的情况下,这种能力是一定的。随着句子的增长
相对距离的增大,存在明显的理论上限。
10
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
图表 5LSTM 的基本结构
输入门 输出门遗忘门
资料来源:CSDN、方正证券研究所
相较于 RNN NLP 领域的广泛应用,CNN 此前较多应用于计算机
视觉领域,同样,CNN 也存在长距离信息丢失的问题。 CNN
运算机制来看,一层 CNN 每个节点覆盖的语义环境范围是一定
的,这是由 CNN 存在的感受视野(Receptive Field)所决定的,比如
第一层 CNN 中第二个节点 h2 的计算只利用了词 1、词 2、词 3 的信
息。而第二个 CNN 层覆盖的语义环境范围会变大,且越往上层覆盖
的语义环境会变得越大因此,在语言序列中,一个词首先会与自
距离较近的词发生交互,比如在第一层的第二个节点 h2 中, 1、词
2、词 3 发生了交互,而距离较远的词如词 1 和词 n则需要在高层
上才能发生交互因此词与词之间的信息的获取与相互关键,取决于
它们之间的相对距离,距离越远,信息获取的难度也就越大,因此同
样,CNN 也存在语言序列的长距离信息依赖的问题。
11
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
图表 6CNN 的基本结构
词向量1
词向量1
输入
CNN
CNN
输出
词向量2
词向量2
词向量3
词向量3
• • •
• • •
词向量n-1
词向量n-1
词向量n
词向量n
• • •
h
n
h1 h2 h3 • • •
h
n--1
资料来源:CSDN、方正证券研究所绘制
相较于 RNN CNNAttention 注意力机制的原理就是在每一层的
计算中都考虑了词与词之间的全连接关系在模型的并行化运算的同
时,能够很好的解决长距离信息依赖的问题。 Attention 的计算过
程来看,一个语言序列中的每一个词和 Attention 中每一个节点都
全连接的关系,比如第一层中第一个节点 h1 的计算会考虑全部输入
1 到词 n 的信息,第一 Attention 层和第二个 Attention 层之间
的全部节点也都是全连接的关系因此任意两个词之间的交互与词
与词之间的远近距离都不存在关系。句子中每个词义的确定,都考虑
了与整个句子中所有的词的关系(计算量更大因此这样能够更
的捕捉到长距离的信息,就算文本或者语句比较长,也能够抓住重点,
不丢失掉重要的信息。同时,Attention 模型是并行计算的,每一步计
算不依赖于上一步的计算结果,可以并行处理语言序列数据,大幅提
升了语言模型运行的效率,在运算机制上更加契合现代 GPU 的硬件
架构。
12
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
图表 7Attention 的基本结构
词向量1
词向量1
词向量2
词向量2
词向量3
词向量3
• • •
• • •
词向量n-1
词向量n-1
词向量n
词向量n
输入
Attention
Attention
输出
• • •
h
n
h1 h2 h3 • • •
h
n--1
资料来源:CSDN、方正证券研究所绘制
Attention CNN 的关系来看,CNN 可以看作是有注意力范围的
Attention,而 Attention 则是实现了全连接的 CNN二者之间的区别
就是 CNN 存在的感受野Receptive Field),有局部的归纳偏置,
Attention 是全连接的,能够捕捉全局信息的。因此从训练难度的角
来说,Attention 的难度更大,因为 Attention 没有做任何的局部归纳,
因而也需要更多的数据。而早期 CNN 之所以更多的应用在视觉领域
是因为图片天然具有局部特征,因此 CNN 能做到在不需要非常多数
据的情况下有比较好的效果。但是在 NLP 领域,Attention 通常在数
据量足够的时候,表现比 CNN 更优秀。
图表 8:计算机视觉中的感受
资料来源:CSDN、方正证券研究所
13
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
Attention 的数学原理来看,就是用数字来达词与词之间的相关程
度,当数字越大时,这两个词之间相关程度越高。比如原来是你
把我的苹果拿走了,下次记得提前跟我说一声,我还得用它来发邮件
呢。”这句话中,语言模型要去理解 苹果指的是苹果电/手机还
是水果,就需要计算苹果与这个句子中其他所有词包括之间的相关系
数,用相关系数,或者说注意力分数来表达他们之间的相互联系,得
出的分数越高,那么这两个词之间的相关程度就越高。比如在这个句
子中,通过计算,能够发现苹果邮件的分数较高,最终可以得
出“苹果”指代的就是苹果电脑/手机,以此来实现了注意力机制。
图表 9Attention 用于表示词与词的相关程度
原来是你把我的苹果拿走了,下次记得提前跟我说一声,我还得用它来发邮件呢
原来是你把我的苹果拿走了,下次记得提前跟我说一声,我还得用来发邮件呢
资料来源:《Attention is All You Need》、方正证券研究所绘制
Attention 注意力机制中又包含了自注意力机制 Self-Attention、交
叉注意力机制 Cross-Attention 等,而自注意力机制 Self-Attention
Transformer 等大语言模型的核心组成部分自注意力机制指的不
是输入语句和输出语句之间的 Attention 机制(不同输入而是在输
入语句的内部元素之间发(同一输入)即在同一个句子内部实现
注意力机制。Self-Attention 的详细计算具体可分为以下三步:
阶段预处理:词的子的在运行
Attention 机制之前,需要对输入模型的语句文本进行预处理,首先需
要讲文本语句进行分词操作Tokenization),即将语言序列切分
一个个字符串对英文来说,分词操作为输出一个一个的单词,对中
文来说分词操作为输出一个一个的字。然后,我们需要将字或词向量
化(Word Embeddings)(比如在我们输入的句子中每一个词都转化
为一个向量,而这个句子则是一个矩阵, Attention 机制本质上就是
对这个输入语句的矩阵进行了多次的矩阵变换)在分词和向量化后,
得到了向量序列(a1a2a3a4),接下来需要对输入向量做矩阵
变换,即用三个权重矩阵 Wq Wk Wv(这三个权重矩阵实际上
就是我们所需要训练的内容,因为其他输入都是既定的)a1a2
a3a4分别相乘,得到三个向量序 Qq1q2q3q4),Kk1
k2k3k4),Vv1v2v3v4)。由于在 self-Attention 中,Q
14
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
KV 都是由同一个矩阵变换而来,因此 QKV 是同源的,而 Q
KV 之间的相互计算 Self-AttentionQKV),则称之为自注意
力。
第二阶段,相关程度计算:计算出词与词之间的相关程度。在预处理
之后,接下来需要通过 Q K 来计算 Attention 相关度。比如计算第
一个词与句子中的所有词(包括自己)的相关度,即用向量 q1 与向
k1k2k3k4 分别两两求点积(由两个向量的点积可以得到
个向量的相似度。因此在每次输入了两个向量后,输出一个数,比
如用 q1 k1 可以得出α1,1,而α1,1,α1,2,α1,3,α1,4 则代表
了第一个词与句子中所有词(包括自己)的相关程度,如果第一个词
和第三个词关联性较高,那么α1,3 的数值就会比较大。在计算完成
之后,再使用 Softmax 函数归一化处理就得到了α1,1,α1,2,α1,3
α1,4,使得每一个数的范围都在(0,1)之间,且所有数之和为 1最后
得到的α1,1,α1,2,α 1,3,α1,4 就代表了第一个词与其他词的相关
系数。
第三结算:输出最终结果:用相关系数来加权求和。在经过 softmax
归一化处理得到了一组注意力系数α1,1,α1,2,α1,3,α1,4 之后,
最后再依次乘以预处理的第三个向量序列 Vv1v2v3v4),
求和,即α1,1*v1+α1,2*v2+α1,3*v3+α1,4*v4,得到输出结 b1
如果 a1 a3 联性比较高, 则α1,3 的数值就会就比较大,而输
的向量 b1 就与向量 v3 更加接近,同理可以并行计算出 b2b3b4
因此,回顾整 Self-Attention 的计算过程,输入的是向量(a1a2
a3a4输出的向量b1b2b3b4就是 attention 的最终输出
结果。
15
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
图表 10Self-Attention 的计算过程
a1
q1 k1 v1
*
Softmax函数(归一化)
α
1,1
α'
1,1
a2
q2 k2 v2
*
α
1,2
α'
1,2
a3
q3 k3 v3
*
α
1,3
α'
1,3
a4
q4 k4 v4
*
α
1,4
α'
1,4
b1 b2 b3
b4
相关程度
Wq Wk Wv
权值矩阵
输入
输出
资料来源:博客园、方正证券研究所绘制
3 Transformer 构建大模型的基
Transformer 作为大语言模型的基础模型,分为编码器和解码器两大
Transformer 的结构来看, Transformer Encoder 编码器和 Decoder
解码器两个部分组成,具体而言是 6 个编码器 6 个解码器堆叠
成。而编码器-解码器结构作为语言模型的经典结构,它模拟的是大脑
理解自然语言的过程,其中编码就是将语言转化成一种大脑所能理解
和记忆的内容,而解码就是将大脑中所想的内容表达出来。比如在计
算机训练语言模型的过程中,最初是不知道“你好”Hello背后
的意思的,也不知道他们所表达的含义是相关的,而模型学习的过程,
Transformer 为代表的语言模型中编码器的功能就是把自然语言序列
映射为某种数学表达,而解码器则是再把这个数学表达映射为自然语
言序列的过程。
16
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
图表 11:语言理解与生成的基本原
语言输入
语言输出
语言理解
编码过程
语言生成
解码过程
意识概念
资料来源:方正证券研究所绘
图表 12Transformer 由编码器和解码器两部分构
Encode
编码器
Decoder
解码器
Encode
编码器
Decoder
解码器
Encode
编码器
Decoder
解码器
Encode
编码器
Decoder
解码器
Encode
编码器
Decoder
解码器
Encode
编码器
Decoder
解码器
I am a student
我是学生
输入
输出
资料来源:CSDN、方正证券研究所绘制
整个 Transformer 网络没有使用传统的 CNN RNN 结构,而完全是由
Attention 机制组成,其中 Self-Attention 则是 Transformer 最核心的组
成部分。首先看编码器 Encoder 的结构:编码器 Encoder 由两个子层
Muti-head Attention
+Add&Norm 层,中多 Muti-head Attention 是将多个 Self-Attention
接在起,质上 Self-Attention第二个子层为 Feed Forward
Neural Network(前馈神经网络)+Add&Norm 层,这一层中通过引入
了非线性函数(具体为 ReLU 激活函数,此前的自注意力层都是线性
变换)能够使得神经网络中的神经元也具有了稀疏激活性,即能够
17
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
帮助模型更好的挖掘相关特征,拟合训练数据。同时在两个子层中
均加入了 Add&Norm 层,Add&Norm 包含 Residual connection(残差连
接)和 Normalization(标准化)两个部分,这也是此前语言模型中被
验证过的有效的方法,即通过 Residual connection 用于防止网络特征
退化,而 Normalization 的使用可以加快模型的收敛速度。总的来说,
Transformer 中编码 Encoder 的多层结构即 self-attention 层与 Feed
Forward 层的堆叠使用,其中 self-attention 层是 Transformer 最核心的
部分。
图表 13Transformer 的基本结构
前馈神经网络
多头交叉注意力
带掩码的多头自注意力
输入
输出
多头自注意力
残差链接+标准化
编码器Encoder
解码器Decoder
资料来源:CSDN、方正证券研究所
Transformer 的解码器 Decoder 与编码器 Encoder 在结构上有许多共
同之处,二者的最大不同,就是解码器使用了带有遮盖的自注意力机
制(Masked Self-attention)。解码器与编码器同样也是多层结构
self-attention 层与 Feed Forward 层的堆叠使用,而二者的侧重点有
所不同的是,Decoder 是用来预测信息的,因此在训练预测能力的
候,模型需要将未来的信息遮盖住(只看上文)而不能提前看到
练的答案(不看下文),因此解码器采用了 Masked Self-attention
Masked Self-attention Self-attention 在算法原理上的主要不同,即
18
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
Masked Self-attention 每一步的计算都只能依赖当前时刻以前的输出,
而看不到当前时点之后的输出。比如在 Self-attention 中,输出的结
b2 读取了所有的输入 a1a2a3a4,而 Mask Self-attention 中,
b2 只能读取 a1a2,而读取不 a3a4信息。总的来看,解码
Decoder 的运算过程中需要进行多次 mask 操作。
图表 14Masked Self-attention 机制
a
1
a
2
a
3
a
4
b
1
b
2
b
3
b
4
资料来源:CSDN、方正证券研究所绘制
图表 15:不带 Masked Self-attention 机制
a
1
a
2
a
3
a
4
b
1
b
2
b
3
b
4
资料来源:CSDN、方正证券研究所绘制
在基于 Transformer 所构建的大语言模型中,最著名的两个模型是
OpenAI GPT Google BERT虽然二者都是基于 Transformer
GPT 模型仅使用了解码器的部分,而 BERT 仅使用了编码器的部
分,二者在技术路线上也走向了两条不同的道路。具体来说,BERT
运用了 Transformer Encoder 框架, Encoder 采用
Self-attention 机制,即训练时每一个词需要对整个输入序列的上下
19
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
进行相关性分析从模式上来看更接近于一个完形填空模型; GPT
运用了 Transformer Decoder 框架,Decoder 中的 Self-attention 机制
Mask Self-attention,在训练时会对下文进行了遮盖(mask)处理
仅基于上文,来生成下文,因此 GPT 更接近人类的语言生成模式,
适合来构建语言生成模型。
GPT 的语言生成模式来看,并不是一次性将整个序列全部生成,
而是每个字每个词逐一生成,即在生成每一个词的时候,必须先生成
它的前一个词。而每一个字的生成,会用到这个字之前的全部上文,
即全部输入+这个字之前的全部输出,比如向 GPT 提问:“地球有多
大?”GPT 的完整回答为:“地球是太阳系内第三颗最靠近太阳的
行星,其直径约为...”,而在生成“系”这个字时,所用到的信息
为:输入“地球有多大?”+“系”这个字之前所已生成的输出“地
球是太阳...”。在生成“系”之后,再依照同样的原理,也“系”
也作为上文,再生成下一个字。因此 GPT 实际上是一种自回归生成的
语言模型,而 GPT BERT 的背后则是 Transformer 的编码器与解
码器在算法思想上的差异,因此 GPT 作为基于解码器所构建的语言模
型,在其后的语言生成方面也展现出了更大的潜力
图表 16GPT 模型的语言生成模式
输出
ChatGPT
输入
上文(输入+已生成的输出)
下文(即将生成的下一个字)
资料来源:方正证券研究所绘
总体来看,2017 年发布的 Transformer 无论是在机器翻译、文本生成、
问答系统等任务处理,还是在模型训练速度上,其性能均超过了之前
的模型,而这还仅仅只是 Transformer 的初始形态。从多项测试的结
果来看:1)机器翻译任务中,Transformer WMT 2014 英德翻译任
20
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
务上,相对于之前的 SOTA 模型,实现了 2 BLEU 值的提升,
28.4 BLEU 分数;2 Transformer
WikiText-103 数据集上的困惑度仅为 18.3相对于之前最好的困惑度
20.5实现了很大的提升;3问答任务中,Transformer SQuAD
据集上的 F1 分数为 87.4优于之前最好的模型。同时,Transformer
的运行速度也有了很大提升,例如,Google 使用了 64 TPU v3 设备
Transformer 进行训练,处理英德翻译任务的速度快于之前最好
RNN 模型 7 倍。
4 持续进化:从 GPT-1 GPT-3
2018 年,自然语言处理 NLP 领域正式步入了大语言模型时代,
OpenAI 公司的 GPT 模型与谷歌的 BERT 模型在同年相继推出。2018
6 月,OpenAI 公司发布了 GPT 模型的初代版本,GPT-1 运用了
Transformer Decoder 框架中 Mask Self-attention 机制,目前已经迭
代到了最新 ChatGPT GPT-4,毫无疑问 GPT 模型已经成为了当前
最为强大的语言模型。 2018 10 月,Google 也发布了 BERT 模型,
BERT 采用了 Transformer Encoder 框架中 Self-attention 机制,作为
一个拥有 3 GPT 参数量的更大体量的语言模型,BERT 在当时的多
项测评以及业内影响力等方面,要领先于 GPT 的初代版本特别是在
BERT 开源后,包括 Facebook、百度等国内外大厂均推出
BERT 之上开发的大模型,其中包括 Facebook XLMRoBERTa
型,以及百度 ERINE 系列模型。
图表 17Transformer 是大语言模型的基石
Transformer
GPT
BERT
T5
Decoder 框架 Mask Self-attention 机制
(通过上文,生成下文)
GPT-2
GPT-3
Instruct GPT
GPT-4
M2m-100
BigBIRD
BART
Facebook
百度
Encoder-Decoder框架
Encoder 框架 Self-attention 机制
(每一个词对整个输入序列进行上下文的相关性分析)
XLM
RoBERTa
ELECTRA
ALBERT
ERINE1.0
ERINE2.0
ERINE3.0
ERINE3.0TITAN
ChatGPT
文心一言
ERINE BOT
GPT-1
资料来源:方正证券研究所绘
GPT 的初代版本来看,GPT-1 在训练方式上仍依赖于数据标注和
模型微调,同时 GPT-1 的语言泛化能力仍然不足因此可以说 GPT-1
更接近于处理特定语言任务的专家模型,而非通用的语言模型。GPT-1
21
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
的模型训练采取的是二段式的训模式第一阶段利用无监督学习进
行预训练,使用未标记的数据生成语言模型;第二阶段则根据特定
下游任务来对模型进行人工微调比如分类任务自然语言推理、语
义相似度、问答和常识推理等任务。因此相较于此前 NLP 模型,GPT-1
实际上还是一个半监督式学习的语言模型。GPT-1 在多种语言任务
面都有不错的效果,在自然语言推理分类、问答、对比相似度的多
种测评中均超越了之前的模型。但与此同时,GPT-1 的语言泛化能
仍然不足,无法解决通用的语言任务且和同时代的 BERT 模型比较
的话,GPT-1 在能力上要逊色 BERT
图表 18:针对不同下游任务进行训
TextStart TransformerExtract Linear
PremiseStart Delim Hypothesis Extract Transformer
Text 1Start Delim Text 2 Extract Transformer
Text 2Start Delim Text 1 Extract Transformer
+
ContextStart Delim Answer 1 Extract Transformer
ContextStart Delim Answer 2 Extract Transformer
ContextStart Delim Answer N Extract Transformer
Linear
Linear
Linear
Linear
Linear
分类
相似度
多选
包含
资料来源:《
Improving Language Understanding by Generative Pre-Training
》、方正证券研究所绘制
2019 2 月,GPT-2 正式发布,相较于 GPT-1GPT-2 舍弃了模型
微调,构建了一个泛化能力更强的语言模型,这也开始让模型的通用
性得以充分展现。尽管此前 GPT-1 在特定任务上已经取得了不错的效
果,但实际上这类模型都需要针对单个语言任务使用大量的标注数据
型微也只言任务时挥作用。而
GPT-2 的泛化能力就体现在,能够让模型应用到不同的任务,而不需
要做专门的训练这也更符合人脑处理语言信息的过程,因为人脑既
可以读小说,也可以看新闻,能执行不同的语言处理任务,而且这种
能力是相互关联的。而人脑在获取一个语句的信息时,这个信息是通
用的,因此我们所期望的一个通用的语言模型,既可用于分类任务
也可以用于问答和常识推理等任务。具体而言相较于 GPT-1 无监
督式预训练+有监督式学习和模型微调,GPT-2 直接舍弃了微调阶段,
直接通过大规模数据进行预训练让模型开始具备解决多种语言任务
的能力。
22
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
图表 19GPT-2 舍弃了模型微调部
资料来源:CSDN、方正证券研究所
2020 5 月, GPT-3 正式发布,GPT-3 在训练方式上创新性的引入
In-context 学习(上下文学习),即在训练模型时,在输入的文本
中加入一个或多个示例引导模型输出相对应内容比如:“请把以
下中文翻译成英文:苹果 => apple自然语言处理的发展历程”就是
一个典型的带有一个示例的输入文本。而 In-context 学习包含了三种
模式,分别为 Zero-shot Learning(零样本学习)、One-shot Learning
(单样本学习) Few-shot Learning(少样本学习),zero-shot 就是
没有示例只给提示,one-shot 是只给一个范例,few-shot 则给多个范
例,实际上 zero-shot 在表达方式上已经接近于人类的语言表达方式。
In-context 学习的优点在于,输入规范化的语言模板,从人类的例子和
类比中去学习,无需进行模型微调和数据标注,特别是大量的标注
据需要很高的人工成本。引入 In-context 学习后从最终实际效果
看,GPT-3 few-shot one-shot
zero-shot 的效果还不够优秀。因此对 one-shot zero-shot 效果的提
升也成为了下一代模型未来需要突破方向。
23
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
图表 20GPT-3 In-context 方式与传统微调方式的对比
任务描述
提示
单个例子
多个例子
零样本学习
单样本学习
少样本学习
微调
资料来源:《Language Models are Few-Shot Learners》、方正证券研究所
GPT-3 参数量相较于 GPT-2 提升了两个数量级,达到了 1750 亿,
数据集在处理前容量达到了 45TB成了真正意义上的超大语言模型。
GPT-3 在许多 NLP 任务上相较于 GPT-2 及其他语言模型有更多出色
表现,特别是机器翻译、聊天问答和文本填空同时是在海量参数
训练数据的支撑下,GPT-3 的开始能够完成一些比较困难的 NLP 任务
比如 GPT-3 也可以生成新闻报道和撰写文章,并且很难将机器写的文
章与人类写的辨别开来,甚至 GPT-3 编写 SQL 查询语句,React
JavaScript 代码也有十分优异的表现。而在 GPT-3 强大能力的背
是对算力的巨大消耗,GPT-3 的计算量达到了 BERT-base 的上千倍,
根据 OpenAI 公司披露数据,GPT-3 的训练费用超过 1200 万美元,因
此到这一阶段就能看出,大语言模型逐渐成为了只有巨头才能参与
游戏。
24
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
图表 21:训练不同模型所需要的算力对比
1000X
资料来源:《Language Models are Few-Shot Learners》、方正证券研究所
图表 22GPT-3 Few-shot 有很好的表现
资料来源:《Language Models are Few-Shot Learners》、方正证券研究所
5 能力突变:从 ChatGPT GPT-4
GPT-3 取得成功之后,OpenAI GPT-3 的基础上推出了多个迭代
版本,经过 2 年左右的时间,在 2022 11 月正式推出 ChatGPT
随即成为了全球范围内最强大的语言模型。OpenAI 公司在 GPT-3
ChatGPT 之间发布了多个迭代版本,其中包括2021 7 月推出了
Codex 系列;2022 1 月,引入 RLHF(基于人工反馈的强化学习)
得到 InstructGPT2022 4 7 月,推出了融合 Codex
25
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
InstructGPT code-davinci-002 5 月至 6
text-davinci-002 版本;11 月发布了 text-davinci-003 ChatGPT两个
模型都是使用了基于人类反馈的强化学习的版本指令微调模型。
图表 23:从 GPT-3 ChatGPT 的迭代路径
instruct微调
Code微调
规模增大
Prompt预训练
2017.6
Google
ChatGPT迭代路径
2018.6
2019.2
2020.5
2021.7
2022.1
2022.11
Transformer
GPT-1
GPT-2
GPT-3
Codex
(code-davinci-001)
InstructGPT-initial
(text-davinci-001)
Codex&Text
(code-davinci-002)
InstructGPT
(text-davinci-003)
ChatGPT
规模增大
in-context learning
code&text融合
对话语料
human alignment
SFT&RLHF
阶段1
参数规模不断变大,
融合的任务更多样、
方式更自然
阶段2:利用人工数据引导模型输出更有价值结果
数据:BookCorpus7000本书)
模型Transformer Decoder
参数:0.117B
特点:Pretrain+Finetune
数据:+Reddit高质量WebText
模型:同GPT-1,有细节优化
参数:1.5B
特点:+NLP任务的Prompt训练
&具备zero-shot能力
数据:+Filtered Common Crawl
模型:GPT-2基础上,
Sparse Transformer
参数:175B
特点:+in-context learning
few-shot learning效果大幅提升
数据:+人工标注数据
模型:GPT-3
+人工标注数据训练的评价模型
参数:175B
特点:需求理解能力大幅提升
zero-shot能力)
&生成质量提升大
资料来源:AI 语者、方正证券研究所绘制
ChatGPT 相较于 GPT-3,不仅是在文本生成等方面展现出了非常强
大的能力,与人类对话的智能感大幅提升,而且海量数据和参数的支
撑下,模型在逻辑推理与思维链等方面能力开始涌现。ChatGPT 可以
26
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
完成许多相对复杂的语言任务,可以完成包括自动文本生成、自动问
答、多轮对话等,并且能够主动承认错误,质疑不正确的问题等。此
外,ChatGPT 还能编写和调试计算机程序。目前 ChatGPT 的应用主
要包括:1聊天机器人可以使用 ChatGPT 来自由对话,使机器人
能够向用户做出自然的回应;2)编写和调试计算机程序 3文学、
媒体相关领域的创作,包括创作音乐电视剧、童话故事、诗歌和歌
词等;4)教育、考试、回答测试问题;5通过 API 结构集成到其他
应用中,目前 GPT 已经集成到了 Bing 搜索和 Office 套件。ChatGPT
在推出后仅两个月活跃用户就达到了一个亿,成为了史上用户增长速
度最快的消费级应用程序。
图表 24ChatGPT 在文本生成方面展现出了强大的能力
输出输入
现在是什么季节?
现在的季节取决于您所在的地理位置。
在北半球,如果您……
地球有多大?
地球是太阳系内第三颗最靠近太阳的行
星,其直径……
写一份奶茶店的商业
计划书
一、商业概述 奶茶店是一家专门提供
奶茶和其他饮品的小型商铺。我们的目
标是……
老师说1+1=5是正确的
通常情况下,我们认为 1+1=2 数学上
的基本常识,而 1+1=5 错误的。
-证券从业资格考试题
型有哪些?
-你错了,没有填空题
-证券从业资格考试题型通常包括两个部
分:选择题和主观题……
-非常感谢您的指正,您是对的。在证券
从业资格考试中……
WelcheJahreszeit
istes jetzt?(德语,
现在是什么季节
Je nach geographischer Lage und
aktuellem Datum kann ichnicht
bestimmenwelche
语言交互
广泛的知识储备
自然语言生成
敢于质疑
多轮对话
多语言能力
ChatGPT
资料来源:方正证券研究所绘
Reinforcement Learning from Human
FeedbackRLHF)的引入,是 ChatGPT 相较于 GPT-3 在训练策略
上最重要的变化。关于强化学习,其应用的经典案例就是围棋人工智
能机器人 Alpha GOAlpha Go 在应用了强化学习进行无数次自我对
弈训练后,其能力在短时间内得到了迅速的提升,2017 年战胜了当
围棋世界排名第一的柯洁,而强化学习也因此为大众所认知。强化学
习的原理,就是让模型不断与环境进行交互,外部环境对每一次的
互进行反馈,通过奖励或者惩罚,让模型不断调整自己的行动策略
并且逐渐找到最优的行动策略,从而达到最大化奖励的目标。比如用
强化学习训练 AlphaGo 下围棋时,会 AlphaGo 的每一步行动之后,
都给予 AlphaGo 一个明确的反馈,“好”还是“不好”让模型不
断优化对弈策略(参数调整)最终让棋子占领棋面上更多的区域并
取得胜利。
27
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
图表 25:强化学习的基本原理
奖励
行为
环境
状态
特征
神经网络模型
策略梯度模型
资料来源:大数据文摘、方正证券研究所
而在 ChatGPT 训练过程分为三步,其中最重要的部分即用人工标记
的方式,训练出一个专门评价模型,再用这个评价模型来训练 GPT
模型,通过对其输出的内容打分,进而实现模型的训练与迭代。具体
而言:
第一步:预训练初始模型。 GPT3.5 的基础上,使用有监督学习方
式,微调训练出一个初始模型。训练数据一部分来自使 OpenAI 公司
采集了 GPT-3 在公测期间用户提供的对话数据另一部分来自 OpenAI
雇佣的 40 名标注师(labeler),由标注师分别扮演用户和 AI,人工
生成人工的多轮对话数据。预训练的数据量不大,但数据的质量和
样性很高。
第二步:训练奖励模型。励模型的训练是 ChatGPT 的训练流程中最
重要的一步,具体方法就是,随机抽取一大批提示prompt),输
到第一阶段产生的模型中,模型会随机生成 K4K9)个输出
然后以两两配的形式对向标注师展示输出结果,而标注师则在两个
果中选择效果更好的,通过人工打分排序的方式,对于符合人类价值
观的内容给予较高的分数,而对人类不喜欢的内容给予较低的分数
最终实现对奖励模型的训练。
第三步:使用强化学习对语言模型进行训练。这一阶段开始应用海量
的无标注的数据所用数据来自于抓取的网页、论坛、百科上的海量
数据。将海量数据输入到预训练的模型中,通过第二步训练得到的奖
励模型来对输出的内容进行打分结合近端策略优化Proximal Policy
OptimizationPPO算法,鼓励模型输出更高质量的内容,从而实现
语言模型的训练
28
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
图表 26ChatGPT 的训练过程
步骤2 步骤3
随机抽取问题
由人类标注员给
出高质量回答
用标注好的数据
GPT-3.5进行
微调
步骤1
使用步骤1的模
型对问题进行多
次回答
人类标注员对这
些回答进行排名
用排名数据训练
奖励模型
训练监督模型
训练奖励模型 PPO算法优化模型
随机抽取问题
奖励模型进行
打分
PPO模型初始化
更新PPO模型参
PPO模型生成回
资料来源:OpenAI 官网、方正证券研究所
在展现强大能力的同时,ChatGPT 存在一定的局限性,主要受限
于标注团队的国籍分布、训练数据的语种以及训练数据的时效性。
ChatGPT 的奖励模型的训练实际上 40 OpenAI 雇佣的 40 名标注
师对模型输出结果进行训练而得到的,因此 ChatGPT 的价值观是由这
40 个外包员工的价值观组合而成40 名外包员工来自美国和东南亚
分布比较集中且人数较少,因此实际上也会存在其他地区比较在意的
偏见问题。同时 ChatGPT 训练数据 96%以上是英文,其它 20 个语种
包括中文,法语,西班牙语等合计不到 4%,因此 ChatGPT 在其他语
种上的生成能力要逊色于英文同时由 ChatGPT 训练数据只更新到
2021 年,因此在一些问题的回答上缺乏时效性。
29
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
图表 27ChatGPT 人工标注团队
性别
种族认同
国籍
年龄
受教育水平
男性
50.00%
白人
31.60%
菲律宾
22%
18-24
26.30%
高中以下
0%
女性
44.40%
东南亚
52.60%
孟加拉
22%
25-34
47.40%
高中学历
10.50%
其他
5.60%
原住民
0.00%
美国
17%
35-44
10.50%
本科学位
52.60%
东亚
5.30%
阿尔巴尼亚
5%
45-54
10.50%
硕士学位
36.80%
中东
0.00%
巴西
5%
55-64
5.30%
博士学位
0%
拉丁裔
15.80%
加拿大
5%
65+
0%
黑人/非洲裔
10.50%
哥伦比亚
5%
印度
5%
乌拉圭
5%
津巴布韦
5%
资料来源:Open AI、方正证券研究所绘制
2023 3 15 日,GPT-4 正式发布,相较于之前版本的 GPT 模型,
GPT-4 在各项能力上有了质的的突破,除了在推理能力、文本生成能
力、对话能力等方面有了大幅提升之外,GPT-4 迈出了从语言模型向
多模态模型进化的第一步。GPT-4 最大的变化即能够接受图像的输入
并且能够生成文本语言,并且在看图能力方面有让人惊喜的表现的
同时 GPT-4 的各项能力相较于此前版本也有大幅提升,包括可以处理
超过 25000 字长文本,以及写作能力的大幅提升,能够编歌曲、写剧
本、学习用户写作风格,同时包 GRESAT 等考试能力也有大幅
升。在基于机器学习模型设计的各项基准上评估 GPT-4GPT-4 大大
有的型, SOTA 语外
GPT-4 在包括拉脱维亚语、威尔士语和斯瓦希里语 26 种语言上的性
能甚至都优于现有语言模型的英语性能。
30
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
图表 28GPT-4 模型性能要显著优于 GPT-3.5
86.4%
5-shot
GPT-4
few-shot评估
GPT-3.5
few-shot评估
LM SOTA
最佳外部语言模型
few-shot评估
SOTA
最佳外部模型(包括特
定于基准的调整)
MMLU [43]
57门科目的多项选择题(专业和学术)
70.0%
5-shot
70.7%
5-shot
U-PaLM [44]
75.2%
5-shot Flan-PaLM [45]
95.3%
10-shot
HellaSwag [46]
围绕日常事件的常识性推理
85.5%
10-shot
84.2%
LLaMA (validation
set) [28]
85.6%
ALUM[47]
96.3%
25-shot
AI2 Reasoning
Challenge (ARC) [48]
小学多项选择科学问题(挑战集)
85.2%
25-shot
85.2%
8-shot
PaLM [49]
86.5%
ST-MOE [18]
87.5%
5-shot
WinoGrande [50]
围绕代词解析的常识推理
81.6%
5-shot
85.1%
5-shot PaLM [3]
85.1%
5-shot PaLM [3]
67.0%
0-shot
HumanEval [37]
Python编码任务
48.1%
0-shot
26.2%
0-shot PaLM [3]
65.8%
CodeT+GPT-3.5 [51]
80.9
3-shot
DROP [52] (F1 score)
阅读理解和算术
64.1
3-shot
70.8
1-shot PaLM [3]
88.4
QDGAT [53]
92.0%
5-shot
chain-of-thought
GSM-8K [54]
小学数学问题
57.1%
5-shot
58.8%
8-shot Minerva [55]
87.3%
Chinchilla+SFT+ORM-
RL , ORM reranking [56]
资料来源:《GPT-4 Technical Report、方正证券研究所绘制
回顾 GPT 模型演进的 5 个重要阶段,从 2018 5 月发布到 GPT 初代
版本, 2023 3 月的 GPT-4,仅 5 年时间 GPT 模型的性能就产生了
质的飞跃。在能力快速提升的背后,可以看到一方面是对训练方法的
持续迭代, GPT-1 的半监督式学习, GPT-2 舍弃了微调阶段
GPT-3 In-context 学习和海量数据以及引入了基于人工反馈的
强化学习之后,最终进化到了 ChatGpt GPT-4,另 一方面, OpenAI
公司以及微软对研发和算力的高投入,通过“大力出奇迹”的方式
支撑了模型参数和训练数据的快速膨胀。
图表 29GPT 模型演进的 5 个阶
GPT-1
2018.6发布
参数量1.17亿
GPT-2
GPT-3
ChatGPT
GPT-4
1.监督学习+无监
督学习
2.语言泛化能力
不够
3.专家模型,而
非通用语言模型
2019.2发布
参数量15亿
2020.5发布
参数量1750亿
2022.11发布
参数量未公布
2023.3发布
参数量未公布
1.舍弃模型微调
阶段
2.多个不同的任
务在同一个模型
上学习
3语言泛化能力
显著增强
1.采用In-context
学习
2.参数量相较于
GPT-2提升了两
个数量级
3.真正意义上的
超大语言模型
1.引入人类反馈
的强化学习
RLHF
2.能力大幅提升
3.涌现出了思维
链及逻辑推理等
多种能力
1.能力得到进一
步提升
2.实现了从大语
言模型向多模态
模型进化的第一
资料来源:方正证券研究所绘
31
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
6 未来展望:多模态和 AIGC
近年来包括 Google微软等海外大厂均已经在大模型上展开布局,
来随着行业竞争门槛的迅速提升,头部厂商在算力资源、数据积累等
方面的竞争优势将进一步凸显。在语言大模型方面 OpenAI 公司的 GPT
模型已经处于绝对领先地位,GoogleFacebook 等国外大厂紧随其后。
目前主流大语言模型的参数量已经达到千万级,同时背后对算力的
求也非常巨大,包括 GPT-3 的单次训练费用超过 460 万美元,总训练
费用超过 1200 万美元,未来在大模型上的“军备竞赛”也将让大
型成为了只有巨头才能参与的游戏。虽然模型的基本结构都已经通过
论文等方式公开但是各厂商在工程实践方面仍存在明显的差异,
括在数据的清洗标注以及模型的微调、训练方法等方面仍需要长时
间的研发投入和经验积累。未来可预见到,这一领域头部厂商的先发
优势和马太效应会体现的非常明显,特别是 ChatGPT 作为第一个“出
圈”的大语言模型,目前每天有数以亿计的用户在使用 GPT 模型,
着使用次数越来越多,更多的数据会被收集来不断迭代系统和算法
GPT 模型的护城河也会越来越宽。
全球范围来看,大模型的应用已经不局限于 NLP 领域,计算机视觉、
多模态等领域的大模型开始涌现。目前大模型包括三类:1)自然语
言处理(NLP模型,如 Open AI ChatGPT 模型,Google LaMDA
2计算机视觉CV模型,如微软的 Florence3多模态模型,
Open AI GPT-4 模型,Google Parti
32
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
图表 30:海外大语言模型整体情况
厂商
大模型
应用
参数
模型类型
Deep Mind
Gato
多面手的智能体
12 亿
多模态
Gpoher
语言理解与生成
2800 亿
NLP
AlphaCode
代码生成
414 亿
NLP
Microsoft
Florence
视觉识别
6.4 亿
CV
Turing-NLG
语言理解、生成
170 亿
NLP
NVIDIA
Megatron-Turing NLG
语言理解与生成、推理
5300 亿
NLP
Google
BERT
语言理解与生成
4810 亿
NLP
LaMDA
对话系统
-
NLP
Imagen
语言理解与图像生成
110 亿
多模态
PaLM
语言理解与生成、推理、代码生
5400 亿
NLP
Parti
语言理解与图像生成
200 亿
多模态
OpenAI
GPT3
语言理解与生成、推理等
1750 亿
NLP
CLIP&DALL-E
图像生成、跨模态搜索
120 亿
多模态
Codex
代码生成
120 亿
NLP
ChatGPT
语言理解与生成、推理
-
NLP
Facebook
OPT-175B
语言模型
1750 亿
NLP
M2M-100
100 种语言互译
150 亿
NLP
Stability AI
Stable Diffusion
语言理解与生成
-
多模态
资料来源:腾讯AIGC 发展趋势报告 2023》、方正证券研究所绘制
国内互联网大厂包括百度、字节、阿里等厂商均推出了自己的大模型
或披露了相关计划。总体来看,和海外头部厂商相比,国内大模型在
工程实践上尚存在一到两年以上的差距。1)百度:3 16 日百度文
心一言多模态大模型正式发布具备文学创作、商业文案创作、数理
逻辑推算、中文理解和多模态生成五个领域能力;2阿里:2021 年,
阿里推出了最大规模的中文多模态预训练大模型通义-M6,并以该模
型为底座,覆盖 NLP多模态、计算机视觉等领域,目前该模型系列
已在超过 200 个场景中提供服务;3)字节:2022 年,字节与清华
合提出的 DA-Transformer 大模型,超越了自回归 Transformer 的性
能;4腾讯:2022 年,腾讯发布了混元 AI 万亿大模型,采用腾讯太
极机器学习平台自研的训练框架 AngelPTM。此外包括 360、科大讯
飞等厂商也披露了相关产品计划
33
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
图表 31:国内大模型现状
厂商
大模型
推出时间
参数
突破点
腾讯
混元大模型
2022.4
千亿级
在五大权威数据集榜单中登顶,实现跨模态领
域的大满贯
百度
文心 PLATO
2019.10
百亿级
百亿参数中英对话预训练模型
ERNIE 3.0
2021.7
2600 亿
知识增强千亿大模型
文心一言
2023.3
-
首个中国版 ChatGPT
字节跳动
DA-Trans
former
2022.5
-
摆脱传统并行模型依赖知识蒸馏的问题,在翻
译任务中实现大幅超越
京东
K-PLUG
2019
10 亿
加速中国人工智能技术开发与落地,推动实体
经济发展
阿里巴巴
M6
2021.6
10 万亿
当时最大规模的中文多模态预训练大模型
华为云
盘古 NLP
大模型
2021.4
千亿级
千亿参数中文语言预训练模型
智源研究
悟道 2.0
2021.6
1.75 万亿
构建了全球最大中文语料数据 WuDaoCorpora
中科院自
动化所
紫东太初三模
态大模型
2021.7
千亿级
全球首个三模态大模型
360
TripleRE
2022.9
-
在数据集 ogbl-wikikg2 上取得第一、第三的成
资料来源:央广网、智东西、CSDN、百度百科、新智元、通信产业网、阿里达摩院东方网、机器之心
昇腾社区、OGB 榜单、方正证券研究所绘制
AIGC 是人工智能的重要演进方向,而生成算法、大模型与多模态三
成为了 AIGC 2022 年以
DALL-E2 Stable Diffusion 表的 AI 作画统, 2023 年以
ChatGPT 为代表的对话机器人的出现预示着 AIGC 底层技术的逐渐
成熟,从底层技术来看,主要来自于三个方面的技术突破:
1生成算法:包括生成对抗网络GAN变分自编码器VAE)、
Transformer 模型、扩散模型Diffusion Model等不断涌现生成算法。
2014 年出现生成对抗网络 GANGenerative Adverserial Network)
AIGC 早期的主流框架,但同时 GAN 一直存在对输出结果控制力弱,
难以生成新图像等缺点。随后扩散模型开始出现,在提升图像生成
果的同时,大幅降低了计算量和计算时间,让文本生成图像能力走向
成熟,并逐渐取代 GAN 成为当前主流的图像生成器包括 DALL-E2
Stable Diffusion AI 作画系统均是基于扩散模型所构建。
2)大模型:大模型发展的关键节点是 2017 年出现的基于 Attention
注意力机制的 Transformer 模型,随后 Transformer 迅速成为了 NLP
领域的主流框架,并且于 2018 年发布的 GPT 以及 BERT 模型均是基
Transformer 所构建。不仅仅局限 NLP 领域的应用,大模型可以
34
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
广泛适用于各类下游任务,当前已经成为了 AIGC 的底层框架。许多
跨领域的 AI 应用均是构建于大模型之上,真正意义上解决了多任务、
多场景、多功能需求,让一个 AIGC 模型可以高质量地完成多种多样
的内容输出任务
3多模态技术:多模态相关技术使得语言文字、图像、音视频等多
种类型数据可以互相转化和生成而相关研究主要包含多模态表示学
习(对不同模态数据提取特征与表示、多模态转化(将一个模态的
信息转换为另一个模态的信息)、多模态对齐(寻找同一实例不同模
态信息的对应关系)多模态融合(联合多个模态的信息并进行预测)
协同学习(使用一个资源丰富的模态信息来辅助另一个资源不足的模
态进行学习)等几个关键部分。
图表 32:生成算法、大模型、多模态是 AIGC 的底层技术
生成算法 大模型 多模态
AIGC
生成对抗网络(GAN
变分自编码器(VAE
扩散模型
Diffusion Model
……
多模态表示学习
多模态转化
多模态融合
多模态对齐
Attention
Transfomer
GPT
Bert
…………
资料来源:方正证券研究所绘制
AIGC 能够自主生成创造出文字、图片、语音、视频、代码等各种形
式的内容,将深度改变办公、电商、娱乐、教育、媒体等各行各业,
并引领人工智能实现从感知理解到生成创造的跃迁。 AIGC 各行业
的一些典型应用来看:1)办公:可以处理和分析大量数据,并且
动生成内容,提供预测性分析、数据可视化、智能报告等功能,比如
微软推出的集成 GPT-4 Microsoft 365 Copilot 就将内容生成能力
直接嵌入到 Office 365 全家桶中2)媒体AIGC 能够辅助包括智能
新闻写作,智能视频剪辑等传统媒体工作,同时包 AI 合成主播等
新应用也有望得以广泛应用;3教育:AIGC 可应用于智能教育机器
人,作为教学辅助工具帮助教师自动生成教案、作业批改等,并可用
于生成全新的教学工具;4电商:AIGC 应用于智能客服,可以自动
化回答用户的常见问题并提出针对性建议,并可用于生成商品 3D
型,并可用于生成虚拟主播和虚拟商5)娱乐:可用于趣味性的
图片和音视频生成、以及虚拟偶像的生成等。
35
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
图表 33AIGC 应用场景
医学图像处理
智能病历录入
合成肢体投影
合成医护陪伴
···
数字复活已故演员
高难度动作合成
演员角色年龄的跨越
虚拟物理场景合成
高难度动作合成
···
人脸美妆
人脸融合
黑白图像上色
图像风格转换
人像属性转换(年龄、性别)
···
虚拟歌姬
虚拟网红
···
用户数字化身
···
副本生产
···
智能商详
商品3D模型生成
···
品牌虚拟主播
···
合成历史人物视频
虚拟教师
线上课堂音视频处理
···
辅助工程设计
加速数字孪生系统构成
···
营销视频合成
智能金融客服
VR金融场景构建
···
写稿机器人
智能视频拆条
视频锦集
视频字幕生成
···
替换“劣迹艺人”
多语言译制片音画同步
影视作品修复
影视预告片生成
影视内容2D3D
···
AI主播
智能播报
···
采访助手
···
虚拟商城构建
···
AIGC
应用
资料来源:方正证券研究所绘制
微软正式推出集成了 GPT-4 Microsoft 365 Copilot办公率先正式
进入 AIGC 时代。 3 16 日发布的产品中,微软将生成式 AI 助手
Copilot 直接嵌入到 Office 365 全家桶中, WordExcelPowerPoint
Outlook Teams 等工具套件进行升级,具体功能体现在:1Word
能够基于用户所提供的要求或信息按照格式生成草稿,可以根据要求
对文档就行修改、缩减,并能进行语气语态的修改;2Excel:可根
据用户要求引入函数、生成模型、插入图表等,并可总结相关规律
分析趋势;3PowerPoint可实现 Word PPT 的自动转换,同时也
可直接生成动画切换,并可根据已有的图表内容根据要求插入幻灯片
等;4TeamsCopilot 作为的会议助手,可以组织关键讨论要点,
据会议内容直接生成会议摘要;5Outlook:除了自动生成邮件外,
还可管理邮件,标注重要项目。同时,Copilot Business Chat 的形
式融入 Windows 的日历、邮箱、文档等软件中,通过用户的会议记录
邮件、聊天记录等内容自动更新工作状态。我们认为,Copilot 的发布
预示着大模型 AIGC 相关技术开始正式应用于办公领域,在大幅提
升用户办公效率的同时,也将推动的办公产品的快速升级迭代。
36
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
图表 34GPT-4 嵌入 Offcie
资料来源:新智元、方正证券研究所
文心一言正式发布,国内预训练多模态大模型迈出第一步。3 16
日,百度文心一言正式发布,作为国内最受关注的预训练多模态大模
型,文心一言具备文学创作、商业文案创作、数理逻辑推算、中文理
解和多模态生成五个领域能力,并通过开放 API 接口,能够为金融、
汽车、互联网、汽车等多行业提供 AIGC 的能力。文心一言的底层
飞桨深度学习平台和文心知识增强大模型,目前,飞桨已广泛应用于
金融、工业、农业、服务业等众多行业,开发者数量达 535 万,创
造了 67 万个模型,服务了 20 家企事业单位,培养了超 200
AI 才。同时,飞桨模型库中的自然语言处理开发库 PaddleNLP
聚合了业界优质预训练模型并提供开箱即用的开发体验,覆盖 NLP
多场景,能为文心一言提供技术积累和补充。截 2023 3 月,已
经有包括互联网、媒体、金融、保险、汽车、企业软件等行业的 650
多家头部企业宣布加入百度“文心一言”生态圈。
37
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
图表 35:百度文心大模型全景图
文心大模型
领域/任务
基础通用
NLP大模型 CV大模型
跨模态大模型
医疗
ERNIE-Health
金融
ERNIE-Finance
对话 PLATO
信息抽取 EGNIE-
IE
跨语言 ERNIE-M
语言理解与生成 ERNIE 3.0
图像
VIMER-
Image
视频
VIMER-
Vedio
OCR结构化
VIMER-StrucTexT
视觉-语言
ERNIE-ViL
语音-语言
ERNIE-
FAT
文档分析 ERNIE-Layout
文生成 ERNIE-ViLG
工具与平台
大模型开发工具 大模型轻量化工具 大模型部署工具
EasyDL-大模型
零门槛AI开发平台
BML-大模型
全功能AI开发平台
资料来源:《文心大模型:知识增强的 NLP 模型详解》、方正证券研究所绘
7 投资策略
大语言模型及 AIGC 相关标的涉及平台、应用、算法、算力四大类型
厂商:
平台:平台厂商主要为国内互联网大厂,一方面国内头部互联网厂商
在研发、算力投入等方面具备持续大规模投入的能力,另一方面本身
也是海量数据的拥有者,未来有望推出全球顶尖的中文语言大模型
相关标的:百度、阿里、腾讯、360
应用:大模型及 AIGC 技术的场景化落地将产生巨大的商业价值,
来有望办公、媒体、电商、金融、娱乐、教育等场景中得到深度的
用。其中海外是否有映射、API 能否接入、场景是否有容错等将成
键考量因素。相关标的:金山办公、科大讯飞、光云科技、同花顺
万兴科技、致远互联、福昕软件、漫步者、虹软科技、当虹科技、凌
志软件。
算法:算法提供商作 AI 技术的开发者,将持续为下游百业赋能
相关标的:科大讯飞、拓尔思、海天瑞声、云从科技、商汤科技。
算力:大语言模型以 AIGC 将带来对底层算力需求的急剧增加,
力相关厂商包括芯片厂商、服务器厂商、数据中心及云服务厂商三类
厂商,且从市场需求及供应链安全等视角看,芯片厂商的受益程度居
前。相关标的:寒武纪,海光信息、浪潮信息、紫光股份、中科曙光、
优刻得、青云科技。
38
敬请关注文后特别声明与免责条款
[Table_Page]
计算机-行业深度报告
8 风险提示
技术风险:人工智能技术发展迅速,但仍存在许多技术挑战和未知的
风险,导致产业变革和新技术落地节奏不及预期。
法律和监管风险:AI 技术的发展易引起法律和监管问题,如数据隐私、
安全和道德问题等。若数据中包含敏感信息。一旦泄露或被未经授权
的人访问,将会对相关公司造成负面影响。
中美贸易摩擦加剧风险:目前芯片主要由海外厂商提供,若中美贸易
摩擦加剧,将面临“卡脖子”风险,导致相关产品研发推进不及预期。
39
[Table_Page]
计算机-行业深度报告
分析师声明
作者具有中国证券业协会授予的证券投资咨询执业资格,保证报告所采用的数据和信息均来自公开合
规渠道,分析逻辑基于作者的职业理解,本报告清晰准确地反映了作者的研究观点,力求独立、客观和公
正,结论不受任何第三方的授意或影响。研究报告对所涉及的证券或发行人的评价是分析师本人通过财务
分析预测、数量化方法、或行业比较分析所得出的结论,但使用以上信息和分析方法存在局限性。特此声
明。
免责声明
本研究报告由方正证券制作及在中国(香港和澳门特别行政区、台湾省除外)发布。根据《证券期货
投资者适当性管理办法》,本报告内容仅供我公司适当性评级为C3及以上等级的投资者使用,本公司不
因接收人收到本报告而视其为本公司的当然客户。若您并非前述等级的投资者,为保证服务质量、控制风
险,请勿订阅本报告中的信息,本资料难以设置访问权限,若给您造成不便,敬请谅解
在任何情况下,本报告的内容不构成对任何人的投资建议,也没有考虑到个别客户特殊的投资目标
财务状况或需求方正证券不对任何人因使用本报告所载任何内容所引致的任何损失负任何责任,投资者
需自行承担风险
本报告版权仅为方正证券所有,本公司对本报告保留一切法律权利。未经本公司事先书面授权,任何
机构或个人不得以任何形式复制、转发或公开传播本报告的全部或部分内容,不得将报告内容作为诉讼、
仲裁、传媒所引用之证明或依据,不得用于营利或用于未经允许的其它用途。如需引用、刊发或转载本报
告,需注明出处且不得进行任何有悖原意的引用、删节和修改。
公司投资评级的说明:
强烈推荐:分析师预测未来半年公司股价有20%上的涨幅;
推荐:分析师预测未来半年公司股价有10%以上的涨幅;
中性:分析师预测未来半年公司股价在-10%10%之间波动;
减持:分析师预测未来半年公司股价有10%以上的跌幅。
行业投资评级的说明:
推荐:分析师预测未来半年行业表现强于沪深300指数;
中性:分析师预测未来半年行业表现与沪深300数持平;
减持:分析师预测未来半年行业表现弱于沪深300指数。
地址
网址:https://www.foundersc.com
E-mail:yjzx@foundersc.com
北京
西城区展览馆路 48 号新联写字楼 6
上海
静安区延平路 71 号延平大厦 2
深圳
福田区竹子林紫竹七道光大银行大厦 31
广州
天河区兴盛路 12 号楼 隽峰苑 2 3 层方正证券
长沙
天心区湘江中路二段 36 号华远国际中心 37