ChatGPT，AI模型框架研究

2023-03-31

行业评级：看好

2023年3月25日

ChatGPT：AI模型框架研究

——AI行业深度报告

证券研究报告

分析师

刘雯蜀

邮箱

liuwenshu03@stocke.com.cn

证书编号

s1230523020002

摘要

一、AI框架重要性日益突显，框架技术发展进入繁荣期，国内AI框架技术加速发展：

1、AI框架作为衔接数据和模型的重要桥梁，发展进入繁荣期，国内外框架功能及性能加速迭代；

2、Pytorch、Tensorflow占据AI框架市场主导地位，国内大厂加速布局AI框架技术；

3、AI框架技术从工具逐步走向社区，生态加速形成，未来围绕安全可信、场景落等维度呈现显著发展趋势；

二、GPT开启AI大模型时代，国内外大厂发力布局，商业化空间加速打开：

1、数据、算法、模型三轮驱动AI发展，大模型优势显著，成为AI主流方向；

2、GPT开启千亿参数级AI大模型时代，语言、视觉、科学计算等大模型快速发展；

3、微软加速AI商用化进程，国内大厂发力布局，看好在细分场景下的应用落地；

三、建议关注标的：

1、基础层：AI算力：中科曙光；大模型：360，科大讯飞

2、应用层：AI+工具：金山办公； AI+建筑：广联达；AI+法律：通达海； AI+医疗：创业慧康，久远银海；AI+教育：

科大讯飞； AI+网安：安恒信息、奇安信；AI+金融：同花顺； AI+交通：佳都科技

风险提示：1、AI技术发展不及预期；2、版权、伦理和监管风险；

nMnOnNmOvNrRnRoMrRpQxP9PdN8OpNmMtRpMfQmMtQkPsQvN9PqRmQNZsOsPxNmRsO

AI框架

深度学习框架：人工智能时代的操作系统

人工智能开发

链条长且复杂

训练

数据准备算法实现环境安装模型训练模型验证

推理

数据准备算法实现环境安装模型训练

数据

使用深度学习框

架工具进行开发

深度学习框架

人工智能基础设施

分布式硬件资源

物理资源调度、

I/O设备管理

通用模型架构

支持计算机视觉应用

使用主流编程语言

GPU加速拓展包

模型

使用深度学习框

架工具进行开发

开发者使用简单

支持AI领域的快速变化

资料来源：北京日报，认知计算与云安全公众号，华为云，浙商证券研究所

人工智能框架技术发展进入繁荣期

2000年~ 萌芽阶段 2015-2018年稳定阶段2012年~ 成长阶段

2019-2020年~ 深化阶段

API复杂

无GPU支持

手动实现网络

使用简单

多GPU支持

复杂网络支撑

指令式

声明式

生态友好

分布式支持

效率优化可拓展

编译层优化

多场景任务支持

丰富套件支持

算子优化

统一标准

端云一体

大模型

大任务

全场景

隐私与公平

……

未来

资料来源：中国信息通信研究院《2022年AI框架技术白皮书》，浙商证券研究所

国际主流深度学习框架：互联网巨头主导开发

国内外深度学习框架

发布时间

2013

2014

2015

2016

2017

2020

202x

开发公司

深度学习框架语言

Python

Lua，Python

（new）

C++

Python

C++

Lua，Python（new

）

Python

C++、CUDA、

Python

是否开源

√

计算图

静态

动态

动静兼容

静态

基于源码转换自动微

分，不依赖计算图

动静合一

是否是分布式框架

√

特点/优点

速度快、使用

方便、社区好

性能高、适合

做语音任务

高效灵活、易用

容易上手

简单清晰

移动端高性能、

通用轻便

高效灵活、易用

灵活高效

资料来源：机器之心，CSDN，浙商证券研究所

TensorFlow+Pytorch占据市场主导地位

2022年中国开发者人工智能框架使用率2018-2022年全球论文发表数量（按使用框架分）

Pytorch

TensorFlow

资料来源：Papers with Code，Omedia，浙商证券研究所

Pytorch：Meta开源的主流学习框架

Pytorch版本平均每3~4个月更新一次，功能服务持续扩充

2017年，Pytorch

正式发布

2018年4月，0.4版

支持Windows，

并入caffe2

2019年5月，1.1版

支持TensorBoard，

增强可视化

2019年10月，1.3版

支持移动设备部署，

更多功能工具

2020年1月，1.4版

支持分布式模型

并行训练

2020年4月，1.5版

与Amazon合作，提升

开发者模型部署效率

2020年11月，1.7版

支持Windows上的分布式

训练，提供更多API

2021年3月，1.8版

支持AMD GPU

2022年11月，2.0版

Transformer模型

训练速度提升1.5-2.0倍

多维优势支持Pytorch实现对TensorFlow的反超

门槛低

只需要Numpy和基本

深度学习概念

代码简洁灵活

基于动态图机制，网

络搭建更方便

文档规范

官方社区可查看各版

本文档

资源丰富

arXiv新算法大多基于

Pytorch实现

开发者多

Github上贡献者1100+

大厂支撑

Meta维护开发

适用人群广泛

深度学习初学者：快速实现模型算法，加深深度学习概念认识；

机器学习爱好者：快速实现人脸识别、目标检测、图像生成等AI功能及实验；

算法研究员：最新arXiv论文算法快速复现及开发；

资料来源：CSDN，浙商证券研究所

Open AI：从多种框架的使用到专注于Pytroch

2015年

Pytroch成为统一的深度学习框架

深度模型框

架转变

• 便于调试：对 Python 生态的良好支持；

大多数情况使用

TensorFlow

特殊情况使用

Theano

2020年

• 简单易懂：PyTorch 具有用户友好的 API；

原因

核心

功能

支持GPU加速

的张量计算

方便优化模型的

自动微分机制

• 强大高效：Pytorch提供了非常丰富的模型组件。

极大缩短

研究周期

资料来源：OpenAI官网，浙商证券研究所

Tensorflow：谷歌开源的向更加易用发展的主流学习框架

2017年

2019年

开源Tensorflow

0.1版本

2015年

采用CPU+GPU计

算模型

使得神经网络能够

有效计算

Tensorflow从0.1到2.0的发展历程

202x年

Tensorflow2.3发布

添加两种新机制，解决输入管

道瓶颈并节约资源

Tensorflow2.0发布

缺点：调试困难、API混

乱、入门困难

运用更简单的模型进行构建、简化

优点：简化的模型开发流程、强大

的跨平台能力、强大的研究发现

缺乏调度能力，需手动配置

Tensorflow1.0.0发布，

稳定版诞生

优点：更快、更灵活、

随时就绪

引入更高级的API，可在

移动设备上运行

发布版

本

改进之

处

优点

缺点

资料来源：腾讯云，CSDN，helloword，城市经济网，浙商证券研究所

AI框架技术呈现三层次结构，从工具走向社区生态

基础层

组件层

生态层

编程开发

编程接口API 编码语言

训练

开发

推理

部署

编译优化

分布式并行自动微分

动静转换模型轻量化

图算融合算子生成

内存优化

计算图中间表示

计算算子通信算子

硬件使能

自动并行

高阶优化器

…

并行及优化组件

科学计算（数值方法）

科学计算（AI方法）

…

科学计算组件

模型可解释

数据-模型安全

…

安全可信组件

训练可视化

调试器

…

工具组件

套件-模型库

（CV、NLP…）

AI领域扩展库

（GAN、强化学习…）

AI+科学计算

（电磁仿真、视频生成…）

社区

文档

框

架

资料来源：中国信息通信研究院《2022年AI框架技术白皮书》，浙商证券研究所

百度PaddlePaddle飞桨平台

资料来源：CSDN、中国日报中文网、浙商证券研究所

飞桨企业版

零门槛AI开发平台全功能AI开发平台

飞桨产业级深度学习开源开放平台

工具与

组件

自动化

深度学习

低代码开发工具

强化学习联邦学习图学习科学计算量子机器学习生物计算

核心

框架

端到端

开发套件

基础

模型库

预训练模型应用工具可视化分析工具安全与隐私工具

云上部署编排工具

资源管理与调度工具

语义理解文字识别图像分类目标检测图像分割图像生成大模型训推一体

自然语言处理计算机视觉语音推荐

文心大模型

时间序列

动态图静态图

大规模

分布式训练

产业级

数据处理

模型

压缩

服务器

推理引擎

边缘与移动

端推理引擎

开发

训练

推理部署

前端

推理引擎

服务化

部署

全场景

统一部署

学习

与实训

社区

未来AI框架技术将呈现六大发展趋势

资料来源：中国信息通信研究院《2022年AI框架技术白皮书》、浙商证券研究所

泛开发

全场景

超大规模

科学计算

安全可信

工程化

发展趋势

泛开发

前端便捷化后端高效化

全场景标准化互通

混合并行分布式处理

自动微分

统一加速引擎

鲁棒性检测模型可解释

模型自适应

框架精细化

前景展望

多种开发语言无缝衔接

动静图转换能力提升

后端运行效率

AI框架与硬件平台解耦，通过标准接口实现跨设备平台快速部署

突破五堵墙：内存墙+算力墙+通信墙+调优墙+部署墙

丰富编程接口

内置专业领域科学计算套件

提供丰富的 AI 鲁棒性检测工具

AI 模型的压缩和端侧推理框架的轻量化

AI大模型

算力+数据支撑AI大模型加速发展

计算和存储

能力增长

数据爆炸

1991年

万维网开放

2005年

全球互联网用户超10亿

2007年

iPhone发布

2010年

全球智能手机

销量超3亿部

算法迭代

1958年

神经网络提出

1965年

专家系统诞生

1989年，CNN算法

应用于图像识别

1997年

网页评级算法

2006年

深度学习兴起

2009年

引入Spark算法

处理大数据

1997年，IBM

战胜卡斯帕罗夫

2002年

云存储、云计算诞生

2004年

分布式技术

2005年

1G磁盘存储成

本降至2美元

1965年

摩尔定律

2006年

Hadoop技术

2010年

开始使用GPU

训练AI模型

2012年

深度学习算法

在图像分类任务

取得突破

2013年谷歌AI

学会策略类游戏

2016年

谷歌推出TPU

加速机器学习

过程

2017年

AlphaZero

2018年

GPT大模型

2021年

Alphafold实现

蛋白质结构预测

2022年

ChatGPT

资料来源：CSDN、腾讯网、新浪网、浙商证券研究所

大模型为基底，AI大模型发展为场景应用奠定重要基础

AI大模型优势

泛化性+通用性开发门槛低

大模型意义

AI应用通用化 AI开发工程化

项目建设集约

化

资料来源：IDC《2022中国大模型发展白皮书》、浙商证券研究所

按照目标不同，AI大模型可分为四类，多模态为未来方向

利用计算机模拟、延伸及

拓展人类语言能力

NLP大模型 CV大模型科学计算大模型

定义

现状

挑战

未来发展

在语言理解与生成、智能创

作、机器翻译、智能对话、

知识图谱和定制化语言解决

方案落地应用发展顺利

语言的歧义、文化差异及

多样化、情感分析困难

以多个数据信息维度约束

来验证情感分析及文本分

析的准确性

计算机模拟生物视觉，理

解数字图像和视频，并提

取目标信息

2D数据工业质检、智慧城市

落地完善，应用场景多；人

脸、OCR识别发展较为成熟

3D/4D数据识别面临变形、

光照、遮挡等问题；数字人、

数字孪生的数据获取困难，

算法处理复杂

打通数据融合以突破

3D/4D获取瓶颈

高效率完成再现、预测和

发现客观世界运动规律及

演化特征的全过程

“AI+科学计算”（科学智能）

引发科研方式的大变革，如

生物制药、气象预报、地震

探测等科研领域逐渐成熟

科学计算大模型对开发者专

业知识要求严苛，高质量训

练数据的获取成本高，导致

模型整体研发成本昂贵

科技大厂与科研院校加强

合作

融合

多模态大模型

理解能力

应用场景

计算性能

资料来源：IDC《2022中国大模型发展白皮书》、浙商证券研究所

AI迈入大模型时代，参数量过千亿

2018

Google BERT-base（1.1）

Google BERT-Large（3.4）

OpenAi GPT-1 （1.2）

百度 ERINE1.0

Facebook XLM

百度 ERINE2.0

Facebook BART

Google ALBERT（0.31）

OpenAi GPT-2 （15.8）

Facebook RobertTa（3.35）

NIVIDIA Megatron-LM （83）

Google T5 （110）

Google ELECTRA（1.02）

Micrasoft Truning-NLG（172）

Facebook M2m-100（150）

Google BigBird（1750）

OpenAi GPT-3（1758）

Eleuther AI GPT-j（60）

GLM（1300）

百度 ERINE3.0（100）

Google FLAN（1370）

Naver Corp HyperCLOVA

（2040）

Google Gopher（2800）

百度 ERNIE 3.0 Titan（2600）

OpenAi InstructGBT（13）

Meta AI OPT（1750）

EleutherAI GPT-NeoX

（200）

Google LaMDA（2800）

BigScience BLOOM（1760）

Google PaLM（5400）

微软和英伟达 Megatron-

Turing NLG（5300）

2019

2020

2021

2022

资料来源：电子工程世界、微软官网、OpenAI官网、Github、Meta AI官网，浙商证券研究所，单位：亿

GPT-1 GPT-2 GPT-3 GPT-4

推出年份

2018 2019 2020 2023

Transformer

层数

12 48 96 -

参数量 1.2亿 15.8亿 1750亿

预训练数据量

5GB 40GB 45TB -

国内外大厂相继布局各模态AI模型

Transformer

GPT-3

InstructGPT/GPT-3.5

ChatGPT

资料来源：澎湃网、CSDN、百度、OpenAI官网、Meta，浙商证券研究所

时间提出者模型名称功能意义

2021年1月 OpenAI CLIP-DALL·E

以文搜图，按照文字描述生成对应图片

CLIP的zero-shot learning技术在各种数据集上的

表现都很好

2021年5月 Google MUM 多功能统一模型

可从 75 种不同语言中挖掘出的上下文信息对用户搜

索结果进行优先排序

2021年9月百度 DocVQA 跨模态文档理解

登顶DocVQA榜首

2021年11月 NVIDA GauGAN2

根据输入的文本/简笔画生成对应逼真的风景图、输入图

像并编辑部分内容

可用文字和图画混合创造逼真的艺术

2021年11月

Microsoft

& 北大

NvWa女娲

实现文本/草图转图像、图像补全、文字指示修改图像视

频、文字/草图转视频、视频预测等

在8种图像和视频处理的视觉任务上具有出色的合成

效果

2021年12月 NVIDA PoE GAN

文字描述、图像分割、草图都可以转化为图片，还可同时

接受以上几种输入模态的任意两种组合

可以在单模态、多模态输入甚至无输入时生成图片。

2022年1月百度 ERNIE-ViLG

图文双向生成

刷新文本生成图像、图像描述等多个跨模态生成任

务最好效果

2022年1月 Meta Au-HuBERT

通过输入语音音频和唇语视频内容，输出对应文本

在嘈杂的环境下，通过读唇可以将语言识别的准确

性最高提升6倍。

2022年7月 Meta Make-a-Scene

文本生成图像，并允许文本输入进行有针对性创作

用户获得更丰富的个人理念定制，从而生成更加具

有针对性的画作

2022年9月 OpenAI Whisper

语音生成文本，支持语音转录和翻译两项功能并接受各种

语音格式

多模态AI模型有望进入商用时代

2022年9月 Meta Make-a-Video

文本、图片生成短视频，根据输入的自然语言文本生成一

段5秒钟左右的短视频。

AIGC进入视频创作领域

2022年11月 NVIDA Magic3D

根据文字描述生成 3D 模型，可将低分辨率生成的粗略模

型优化为高分辨率的精细模型

3D建模效率更高，且成本更低

OpenAI以GPT为基石，深度布局各模态AI及各类应用

Transformer

GPT-3

GPT-1 GPT-2

GPT

Instruct

GPT

论文年份

2018 2019 2020 2022

Transformer层数

12 48 96 —

参数量 1.2亿 15.8亿

1750亿

13亿

预训练数据量

5GB 40GB 45TB —

Whisper 语音-文本模型 DALL-E2 文本-图像模型

ChatGPT

类别名称参数量

基础版本

Davinci 1750亿

Curie 67亿

Babbage 10亿

代码生成 Code-Cushman-001 120亿

关联分析

Text

-similarity-davinci-

001

1750亿

Text-similarity-curie-001 60亿

GPT模型迭代

多样的模型调用接口

来源：CSDN，电子工程世界，腾讯网，浙商证券研究所

ChatGPT实现路径：算力与框架支持，应用百花齐放

资料来源：CSDN、机器学习算法与自然语言处理、电子工程世界等、浙商证券研究所

微软云Azure

PyTorch

Transformer

GPT-3

InstructGPT/GPT-3.5

ChatGPT

OpenAI的独家云提供商

算力资源

深度学习框架

API 迭代更稳定易于使用

模型

Attention机制

大模型

参数少速度快效果好

模型

人类反馈强化学习RLHF

对话AI模型

人类反馈强化学习RLHF 人工监督微调

连续多轮对话承认自身错误

质疑不正确的问题承认自身的无知

Transfomer的Decoder 分支

1750 亿个参数小样本学习能力

无代码

编程

对话类搜索引擎

小说生成

语音陪伴

语音工作助手

对话虚拟人

机器翻译

人工智能客服

基于InstructGPT形成ChatGPT对话系统

Chat

GPT

Instruct

GPT

GPT-3

 代码训练

 指令微调（instruction tuning）

 基于人类反馈的强化学习（RLHF）

 参数数量降低了100倍

（1750亿->13亿）

 增加Chat 属性

 网页公众测试入口

 略微降低参数量

资料来源：CSDN、电子工程世界、新智元、浙商证券研究所

搜索引擎Bing集成ChatGPT，即时生成个性化规划与建议

新版Bing搜索引擎

四大技术突破

将ChatGPT整合进Bing和Edge

搜索

模型

搜索

性能

答案

相关

用户

体验

Bing在OpenAI的下一代LLM模型

上运行，该模型专门为搜索定制，

比ChatGPT更强大

普罗米修斯（Prometheus ）模

型：可以提高搜索结果相关性，并

对答案进行注释

搜索与聊天相结合，除了传统的搜

索结果外，还提供了聊天界面

通过将人工智能模型应用于核心搜

索算法，改进了核心搜索指数，使

得搜索结果相关性实现飞跃

资料来源：微软、The Verge，浙商证券研究所

新增聊天窗口

传统信息搜索框

新版Bing功能展示

能动的提供解决方案：

创建菜谱、制定旅行

计划、诗歌创作等

微软发布Microsoft 365 Copilot，引领下一代AI大模型

Microsoft 365 Copilot

Copilot工作方式

Copilot工作原理

• Copilot旨在协助用户生成文档、电

子邮件、演示文稿和更多内容

• Copilot主要由OpenAI的GPT-4驱动

，会与微软365应用程序一起，作

为聊天机器人的模式，出现在侧边

栏

数据来源：微软官网，浙商证券研究所

• Copilot嵌入到人们每天使用的

Microsoft 365 应用中

• 商务聊天 Business Chat。

Business Chat 将汇总电子邮件、

文件、文档、会议、聊天记录、日

历等资料，并归纳总结

• 自动汇集个人已有的数据和

资料生成内容，上传到

Microsoft Graph

• Copilot成为智能个人数字助

理 &实用的内容生成工具

Copilot AI 功能的应用场景，大幅提高办公效率

应用场景

Copilot in PowerPoint

应用场景

Copilot in Excel

Copilot in Teams

Copilot in Word

• Copilot 可以跨应用程序生成内

容。例如，根据Word文档，可

以生成一个10张幻灯片的PPT

• 提升演讲效果，增加字体大小和

间距，在演讲稿中添加演讲提醒

• 一键压缩冗长的演示文稿，调整

布局、重新格式化文本和完美的

时间动画。

• Copilot可以根据需求

创建初稿

• 对文本内容进行提炼、

改写、简化，查漏补缺

• 用户还可以根据需求调

整AI的语气，包括严肃

、热情、感谢等

数据来源：微软官网，浙商证券研究所

• 在短时间内识别趋势或创建

数据可视化

• 数据归纳处理，分析或格式

化Excel数据，生成直观图像

• Excel用户可以通过Copilot即

时创建SWOT分析或基于数

据的PivotTable

• 在对话上下文中提供实

时摘要和操作项，进行

会议内容总结，提醒可

能错过的东西

• 如果参加会议时间较晚

，copilot会提供一份错

过的内容摘要，从而提

高会议效率

Google在各模态领域布局AI模型，并提供多项功能服务模块

GPT-3

ChatGPT

Flamingo 图像-文本

LOLNerf 2D图像-3D图像

Parti 文本-图像

Phenaki 文本-视频

类别模型功能

计算机视觉

Pix2Seq

用于对象检测的语言建模框架

多模式模型

DeViSE

视觉语义嵌入

LiT

将语义理解添加到图像模型

PaLI

多语种语言图像学习

FindIt

基于自然语言的通用对象定位

VDTTS

视觉驱动的文本到语音

音频生成

AudioLM

基于语言建模的音频生成

官方开源多个多模态模型

来源：CSDN，新浪，Google Parti，浙商证券研究所

国内AI大模型，大厂+高校将主导未来

 大模型的主要玩家有科技大厂、高校和新型研发机构，形成了四种合作模式

 （1）大厂独立完成（2）机构+高校（3）大厂+高校（4）大厂+机构+高校。大厂通过资金优势、数据优势往往可以独

立完成或主导合作。机构凭借行业领袖的团队和政府的资金支持，可以主导合作。而高校凭借行业领袖的团队提供科

研能力支持。

 过去来看，由于大厂受到商业任务限制，资金和数据优势未能充分发挥。而未来，在ChatGPT之后，经过验证的模式

铺平商业决策之路，将逐步成为未来大模型的主导力量。

科研能力优势

无商业任务

资金优势

科研能力优势

无商业任务

资金优势

数据优势

高校

大厂

新型研发机构

资金优势：算力、数据

数据优势：数据

科研能力：模型

数据来源： CSDN、电子工程世界、新智元，浙商证券研究所

添加标题

百度：文心大模型

坐拥大模型+训练框架+数据+社区多重优势，百度有望成为AIGC领域率先实现商业化的领头羊。

 自2019年发布ERNIE 1.0，百度持续投入大模型的技术创新与产业应用，布局了NLP、CV、跨模态等大模型，率先提

出行业大模型，成了支撑大模型产业落地的关键路径，构建文心大模型层、工具平台层、产品与社区三层体系。

 根据IDC的大模型评分，在产品能力、生态能力和应用能力三个维度上百度均位于第一梯队，且在生态维度远高于平均

水平，这得益于百度的大模型框架“飞桨”、旸谷社区。

 百度于2023年3月发布“文心一言”，成为首款中文生成式对话大模型产品。

文心大模型与产品框架文心大模型评分

数据来源：文心官网，IDC，浙商证券研究所。

产

品

与

社

区

文心一格

AI艺术和创意辅助平台

文心百中

大模型驱动的产业级搜索系统

旸谷社区

大模型创意与探索社区

工

具

与

平

台

EasyDL-大模型

零门槛AI开发平台

BML-大模型

全功能AI开发平台

大模型API

文

心

大

模

型

大模型套件

数据标注与处理大模型精调大模型压缩

高性能部署场景化工具

行业大模型

国网-百度·文心

浦发-百度·文心航天-百度·文心

人民网-百度·文心

冰城-百度·文心

深燃-百度·文心

吉利-百度·文心泰康-百度·文心

TCL-百度·文心

辞海-百度·文心

电影频道-百度·文心

行业大模型

医疗 ERNIE-Health

行业大模型

金融 ERNIE-Finance

对话PLATO

搜索 ERNIE-Search 信息抽取 ERNIE-UIE

跨语言 ERNIE-M 代码 ERNIE-Code

图网络 ERNIE-Sage

语言理解与生成

ERNIE 3.0 Tiny

ERNIE 3.0

鹏城-百

度·文心

ERNIE 3.0 Zeus

商品图文搜索表征学习 VIMER-UMS

OCR图像表征学习 VIMER-StrucText

多任务视觉表征学习 VIMER-UFO

视觉处理多任

务学习

VIMER-TCIR

自监督视觉表

征学习

VIMER-CAE

文图生成

ERNIE-ViLG

文档智能

ERNIE-Layout

视觉-

语言

ERNI

E-ViL

语音-

语言

ERNI

E-ViL

地理-

语言

ERNI

E-

GeoL

生物计算大模型

化合物表征学习

HelixGEM

蛋白质结构预测

HelixFold

单序列蛋白质结构预测

HelixFold-Single

基于BERT衍生百度文心大模型，料将推出对话系统文心一言

注：ERNIE（Enhanced language Representation with Informative Entities）

ERNIE 1.0架构：改进了MLM任务

ERNIE 2.0：+持续学习框架

ERNIE 3.0、3.0TITAN：+参数量

ERNIE版本

1.0 2.0 3.0 3.0 TITAN

推出

年份

2019 2020 2021 2022

参数量参考bert base(1.1亿)

参考bert base(1.1亿)，

bert large（3.4亿）

100亿 2608亿

预训练数据量

Wiki，baike，

news，tieba

wiki

，news，dialogue，IR

，

discourse relation

4TB -

数据来源：CSDN，电子工程世界，浙商证券研究所。

阿里巴巴：通义大模型训练策略和框架上领先行业

 阿里巴巴率先构建大模型统一底座、通过训练策略大幅提升稀疏参数大模型框架训练效率，在大模型框架上具备领先地位。

 阿里巴巴2021年3月发布M6，成为国内最早提出千亿模型的厂商，同年发布十万亿模型M6-10T，通过expert

prototyping训练策略成功实施MoE稀疏参数模型，使模型达到10万亿参数级别。

 2022年9月发布通义大模型，通过统一学习范式M6-OFA和模块化的设计，提升大模型跨模态能力和效率。

 2023年报电话会上，集团CEO张勇表示针对生成式AI趋势，将全力构建预训练大模型。

阿里通义大模型架构

Dense模型与MoE模型

添加标题

FFN

路由

Dense模型 MoE模型

数据来源：机器之心，浙商证券研究所

华为：盘古大模型聚焦实业

 华为盘古大模型深耕实业，拥有更广泛的行业大模型，具备更强的落地能力。

 基于ModelArts AI工作平台的盘古大模型2021年4月发布，目前已应用于10+行业的100+应用场景。

 根据信通院模型开发和模型能力两方面测评，均为优异水平。

盘古预训练大模型架构及Offering

数据来源：36氪，浙商证券研究所。

盘古大模型（根技术：架构，泛化性，精度，训练成本）

盘古行业大模型（行业know-how：行业数据预训练，无监督训练）

煤矿

小语种/英语

金融风控时尚

气象

生产线质检

数字人大脑

销量预测电商搜索

海浪

电力巡检

司法

工业耗能/参数预测

图文搜索

智慧育种

视觉大模型

NLP大模型

图网络大模型多模态大模型

科学计算大模型

皮带质检

PCBA缺陷识别

电力缺陷识别

案件关键词抽取

电商情感分析

多轮对话

企业财务异常检测

空气质量检测

工业参数检测

时尚版权保护

时尚辅助设计

图文搜索

短缺天气预报

近海养殖，台风预测

智慧育种

ModelArts Studio

Workflow2.0 PRO工作流并行推理框架预处理算法

细分场

景模型

行业大

模型

基础大

模型

合作伙伴交付

盘古工作流（快速交付：工作流，

增量学习，小样本标注）

L0 →L1 行

业大模型

定制费

L0基础大

模型使用

授权费

工作流订阅

及基于下游

任务微调

大

企

业

或

政

府

方

案

（

混

合

云

或

公

有

云

）

中

国

企

业

方

案

（

云

边

协

同

）

Offering 1

（千万级）

Offering 2

（百万级）

数据集管理器

图像标注工具

标注任务特征存储

自定义算法

预置工作流

AI应用评估

推理

数据采集

其他数据来源渠道本地训练

ModelArts平台工作流

重点关注标的

• 基础层：

AI算力：中科曙光

大模型：360，科大讯飞

• 应用层：

AI+工具：金山办公； AI+建筑：广联达

AI+法律：通达海； AI+医疗：创业慧康，久远银海

AI+教育：科大讯飞； AI+网安：安恒信息、奇安信

AI+金融：同花顺； AI+交通：佳都科技

点击此处添加标题添加标题点击此处添

加标题点击此处添加标题点击此处添加

标题点击此处添加标题点击此处添加标

题添加标题点击此处添加标题点击此处

添加标题添加标题点击此处添加标题

添加标题

95%

风险提示

1、AI技术发展不及预期：当前以ChatGPT为代表的AI模型以及其他多模态AI模型发展仍不成熟，存在一定缺陷；

2、版权、伦理和监管风险：AIGC生成的内容依赖现有版权素材，另外不当使用或模型自身问题可能导致不良后

果；

点击此处添加标题添加标题点击此处添

加标题点击此处添加标题点击此处添加

标题点击此处添加标题点击此处添加标

题添加标题点击此处添加标题点击此处

添加标题添加标题点击此处添加标题

添加标题

95%

行业评级与免责声明

行业的投资评级

以报告日后的6个月内，行业指数相对于沪深300指数的涨跌幅为标准，定义如下：

1、看好：行业指数相对于沪深300指数表现＋10%以上；

2、中性：行业指数相对于沪深300指数表现－10%～＋10%以上；

3、看淡：行业指数相对于沪深300指数表现－10%以下。

我们在此提醒您，不同证券研究机构采用不同的评级术语及评级标准。我们采用的是相对评级体系，表示投资的相对比重。

建议：投资者买入或者卖出证券的决定取决于个人的实际情况，比如当前的持仓结构以及其他需要考虑的因素。投资者不应

仅仅依靠投资评级来推断结论

行业评级与免责声明

法律声明及风险提示

本报告由浙商证券股份有限公司（已具备中国证监会批复的证券投资咨询业务资格，经营许可证编号为：Z39833000）制作。本

报告中的信息均来源于我们认为可靠的已公开资料，但浙商证券股份有限公司及其关联机构（以下统称“本公司”）对这些信息

的真实性、准确性及完整性不作任何保证，也不保证所包含的信息和建议不发生任何变更。本公司没有将变更的信息和建议向报

告所有接收者进行更新的义务。

本报告仅供本公司的客户作参考之用。本公司不会因接收人收到本报告而视其为本公司的当然客户。

本报告仅反映报告作者的出具日的观点和判断，在任何情况下，本报告中的信息或所表述的意见均不构成对任何人的投资建议，

投资者应当对本报告中的信息和意见进行独立评估，并应同时考量各自的投资目的、财务状况和特定需求。对依据或者使用本报

告所造成的一切后果，本公司及/或其关联人员均不承担任何法律责任。

本公司的交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本报告意见及建议不

一致的市场评论和/或交易观点。本公司没有将此意见及建议向报告所有接收者进行更新的义务。本公司的资产管理公司、自营部

门以及其他投资业务部门可能独立做出与本报告中的意见或建议不一致的投资决策。

本报告版权均归本公司所有，未经本公司事先书面授权，任何机构或个人不得以任何形式复制、发布、传播本报告的全部或部分

内容。经授权刊载、转发本报告或者摘要的，应当注明本报告发布人和发布日期，并提示使用本报告的风险。未经授权或未按要

求刊载、转发本报告的，应当承担相应的法律责任。本公司将保留向其追究法律责任的权利。

联系方式

浙商证券研究所

上海总部地址：杨高南路729号陆家嘴世纪金融广场1号楼25层

北京地址：北京市东城区朝阳门北大街8号富华大厦E座4层

深圳地址：广东省深圳市福田区广电金融中心33层

邮政编码：200127

电话：(8621)80108518

传真：(8621)80106010

浙商证券研究所：http://research.stocke.com.cn

打开行研社App查看所有内容