GPT4 有何不同:多模态、推理能力、预测扩展性
当地时间 3 月 14 日,OpenAI 正式发布 GPT-4。考虑到竞争格局和大型模
型的安全影响,OpenAI 并未披露模型大小、硬件、训练计算、数据集构建、
训练方法等细节。经过试用与研究,我们认为 GPT-4 相比 GPT-3.5 有以下
升级:1)多模态能力:支持文本和图像输入(目前图像输入尚未开放);2)
推理能力:在律师考试、GRE Quantitative、LSAT 等测试中的表现均优于
GPT-3.5;3)同时推出便于落地的工具:推出预测扩展性的深度学习堆栈
以及 Evals 评估框架,使下游厂商能够以较小的成本试用,然后选择最合适
的大模型。此外,我们注意到 OpenAI 继 AGI 路线图强调 AI 公平性与可控
性之后,本次推出 GPT-4 时,强调其在大模型安全可控上做出的努力。
多模态能力:有望重塑软件和硬件交互,想象空间巨大
相比 GPT-3.5 仅支持文字/代码的输入输出,GPT -4 支持输入图像并且能够
真正理解(输入图像还处于内测中,尚未开放):例如,发布会上演示了输
入手绘网页草稿,GPT-4 生成网页代码的功能。我们认为多模态能力首先有
望重塑从浏览器到文档智能等的软件交互:OpenAI 展示了输入有图有文字
的物理题,GPT-4 能够理解文图并回答问题。真正的图像理解能力如果嵌入
浏览器、文档智能工具中,能够进一步解放生产力。在未来,多模态能力还
有望重塑从手机、PC 到智能家居的硬件交互领域:例如,谷歌 23 年 3 月
发布的 PaLM-E 已经支持图文多模态输入,指导机器人完成任务的功能。
GPT-4 对复杂任务理解更强,推理能力提升显著
GPT-4 理解复杂任务的能力相比 GPT-3.5 有所提升, 因此遵循用户意图的
能力更强:在盲测中,由 GPT-4 生成的回答在 70.2%的情况下更受用户欢
迎。GPT-4 在一系列专业和学术考试中取得了人类水平的表现:在 GRE 语
文考试达到前 1%,在律师考试达到前 10%,在 GRE 数学达到前 20%水平,
相比 GPT-3.5 进步明显,推理能力提升显著。我们认为 GPT-4 显示出人工
智能在许多复杂任务中已经能够达到人类水平,人工智能用例将大大拓展,
这是通往 AGI(通用人工智能)的又一次跃迁。
“大”并非全部,大模型降低使用门槛、提高落地效果更加重要
由于大模型的规模化效应,增加模型参数量、数据量有助于提升模型表现。
过去数年中,行业推出大模型时也往往标榜模型规模之大。然而我们看到从
2022 年起,行业不再简单追求更“大”的模型,便于下游落地的重要性日
益提升。本次 GPT-4 推出了预测扩展性的深度学习堆栈,使用千分之一至
万分之一的算力就能够可靠地预测 GPT-4 在下游垂直领域使用的性能。下
游厂商可以先以较小的成本广泛试用,选择最合适的大模型。此外,OpenAI
开源了 Evals 评估框架,便于用户选择模型。我们认为,行业已经逐渐走出
单纯强调模型规模的时代,降低使用门槛、提高实际落地效果更加重要。
GPT-4 更加安全,AI 安全性与技术发展同等重要
OpenAI 在今年 2 月发布 AGI 计划,强调大模型的可控性与公平性。本次发
布 GPT-4,OpenAI 表示花了 6 个月的时间使其更加安全并与人类价值观一
致,引入了包括 ChatGPT 用户提交的反馈等等人类反馈,以改善 GPT-4 的
行为。相比 GPT-3.5,GPT-4 对禁止内容作出响应的可能性下降 82%,做
出事实性回应的可能性高 40%。但是,OpenAI 仍然提示 GPT-4 在偏见、
虚假信息、隐私等方面的风险。我们认为 AI 的安全性与技术发展同样重要。
风险提示:AI 及技术落地不及预期;本研报中涉及到未上市公司或未覆盖个
股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该
股票的推荐或覆盖。