推荐文章 Go 技术课程下载专题 AI

首页 > 科技周边 > 人工智能

从BERT到ChatGPT，北航等9大顶尖研究机构全面综述：那些年一起追过的「预训练基础模型」

来源：51CTO.COM

时间：2023-04-29 21:00:25 286浏览收藏

“纵有疾风来，人生不言弃”，这句话送给正在学习科技周边的朋友们，也希望在阅读本文《从BERT到ChatGPT，北航等9大顶尖研究机构全面综述：那些年一起追过的「预训练基础模型」》后，能够真的帮助到大家。我也会在后续的文章中，陆续更新科技周边相关的技术文章，有好的建议欢迎大家在评论留言，非常感谢！

ChatGPT在few-shot和zero-shot场景下展现出的惊人性能，让研究人员们更坚定「预训练」是一条正确的路线。

预训练基础模型（Pretrained Foundation Models, PFM）被认为是不同数据模式下各种下游任务的基础，即基于大规模数据，对 BERT、 GPT-3、 MAE、 DALLE-E 和 ChatGPT 等预训练基础模型进行训练，为下游应用提供了合理的参数初始化。

从BERT到ChatGPT，北航等9大顶尖研究机构全面综述：那些年一起追过的「预训练基础模型」

PFM 背后的预训练思想在大型模型的应用中起着重要作用，与以往采用卷积和递归模块进行特征提取的方法不同，生成预训练(GPT)方法采用 Transformer 作为特征提取器，在大型数据集上进行自回归训练。

随着 PFM 在各个领域获得巨大成功，近几年发表的论文中提出了大量的方法、数据集和评价指标，行业内需要一篇从BERT开始一直追踪到ChatGPT发展过程的全面综述。

最近，来自北航、密歇根州立大学、理海大学、南洋理工、杜克等国内外多所知名院校、企业的研究人员联合写了一篇关于预训练基础模型的综述，提供了在文本、图像和图（graph）等领域的最近的研究进展，以及目前和未来的挑战、机遇。

从BERT到ChatGPT，北航等9大顶尖研究机构全面综述：那些年一起追过的「预训练基础模型」

论文链接：https://arxiv.org/pdf/2302.09419.pdf

研究人员首先回顾了自然语言处理、计算机视觉和图形学习的基本组成部分和现有的预训练；然后讨论了其他先进的 PFM 的其他数据模式和统一的 PFM 考虑数据质量和数量；以及PFM 基本原理的相关研究，包括模型效率和压缩、安全性和隐私性；最后，文中列出了几个关键的结论，包括未来的研究方向、挑战和开放的问题。

从BERT到ChatGPT

预训练基础模型（PFMs）是大数据时代构建人工智能系统的重要组成部分，其在自然语言处理（NLP）、计算机视觉（CV）和图学习（GL）三大人工智能领域得到广泛的研究和应用。

PFMs是通用模型，在各个领域内或跨领域任务中都很有效，在各种学习任务中学习特征表示方面表现出巨大的潜力，如文本分类、文本生成、图像分类、物体检测和图分类等。

PFMs在用大规模语料库训练多个任务并对类似的小规模任务进行微调方面表现出卓越的性能，使得启动快速数据处理成为可能。

PFMs和预训练

PFMs是基于预训练技术的，其目的是利用大量的数据和任务来训练一个通用模型，在不同的下游应用中可以很容易地进行微调。

预训练的想法起源于CV任务中的迁移学习，在认识到预训练在CV领域的有效性后，人们开始使用预训练技术来提高其他领域的模型性能。当把预训练技术应用于NLP领域时，经过良好训练的语言模型（LMs）可以捕捉到对下游任务有益的丰富知识，如长期依赖关系、层次关系等。

此外，预训练在NLP领域的显著优势是，训练数据可以来自任何未标记的文本语料库，也就是说，在预训练过程中存在着无限量的训练数据。

早期的预训练是一种静态方法，如NNLM和Word2vec，很难适应不同的语义环境；后来有研究人员提出了动态预训练技术，如BERT、XLNet等。

从BERT到ChatGPT，北航等9大顶尖研究机构全面综述：那些年一起追过的「预训练基础模型」

PFMs在NLP、CV和GL领域的历史和演变

基于预训练技术的PFMs使用大型语料库来学习通用语义表征，随着这些开创性工作的引入，各种PFMs已经出现，并被应用于下游的任务和应用。

一个显著的PFM应用案例就是最近爆火的ChatGPT。

从BERT到ChatGPT，北航等9大顶尖研究机构全面综述：那些年一起追过的「预训练基础模型」

ChatGPT是从生成式预训练Transformer，即GPT-3.5在文本和代码的混合语料训练后，再微调得到的；ChatGPT使用了来自人类反馈的强化学习（RLHF）技术，也是目前将大型LM与人类的意图相匹配的一种最有前景的方法。

ChatGPT的优越性能可能会导致每一类PFMs的训练范式转变的临界点，即应用指令对齐（instruction aligning）技术，包括强化学习（RL）、prompt tuning和思维链（chain-of-thought），并最终走向通用人工智能。

这篇文章中，研究人员主要回顾了文本、图像和图（graph）相关的PFM，也是一个相对成熟的研究分类方法。

从BERT到ChatGPT，北航等9大顶尖研究机构全面综述：那些年一起追过的「预训练基础模型」

对于文本来说，语言模型通过预测下一个单词或字符即可实现多种任务，例如，PFMs可用于机器翻译、问题回答系统、主题建模、情感分析等。

对于图像来说，类似于文本中的PFMs，使用大规模的数据集来训练一个适合多个CV任务的大模型。

对于图来说，相似的预训练思路也被用于获得PFMs，可用于诸多下游任务。

除了针对特定数据域的PFMs，文中还回顾并阐述了其他一些先进的PFMs，如针对语音、视频和跨域数据的PFMs，以及多模态PFMs。

此外，一个能够处理多模态的PFMs的大融合趋势正在出现，也就是所谓的统一（unified）PFMs；研究人员首先定义了统一PFMs的概念，然后回顾了近期研究中最先进的统一PFMs，包括OFA、UNIFIED-IO、FLAVA、BEiT-3等。

根据这三个领域现有的PFMs的特点，研究人员得出结论，PFMs有以下两大优势：

1. 只需要进行极少的微调就可以提高模型在下游任务上的表现；

2. PFMs已经在质量方面通过了考验。

与其从头开始建立一个模型来解决类似的问题，更好的选择是将PFMs应用于与任务相关的数据集。

PFMs的巨大前景激发了大量的相关工作来关注模型的效率、安全性和压缩等问题。

这篇综述的特点在于：

研究人员跟踪了最新的研究成果，对PFM在NLP、CV和GL中的发展进行了扎实的总结，讨论并提供了关于这三个主要应用领域中通用的PFM设计和预训练方法的思考结果。

总结了PFMs在其他多媒体领域的发展，如语音和视频，还进一步讨论了关于PFMs的更深层次的话题，包括统一的PFMs、模型效率和压缩，以及安全和隐私。

通过对各种模态下不同任务的PFMs的回顾，讨论了在大数据时代对超大型模型未来研究的主要挑战和机遇，将引导开发新一代基于PFMs的协作和交互智能。

参考资料：https://arxiv.org/abs/2302.09419

今天关于《从BERT到ChatGPT，北航等9大顶尖研究机构全面综述：那些年一起追过的「预训练基础模型」》的内容就介绍到这里了，是不是学起来一目了然！想要了解更多关于ChatGPT,BERT,机构的内容请关注golang学习网公众号！

ChatGPT BERT

声明：本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

相关阅读

更多>

科技周边 · 人工智能 | 1个月前 |

AI写作工具免费版安装教程（含豆包Clawdbot）

501 收藏
科技周边 · 人工智能 | 1个月前 |

WPS AI能自动生成PPT吗？输入主题一键制作演示文稿

501 收藏
科技周边 · 人工智能 | 1个月前 | CanvaAI Canva Canva可画

Canva手机闪退解决方法及适配指南

501 收藏
科技周边 · 人工智能 | 2个月前 |

Hermes Agent依赖的工具链有哪些必备工具链介绍

501 收藏
科技周边 · 人工智能 | 2个月前 | 通义千问千问千问APP

千问AI官网地址链接入口_千问AI官方网站登陆入口

501 收藏

最新阅读

更多>

科技周边 · 人工智能 | 3天前 | 人工智能 · rag · AI应用 · 知识库 · 向量检索 · 故障复盘 · 人工智能检索增强生成 RAG 向量检索证据门禁评测样本 AI应用复盘

RAG 应用答错怎么复盘：检索命中、证据门禁和评测样本怎么补

468 收藏
科技周边 · 人工智能 | 3天前 | 人工智能 · ai agent · AI应用 · 工具调用 · 权限边界 · 审计链路 · 人工智能权限控制 AI Agent 工具调用审批链路审计回放上线指标

AI Agent 工具调用怎么落地：权限闸门、审批链路和上线观察指标

343 收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · GenAI · opentelemetry · 可观测性 · AI工程 · 人工智能链路追踪 GenAI OpenTelemetry AI可观测性 LLM网关 Token统计

AI 调用可观测架构：从散乱日志到 OpenTelemetry GenAI 字段统一

427 收藏
科技周边 · 人工智能 | 1星期前 | Node.js · 人工智能 · deepseek · AI工具 · Node.js 人工智能命令行工具流式输出 AI摘要 DeepSeek API

用 DeepSeek API 从零写一个流式摘要小工具：Node.js 命令行版

154 收藏
科技周边 · 人工智能 | 1星期前 | JSON · 人工智能 · 结构化输出 · 接口排查 · JSON Schema AI结构化输出解析失败 LLM接口提示词排查

AI 结构化输出解析失败怎么办：从提示词到 JSON Schema 逐步定位

309 收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · webgpu · 浏览器API · 本地推理 · 前端AI · AI推理 WebGPU 降级方案前端性能浏览器端AI 本地推理

WebGPU 做浏览器端 AI 推理：能力边界、检测和降级方案

234 收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · 前端流式输出 · AI聊天 · Fetch Stream · 前端 AI聊天流式输出 ReadableStream TextDecoder Fetch Stream

AI 聊天流式输出前端配方：用 Fetch Stream 实现逐字渲染和中断控制

448 收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · rag · 向量数据库 · 检索增强生成 · 人工智能 AI应用 RAG embedding 向量检索

RAG 答非所问怎么排查：从切块、向量到召回上下文

427 收藏
科技周边 · 人工智能 | 3星期前 | 人工智能 · rag · 向量检索 · 知识库问答 · AI工程化 · 人工智能知识库 RAG 重排向量检索文档切分证据引用

AI 知识库检索召回工作流：从文档切分到重排和证据引用

191 收藏
科技周边 · 人工智能 | 3星期前 | JSON · 人工智能 · 结构化输出 · 大模型接口 · 后端接入 · 人工智能 JSON AI接口 Schema 结构化输出

AI 接口 JSON 返回不稳定排查：从提示词到结构化输出

299 收藏
科技周边 · 人工智能 | 3星期前 | 人工智能 · mcp · ai agent · 工具接入 · 安全审计 · AI Agent MCP Model Context Protocol 工具清单资源上下文权限审计

MCP 服务接入工作流：从工具清单到权限审计的 AI Agent 落地路线

378 收藏
科技周边 · 人工智能 | 3星期前 | 人工智能 · ai agent · 工具调用 · 结构化输出 · 工程排查 · AI Agent Schema 结构化输出超时重试工具调用兜底回答

AI Agent 工具调用失败排查：从 Schema 到超时兜底的完整工作流

195 收藏

课程推荐

更多>

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

立即学习 543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

立即学习 516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

立即学习 500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

立即学习 487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

立即学习 485次学习