无需注意力的预训练;被GPT带飞的In-Context Learning
来源:51CTO.COM
时间:2023-04-28 17:06:23 430浏览 收藏
哈喽!大家好,很高兴又见面了,我是golang学习网的一名作者,今天由我给大家带来一篇《无需注意力的预训练;被GPT带飞的In-Context Learning》,本文主要会讲到等等知识点,希望大家一起学习进步,也欢迎大家关注、点赞、收藏、转发! 下面就一起来看看吧!
论文 1:ClimateNeRF: Physically-based Neural Rendering for Extreme Climate Synthesis
- 作者:Yuan Li等
- 论文地址:https://arxiv.org/pdf/2211.13226.pdf
摘要:本文介绍了一种将物理模拟与场景 NeRF 模型相融合的全新方法,生成这些场景中物理现象的逼真影片。就具体效果而言,该方法能够逼真地模拟出气候变化可能产生的影响 —— 在一场小范围的洪水爆发后,操场会变成什么样子?大洪水后呢?暴雪后呢?
推荐:一秒起雾、入冬、发洪水,新 NeRF 模型渲染出逼真物理大片。
论文 2:Pretraining Without Attention
- 作者:Junxiong Wang 等
- 论文地址:https://arxiv.org/pdf/2212.10544.pdf
摘要:本文提出了双向门控 SSM(BiGS)模型,结合基于状态空间模型(SSM)的 Routing 层和基于乘法门的模型架构,在不使用注意力的情况下能够复制 BERT 预训练结果,并可扩展到 4096 个 token 的长程预训练,不需要近似。
推荐:预训练无需注意力,扩展到 4096 个 token 不成问题,与 BERT 相当。
论文 3:One Model to Edit Them All: Free-Form Text-Driven Image Manipulation with Semantic Modulations
- 作者:Yiming Zhu 等
- 论文地址:https://arxiv.org/pdf/2210.07883.pdf
摘要:最近用文本来引导图像编辑取得了非常大的进展以及关注度,特别是基于去噪扩散模型如 StableDiffusion 或者 DALLE 等。但基于 GAN 的文本 - 图像编辑依旧有一些问题等待解决,例如经典的 StyleCILP 中针对每一个文本必须要训练一个模型,这种单文本对单模型的方式在实际应用中是不方便的。
本文提出 FFCLIP 并解决了这个问题,针对灵活的不同文本输入,FFCLIP 只需要一个模型就能够对图片进行相应的编辑,无需针对每个文本重新训练模型,并且在多个数据集上都取得了非常不错的效果。本文已被 NeurIPS 2022 接收。
推荐:文本图片编辑新范式,单个模型实现多文本引导图像编辑。
论文 4:SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions
- 作者:Yizhong Wang 等
- 论文地址:https://arxiv.org/pdf/2212.10560v1.pdf
摘要:华盛顿大学等机构近期联合发表了一篇论文,提出的新框架 SELF-INSTRUCT 通过引导模型自己的生成过程,提高了预训练语言模型的指令遵循能力。SELF-INSTRUCT 是一种半自动化过程,使用来自模型本身的指令信号对预训练的 LM 进行指令调整。
推荐:无需人工标注,自生成指令框架打破 ChatGPT 等 LLM 的成本瓶颈。
论文 5:Ab Initio Calculation of Real Solids via Neural Network Ansatz
- 作者:Xiang Li 等
- 论文地址:https://www.nature.com/articles/s41467-022-35627-1
摘要:机器学习能够处理海量数据,解决复杂场景下的科学难题,带领科学探索抵达过去无法触及的新领域。比如 DeepMind 用人工智能软件 AlphaFold 对科学界已知的几乎所有蛋白质结构进行了高度准确的预测;Christian Lagemann 提出的基于深度学习的粒子图像测速 (PIV) 方法一改原本的纯手动设置参数,大大提升模型的应用范围,对汽车、航空航天和生物医学工程等多个领域的研究具有至关重要的意义。
最近,字节跳动 AI Lab Research 团队和北京大学物理学院陈基课题组的工作《 Ab initio calculation of real solids via neural network ansatz》 给出了研究凝聚态物理的新思路,该工作提出了业内首个适用于固体系统的神经网络波函数,实现了固体的第一性原理计算,并将计算结果推向了热力学极限。其有力地证明了神经网络是研究固体物理的高效工具,也预示着深度学习技术将在凝聚态物理中发挥越来越重要的作用。相关研究成果于 2022 年 12 月 22 日发表于国际顶级刊物 Nature Communication 杂志上。
推荐:业界首个适用于固体系统的神经网络波函数,登上 Nature 子刊。
论文 6:Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers
- 作者:Damai Dai 等
- 论文地址:https://arxiv.org/pdf/2212.10559v2.pdf
摘要:In-Context Learning(ICL)在大型预训练语言模型上取得了巨大的成功,但其工作机制仍然是一个悬而未决的问题。本文中,来自北大、清华、微软的研究者将 ICL 理解为一种隐式微调,并提供了经验性证据来证明 ICL 和显式微调在多个层面上表现相似。
推荐:被 GPT 带飞的 In-Context Learning 为什么起作用?模型在秘密执行梯度下降。
论文 7:Experimental Indications of Non-classical Brain Functions
- 作者:Christian Matthias Kerskens 等
- 论文地址:https://iopscience.iop.org/article/10.1088/2399-6528/ac94be
摘要:几十年来,科学家们一直在探索人脑的计算和思考机制。但人脑的构成太过复杂,包含几百亿个神经元,相当于上万亿块芯片,我们很难一探究竟。因对黑洞的研究贡献而获得诺贝尔物理学奖的罗杰・彭罗斯曾大胆地提出「量子意识」观点,即人脑本身就是量子结构,或者说是量子计算机。但这一观点一直备受质疑。
近期都柏林圣三一大学的一项研究表明我们的大脑执行的是量子计算,该研究认为人脑中存在与意识相关的大脑功能介导的纠缠。如果这些大脑功能必须以非经典的方式运作,那么这意味着意识是非经典的,即大脑的认知过程涉及量子计算。
推荐:大脑的思考是量子计算,这一猜测有了新证据。
ArXiv Weekly Radiostation
机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各 10 篇精选,并提供音频形式的论文摘要简介,详情如下:
10 NLP Papers音频:00:0020:18
本周 10 篇 NLP 精选论文是:
1. Does unsupervised grammar induction need pixels?. (from Serge Belongie, Kilian Q. Weinberger, Jitendra Malik, Trevor Darrell)
2. Understanding Stereotypes in Language Models: Towards Robust Measurement and Zero-Shot Debiasing. (from Bernhard Schölkopf)
3. Tackling Ambiguity with Images: Improved Multimodal Machine Translation and Contrastive Evaluation. (from Cordelia Schmid, Ivan Laptev)
4. Cross-modal Attention Congruence Regularization for Vision-Language Relation Alignment. (from Ruslan Salakhutdinov, Louis-Philippe Morency)
5. Original or Translated? On the Use of Parallel Data for Translation Quality Estimation. (from Dacheng Tao)
6. Toward Human-Like Evaluation for Natural Language Generation with Error Analysis. (from Dacheng Tao)
7. Can Current Task-oriented Dialogue Models Automate Real-world Scenarios in the Wild?. (from Kyunghyun Cho)
8. On the Blind Spots of Model-Based Evaluation Metrics for Text Generation. (from Kyunghyun Cho)
9. Beyond Contrastive Learning: A Variational Generative Model for Multilingual Retrieval. (from William W. Cohen)
10. The Impact of Symbolic Representations on In-context Learning for Few-shot Reasoning. (from Li Erran Li, Eric Xing)
10 CV Papers音频:00:0023:15
本周 10 篇 CV 精选论文是:
1. Revisiting Residual Networks for Adversarial Robustness: An Architectural Perspective. (from Kalyanmoy Deb)
2. Benchmarking Spatial Relationships in Text-to-Image Generation. (from Eric Horvitz)
3. A Brief Survey on Person Recognition at a Distance. (from Rama Chellappa)
4. MetaCLUE: Towards Comprehensive Visual Metaphors Research. (from Leonidas Guibas, William T. Freeman)
5. Aliasing is a Driver of Adversarial Attacks. (from Antonio Torralba)
6. Reversible Column Networks. (from Xiangyu Zhang)
7. Hi-LASSIE: High-Fidelity Articulated Shape and Skeleton Discovery from Sparse Image Ensemble. (from Ming-Hsuan Yang)
8. Learning Object-level Point Augmentor for Semi-supervised 3D Object Detection. (from Ming-Hsuan Yang)
9. Unleashing the Power of Visual Prompting At the Pixel Level. (from Alan Yuille)
10. From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models. (from Dacheng Tao, Steven C.H. Hoi)
文中关于模型,训练的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《无需注意力的预训练;被GPT带飞的In-Context Learning》文章吧,也可关注golang学习网公众号了解相关技术文章。
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
420 收藏
-
293 收藏
-
416 收藏
-
112 收藏
-
426 收藏
-
332 收藏
-
289 收藏
-
102 收藏
-
318 收藏
-
370 收藏
-
346 收藏
-
487 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习