ECCV2024 Oral | 第一视角下的动作图像生成,Meta等提出LEGO模型
来源:机器之心
时间:2024-10-28 15:09:44 217浏览 收藏
golang学习网今天将给大家带来《ECCV2024 Oral | 第一视角下的动作图像生成,Meta等提出LEGO模型》,感兴趣的朋友请继续看下去吧!以下内容将会涉及到等等知识点,如果你是正在学习科技周边或者已经是大佬级别了,都非常欢迎也希望大家都能给我建议评论哈~希望能帮助到大家!
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文的作者主要来自于 Meta 和佐治亚理工大学。第一作者是佐治亚理工机器学习专业的博士生赖柏霖(目前也是 UIUC 的访问学生),导师为 James Rehg 教授(已转入 UIUC),主要研究方向是多模态学习,生成模型和视频理解,并在 CVPR、ECCV、BMVC、ACL 等会议发表相关论文,参与 Meta 主导的 EgoExo4D 项目,本文工作是赖柏霖在 Meta 的 GenAI 部门实习时完成,其余作者均为 Meta 的研究科学家。
作者主页:https://bolinlai.github.io/
当人们在日常生活和工作中需要完成一项自己不熟悉的任务,或者习得一项新技能的时候,如何能快速学习,实现技能迁移(skill transfer)成为一个难点。曾经人们最依赖的工具是搜索引擎,用户需要自己从大量的搜索结果中筛选出答案。最近几年出现的大语言模型(LLM)可以依据用户的问题归纳生成答案,极大地提升了回复的准确率和针对性 (如图 1 所示),然而大语言模型生成的回复通常非常繁琐冗长,而且包含诸多笼统的描述,并没有针对特定用户当下的环境进行定制化的回应。
图 1:对于同一个问题,本文提出的 LEGO 模型直接生成图片教程,相比于大语言模型的回应更加具有针对性。
随着大语言模型逐渐获得理解图片的能力,一个简单直接的解决方案是用户在提出问题的同时也提供一张包含眼前场景的照片,这样模型便可以根据用户当下的环境来生成更准确直接的指令,从而让人们更容易跟随指令完成任务。那是否有比这更简单直接的方法呢?之前的神经科学研究表明,人类大脑处理图片的速度要远快于处理文字,如果模型可以直接生成一张图片来给用户展示如何执行下一步,便可以进一步提升人们的学习效率。
在今年的 ECCV Oral Session,来自 Meta、佐治亚理工(Georgia Tech)和伊利诺伊香槟分校(UIUC)的研究者们提出一个新的研究问题:如何基于用户的问题和当前场景的照片,生成同一场景下的第一视角的动作图像,从而更准确地指导用户执行下一步行动?
论文地址:https://arxiv.org/pdf/2312.03849
项目主页:https://bolinlai.github.io/Lego_EgoActGen/
开源代码:https://github.com/BolinLai/LEGO
挑战和解决方案
目前有众多大模型在图片生成任务上取得了极佳的效果,但这些模型在应用到本文提出的动作图像生成的问题时,有两个尚未解决的挑战(如图 2 所示):(1)当下的数据集中的动作标注非常简略(通常为动词 + 名词),这使得模型难以理解动作的细节;(2)现存模型的预训练数据基本上都是第三视角的物体或者场景图片,并且文本中鲜有动作相关的描述,这与本文任务中所使用的数据之间存在很明显的差距(domain gap)。
图 2:面临的挑战:(1)动作细节的缺失,(2)训练数据与现存模型存在差别。
针对这两个问题,研究者们提出使用第一视角的动作数据对大语言模型进行微调(visual instruction tuning)来丰富动作的具体细节,同时将大语言模型的图像和文本特征作为扩散模型的额外输入,从而缩小 domain gap。
基于 GPT 的数据收集
为了对大语言模型进行训练,本文使用 GPT-3.5 来收集详细的动作描述作为训练数据(见图 3),具体方法为对于少量数据(本文中为 12 个动作)进行人工扩写动作细节,然后将这些人工撰写的描述放入 GPT 的输入(prompt)中进行基于上下文的学习(in-context learning),同时本文作者还将物体和手部的包围框(bounding box)一起输入,从而使 GPT 可以理解当前环境下物体与手的空间位置信息,通过这种方案,GPT 可以模仿少量人工标注的数据来生成大量的动作描述,这些采集到的数据会被用于大语言模型的微调。
图 3:基于 GPT-3.5 的详细动作描述采集。
模型结构和方法
图 4:模型结构。
本文提出的 LEGO 模型分为两个步骤:(1)大语言模型基于视觉指令的微调(visual instruction tuning),(2)动作图像生成(action frame generation)。
基于视觉指令的微调(如图 4a 所示):本文将用户提供的包含当前环境信息的图片输入预训练好的图片编码器,然后使用一层线性层将特征映射到 LLM 的特征空间,与用户的问题一起输入 LLM 中,LLM 可以基于图片信息来生成可以直接应用于当前环境的详细动作指令,从而为动作图像生成提供更多的细节,解决了现有数据集中动作标注过于简略的问题。
动作图像生成(如图 4b 所示):本文使用隐空间扩散模型(latent diffusion model)来进行图像生成,考虑到本文数据和现有模型预训练数据之间的差异,作者将大语言模型中的图像特征以及文本特征一起作为额外的条件(condition),和动作描述一起输入到扩散模型中。为了连接大语言模型和扩散模型的特征空间,作者使用了线性层来映射图片特征;对于文本特征,本文在线性层之外使用了两层自注意力(self-attention)层来获得文本整体的语义;对于动作描述,则直接使用预训练的文本编码器进行特征提取。
对比及消融实验
本方法在两个大型第一视角动作数据集 -- Ego4D 和 Epic-Kitchens 上进行验证,研究者们定义了每个动作开始和正在进行时的关键帧,并且过滤掉部分低质量的数据。
表 1:图像对图像(image-to-image)评测结果。
表 2:图像对文字(image-to-text)评测结果。
图 5:用户评测(user study)结果。
实验中,作者将提出的方法与多个图生成模型在多个指标下进行对比,除此之外还用人工评测的方式进一步巩固实验结果。可以看到,在图像对图像(image-to-image)的六个指标中,LEGO 在两个数据集上基本都超过了对比的模型,即使在 Epic-Kitchens 的 FID 指标中略低于 IP2P,但依然是第二好的效果。除此之外,本文还使用图像对文本(image-to-text)的指标来评测生成的图片是否正确体现了动作描述,从结果可以看到,LEGO 依然在两个数据集上获得最好效果。在人工评测(user study)中,研究者们将四个模型生成的图片打乱顺序让用户选择生成质量最高的图片,结果表明,超过 60% 的用户认为 LEGO 生成的图片最符合他们的需求。
表 3:消融实验。
本文还对提出的模型进行了消融实验,结果表明详细的动作描述、LLM 的图片和文字特征均可以提升生成图片的质量,其中图片特征对于性能的提升最为明显。
可视化成果展示
图 6:LEGO 模型在多种场景下的动作生成。
从生成图片的效果(图 6)可以看出,LEGO 模型能够很好地理解用户提问的动作细节,并生成准确的动作图像,除此之外,生成图片很好地保留了原图的背景信息,从而用户可以更简单直接地遵循图片指导来完成每一步动作。
图 7:LEGO 模型生成同一场景下的不同动作图像。
研究者们还成功验证了 LEGO 可以在同一场景下生成多种动作图像(包括未训练过的动作),从而说明 LEGO 可以泛化到更广泛的场景。
总结
1. 本文提出了一个全新的问题:第一视角下的动作图像生成,从而可以提升人们学习新技能的效率。
2. 本文创新性地提出了对大语言模型进行微调来丰富动作细节,同时使用大语言模型的特征来提升扩散模型生成图像的性能。
3. 本文提出的 LEGO 模型在两个大型数据集和多个指标上均取得目前最好的效果。
今天关于《ECCV2024 Oral | 第一视角下的动作图像生成,Meta等提出LEGO模型》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于工程,LEGO,ECCV2024的内容请关注golang学习网公众号!
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
174 收藏
-
343 收藏
-
160 收藏
-
168 收藏
-
217 收藏
-
340 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 507次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习