登录
首页 >  科技周边 >  人工智能

哈工大等机构推出自适应剪枝技术,使多模态大型模型加速2-3倍,命名为SmartTrim

来源:51CTO.COM

时间:2024-03-18 19:03:18 470浏览 收藏

哈尔滨工业大学和度小满联合推出了一项名为 SmartTrim 的自适应剪枝技术,该技术可以将基于 Transformer 的视觉语言大模型 (VLM) 的速度提升 2-3 倍。SmartTrim 针对 VLM 中的冗余 token 和注意力头进行修剪,并通过跨模态感知的 Token 修剪器和模态自适应的注意力头修剪器同时对这两个方面进行修剪。SmartTrim 在各种下游视觉语言任务上评估时,与其他加速方法相比,在性能下降最小的前提下将原始模型加速了 2-3 倍。该技术将被整合到度小满的轩辕大模型中,以进一步提高其效率。

基于 Transformer 结构的视觉语言大模型(VLM)在各种下游的视觉语言任务上取得了巨大成功,但由于其较长的输入序列和较多的参数,导致其相应的计算开销地提升,阻碍了在实际环境中进一步部署。为了追求更为高效的推理速度,前人提出了一些针对 VLM 的加速方法,包括剪枝和蒸馏等,但是现有的这些方法大都采用静态架构,其针对不同输入实例采用同样的计算图进行推理,忽略了不同实例之间具有不同计算复杂性的事实:针对复杂的跨模态交互实例,自然需要更多计算才能完全理解图像和相关问题的复杂细节;相反,简单的实例则可以用更少的计算量解决。这也导致较高加速比下的 VLM 的性能严重下降。

为了应对这些问题,哈工大与度小满合作推出了适用于多模态模型的自适应剪枝算法SmartTrim。这一论文已被自然语言处理领域顶级会议COLING 24所接受。

前期探究和研究动机

本文针对 VLM 中每一层的 token 表示和 attention head 的冗余情况进行了分析。研究发现,无论是哪种模态的 token 或者 head,在同一层内的相似性都非常高,暗示模型存在明显的冗余。此外,随着深度的增加,token 的冗余度逐渐增加。不同实例之间的冗余程度存在较大差异,这进一步说明了依赖于输入的自适应剪枝对于 VLM 加速的重要性。

在基于 VQA 微调的 METER 的跨模态编码器中,层内不同 token(上)和 attention head(下)表示的相似性。

方法介绍

基于上述发现,本文提出针对 VLM 的自适应剪枝框架:SmartTrim,从 token 和 attention head 两方面同时对模型冗余部分进行剪枝。

自适应剪枝让多模态大模型加速2-3倍,哈工大等推出SmartTrim图片

SmartTrim 框架结构图

跨模态感知的 Token 修剪器:

文本和图像的 Token 序列经过各自的编码器编码后,通过基于 MLP 结构的跨模态感知 Token 修剪器来识别当前层不重要的 Token。在此过程中,模型考虑了 Token 在当前模态序列的重要性以及在跨模态交互中的关键作用。最终,通过将 token 的重要性转化为二进制 mask,实现去除冗余信息。

模态自适应的注意力头修剪器:

VLM 分别通过 MSA(multi-head self-attention module) 和 MCA (multi-head cross-attention module)捕获模态内和模态间交互。正如前文分析,注意力部分计算开销根据输入的复杂性而变化,导致注意力模块出现的冗余会产生较大的开销。为此,我们将模态自适应注意力头修剪器集成到注意力模块中。该修剪器用以衡量各个注意力头的显著性,根据此对冗余的注意力头做修剪。

模型训练

在模型的训练过程中,我们在优化任务相关的训练目标的同时,还引入了计算开销相关的训练目标,让模型在训练过程中对性能和效率进行权衡。针对上述修剪器生成的二值 mask(M)在训练中不可导的问题,我们采用了基于重参数化的技巧从而进行端到端的训练:

自适应剪枝让多模态大模型加速2-3倍,哈工大等推出SmartTrim图片

自蒸馏与课程训练策略:

我们还引入一种自蒸馏的训练策略来提高通过自适应剪枝得到的小模型:通过对齐剪枝后的小模型和全容量模型之间输出,使得剪枝模型的输出与全容量模型更为一致,进一步提高小模型的能力。另外我们利用课程学习的训练方式指导模型的训练,使模型稀疏度逐步减低到目标比例,从而保证了优化过程的稳定性。

最终的模型训练目标为:

自适应剪枝让多模态大模型加速2-3倍,哈工大等推出SmartTrim图片

实验结果

我们基于 METER 和 BLIP 这两个 VLM 作为原始模型并在一系列下游 VL 任务上评估 SmartTrim 以及其他方法的性能和效率,如下表所示:我们的方法将原始模型加速了 2-3 倍,同时性能下降最小。

自适应剪枝让多模态大模型加速2-3倍,哈工大等推出SmartTrim图片

具有不同加速比下的 VLM 加速方法结果。

与前人方法相比,SmartTrim 不需要额外的预训练,而且还通过 token 和 head 两个方面提供了更细粒度地控制模型的计算开销,以更好地探索效率与性能之间的权衡,下面的帕累托图显示我们的方法在 1.5x 的加速比下甚至相比原始模型性能有所提升,而在高加速比下的相比其他加速方法具有显著优势。

自适应剪枝让多模态大模型加速2-3倍,哈工大等推出SmartTrim图片

不同 VLM 加速方法在 NLVR2 上的效率与性能权衡的帕累托前沿。

我们进一步展示了一些随着深度增加 SmartTrim 逐步裁剪不同模态的冗余 token 的例子:

自适应剪枝让多模态大模型加速2-3倍,哈工大等推出SmartTrim图片

Token 的逐步裁剪修剪过程。

上图 (a)-(c) 是由我们提出的跨模态感知 Token 修剪器获得的,可以看到针对不同的问题我们的修剪器网络可以合适地选择更为相关的 patch。(d) 为去掉跨模态信息指导的基线模型地输出,我们也可以观察到其只保留了图片的主体部分但与问题并不相关的 patch token,并最终产生错误的答案。

我们还统计了在 vqa 数据的测试集上我们的 SmartTrim 为不同实例分配的计算量情况,如下图所示。可以发现 SmartTrim 可以自适应地根据跨模态交互的复杂性分配不同的计算开销,为简单实例(图左)分配更少的计算,为困难实例(图右)分配更多计算。

自适应剪枝让多模态大模型加速2-3倍,哈工大等推出SmartTrim图片

VQA 上 SmartTrim 的 FLOPs 直方图。

更多详细内容可以参考论文原文。论文提出的方法未来将结合到度小满轩辕大模型中,大模型项目地址:https://github.com/Duxiaoman-DI/XuanYuan,欢迎大家访问!

理论要掌握,实操不能落!以上关于《哈工大等机构推出自适应剪枝技术,使多模态大型模型加速2-3倍,命名为SmartTrim》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!

声明:本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>