首页 > 科技周边 > 人工智能

如何从头开始编写LoRA代码，这有一份教程

来源：51CTO.COM

时间：2024-05-01 11:18:17 315浏览收藏

怎么入门科技周边编程？需要学习哪些知识点？这是新手们刚接触编程时常见的问题；下面golang学习网就来给大家整理分享一些知识点，希望能够给初学者一些帮助。本篇文章就来介绍《如何从头开始编写LoRA代码，这有一份教程》，涉及到，有需要的可以收藏一下

LoRA（Low-Rank Adaptation）是一项流行的技术，旨在微调大语言模型（LLM）。这项技术最初由微软的研究人员提出，并收录在《LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS》的论文中。LoRA与其他技术不同之处在于，并非调整神经网络的所有参数，而是专注于更新少量低秩矩阵，从而显著减少了训练模型所需的计算量。

由于 LoRA 的微调质量与全模型微调相当，很多人将这种方法称为微调神器。自发布以来，很多人对这项技术感到好奇，希望通过编写代码来更好地理解这一研究。以往，缺乏适当的文档说明一直是一个困扰，但现在，我们有了教程的帮助。

这篇教程的作者是知名机器学习与 AI 研究者 Sebastian Raschka，他表示在各种有效的 LLM 微调方法中，LoRA 仍然是自己的首选。为此，Sebastian 专门写了一篇博客《Code LoRA From Scratch》，从头开始构建 LoRA，在他看来，这是一种很好的学习方法。

如何从头开始编写LoRA代码，这有一份教程

本文通过从头编写代码的方式介绍低秩自适应（LoRA），Sebastian在实验中对DistilBERT模型进行微调，并将其应用于分类任务。

LoRA方法与传统微调方法的比较结果表明，LoRA方法在测试准确率方面达到了92.39％，这比仅对模型最后几层进行微调（86.22％的测试准确率）表现出更优异的性能。这表明LoRA方法在优化模型性能方面具有明显优势，能够更好地提升模型的泛化能力和预测准确性。这个结果强调了在模型训练和调优过程中采用先进的技术和方法的重要性，以获得更好的性能表现和结果。通过比

Sebastian 是如何实现的，我们接着往下看。

从头开始编写 LoRA

用代码的方式表述一个 LoRA 层是这样的：

如何从头开始编写LoRA代码，这有一份教程

其中，in_dim 是想要使用 LoRA 修改的层的输入维度，与此对应的 out_dim 是层的输出维度。代码中还添加了一个超参数即缩放因子 alpha，alpha 值越高意味着对模型行为的调整越大，值越低则相反。此外，本文使用随机分布中的较小值来初始化矩阵 A，并用零初始化矩阵 B。

值得一提的是，LoRA 发挥作用的地方通常是神经网络的线性（前馈）层。举例来说，对于一个简单的 PyTorch 模型或具有两个线性层的模块（例如，这可能是 Transformer 块的前馈模块），其前馈（forward）方法可以表述为：

如何从头开始编写LoRA代码，这有一份教程

在使用 LoRA 时，通常会将 LoRA 更新添加到这些线性层的输出中，又得到代码如下：

如何从头开始编写LoRA代码，这有一份教程

如果你想通过修改现有 PyTorch 模型来实现 LoRA ，一种简单方法是将每个线性层替换为 LinearWithLoRA 层：

如何从头开始编写LoRA代码，这有一份教程

以上这些概念总结如下图所示：

如何从头开始编写LoRA代码，这有一份教程

为了应用 LoRA，本文将神经网络中现有的线性层替换为结合了原始线性层和 LoRALayer 的 LinearWithLoRA 层。

如何上手使用 LoRA 进行微调

LoRA 可用于 GPT 或图像生成等模型。为了简单说明，本文采用一个用于文本分类的小型 BERT（DistilBERT）模型来说明。

如何从头开始编写LoRA代码，这有一份教程

由于本文只训练新的 LoRA 权重，因而需要将所有可训练参数的 requires_grad 设置为 False 来冻结所有模型参数：

如何从头开始编写LoRA代码，这有一份教程

接下来，使用 print (model) 检查一下模型的结构：

如何从头开始编写LoRA代码，这有一份教程

由输出可知，该模型由 6 个 transformer 层组成，其中包含线性层：

如何从头开始编写LoRA代码，这有一份教程

此外，该模型有两个线性输出层：

如何从头开始编写LoRA代码，这有一份教程

通过定义以下赋值函数和循环，可以选择性地为这些线性层启用 LoRA：

如何从头开始编写LoRA代码，这有一份教程

使用 print (model) 再次检查模型，以检查其更新的结构：

如何从头开始编写LoRA代码，这有一份教程

正如上面看到的，线性层已成功地被 LinearWithLoRA 层取代。

如果使用上面显示的默认超参数来训练模型，则会在 IMDb 电影评论分类数据集上产生以下性能：

训练准确率：92.15%
验证准确率：89.98%
测试准确率：89.44%

在下一节中，本文将这些 LoRA 微调结果与传统微调结果进行了比较。

与传统微调方法的比较

在上一节中，LoRA 在默认设置下获得了 89.44% 的测试准确率，这与传统的微调方法相比如何？

为了进行比较，本文又进行了一项实验，以训练 DistilBERT 模型为例，但在训练期间仅更新最后 2 层。研究者通过冻结所有模型权重，然后解冻两个线性输出层来实现这一点：

如何从头开始编写LoRA代码，这有一份教程

只训练最后两层得到的分类性能如下：

训练准确率：86.68%
验证准确率：87.26%
测试准确率：86.22%

结果显示，LoRA 的表现优于传统微调最后两层的方法，但它使用的参数却少了 4 倍。微调所有层需要更新的参数比 LoRA 设置多 450 倍，但测试准确率只提高了 2%。

优化 LoRA 配置

前面讲到的结果都是 LoRA 在默认设置下进行的，超参数如下：

如何从头开始编写LoRA代码，这有一份教程

假如用户想要尝试不同的超参数配置，可以使用如下命令：

如何从头开始编写LoRA代码，这有一份教程

不过，最佳超参数配置如下：

如何从头开始编写LoRA代码，这有一份教程

在这种配置下，得到结果：

验证准确率：92.96%
测试准确率：92.39%

值得注意的是，即使 LoRA 设置中只有一小部分可训练参数（500k VS 66M），但准确率还是略高于通过完全微调获得的准确率。

原文链接：https://lightning.ai/lightning-ai/studios/code-lora-from-scratch?cnotallow=f5fc72b1f6eeeaf74b648b2aa8aaf8b6

终于介绍完啦！小伙伴们，这篇关于《如何从头开始编写LoRA代码，这有一份教程》的介绍应该让你收获多多了吧！欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识，快来关注吧！

AI 训练

声明：本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

相关阅读

更多>

科技周边 · 人工智能 | 2年前 | AI GPT

GPT-4王者加冕！读图做题性能炸天，凭自己就能考上斯坦福

501 收藏
科技周边 · 人工智能 | 2年前 | 算法模型

单块V100训练模型提速72倍！尤洋团队新成果获AAAI 2023杰出论文奖

501 收藏
科技周边 · 人工智能 | 2年前 | ChatGPT 人工智能

ChatGPT 真的会接管世界吗？

501 收藏
科技周边 · 人工智能 | 2年前 | AI VR

VR的终极形态是「假眼」？Neuralink前联合创始人掏出新产品：科学之眼！

501 收藏
科技周边 · 人工智能 | 2年前 | 人工智能

实现实时制造可视性优势有哪些？

501 收藏

最新阅读

更多>

科技周边 · 人工智能 | 7分钟前 |

免费AI证件照生成网站全方位测评

229 收藏
科技周边 · 人工智能 | 1小时前 |

4月车市火爆：以旧换新激增，品牌销量创新高

182 收藏
科技周边 · 人工智能 | 1小时前 | 中国重汽出口量国内市场重汽国际公司重卡市场

中国重汽国际公司20年蝉联出口量冠军

479 收藏
科技周边 · 人工智能 | 1小时前 |

文心一言文案秘籍提升技巧大放送

485 收藏
科技周边 · 人工智能 | 3小时前 |

即梦AI语音转文字教程及自动字幕生成指南

344 收藏
科技周边 · 人工智能 | 3小时前 | OPPO 刘波段要辉中国区汤杰

OPPO中国区换帅：刘波离任，段要辉上任

231 收藏
科技周边 · 人工智能 | 3小时前 |

即梦ai多语言版导出教程字幕翻译功能详解

249 收藏
科技周边 · 人工智能 | 4小时前 | 帧率调整软件更新图像渲染流畅度优化设备性能

即梦ai帧率参数调优及流畅度提升技巧

226 收藏
科技周边 · 人工智能 | 6小时前 | AI 供应链创新联发科技供应商大会

联发科携手供应链，共建未来AI世界

500 收藏
科技周边 · 人工智能 | 6小时前 |

小鹏P7Ultra与G7谍照对比：风格大不同

114 收藏
科技周边 · 人工智能 | 6小时前 | 专利 vivo 电子设备摄像模组调光件

VIVO震撼发布“电子设备”专利

275 收藏
科技周边 · 人工智能 | 7小时前 | 深度学习分辨率后期处理生成参数迭代次数

即梦ai画质提升技巧高清设置攻略

485 收藏

课程推荐

更多>

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

立即学习 542次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

立即学习 508次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

立即学习 497次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

立即学习 487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

立即学习 484次学习