首页 > 科技周边 > 人工智能

用8x7B MoE和Flash Attention 2，不到10行代码实现高效推理

来源：51CTO.COM

时间：2024-01-02 15:32:17 281浏览收藏

在IT行业这个发展更新速度很快的行业，只有不停止的学习，才不会被行业所淘汰。如果你是科技周边学习者，那么本文《用8x7B MoE和Flash Attention 2，不到10行代码实现高效推理》就很适合你！本篇内容主要包括##content_title##，希望对大家的知识积累有所帮助，助力实战开发！

最近，Mistral AI公开了Mixtral 8x7B模型，这一消息在开源社区引起了轰动。该模型的架构与GPT-4非常相似，因此被许多人称为GPT-4的“缩小版”。

众所周知，OpenAI团队一直对于GPT-4的参数和训练细节保持着高度保密。然而，他们最近公开了Mistral 8x7B，这无疑给广大开发者提供了一个接近于GPT-4的开源选择。

经过基准测试，Mistral 8x7B在性能上表现出色，比Llama 2 70B更为出色。在大多数标准基准测试中，Mistral 8x7B的表现与GPT-3.5不相上下，甚至稍微领先一些。

8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

《文字玩出花》中的怀旧大扫除关卡是该游戏中备受喜爱的一个挑战，每天都会有新的难题等待着我们。在这个关卡中，我们需要仔细观察一幅图像，并找出其中与时代不符的12个细节。为了帮助那些还未通过此关的玩家们，今天我将为大家分享《文字玩出花》怀旧大扫除关卡的通关

随着这项研究的发布，很多人纷纷表示：“闭源大模型已经走到了尾声。”

8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

Vaibhav (VB) Srivastav，一个机器学习爱好者，最近表示，在短短几周的时间内，AutoAWQ的最新版本已经发布。这个版本支持了Mixtral和LLaVa等模型的量化。现在用户可以将Mixtral 8x7B Instruct与Flash Attention 2相结合，以实现快速推理的目标。令人惊讶的是，只需要不到24GB的GPU VRAM和不到十行的代码，就能够实现这个功能。

8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

图源：https://twitter.com/reach_vb/status/1741175347821883502

AutoAWQ 地址：https://github.com/casper-hansen/AutoAWQ

操作过程是这样的：

首先是安装 AutoAWQ 以及 transformers：

pip install autoawq git+https://github. com/huggingface/transformers.git

第二步是初始化 tokenizer 和模型：

8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

第三步是初始化 TextStreamer：

8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

第四步对输入进行 Token 化：

8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

第五步生成：

8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

当你配置好项目后，就可以与 Mixtral 进行对话，例如对于用户要求「如何做出最好的美式咖啡？通过简单的步骤完成」，Mixtral 会按照 1、2、3 等步骤进行回答。

8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

项目中使用的代码：

8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

Srivastav 表示上述实现也意味着用户可以使用 AWQ 运行所有的 Mixtral 微调，并使用 Flash Attention 2 来提升它们。

看到这项研究后，网友不禁表示：真的很酷。

8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

更多相关链接，请参考：

模型地址：https://huggingface.co/models?search=mixtral%20awq

Transformer 中量化技术：https://huggingface.co/docs/transformers/main/en/quantization

理论要掌握，实操不能落！以上关于《用8x7B MoE和Flash Attention 2，不到10行代码实现高效推理》的详细介绍，大家都掌握了吧！如果想要继续提升自己的能力，那么就来关注golang学习网公众号吧！

AI 模型

声明：本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除