推荐文章 Go 技术课程下载专题 AI

首页 > 科技周边 > 人工智能

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

来源：机器之心

时间：2024-09-09 17:45:58 316浏览收藏

本篇文章主要是结合我之前面试的各种经历和实战开发中遇到的问题解决经验整理的，希望这篇《这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练》对你有很大帮助！欢迎收藏，分享给更多的需要的朋友学习~

最近，开源大模型社区再次「热闹」了起来，主角是 AI 写作初创公司 HyperWrite 开发的新模型 Reflection 70B。

它的底层模型建立在 Meta Llama 3.1 70B Instruct 上，并使用原始的 Llama chat 格式，确保了与现有工具和 pipeline 的兼容性。

这个模型横扫了 MMLU、MATH、IFEval、GSM8K，在每项基准测试上都超过了 GPT-4o，还击败了 405B 的 Llama 3.1。

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

凭借如此惊艳的效果，Reflection 70B 被冠以开源大模型新王。该模型更是由两位开发者（HyperWrite CEO Matt Shumer 和 Glaive AI 创始人 Sahil Chaudhary）花了 3 周完成，效率可谓惊人。

Reflection 70B 能不能经受住社区的考验呢？今天 AI 模型独立分析机构 Artificial Analysis 进行了独立评估测试，结果有点出乎意料。

该机构表示，Reflection Llama 3.1 70B 的 MMLU 得分仅与 Llama 3 70B 相同，并且明显低于 Llama 3.1 70B。

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

^{图源：https://x.com/ArtificialAnlys/status/1832505338991395131}

还有科学推理与知识（GPQA）和定量推理（MATH）基准测试的结果，同样不如 Llama 3.1 70B。

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

^{图源：https://x.com/ArtificialAnlys/status/1832457791010959539}

此外，Reddit 上 LocalLLaMA 社区的一个帖子比较了 Reflection 70B 与Llama 3.1、Llama 3 权重的差异，结果显示，Reflection 模型似乎是使用了经过 LoRA 调整的 Llama 3 而不是 Llama 3.1。

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

贴主还提供了以上模型权重比较结果的代码来源。

from transformers import AutoModelForCausalLM, AutoTokenizerimport torchimport matplotlib.pyplot as pltimport seaborn as snsbase_model_name = "meta-llama/Meta-Llama-3-70B-Instruct"chat_model_name = "mattshumer/Reflection-Llama-3.1-70B"base_model = AutoModelForCausalLM.from_pretrained(base_model_name, torch_dtype=torch.bfloat16)chat_model = AutoModelForCausalLM.from_pretrained(chat_model_name, torch_dtype=torch.bfloat16)def calculate_weight_diff(base_weight, chat_weight):return torch.abs(base_weight - chat_weight).mean().item()def calculate_layer_diffs(base_model, chat_model):layer_diffs = []for base_layer, chat_layer in zip(base_model.model.layers, chat_model.model.layers):layer_diff = {'input_layernorm': calculate_weight_diff(base_layer.input_layernorm.weight, chat_layer.input_layernorm.weight),# 'mlp_down_proj': calculate_weight_diff(base_layer.mlp.down_proj.weight, chat_layer.mlp.down_proj.weight),# 'mlp_gate_proj': calculate_weight_diff(base_layer.mlp.gate_proj.weight, chat_layer.mlp.gate_proj.weight),# 'mlp_up_proj': calculate_weight_diff(base_layer.mlp.up_proj.weight, chat_layer.mlp.up_proj.weight),'post_attention_layernorm': calculate_weight_diff(base_layer.post_attention_layernorm.weight, chat_layer.post_attention_layernorm.weight),'self_attn_q_proj': calculate_weight_diff(base_layer.self_attn.q_proj.weight, chat_layer.self_attn.q_proj.weight),'self_attn_k_proj': calculate_weight_diff(base_layer.self_attn.k_proj.weight, chat_layer.self_attn.k_proj.weight),'self_attn_v_proj': calculate_weight_diff(base_layer.self_attn.v_proj.weight, chat_layer.self_attn.v_proj.weight),'self_attn_o_proj': calculate_weight_diff(base_layer.self_attn.o_proj.weight, chat_layer.self_attn.o_proj.weight)}layer_diffs.append(layer_diff)return layer_diffsdef visualize_layer_diffs(layer_diffs):num_layers = len(layer_diffs)num_components = len(layer_diffs[0])fig, axs = plt.subplots(1, num_components, figsize=(24, 8))fig.suptitle(f"{base_model_name}  {chat_model_name}", fontsize=16)for i, component in enumerate(layer_diffs[0].keys()):component_diffs = [[layer_diff[component]] for layer_diff in layer_diffs]sns.heatmap(component_diffs, annot=True, fmt=".6f", cmap="YlGnBu", ax=axs[i], cbar_kws={"shrink": 0.8})axs[i].set_title(component)axs[i].set_xlabel("Layer")axs[i].set_ylabel("Difference")axs[i].set_xticks([])axs[i].set_yticks(range(num_layers))axs[i].set_yticklabels(range(num_layers))axs[i].invert_yaxis()plt.tight_layout()plt.show()layer_diffs = calculate_layer_diffs(base_model, chat_model)visualize_layer_diffs(layer_diffs)

还有人贴出了 Matt Shumer 在 Hugging Face 对 Reflection 70B 配置文件名称的更改，可以看到从 Llama 3 70B Instruct 到 Llama 3.1 70B Instruct 的变化。

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

这样的事实摆在眼前，似乎让人不得不信。各路网友也开始发声附和，有人表示自己从一开始就怀疑它是 Llama 3，当用德语问模型一些事情时，它却用英语回答。这种行为对于 Llama 3 非常常见。

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

还有人奇怪为什么 Reflection 70B 模型一开始就得到了如此多的炒作和关注，毕竟第一个谈论它是「顶级开源模型」的人是开发者本人（Matt）。而且更确切地说，模型是微调的。

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

更有人开始质疑开发者（Matt），认为他只是这家公司（GlaiveAI）的利益相关者，试图通过炒作来增加价值，实际上却对这项技术一无所知。

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

在被质疑 Reflection 70B 的基础模型可能是 Llama 3 而非 Llama 3.1 70B 时，Matt Shumer 坐不住了，现身进行了澄清，并表示是 Hugging Face 权重出现了问题。

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

就在几个小时前，Matt Shumer 称已经重新上传了权重，但仍然存在问题。同时他们开始重新训练模型并上传，从而消除任何可能出现的问题，应该很快就会完成。

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

当被问到为何需要重新训练时，Matt Shumer 表示本不需要这样做，但已经尝试了所有方法。无论做什么，Hugging Face 上 Reflection 70B 模型都会出现问题，导致离预期中的性能差得远。

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

当然 Matt Shumer 还面临更多质疑，比如对 GlaiveAI 的投资情况、为什么 Hugging Face 上的基础模型为 Llama 3 而不是 Llama 3.1 以及基准中有关 LORAing 的问题。

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

Matt Shumer 一一进行了解释。（以下标引用）

1. 我是一个超级小的投资者（1000 美元），只是一次支持性的投资，因为我认为 Sahil Chaudhary 很棒。
2. 至于为什么基础模型是 Llama 3，我们不知道。这就是为什么我们从头开始再训练，应该很快完成。
3. 那些尝试了 Playground 并拥有早期访问权限的用户获得了与托管 API 截然不同的体验，我们需要弄清楚这一点。
4. 不确定什么是 LORAing，但我们检查了污染，将在下周与 405B（或更早）一起发布数据集，到时候可以查看。

至于重新训练后的 Reflection 70B 表现如何？我们拭目以待。

^{参考链接：}

^{https://www.reddit.com/r/LocalLLaMA/comments/1fb6jdy/reflectionllama3170b_is_actually_llama3/}

今天带大家了解了的相关知识，希望对你有所帮助；关于科技周边的技术知识我们会一点点深入介绍，欢迎大家关注golang学习网公众号，一起学习编程~

产业

声明：本文转载于：机器之心如有侵犯，请联系study_golang@163.com删除

相关阅读

更多>

科技周边 · 人工智能 | 3年前 | AI GPT

GPT-4王者加冕！读图做题性能炸天，凭自己就能考上斯坦福

501 收藏
科技周边 · 人工智能 | 3年前 | 算法模型

单块V100训练模型提速72倍！尤洋团队新成果获AAAI 2023杰出论文奖

501 收藏
科技周边 · 人工智能 | 3年前 | ChatGPT 人工智能

ChatGPT 真的会接管世界吗？

501 收藏
科技周边 · 人工智能 | 3年前 | AI VR

VR的终极形态是「假眼」？Neuralink前联合创始人掏出新产品：科学之眼！

501 收藏
科技周边 · 人工智能 | 3年前 | 人工智能

实现实时制造可视性优势有哪些？

501 收藏

最新阅读

更多>

科技周边 · 人工智能 | 1天前 | 人工智能 · rag · 向量检索 · 知识库问答 · AI工程化 · 人工智能知识库 RAG 重排向量检索文档切分证据引用

AI 知识库检索召回工作流：从文档切分到重排和证据引用

191 收藏
科技周边 · 人工智能 | 3天前 | JSON · 人工智能 · 结构化输出 · 大模型接口 · 后端接入 · 人工智能 JSON AI接口 Schema 结构化输出

AI 接口 JSON 返回不稳定排查：从提示词到结构化输出

299 收藏
科技周边 · 人工智能 | 4天前 | 人工智能 · mcp · ai agent · 工具接入 · 安全审计 · AI Agent MCP Model Context Protocol 工具清单资源上下文权限审计

MCP 服务接入工作流：从工具清单到权限审计的 AI Agent 落地路线

378 收藏
科技周边 · 人工智能 | 4天前 | 人工智能 · ai agent · 工具调用 · 结构化输出 · 工程排查 · AI Agent Schema 结构化输出超时重试工具调用兜底回答

AI Agent 工具调用失败排查：从 Schema 到超时兜底的完整工作流

195 收藏
科技周边 · 人工智能 | 4天前 | 人工智能 · rag · 知识库检索 · RAG 向量检索 AI知识库混合召回结果重排

AI 知识库检索不到答案排查：从分块到重排的 RAG 修复流程

453 收藏
科技周边 · 人工智能 | 4天前 | 人工智能 · AI工程 · 成本控制 · 人工智能成本控制 AI接口 token预算 Batch API

AI 批量调用成本控制：从请求日志到预算阈值的完整工作流

202 收藏
科技周边 · 人工智能 | 5天前 | 人工智能 · rag · 知识库 · AI工程实践 · 人工智能 RAG 知识库问答向量检索引用检查

AI 知识库回答跑偏怎么办：RAG 检索、重排和引用检查完整流程

419 收藏
科技周边 · 人工智能 | 5天前 | 人工智能 · ai agent · 工程实践 · AI Agent 上下文管理人工确认多智能体交接摘要

AI Agent 交接跑偏怎么办：从意图检查到交接摘要一步步排查

170 收藏
科技周边 · 人工智能 | 6天前 | 人工智能 · 质量检查 · AI应用 · 提示词工程 · 回归测试 · 大模型应用回归测试人工复核 AI提示词评分规则上线检查

AI 提示词回归测试实战：小样本集、评分规则和上线前对比

475 收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · tracing · ai agent · 可观测性 · 工具调用 · 可观测性 AI Agent Tracing 工具调用 OpenAI Agents SDK

AI Agent Tracing 实战：工具调用、护栏和人工确认怎么追踪

292 收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · ai agent · 工具调用 · 权限治理 · 人工智能审计日志 AI Agent 权限分级工具调用人工确认

AI Agent 工具权限分级实战：读、写、发布三类操作怎么管

379 收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · AI应用 · 结构化输出 · 内容质检 · 提示词工程 · AI 提示词结构化输出 JSON Schema 质检流水线人工兜底

AI 输出质检流水线实战：规则检查、结构化结果和人工兜底

394 收藏

课程推荐

更多>

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

立即学习 543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

立即学习 516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

立即学习 500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

立即学习 487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

立即学习 485次学习