推荐文章 Go 技术课程下载专题 AI

首页 > 科技周边 > 人工智能

英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

来源：51CTO.COM

时间：2024-06-03 14:15:16 260浏览收藏

本篇文章主要是结合我之前面试的各种经历和实战开发中遇到的问题解决经验整理的，希望这篇《英伟达新研究：上下文长度虚标严重，32K性能合格的都不多》对你有很大帮助！欢迎收藏，分享给更多的需要的朋友学习~

无情戳穿“长上下文”大模型的虚标现象——

英伟达新研究发现，包括GPT-4在内的10个大模型，生成达到128k甚至1M上下文长度的都有。

但一番考验下来，在新指标“有效上下文”上缩水严重，能达到32K的都不多。

新基准名为RULER，包含检索、多跳追踪、聚合、问答四大类共13项任务。RULER定义了“有效上下文长度”，即模型能保持与Llama-7B基线在4K长度下同等性能的最大长度。

英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

这项研究被学者评价为“非常有洞察力”。

英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

不少网友看到这项新研究后，也非常想看到上下文长度王者玩家Claude和Gemini的挑战结果。（论文中并未覆盖）

英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

一起来看英伟达是如何定义“有效上下文”指标的。

英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

测试任务更多、更难

要评测大模型的长文本理解能力，得先选个好标准，现圈内流行的ZeroSCROLLS、L-Eval、LongBench、InfiniteBench等，要么仅评估了模型检索能力，要么受限于先验知识的干扰。

所以英伟达剔除的RULER方法，一句话概括就是“确保评估侧重于模型处理和理解长上下文的能力，而不是从训练数据中回忆信息的能力”。

RULER的评测数据减少了对“参数化知识”的依赖，也就是大模型在训练过程中已经编码到自身参数里的知识。

具体来说，RULER基准扩展了流行的“大海捞针”测试，新增四大类任务。

英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

检索方面，从大海捞针标准的单针检索任务出发，又加入了如下新类型：

多针检索（Multi-keys NIAH, MK-NIAH）：上下文中插入多个干扰针，模型需检索指定的那一个
多值检索（Multi-values NIAH, MV-NIAH）：一个键（key）对应多个值（values），模型需要检索出与特定键关联的所有值。
多查询检索（Multi-queries NIAH, MQ-NIAH）：模型需根据多个查询在文本中检索出相应的多个针。

除了升级版检索，RULER还增加了多跳追踪（Multi-hop Tracing）挑战。

具体来说，研究人员提出了变量追踪（VT），模拟了指代消解（coreference resolution）的最小任务，要求模型追踪文本中变量的赋值链，即使这些赋值在文本中是非连续的。

挑战第三关是聚合（Aggregation），包括：

常见词汇提取（Common Words Extraction, CWE）：模型需要从文本中提取出现次数最多的常见词汇。
频繁词汇提取（Frequent Words Extraction, FWE）：与CWE类似，但是词汇的出现频率是根据其在词汇表中的排名和Zeta分布参数α来确定的。

英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

挑战第四关是问答任务（QA），在现有阅读理解数据集（如SQuAD）的基础上，插入大量干扰段落，考查长序列QA能力。

各模型上下文实际有多长？

实验阶段，如开头所述，研究人员评测了10个声称支持长上下文的语言模型，包括GPT-4，以及9个开源模型开源模型Command-R、Yi-34B、Mixtral（8x7B）、Mixtral（7B）、ChatGLM、LWM、Together、LongChat、LongAlpaca。

这些模型参数规模范围从6B到采用MoE架构的8x7B不等，最大上下文长度从32K到1M不等。

在RULER基准测试中，对每个模型评测了13个不同的任务，覆盖4个任务类别，难度简单到复杂的都有。对每项任务，生成500个测试样例，输入长度从4K-128K共6个等级（4K、8K、16K、32K、64K、128K）。

英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

为了防止模型拒绝回答问题，输入被附加了answer prefix，并基于recall-based准确性来检查目标输出的存在。

英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

研究人员还定义了“有效上下文长度”指标，即模型在该长度下能保持与基线Llama-7B在4K长度时的同等性能水平。

为了更细致的模型比较，使用了加权平均分数（Weighted Average, wAvg）作为综合指标，对不同长度下的性能进行加权平均。采用了两种加权方案：

wAvg(inc)：权重随长度线性增加，模拟以长序列为主的应用场景
wAvg(dec):权重随长度线性减小，模拟以短序列为主的场景

来看结果。

普通大海捞针和密码检索测试看不出差距，几乎所有模型在其声称的上下文长度范围内均取得满分。

而使用RULER，尽管很多模型声称能够处理32K token或更长的上下文，但除了Mixtral外，没有模型在其声称的长度上保持超过Llama2-7B基线的性能。

英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

其他结果如下，总的来说，GPT-4在4K长度下表现最佳，并且在上下文扩展到128K时显示出最小的性能下降（15.4%）。

开源模型中排名前三的是Command-R、Yi-34B和Mixtral，它们都使用了较大的基频RoPE，并且比其它模型具有更多的参数。

英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

此外，研究人员还对Yi-34B-200K模型在增加输入长度（高达256K）和更复杂任务上的表现进行了深入分析，以理解任务配置和失败模式对RULER的影响。

他们还分析了训练上下文长度、模型大小和架构对模型性能的影响，发现更大的上下文训练通常会带来更好的性能，但对长序列的排名可能不一致；模型大小的增加对长上下文建模有显著好处；非Transformer架构（如RWKV和Mamba）在RULER上的表现显著落后于基于Transformer的Llama2-7B。

更多细节，感兴趣的家银们可以查看原论文。

论文链接：https://arxiv.org/abs/2404.06654

今天带大家了解了的相关知识，希望对你有所帮助；关于科技周边的技术知识我们会一点点深入介绍，欢迎大家关注golang学习网公众号，一起学习编程~

模型英伟达

声明：本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

相关阅读

更多>

科技周边 · 人工智能 | 3年前 | AI GPT

GPT-4王者加冕！读图做题性能炸天，凭自己就能考上斯坦福

501 收藏
科技周边 · 人工智能 | 3年前 | 算法模型

单块V100训练模型提速72倍！尤洋团队新成果获AAAI 2023杰出论文奖

501 收藏
科技周边 · 人工智能 | 3年前 | ChatGPT 人工智能

ChatGPT 真的会接管世界吗？

501 收藏
科技周边 · 人工智能 | 3年前 | AI VR

VR的终极形态是「假眼」？Neuralink前联合创始人掏出新产品：科学之眼！

501 收藏
科技周边 · 人工智能 | 3年前 | 人工智能

实现实时制造可视性优势有哪些？

501 收藏

最新阅读

更多>

科技周边 · 人工智能 | 18小时前 | JSON · 人工智能 · 结构化输出 · 大模型接口 · 后端接入 · 人工智能 JSON AI接口 Schema 结构化输出

AI 接口 JSON 返回不稳定排查：从提示词到结构化输出

299 收藏
科技周边 · 人工智能 | 1天前 | 人工智能 · mcp · ai agent · 工具接入 · 安全审计 · AI Agent MCP Model Context Protocol 工具清单资源上下文权限审计

MCP 服务接入工作流：从工具清单到权限审计的 AI Agent 落地路线

378 收藏
科技周边 · 人工智能 | 1天前 | 人工智能 · ai agent · 工具调用 · 结构化输出 · 工程排查 · AI Agent Schema 结构化输出超时重试工具调用兜底回答

AI Agent 工具调用失败排查：从 Schema 到超时兜底的完整工作流

195 收藏
科技周边 · 人工智能 | 1天前 | 人工智能 · rag · 知识库检索 · RAG 向量检索 AI知识库混合召回结果重排

AI 知识库检索不到答案排查：从分块到重排的 RAG 修复流程

453 收藏
科技周边 · 人工智能 | 1天前 | 人工智能 · AI工程 · 成本控制 · 人工智能成本控制 AI接口 token预算 Batch API

AI 批量调用成本控制：从请求日志到预算阈值的完整工作流

202 收藏
科技周边 · 人工智能 | 2天前 | 人工智能 · rag · 知识库 · AI工程实践 · 人工智能 RAG 知识库问答向量检索引用检查

AI 知识库回答跑偏怎么办：RAG 检索、重排和引用检查完整流程

419 收藏
科技周边 · 人工智能 | 2天前 | 人工智能 · ai agent · 工程实践 · AI Agent 上下文管理人工确认多智能体交接摘要

AI Agent 交接跑偏怎么办：从意图检查到交接摘要一步步排查

170 收藏
科技周边 · 人工智能 | 3天前 | 人工智能 · 质量检查 · AI应用 · 提示词工程 · 回归测试 · 大模型应用回归测试人工复核 AI提示词评分规则上线检查

AI 提示词回归测试实战：小样本集、评分规则和上线前对比

475 收藏
科技周边 · 人工智能 | 5天前 | 人工智能 · tracing · ai agent · 可观测性 · 工具调用 · 可观测性 AI Agent Tracing 工具调用 OpenAI Agents SDK

AI Agent Tracing 实战：工具调用、护栏和人工确认怎么追踪

292 收藏
科技周边 · 人工智能 | 5天前 | 人工智能 · ai agent · 工具调用 · 权限治理 · 人工智能审计日志 AI Agent 权限分级工具调用人工确认

AI Agent 工具权限分级实战：读、写、发布三类操作怎么管

379 收藏
科技周边 · 人工智能 | 5天前 | 人工智能 · AI应用 · 结构化输出 · 内容质检 · 提示词工程 · AI 提示词结构化输出 JSON Schema 质检流水线人工兜底

AI 输出质检流水线实战：规则检查、结构化结果和人工兜底

394 收藏
科技周边 · 人工智能 | 6天前 | 人工智能 · rag · 知识库 · 工程实践 · 向量检索 · 元数据 RAG embedding 向量检索 AI知识库文档分块

AI 知识库分块实战：按标题层级切文档，减少回答跑偏

101 收藏

课程推荐

更多>

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

立即学习 543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

立即学习 516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

立即学习 500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

立即学习 487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

立即学习 485次学习