首页 > 科技周边 > 人工智能

AI无法攻克的235道谜题！让o1、Gemini 2.0 Flash Thinking集体挂零

时间：2025-02-17 22:13:47 316浏览收藏

各位小伙伴们，大家好呀！看看今天我又给各位带来了什么文章？本文标题是《AI无法攻克的235道谜题！让o1、Gemini 2.0 Flash Thinking集体挂零》，很明显是关于科技周边的文章哈哈哈，其中内容主要会涉及到等等，如果能帮到你，觉得很不错的话，欢迎各位多多点评和分享！

最新研究揭示大语言模型推理能力的局限性：ENIGMAEVAL 基准测试结果

Scale AI、Center for AI Safety 和 MIT 的研究人员联合发布了新的多模态推理基准测试 ENIGMAEVAL，再次挑战了大语言模型的推理能力。该基准包含 1184 个难题，涵盖解谜寻宝竞赛中的各种类型，测试模型的逻辑推理、创造性思维和跨学科知识运用能力。难题分为普通难度 (Normal) 和困难难度 (Hard) 两类，分别包含 949 道和 235 道题目。难题以原始 PDF 图片和结构化文本-图像两种格式提供，以评估模型的端到端能力和独立推理能力。

测试结果显示，即使是像 OpenAI 的 o1 这样的顶尖模型，在普通难度谜题上的准确率也仅为 7.0% 左右，在困难难度谜题上的准确率则为 0%。这与经验丰富的人类解谜者的表现形成鲜明对比。研究发现，模型在处理原始 PDF 格式的谜题时，性能会显著下降，这表明一些前沿模型的 OCR 和文档解析能力仍然存在限制。