推荐文章 Go 技术课程下载专题 AI

首页 > 科技周边 > 人工智能

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

来源：机器之心

时间：2024-06-21 22:24:46 498浏览收藏

热门推荐

漫画APP

动画内容聚合，热门资源快捷查看

在科技周边实战开发的过程中，我们经常会遇到一些这样那样的问题，然后要卡好半天，等问题解决了才发现原来一些细节知识点还是没有掌握好。今天golang学习网就整理分享《一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？》，聊聊，希望可以帮助到正在努力赚钱的你。

机器之能报道

编辑：杨文

玩梗、看病、耍心眼、做数学题，「新王」Claude 3.5能力真那么玄乎？

它来了，它来了，它带着 Claude 3.5 Sonnet 走来了！

蛰伏三个月，就在昨晚，OpenAI 的「劲敌」Anthropic 上新了，推出新一代模型 ——

Claude 3.5 Sonnet！

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

这款大模型有啥独到之处？

首先，它更能把握住细微差别、幽默和复杂指令，并且书写语气更自然、亲切。

它还是Anthropic最强的视觉模型，擅长解释图表、图形或者从不完美的图像中转录文本等任务。

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

此外，它在推理、阅读理解、数学、科学和编码等多项评估基准中表现不凡。

总之，按官方介绍，Claude 3.5 Sonnet 是迄今为止最智能的模型，在多个方面吊打 GPT-4o。

话说到这份上，那我们就不客气了，直接让 Claude 3.5 Sonnet 和 GPT-4o 对决，孰优孰劣实力说话。

第一局：心眼子练习

日常生活中，总会遇到一些尴尬的场面。

例如，饭局上，你帮领导盛饭，领导接过后，说：“盛这么多，喂猪呢？” 这种情况下，高情商者会如何应对？

我们把这个问题丢给这两个大模型。

Claude 3.5 Sonnet：

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

GPT-4o：

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

它们是懂拍马屁的。

Claude 3.5 一口气给了 5 个示例，不过第 2 句「我眼神不好使，把您当成我们单位的顶梁柱了」，这是拍马蹄子上了吧。

GPT-4o 就更懂「人情世故」了，「看您身材保持得这么好，我可得向您请教减肥秘籍」，这马屁拍的是恰到好处啊。

值得一提的是，Claude 3.5 Sonnet 还上线了一个新功能 —— 提示词再编辑功能。

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

用户可直接在原始提示词上进行编辑修改，而不用一遍遍复制粘贴。

第二局：根据菜肴生成菜谱

我们上传了一张「西红柿炒鸡蛋」的图片，分别让这俩大模型介绍一下制作流程。

Claude 3.5 Sonnet：

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

GPT-4o：

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

它们对于这道经典的中国菜颇有心得，从配料到步骤一应俱全，最有意思的是，它俩懂得中国人做菜的精髓「少许」，也都强调加点糖平衡酸度。

论做菜，两个大模型不相上下。

第三局：做数学题

官方给出的评估表中，GPT-4o 的数学得分要略高于 Claude 3.5 Sonnet 。其中，GPT-4o 是 76.6%，而 Claude 3.5 Sonnet 是 71.1%。

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

我们从 2024 年新高考 I 卷中摘录了两道题目，一道是选择题，一道是解答题，分别以图片的形式「投喂」给这两个大模型。

第一道是送分题，正确答案是 A。

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

Claude 3.5 Sonnet：

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

GPT-4o：

这两个大模型「心有灵犀」，不仅给出了正确答案，还给出了详细的解题步骤。

我们又将解答题第一题交给他们，还让它们给出解题过程。

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

正确答案是：B=3/π。

Claude 3.5 Sonnet：

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

GPT-4o：

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

其实，这道题目算是最基础的题目，但俩大模型「一顿操作猛如虎」，最后给出了错误答案。

更搞笑的是，这错误答案也不是凭空出来的，而是经过了一连串的推理，连犯的错都一个样。

对于数学能力，这俩大模型半斤八两。

第四局：玩网络热梗

今年，AI 视频领域遍地开花，不仅闯入新的「踢馆者」—— 可灵、Luma、即梦等，曾经的 AI 视频「扛把子」Runway 也「王者归来」。

由此，网友制作了这张梗图，来调侃如今各大 AI 视频应用的江湖地位。

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

我们分别向两家大模型上传这张梗图，并输入提示词「这张图是什么意思」，以此来测试它们的图片解读能力。

Claude 3.5 Sonnet：

GPT-4o：

Claude 3.5 Sonnet 从画面角色、场景以及氛围等方面进行详细描述，不过它似乎没搞懂这张梗图的内涵，也不认识这几个 AI 视频应用，只是含混其辞地表示「这是对在线社区、人工智能系统或虚拟世界中权力结构的评论。」

GPT-4o 一瞅就明白其中深意，「这张图片可能象征着 Runway 在人工智能和创意工具领域的公认优势或领导地位，与提到的其他应用相比，Runway 受到高度重视。」

显而易见，这一局，GPT-4o 完胜。

第五局：读懂世界名画

我们拿出皮埃尔・奥古斯特・库特在 1873 年画的《春光》一图，让它们识别画作并进行赏析。

Claude 3.5 Sonnet：

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

GPT-4o：

这两个大模型堪称艺术界的「行家里手」，均认出了这幅画作，基础信息也表达无误，同时从不同的角度进行赏析。

它们都提到市场价值，不过，Claude 3.5 Sonnet 拒绝置评，只提醒「艺术品估价需要专家评估，考虑多种因素，而且价格可能会随着时间的推移而大幅波动。」

GPT-4o 则认为该画可能会拍出数百万美元的价格，这是不是太小看这幅经典画作了？

这一局，两个大模型算是打成平手。

第六局：AI 看病

最近网友们玩起了用 AI 大模型来看病。我们找了一张 6 岁孩子牙齿的 X 光照片，让大模型们通过牙齿推断年龄，以及有哪些问题。

Claude 3.5 Sonnet：

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

GPT-4o：

Claude 3.5 Sonnet 基于乳牙和恒牙的发育情况，得出结论：这是一个 6-7 岁左右孩子的牙齿，下颌牙齿有些拥挤，恒牙似乎受到阻生，牙齿上较暗的区域或许有腐烂。

GPT-4o 则认为这是 7-9 岁孩子的牙齿，主要的牙齿问题包括恒牙拥挤和潜在的嵌塞。

同时，它们都提到这需要专业的牙医检查。

两相比较，Claude 3.5 Sonnet 对于年龄的判断更为精准一些。

这一局，Claude 3.5 略胜一筹。

此外，不少网友还在线整活儿，捣鼓出不少有趣的玩法。

比如说，EverArt 创始人 Pietro Schirano 在 Claude 3.5 Sonnet 的帮助下，使用几何形状克隆了马里奥游戏，整个过程仅持续 3 分钟。

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

他表示，「最疯狂的部分是它还为角色提供了动画，而且这些形状看起来很新颖。」

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

视频链接:https://mp.weixin.qq.com/s/dbApyzEtYNgsWsXoi12gFQ

各位读者，你们觉得这次 Claude 3.5 Sonnet 有没有完成对 GPT-4o 的「绝杀」呢？

以上就是《一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？》的详细内容，更多关于产业的资料请关注golang学习网公众号！

产业

声明：本文转载于：机器之心如有侵犯，请联系study_golang@163.com删除

相关阅读

更多>

科技周边 · 人工智能 | 1个月前 |

AI写作工具免费版安装教程（含豆包Clawdbot）

501 收藏
科技周边 · 人工智能 | 1个月前 |

WPS AI能自动生成PPT吗？输入主题一键制作演示文稿

501 收藏
科技周边 · 人工智能 | 1个月前 | CanvaAI Canva Canva可画

Canva手机闪退解决方法及适配指南

501 收藏
科技周边 · 人工智能 | 2个月前 |

Hermes Agent依赖的工具链有哪些必备工具链介绍

501 收藏
科技周边 · 人工智能 | 2个月前 | 通义千问千问千问APP

千问AI官网地址链接入口_千问AI官方网站登陆入口

501 收藏

最新阅读

更多>

科技周边 · 人工智能 | 1天前 | 人工智能 · rag · AI应用 · 知识库 · 向量检索 · 故障复盘 · 人工智能检索增强生成 RAG 向量检索证据门禁评测样本 AI应用复盘

RAG 应用答错怎么复盘：检索命中、证据门禁和评测样本怎么补

468 收藏
科技周边 · 人工智能 | 1天前 | 人工智能 · ai agent · AI应用 · 工具调用 · 权限边界 · 审计链路 · 人工智能权限控制 AI Agent 工具调用审批链路审计回放上线指标

AI Agent 工具调用怎么落地：权限闸门、审批链路和上线观察指标

343 收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · GenAI · opentelemetry · 可观测性 · AI工程 · 人工智能链路追踪 GenAI OpenTelemetry AI可观测性 LLM网关 Token统计

AI 调用可观测架构：从散乱日志到 OpenTelemetry GenAI 字段统一

427 收藏
科技周边 · 人工智能 | 1星期前 | Node.js · 人工智能 · deepseek · AI工具 · Node.js 人工智能命令行工具流式输出 AI摘要 DeepSeek API

用 DeepSeek API 从零写一个流式摘要小工具：Node.js 命令行版

154 收藏
科技周边 · 人工智能 | 1星期前 | JSON · 人工智能 · 结构化输出 · 接口排查 · JSON Schema AI结构化输出解析失败 LLM接口提示词排查

AI 结构化输出解析失败怎么办：从提示词到 JSON Schema 逐步定位

309 收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · webgpu · 浏览器API · 本地推理 · 前端AI · AI推理 WebGPU 降级方案前端性能浏览器端AI 本地推理

WebGPU 做浏览器端 AI 推理：能力边界、检测和降级方案

234 收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · 前端流式输出 · AI聊天 · Fetch Stream · 前端 AI聊天流式输出 ReadableStream TextDecoder Fetch Stream

AI 聊天流式输出前端配方：用 Fetch Stream 实现逐字渲染和中断控制

448 收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · rag · 向量数据库 · 检索增强生成 · 人工智能 AI应用 RAG embedding 向量检索

RAG 答非所问怎么排查：从切块、向量到召回上下文

427 收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · rag · 向量检索 · 知识库问答 · AI工程化 · 人工智能知识库 RAG 重排向量检索文档切分证据引用

AI 知识库检索召回工作流：从文档切分到重排和证据引用

191 收藏
科技周边 · 人工智能 | 3星期前 | JSON · 人工智能 · 结构化输出 · 大模型接口 · 后端接入 · 人工智能 JSON AI接口 Schema 结构化输出

AI 接口 JSON 返回不稳定排查：从提示词到结构化输出

299 收藏
科技周边 · 人工智能 | 3星期前 | 人工智能 · mcp · ai agent · 工具接入 · 安全审计 · AI Agent MCP Model Context Protocol 工具清单资源上下文权限审计

MCP 服务接入工作流：从工具清单到权限审计的 AI Agent 落地路线

378 收藏
科技周边 · 人工智能 | 3星期前 | 人工智能 · ai agent · 工具调用 · 结构化输出 · 工程排查 · AI Agent Schema 结构化输出超时重试工具调用兜底回答

AI Agent 工具调用失败排查：从 Schema 到超时兜底的完整工作流

195 收藏

课程推荐

更多>

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

立即学习 543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

立即学习 516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

立即学习 500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

立即学习 487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

立即学习 485次学习