突破数据瓶颈!交大研发电脑智能体,让 AI 替你熬夜做 PPT
时间:2025-01-21 18:40:28 436浏览 收藏
你在学习科技周边相关的知识吗?本文《突破数据瓶颈!交大研发电脑智能体,让 AI 替你熬夜做 PPT》,主要介绍的内容就涉及到,如果你想提升自己的开发能力,就不要错过这篇文章,大家要知道编程理论基础和实战操作都是不可或缺的哦!
上海交通大学GAIR实验室研发PC Agent:让AI帮你完成深夜PPT制作
深夜需要准备第二天论文分享的PPT?有了上海交通大学GAIR实验室研发的PC Agent,你只需告诉它要点和保存位置,第二天就能看到一份制作精良的PPT。这项研究由三位研究者完成,共同第一作者为上海交通大学ACM班三年级本科生何彦衡和金嘉禾,指导老师为刘鹏飞副教授。GAIR实验室主要研究方向包括大模型复杂推理、数据工程、多模态大模型和智能体。实验室主页:https://plms.ai/
PC Agent通过认知迁移方法,高效收集人类认知轨迹进行训练(而非API调用),实现了像人类一样操作电脑:阅读屏幕、控制键盘鼠标,完成数十步跨软件的复杂任务。这标志着AI真正开始为人类减负!
PC Agent能轻松完成大量重复性工作,例如为多位图灵奖得主制作海报:
它还能像Claude 3.5 Sonnet一样,完成“AI调用AI”的任务,例如自行创建网站:
论文信息:
- 论文标题:PC Agent: While You Sleep, AI Works - A Cognitive Journey into Digital World
- 论文地址:https://arxiv.org/pdf/2412.17589
- 代码地址:https://github.com/GAIR-NLP/PC-Agent
挑战与突破:深度电脑理解与精准视觉定位
当前智能体电脑使用能力远逊于人类,主要挑战在于深度电脑理解认知和精准视觉定位能力。
1. 视觉定位:GUI交互的基础是精准定位屏幕元素(如按钮)。现有模型,包括GPT-4o,缺乏此能力。
2. 认知理解:模型缺乏对电脑使用的认知理解,包括细粒度的电脑操作知识(例如,在PowerPoint中添加标题需要先点击文本框再输入)和智能体导向的训练(长程任务中的上下文关注、决策和策略调整)。
认知迁移:AI从对话窗口到数字世界的关键
团队提出人类认知迁移方法,包括高效采集人机交互数据的轻量级工具PC Tracker,以及从原始交互数据重建人类认知的完整流水线。PC Tracker开源,旨在加速社区研究。
该方法首先采集人类电脑操作轨迹,然后用大模型重建人类认知,最终得到包含人类认知的交互轨迹(Cognitive trajectory)。通过模仿学习,AI不仅模仿动作,还学习背后的认知理解。
仅在133条认知轨迹上训练,PC Agent就能执行50步复杂任务,展现了方法的高效性。
PC Tracker:高效采集人机交互数据
PC Tracker轻量级运行,仅在用户动作发生时记录,不会影响用户体验,并支持大规模数据采集。它具备以下特性:
- 轻量级数据采集
- 无损用户体验
- 大规模数据采集
- 统一动作空间
- 双采集模式(任务导向和无任务导向)
- 数据透明与隐私保护
认知轨迹重建:动作语义重建和思考过程重建
原始点击动作缺乏语义信息,需要重建。大模型通过上下文信息和动作语义,重建每步动作背后的思考过程。
PC Agent:基于开源模型的多智能体协作
PC Agent采用多智能体架构:规划智能体负责决策,视觉定位智能体负责执行点击动作。它利用Molmo模型进行视觉定位,并通过自我验证提高精度。
未来展望
团队未来将关注大规模泛化实验、长程规划与鲁棒性、无任务数据的利用、动作空间优化和复杂任务的评估。
以上就是《突破数据瓶颈!交大研发电脑智能体,让 AI 替你熬夜做 PPT》的详细内容,更多关于产业,PC Agent的资料请关注golang学习网公众号!
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
319 收藏
-
142 收藏
-
251 收藏
-
326 收藏
-
346 收藏
-
204 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 507次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习