鬼手操控着你的手机?大模型GUI智能体易遭受环境劫持
来源:机器之心
时间:2024-12-02 17:41:11 447浏览 收藏
知识点掌握了,还需要不断练习才能熟练运用。下面golang学习网给大家带来一个科技周边开发实战,手把手教大家学习《鬼手操控着你的手机?大模型GUI智能体易遭受环境劫持》,在实现功能的过程中也带大家重新温习相关知识点,温故而知新,回头看看说不定又有不一样的感悟!
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
论文题目:Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions 论文地址:https://arxiv.org/abs/2408.02544 代码仓库:https://github.com/xbmxb/EnvDistraction
任务定义。考虑 GUI Agent A 为了完成特定目标 g,与操作系统环境 Env 交互中的任一步 t, Agent 根据其对环境状态 的感知在操作系统上执行动作。然而,操作系统环境天然包含质量参差不齐、来源各异的复杂信息,我们对其形式化地分为两部分:对完成目标有用或必要的内容,,指示着与用户指令无关的目标的干扰性内容,。GUI Agent 必须使用 来执行忠实的操作,同时避免被 分散注意力并输出不相关的操作。同时,t 时刻的操作空间被状态 决定,相应地定义为三种,最佳的动作,受到干扰的动作 ,和其他(错误)的动作。我们关注智能体对下一步动作的预测是否匹配最佳的动作或受到干扰的动作,或是有效操作空间之外的动作。
模拟数据。根据任务的定义,在不失一般性的情况下模拟任务并构建模拟数据集。每个样本都是一个三元组 (g,s,A),分别是目标、屏幕截图和有效动作空间标注。模拟数据的关键在于构建屏幕截图,使其包含 和 ,即保证屏幕内允许正确的忠实性操作,且存在自然的干扰。研究团队考虑了四种常见场景,即弹框、搜索、推荐和聊天,形成四个子集,针对用户目标、屏幕布局和干扰内容采用组合策略。例如,对于弹框场景,他们构造诱导用户同意去做另一件事情的弹框,并在框内给出拒绝和接受两种动作,如果智能体选择接受型动作,就被看作失去了忠实性。搜索和推荐场景都是在真实的数据内插入伪造的样例,例如相关的折扣物品和推荐的软件。聊天场景较为复杂,研究团队在聊天界面中对方发来的消息内加入干扰内容,如果智能体遵从了这些干扰则被视为不忠实的动作。研究团队对每个子集设计了具体的提示流程,利用 GPT-4 和外部的检索候选数据来完成构造,各子集示例如图 4 所示。
工作模式。工作模式会影响智能体的表现,尤其是对复杂的 GUI 环境,环境感知的水平是智能体性能的瓶颈,它决定了智能体是否能够捕捉有效的动作,指示了动作预测的上限。他们实现了三个具有不同环境感知级别的工作模式,即隐式感知、部分感知和最佳感知。(1)隐式感知即直接对智能体提出要求,输入仅为指令和屏幕,不辅助环境感知 (Direct prompt)。(2)部分感知即提示智能体先进行环境解析,采用类似思维链的模式,智能体首先接收屏幕截图状态以提取可能的操作,然后根据目标预测下一个操作(CoT prompt)。(3)最佳感知即直接提供该屏幕的操作空间给智能体 (w/ Action annotation)。本质上,不同的工作模式意味着两个变化:潜在操作的信息暴露给智能体,信息从视觉通道融合到文本通道中。
多模态环境是否会干扰 GUI Agent 的目标?在有风险的环境中,多模态代理容易受到干扰,这会导致他们放弃目标并做出不忠实的行为。在研究团队的四种场景中,每个模型都会产生偏离原始目标的行为,这降低了行动的正确率。强大的 API 模型(GPT-4o 的 9.09%)和专家模型(SeeClick 的 6.84%)比通用开源模型更忠实。 忠实性和有用性 (helpfulness) 之间的关系是什么?这分为两种情况。首先,具有强大功能的模型既可以提供正确动作,又可以保持忠实(GPT-4o、GPT-4v 和 Claude)。它们表现出较低的 分数,以及相对较高的 和较低的 。然而,感知能力更强但忠实度不足会导致更容易受到干扰,有用性降低。例如,与开源模型相比,GLM-4v 表现出更高的 和低得多的 。因此,忠实度和有用性并不相互排斥,而是可以同时增强,并且为了匹配强大的模型的能力,增强忠实度就显得更为重要。 辅助多模态环境感知是否有助于缓解不忠实?通过实施不同的工作模式,视觉信息被集成到文本通道中以增强环境感知。然而,结果表明,GUI 感知的文本增强实际上会增加干扰,干扰动作的增加甚至会超过其带来的好处。CoT 模式作为一种自我引导的文本增强,可以大大减轻感知负担,但也会增加干扰。因此,即使感知这一性能瓶颈被增强,忠实的脆弱性依旧存在,甚至更具风险。因此,跨文本和视觉模式(如 OCR)的信息融合必须更加谨慎。
本篇关于《鬼手操控着你的手机?大模型GUI智能体易遭受环境劫持》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于科技周边的相关知识,请关注golang学习网公众号!
声明:本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
相关阅读
更多>
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
最新阅读
更多>
-
369 收藏
-
122 收藏
-
322 收藏
-
234 收藏
-
299 收藏
-
304 收藏
课程推荐
更多>
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 507次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习