登录
首页 >  科技周边 >  人工智能

肉包:开源AI手机助手,豆包平替推荐

时间:2026-03-14 22:00:53 424浏览 收藏

肉包(Roubao)是一款开源、轻量且高度可定制的AI手机助手,专为替代豆包等商业AI助手而生——它不依赖Root或PC调试,仅需Shizuku即可实现真正离线、端侧运行的视觉语言模型驱动自动化;通过“截图→AI理解→指令执行”闭环,支持自然语言操控手机完成点餐、跨App信息流转、出行调度、娱乐唤起等高频任务,同时兼顾隐私安全(AES加密密钥、敏感界面自动暂停)与极致体验(Material 3设计、双语本地化、多VLM后端灵活切换),是追求自主权、可控性与智能化移动生活的科技爱好者不可错过的开源利器。

肉包是什么

肉包(Roubao)是一款开源的AI驱动手机自动化工具,旨在提供字节跳动“豆包手机助手”的免费、轻量、可定制替代方案。它基于视觉语言模型(VLM)构建,采用Kotlin原生开发,无需依赖PC端调试或Root权限,仅需通过Shizuku即可获取系统级操作能力。其核心工作流为“截图→AI理解→指令执行”闭环,同时支持Delegation(委托专业AI应用处理)与GUI级自动化双模式,覆盖点餐、通讯、导航等高频移动场景。

肉包— 开源的AI手机自动化助手,豆包手机平替

肉包的主要功能

  • 智能AI代理(Agent):依托视觉语言模型实时解析屏幕画面,理解界面语义,响应自然语言指令,自主拆解并执行多步骤任务。
  • 现代化UI体验:遵循Material 3设计规范,内置深色/浅色主题自动适配、细腻交互动画及完整中英文本地化支持。
  • 灵活模型接入:兼容多种主流VLM后端,如通义千问Qwen-VL、OpenAI GPT-4V、Anthropic Claude系列等,支持自定义API地址、密钥及本地模型部署。
  • 隐私与安全优先:所有API密钥均通过AES-256-GCM加密存储;内置敏感页面识别模块,可在检测到支付、登录等高风险界面时主动暂停任务;全部操作过程可视化,支持一键手动终止。
  • Root增强能力(可选):当Shizuku以Root权限运行时,肉包可启用更深层系统控制,例如无障碍服务强制启用、后台应用管理、跨进程UI交互等进阶功能。

肉包的技术原理

  • 双层Agent架构设计:灵感源自Claude Code框架,分为Tools层与Skills层。Tools层封装底层原子能力——包括App启动、DeepLink跳转、剪贴板读写、通知栏交互等;Skills层则面向用户意图建模,将“帮我订一杯咖啡”这类模糊表达精准映射为可执行动作序列。
  • 闭环式视觉自动化流程:持续执行“截屏→VLM分析→动作生成→系统执行”循环。Shizuku负责底层截图与触控注入;SkillManager首先进行意图置信度评估——高确定性请求(如“打开微信”)直连DeepLink委托;低置信度或复合型任务(如“把刚收到的快递单号发给张三”)则进入标准Agent流程,由Manager统筹规划、Executor生成具体操作、Reflector动态校验结果并迭代优化。
  • 纯端侧Android原生实现:在MobileAgent开源框架基础上,使用Kotlin全面重写,完全离线运行于安卓设备本地。借助Shizuku获得类ADB权限,直接调用系统接口完成截图、点击、滑动、输入等操作,彻底摆脱传统Python+ADB方案对电脑连接的依赖。

肉包的项目地址

肉包的应用场景

  • 高频生活事务自动化:一句话触发外卖下单、天气查询、闹钟设置、消息发送等操作,免去手动切换App、层层点击的繁琐流程。
  • 跨应用信息流转:自动识别当前屏幕内容(如网页链接、图片文字、订单号),一键完成“将最新截图发至微博”“把聊天中的网址分享到微信”“从邮件复制收货地址填入淘宝”等操作。
  • 个性化娱乐调度:自动唤起音乐App播放每日推荐歌单、在B站搜索指定关键词并播放首个视频、滚动刷新抖音/小红书首页获取热门内容。
  • 智能出行辅助:语音唤醒高德地图发起路线规划、调起滴滴/高德打车、检索周边餐厅/加油站/停车场等POI信息,并结构化呈现关键字段。

今天关于《肉包:开源AI手机助手,豆包平替推荐》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于的内容请关注golang学习网公众号!

资料下载
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>