MobileAgent 是由阿里巴巴开发的一款创新的自主多模态AI代理,专为模拟人类操作手机而设计。作为一个纯视觉解决方案,它能够通过分析图像来理解和操作手机,无需依赖系统代码或任何内部数据。
软件功能
- 纯视觉解决方案:完全通过分析图像来理解和操作手机,不依赖任何系统代码;
- 独立于XML和系统元数据:增加了通用性和灵活性,可以在没有访问底层代码或数据权限的情况下操作应用;
- 具备多种视觉感知工具:利用文本检测、图标检测工具和CLIP技术等进行操作定位;
- 无需探索和训练:即插即用,用户可以直接在不同设备和应用上使用,无需复杂的设置或预训练。
软件特点
- 自主任务规划和执行:能够自主规划和分解复杂的操作任务,逐步导航移动应用程序;
- 自反思能力:具备自我规划能力,可以根据截图、用户指令和操作历史全面规划任务,通过自反思方法识别错误操作和不完整指令,提高任务完成率;
- 提示格式:代理输出包括观察、思考和行动三个组成部分,确保任务的高效完成。
应用案例
- Alibaba购物:帮助用户在Alibaba上找到商品并添加到购物车;
- Amazon Music:搜索歌手或播放特定音乐;
- Chrome:搜索今日体育赛事结果或名人信息;
- Gmail:发送具有特定内容的邮件;
- Google Maps:导航至指定地点;
- Google Play:下载特定的应用;
- Notes:创建新便签并记录特定信息;
- Settings:调整系统设置,如开启深色模式或飞行模式;
- TikTok:为视频点赞或发表评论;
- YouTube:搜索并评论特定视频。
下载地址
- MobileAgent项目的详细信息和源代码可在GitHub找到:GitHub - MobileAgent
- 相关研究论文可在此处查看:arXiv论文