[开源自荐] 烧了几百亿 token，我写了一个能在浏览器运行的安卓系统（网站已更新，现支持在线使用手机 agent）

爱意满满的作品展示区。

MobileGym (不是移动健身房)

最近更新了网站内容，现在支持在线体验能够自动操作手机的 gui agent ，大家可以输入自己的 key 来尝试一下，看看 agent 是怎么一步一步完成任务的。我们已经做 sim2real 实验证明了，如果能在网页上完成某个任务，那么大概率在大家手机上也是可以完成的。欢迎大家前来体验，我们会不断的优化网站和代码的问题。我们的最终目标是具有现实世界的生产力和用途，而不是只能在手机或者网页上划几下就不知道该干什么，欢迎大家给我们提建议。（我们其实提供了免费的 key ，大家可以直接在网站使用 agent ，但是用的人多就很可能报错）

图片注释

有点标题党了，但是真烧了几百亿 Token ，纯前端 TypeScript + React ，实现了 28 个仿真 APP——微信、支付宝、小红书、bilibili 、X 、Reddit 、微信读书、12306 、腾讯会议、Spotify 、eBay ，外加桌面、设置、通讯录、短信、相册、日历、文件、浏览器等系统应用。桌面兼容小米主题包、支持自定义小组件，Activity 栈、Intent 、手势返回、键盘适配这些 Android 系统机制全部在浏览器里重写了一遍。

虽然本来是为了研究 GUI Agent 打造的，但是 V 友们也完全欢迎来玩啊——可以顺便研究一下安卓系统的一些机制(?我自己也不太懂),或者直接 fork 代码去搞点别的(法律允许范围内)。在线试玩 👉 mobilegym.dev 。

特性 ⚡ 超轻量，高并发，单实例仅占 400M 内存（对比安卓模拟器 4-10G ），单台服务器支持成百上千个环境实例并行 🧪 416 个任务模板，参数化可以生成无限个任务实例，确定性评测，毫秒级出结果，摆脱 LLM as a Judge 的不可靠 🌉 Sim-to-Real 实测有效，在仿真环境用 GRPO 强化学习训练的模型，实测 95% 以上的收益迁移到真机 🧩 扩展友好，文档齐全，新增一个 App 只需要建一个文件夹 + 一份 manifest ；新写一个任务只需要一个 Python 类,最短三行代码搞定 🛡️ 纯沙盒,无后果，不连真服务、不转真钱、不发真消息，放心瞎点链接 https://github.com/Purewhiter/mobilegym

安卓系统

GUI Agent

仿真

8 replies • 2026-06-05 22:57:49 +08:00

mfuuzy

18h 39m ago

牛的兄弟

firefox12

18h 35m ago

很厉害，我问几个初级问题，这个本质就是用 ai 写了一个 node.js 的 android 的
模拟器吧？还有里面的那么多应用其实也是一个 web node.js 的一部分是吧。我想知道的就是这个手机界面也挺复杂的，交互流程也挺复杂的，这些内容你是怎么让 ai 做出来的？你提示给 ai 的内容是什么样的？如果我想拿着你的提示词喂给 ai 是不是也能得到一个这样的结果。

过去我们写出源码，编译得到项目。现在，我们给 ai 提示词，得到源码，在编译得到项目。我们现在的工作部分变成给 ai 指令得到源码，这个是源码吧。其实是 ai 的输出，对吗？如何通过 ai 得到这个源码，这部分怎么学呢？请教。

firefox12

18h 32m ago

当然我还有疑惑的地方过去一份代码我一字不差抄一遍输入就能得到一样的结果。现在就算一样的提示词，我今天输入得到这个 ui 明天在同样的 ai 里输入能得到一样的 ui 吗？可能是完全不一样的 2 套东西，我感觉我使用起来有拉老虎机的感觉，你这个这么复杂，是如何解决每次结果不稳定的问题的呢？

HarvexARC

18h 13m ago

@firefox12 感谢回复。我们做了很长很长时间，大概五个月时间。我们对每个 app 内容都进行了仔细的检查，对出问题的地方进行了反复修改。所以目前就是还没有一个完全自动的工作流直接产生一个完整的 app 。比如我们是每个页面单独给 ai 截图，然后让 ai 单独做这个页面，如果哪里跟真实的不一致，我们就会给 ai 指出来哪里不一致然后让 ai 进行修改。

firefox12

17h 41m ago

@HarvexARC 哦这样啊，我以为你动动嘴，放几张截图，一个下午就让 ai 做出来的这种。所以开发的过程也是反复修改测试的？比如你给它一张截图，让他实现这个 ui ，但是怎么提示它总是这里不对，哪里不对，快好了，又突然崩塌到彻底不行，这种情况是否出现？如果出现了怎么解决？我现在用 ai 写最怕这个完成 95% 的情况突然被重构得失去大量功能完全不能用了。

HarvexARC

17h 7m ago

@firefox12 把要改的点写清楚具体吧，然后尽可能的用比较好的 ai ？我们这边开发主要使用的是 claude 和 gemini ，一般没有出现突然崩塌的情况。一些比较难改的地方有时候需要 ai 多次修改才行。

AItsuki

13h 56m ago

这可太牛逼了兄弟

jrient

9h 31m ago

牛的兄弟