
18年前,苹果iPhone的问世重新定义了智能手机,将功能机时代的通讯工具升级为移动互联网的核心入口;随后Siri的登场,让语音助手九游娱乐文化 九游app官方入口成为手机标配,却始终困在“查天气、设闹钟”的浅层服务里。当大模型技术席卷科技圈,手机行业迎来了新一轮变革契机——AI不再是锦上添花的辅助功能,而是要深入系统底层,成为能跨App完成订票、点餐、处理续费的“全能管家”。
在这场变革中,智谱团队用32个月的深耕,交出了一份颠覆行业的答卷:将具备完整手机操作能力的AutoGLM模型全面开源,喊出“每台手机都可以成为AI手机”的口号。这不仅是一次技术突破,更是对AI手机生态格局的重塑,为行业打破垄断、共建公共技术底座提供了关键支点。
2024年11月,技术圈的一则消息引发热议:AI首次独立完成了手机红包发送。不同于脚本自动化或API调用,这个操作由AutoGLM模型独立完成——它先“看懂”屏幕界面,再一步步模拟人手点击流程,实现了过去被认为“不可能稳定完成”的任务,也让外界真正见识到手机智能体的实力。
作为智谱打造的基础智能体,AutoGLM的核心能力是Phone-Use全链路手机操作,涵盖点击、滑动、输入、截图理解、流程恢复、噪声处理等全维度动作,既能搞定外卖点单这类日常场景,也能完成机票预订等数十步的复杂流程。目前,它已适配美团、携程、微信等上百个主流APP,覆盖50+高频中文应用场景。
其一,双层行为架构解决了“看得懂但点不准”的行业痛点。AutoGLM将Agent行为拆分为Planner和Grounder两层,前者负责任务规划,输出“点击右下角提交按钮”这类动作指令,后者专注界面元素识别与坐标定位,通过中间接口设计,让GPT-4o视觉模式的网页任务执行成功率从18%提升至36.4%,实现翻倍增长。
其二,自进化强化学习框架赋予模型强大的错误恢复能力。通过奖励模型评估每一步操作的有效性,结合上千台虚拟设备的试错训练,AutoGLM能在真机上稳健完成长链路任务,即便中途出现偏差也能自主纠错。
其三,大规模可控训练环境筑牢泛化能力根基。依托WebArena真实网页环境、AndroidLab系统级安卓环境和上千台云手机集群,模型积累了海量真实任务经验,而非依赖固定规则,这与谷歌AutoRT等前沿Agent技术的底层逻辑不谋而合。
值得一提的是,AutoGLM的训练全程在虚拟设备的安全沙箱内进行,既能自由试错,又不会触碰用户真实隐私数据,为技术落地解决了隐私顾虑。
当AutoGLM的产品能力足以支撑真实场景、工程积累可写成厚厚一摞技术报告时,智谱选择了一条反常规的路——将其全面开源,且开放的是“拿来就用”的完整能力包,包括训练好的核心模型、PhoneUse能力框架与工具链、Android适配层及示例工程,还有详尽的上手指南。模型采用MIT许可证开放,代码则以Apache-2.0许可证托管在GitHub,开发者可直接下载复用。
在智谱看来,AI手机是下一代计算入口,其变革绝非一家公司能完成,更不该被少数厂商垄断。一旦核心能力被独占,开发者的创新将受制于平台接口,用户的手机也会沦为“别人家的入口”。通过开源,AutoGLM变成了行业共享的“积木”——厂商可直接嵌入系统,开发者能拆改重构,研究者可基于模块优化算法,真正让技术底座回归公共属性。
AI掌控手机的便利背后,是隐私泄露的隐忧:微信聊天记录、支付信息、相册数据等核心隐私,绝不能交给不可控的第三方。AutoGLM的解法是开源+私有化部署,企业和开发者可在合规环境内掌控全部数据、日志与权限,实现“AI能力免费用,隐私数据不外流”,为行业建立信任基石。
AutoGLM的研发之路布满荆棘,团队啃过无数技术难题、重写过数次框架。开源的初衷,正是“让自己吃过的苦,别人别再吃”。智谱希望将自身积累转化为行业起跑线,未来既能看到基于AutoGLM的AI原生手机,也能涌现出新的技术论文和小众场景应用,形成技术与商业的双向繁荣。
AutoGLM的开源,恰逢AI手机市场爆发的前夜。据IDC预测,2026年中国新一代AI手机出货量将达1.47亿台,占整体市场的53%;赛迪顾问则预计2027年这一数据将升至1.86亿部,占比56.1%,端侧AI与硬件创新将成为核心驱动力。
但当前AI手机的体验仍处“宣传大于实际”的早期阶段。21财经的测评显示,多数机型在跨应用订咖啡等场景中易中途卡顿,即便表现较好的荣耀YOYO,也离“全自动化”有明显差距。这背后,是行业两条技术路线的分野:
意图框架路线:走App官方授权通道,Agent可直接调用应用功能,优势是稳定性强,缺点是依赖厂商开放接口,适配范围受限;
GUIAgent视觉路线:无需授权,靠读屏和模拟操作完成任务,像“站在用户身边学操作”,AutoGLM和字节豆包手机助手均属此类,优势是适配性广,难点是界面识别与操作精准度要求高。
字节的豆包手机是GUI路线的典型探索。这款由中兴代工、首批仅3万台的内测机型,因需求旺盛被炒至8000元,其核心团队整合了PICO、锤子等硬件力量,目标是打造“大模型+超级App+硬件”的新形态。字节曾想向手机厂商输出豆包大模型,却因厂商忌惮失去主导权而碰壁,最终选择亲自下场,且已启动第二代产品研发。
高盛的报告点出了行业痛点:第三方AI落地手机面临权限、数据、应用配合三重壁垒。这也让手机厂商更倾向与可控性强的大模型公司合作——OPPO牵手阶跃星辰,荣耀、三星则选择了智谱。智谱的角色也因此愈发清晰:它不做手机厂商的竞争对手,而是以开源的底层能力,成为AI手机生态的“关键拼图”,帮厂商把智能体从概念转化为用户可感知的实用体验。
从Siri的浅层交互到AutoGLM的深度操作,AI手机的进化路径已清晰可见。智谱的开源决策,打破了技术垄断的可能性,为行业提供了低成本、高可用的公共底座;而字节、荣耀等玩家的布局,则让AI手机的生态博弈更趋多元。
下一代手机的入口之争才刚刚开始,最终决定格局的,从来不是某一家的技术霸权,而是能否让智能体真正落地、跑稳、跑广。当AutoGLM的“积木”被行业各方灵活运用,当隐私与体验的平衡被持续优化,“每台手机都成为AI手机”的愿景,终将从技术蓝图变为用户手中的日常。