说两个生活中比较痛苦的场景。
点外卖这点事,说起来简单,手一滑进美团,看几家,又想起饿了么里可能有券,来回切,评价翻半天,送达时间盯着看,最后纠结口味,手指点累了,饭还没在路上。
出去旅游,订机票也是一串动作,日期改来改去,价格比一圈,乘机人信息填错一字重来,验证码弹出又要找短信,支付页面一按又弹风控,脑子里只想这活,要是手机自己接过去该省多少时间。
前些日子,豆包AI手机发布了,结果被各大厂纷纷围剿,解放双双咋就这么难。就在群众以为无法解放双手时,昨天,智谱把开源的AI手机——AutoGLM放出来,这是全球首个具备“手机操作”能力的AI Agent。
能看懂屏幕,能自己点,能输入,能滑到该位置,外卖这套从进App到付款到等骑手能走完整个流程(付款等重要流程还是会让用户确认一下),不是问个天气那种轻飘飘的助手,是你手的替身那种感觉。
能熟练在微信淘宝抖音美团小红书这些主流App里动手,五十多个国民APP都跑通了。
例如,你要订一张下周三从深圳到成都的机票这件事,要走三十多步它能按部就班,打开App到输入验证码这段都能接住,涉及支付登录这种敏感环节留给人来确认。这套体验是不是很眼熟,没错,就在豆包AI手机宣传片中,那种手机自己把事办掉的味道,现在这套在智谱这,是开源的。
开源意味着屏障低了,之前只有做系统做硬件的大团队能把这些能力塞进手机里,普通人看着视频过瘾,现在拉下代码就能把代操作加到自己的 App 里。做个生活助理早上抢演出票晚上比价买日用品,还可以往无手交互的设备上试,日常那些小任务丢给它,查快递缴水电费抢优惠券这类重复活交出去,人不必在屏幕上来回点。
“屏幕能读,那隐私怎么处理?”,这个问题很多人会提,智谱把边界画清,敏感动作要人确认再走,视觉理解走本地不上传云端,这个角色像个被授权的数字实习生,在你给的范围里干活,不去看抽屉里的私事。
开源地址在这 https://github.com/zai-org/Open-AutoGLM,有技术基础的朋友可以去试试看。话说回来,设想是美好的,但毕竟是动到了各大APP的蛋糕,所以还是会被围剿,围剿部分功能,例如得让用户看广告,让APP们活着呀,不然他们活不成,那就玩完了。







