保姆级教程: 部署你的AI桌面助手
凌晨2点25分,作者顶着熊猫眼,把智谱最新开源的GLM-4.5V大模型狠狠测了一遍,结论是——这106B参数的多模态“怪兽”不仅看得懂、算得快,还干得漂亮。保姆级教程、安装包、API白嫖指南全打包,5分钟让你的电脑也长出AI眼睛和大脑。
我真是有点服,智谱又又又发布了新模型。
然后又给开源了。生产队的驴都不带这么卷的,我都怀疑智谱是不是嗑药了。
7月初开源GLM-4.1V-Thinking,上周开源GLM-4.5和GLM-4.5-Air,今天又开源了个GLM-4.5V。
晚上我听了他们的直播发布会,几个青涩的年轻人给介绍了这次发布的模型,时间很短,但却不简单。
我想第二天一定会有超级多的人来测,来玩,导致卡的无法使用。基于前车之鉴,我还是打算今晚就给测完,痛快的体验下它的能力,
现在是凌晨2点25,终于测完了,还好,这次没到五点,说明有进步,不然明天去上海怕是顶不住。
先说我测试下来的结论吧:GLM-4.5V模型在多模态能力上表现很好,特别是在图像/视频理解、视觉定位上表现优异。
现在同样可以在z.ai体验,但作为开发者,我更倾向于用API方式来验证一些东西。
恰好他们开源了个桌面助手vlm-helper,于是以下我所有的测评都基于该桌面助手。
我也会在文章后面给出该桌面助手的安装包以及教程。
当然,按照惯例,在放真实测评前,还是要放一放模型的跑分情况(虽然大家都看麻了)
可以看出在42个公开视觉多模态榜单中综合效果达到同级别开源模型SOTA性能,涵盖图像、视频、文档理解及GUI任务等常见任务。
据官方介绍,GLM-4.5V是基于智谱新一代旗舰文本基座模型GLM-4.5-Air,延续GLM-4.1V-Thinking技术路线,是一个拥有106B总参数,12B激活的视觉推理模型。
但口说无凭,真实体验如何,还得实际测试。下面开整。
前端复刻
官方直播的视频放出了复刻带有交互的知乎网站。而且是通过录屏的方式,看着挺厉害的。
但像这类公开的网站早就不知道被大模型训练了多少次了,参考意义不大。
于是,我灵机一动,何不复刻下我的开源项目PmHub?这够小众吧。
于是,我也对着PmHub录了个屏,也就是正常点击页面的功能。然后吧视频丢给vlm-helper,GLM-4.5V识别理解视频内容和操作,然后按照要求输出代码。
我的提示词是这个:
请根据提供的多张网页UI截图,复刻出完整的交互式网页,实现整个网页的点击、跳转、交互等功能,请注意,每一张UI截图都会对应某个操作,请务必实现点击、跳转等交互操作,不要在thinking过程中思考htmlcode怎么写。最终返回一个完整htmlcode。
我把前端效果做了个对比:
就单单从前端复刻能力上,没啥意思,因为像Weavefox和same.new这样的工具做的细节会更到位。
但就从视频理解整个页面交互,这个就很吊了。这种感觉就好像GLM-4.5V长了个眼镜,又带了个大脑,能看能理解,最后还能咔咔一顿编码输出。
图像理解
下面是对多模态能力进行测试,但因为是AI桌面助手,我觉得在我们的测评中还是要以实际的工作学习场景展开。
所以以下case,均模拟真实需求场景。
1、找出性价比最高的商品
最近在厦门抽了中了个手机,一直想着买个手机壳,但一搜,就蹦出一堆出来,容易让人挑花了眼。
我其实就一个需求,选个性价比高的,就够了。
于是我一截图,输入需求然后一回车,GLM-4.5V就给我推了个最具性价比的手机壳。
这里考察的是模型对图片的理解能力,以及逻辑计算能力。GLM-4.5V表现不错。
我每天对着电脑要花费非常多的时间在微信上,有时候是工作,有时候是摸鱼吹水。
就比如在吹水群,好朋友kk碰到奇葩的抱怨,作为钢铁直男,我一时不知道该怎么回复好。
于是我让桌面助手捕捉我的屏幕中微信聊天记录,它就给了我一个没那么尴尬的回复。
讲真,如果我要回,我估计是先破口大骂帮问候一下这奇葩,但GLM-4.5V理解到了,此时,kk或许更需要的是共情以及安慰。
虽然它还没法直接帮我发消息,但这个情商是比大多数直男都高的(包括老苍何)
3、朋友圈旅游照定位
朋友圈经常会看到旅游照,有时候除了羡慕之外,也特别想知道这是去的哪儿耍呀,但又不好意思评论区或者私信直接问。
生怕暴露了自己穷屌丝的本质,现在,我将朋友圈共享给GLM-4.5V,然后问它:这是哪儿。
GLM-4.5V凭借对图片特征的提取,能给出是哪里。
不瞒你说,就kk发的这个图,我一时还真没想到会是在青岛,虽然,我在青岛呆了4年。。。
顺带,让懂事的GLM-4.5V给kk来个回复评论吧,真好,有了AI,倒是省去了很多我不必要的思考。
4、验证码任务完成
虽然我是做软件的,我能理解很多网站为了安全加固,会喜欢搞比较麻烦的验证,来证明自己是个人。
就比如智谱他们自家的这个登录验证:
对于我这眼神不好的来说,每次还是挺费劲的。
现在好了,把这个丢给GLM-4.5V,它直接把答案给你标注出来,这家伙,配合上Agent,不是全自动化绕过验证?
你感受一下:
真实道高一尺魔高一丈,估计智谱法务得好好加班研究研究应对之策了,不然像12306这种最痛苦的验证方式,不也能分分钟破解?
你还别说,基于此,我还真就做了个小工具,让你绕过所有的强制性验证。
视频理解
除了图片理解,我觉得更难的是视频的理解能力,而最为重要的也是视频理解的能力。
因为我们的物理世界是三维的,而非二维的,对视频的理解,是通过AGI的重要手段。
下面看几个比较有用的case:
1、视频课程学习
上传一个7分多钟,大小19.7M的java学习视频,来拷打一下:
让它帮我梳理总结下这个课程的内容:
总结的不错,可惜我当年学习Java,没这方便。这个场景在学习办公下都非常有用。
我们可以总结会议内容,电视剧剧情,电影经典场面等。
3、GitHub项目学习
我经常会逛GitHub充电学习,但很多的开源项目都是英文的,看起来不顺畅,就比如GLM-4.5V这个开源项目,默认也是英文。
现在,我让桌面助手中的GLM-4.5V直接帮我介绍这个项目,非常实用。
翻译
当然还有个场景就是翻译,对于非网页类的场景,翻译起来还真不容易,需要先截图,然后OCR识别,最后再找翻译工具。
这个过程一度很痛苦,现在不用,直接让桌面助手来处理,分分钟翻译好了。
表格/图表转换
我觉得还比较实用的场景是做表格/图表转换。
基于GLM-4.5V的图像理解能力,能准确识别表格和图表信息,然后按照指定格式输出。
非常方便,而且不用工具切来切去,就用桌面助手就OK。
视觉定位
GLM-4.5V的视觉定位能力很强,而且这个的应用场景会非常多。
比如我要在众多复杂的场景中,精确找到符合的人物:找到桥下的一条船,船上有两个人
反正这,我要找,确实得找半天。
再比如,在人多的商场,找到背着双肩包穿灰色短袖的年轻男子。
感觉GLM-4.5V接入安防监控,会是非常好的场景啊。
我想GLM-4.5V开源后,一堆的硬件落地产品又会出来了。
而且为了考考GLM-4.5V看图猜位置的能力,智谱让GLM-4.5V参加了图寻游戏的全球积分赛,和国内最顶尖的两万多名人类玩家真实对战。
GLM-4.5V就击败了99%的玩家。
GUIAgent
这个能力感觉是为了之后的AutoGLM铺垫的,也就是能通过看到的GUI,配合Agent,完胜指定的操作。
我录了个官方的视频介绍,不得不说,期待性直接拉满。
好啦,测评就结束了,你可以看到,这次GLM-4.5V的更新,也同样的有点超出预期了。
下面,是如何部署AI桌面助手的教程,主打一个有手就行。
部署教程
打开安装包直接安装。
安装包可以后台留言下载:vlm-helper
打第一次开会报这个错:
没关系,终端中输入以下命令执⾏安全限制解除命令,然后重启应用就好。xattr-rdcom.apple.quarantine/Applications/vlm-helper.app
接下来,配置一下API,点击右上角的设置,选择模型设置。(这里有个小tips,一定要开启「智谱Mass模式」,当然默认就是开启的,不要手滑关掉就好啦)
点击右侧的获取APIKey,就会跳转到智谱的BigModel平台。
现在新用户可以免费领取2000万tokens体验包,够玩一阵了。
把新建的APIKey复制到Vlm-helper客户端,点击保存就算完成。
除此还可以进行应用设置和系统提示词设置。有不少快捷键还是很有帮助的。
先试试是否生效:
该说不说,回复真的好快。
这样就生效啦。
在AI的路上,有些人,用力的冲了。
但因为没短期获得他们想要的,他们又撤了。
但有另外一群人,他们从一开始就在冲。
不管外面的风雨如何变化,
他们始终相信AGI会到来,并为之不断努力。
我觉得智谱这帮人就是这样一群人。
当然,我也希望屏幕前的你和我同样也是这类人。
我们始终相信:AGI一定会到来的。