大家好,我是热爱开源的了不起
兄弟们肯定都深有体会,网页一旦更新改版,之前辛辛苦苦记录的“快速操作技巧”或者写的Selenium脚本瞬间失效,又得从头手动调试,真是费时费力。
今天给大家介绍一款名为 Skyvern的开源AI浏览器自动化神器,它彻底改变了传统自动化工具依赖死记硬背元素路径(如XPath、CSS选择器)的模式,让AI像人一样“看懂”网页来执行任务,堪称解放生产力的利器!
项目简介
Skyvern是一个开源的浏览器自动化平台,它把大语言模型和视觉能力融合在一起,能够理解自然语言指令,然后在网页上自动完成任务。它既可以作为本地服务运行,也可以连接到云端版本。

相比传统依赖 XPath 或 CSS Selector 的脚本式自动化,Skyvern 更灵活、更鲁棒:你只用一句话告诉它“去这个网页下载发票”,它就能推理出操作流程,并执行。

项目在 GitHub 上目前有约 18.8K 个 star,社区非常活跃。
项目功能
- 大语言模型 + 视觉感知混合:不仅看 DOM,还能“看”页面上的元素,识别可点击、可填写区域。
- 多智能体协作:系统会拆解任务(planner 规划)、执行任务(task executor)、再验证(validator),这样可以做复杂、多步的流程。
- 抗页面结构变化能力强:布局变了也不容易失效,因为它不完全依赖固化的 selector。
- 支持多种 LLM 后端:可以对接多种语言模型(OpenAI、Claude 等),灵活选择。
- 可调试与可解释:有 UI 界面可以查看每一步操作,也能审计任务是怎么执行的。
- 安全 & 弹性支持:支持验证码(CAPTCHA)、双因素认证(2FA)、代理网络等高级功能。

安装指南
对于想要快速体验的开发者,本地部署非常简便:
- 前提条件:确保系统已安装Python 3.11+和Docker。
- 安装Skyvern:使用pip一键安装。
1
pip install skyvern
- 初始化与启动:一条命令完成数据库设置等初始化工作,然后启动所有服务。
1
2skyvern quickstart
skyvern run all - 开始使用:服务启动后,在浏览器中访问
http://localhost:8080即可打开Web UI界面,开始创建和运行任务。
对于不想折腾环境的朋友,也可以直接使用Skyvern官方提供的云服务版本,开箱即用。
代码调用示例:
对于开发者,也可以通过简单的Python API来调用,非常灵活:
1 | from skyvern import Skyvern |
展示几个官方的演示Demo
批量下载发票
自动申请工作
Skyvern代表了浏览器自动化的一个新方向,它通过AI视觉理解能力,巧妙地规避了传统自动化工具最大的痛点:维护成本高。对于那些每天需要花费大量时间进行重复性网页操作(如数据录入、报表下载、信息抓取)的职场人、电商运营、学生或开发者来说,这无疑是一款值得尝试的“黑科技”工具。
1 | https://github.com/Skyvern-AI/skyvern |