再见XPath,爆火的浏览器自动化工具!


大家好,我是热爱开源的了不起

兄弟们肯定都深有体会,网页一旦更新改版,之前辛辛苦苦记录的“快速操作技巧”或者写的Selenium脚本瞬间失效,又得从头手动调试,真是费时费力。

今天给大家介绍一款名为 Skyvern的开源AI浏览器自动化神器,它彻底改变了传统自动化工具依赖死记硬背元素路径(如XPath、CSS选择器)的模式,让AI像人一样“看懂”网页来执行任务,堪称解放生产力的利器!

项目简介

Skyvern是一个开源的浏览器自动化平台,它把大语言模型和视觉能力融合在一起,能够理解自然语言指令,然后在网页上自动完成任务。它既可以作为本地服务运行,也可以连接到云端版本。

相比传统依赖 XPath 或 CSS Selector 的脚本式自动化,Skyvern 更灵活、更鲁棒:你只用一句话告诉它“去这个网页下载发票”,它就能推理出操作流程,并执行。

项目在 GitHub 上目前有约 18.8K 个 star,社区非常活跃。

项目功能

  • 大语言模型 + 视觉感知混合:不仅看 DOM,还能“看”页面上的元素,识别可点击、可填写区域。
  • 多智能体协作:系统会拆解任务(planner 规划)、执行任务(task executor)、再验证(validator),这样可以做复杂、多步的流程。
  • 抗页面结构变化能力强:布局变了也不容易失效,因为它不完全依赖固化的 selector。
  • 支持多种 LLM 后端:可以对接多种语言模型(OpenAI、Claude 等),灵活选择。
  • 可调试与可解释:有 UI 界面可以查看每一步操作,也能审计任务是怎么执行的。
  • 安全 & 弹性支持:支持验证码(CAPTCHA)、双因素认证(2FA)、代理网络等高级功能。

安装指南

对于想要快速体验的开发者,本地部署非常简便:

  1. 前提条件:确保系统已安装Python 3.11+和Docker。
  2. 安装Skyvern:使用pip一键安装。
    1
    pip install skyvern
  3. 初始化与启动:一条命令完成数据库设置等初始化工作,然后启动所有服务。
    1
    2
    skyvern quickstart
    skyvern run all
  4. 开始使用:服务启动后,在浏览器中访问 http://localhost:8080 即可打开Web UI界面,开始创建和运行任务。

对于不想折腾环境的朋友,也可以直接使用Skyvern官方提供的云服务版本,开箱即用。

代码调用示例
对于开发者,也可以通过简单的Python API来调用,非常灵活:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
from skyvern import Skyvern

skyvern = Skyvern()
task = await skyvern.run_task(
prompt="访问Hacker News,找出今日热度最高的帖子标题和链接",
data_extraction_schema={
"type": "object",
"properties": {
"title": {"type": "string", "description": "帖子标题"},
"url": {"type": "string", "description": "帖子链接"}
}
}
)
print(task)

展示几个官方的演示Demo

  • 批量下载发票

  • 自动申请工作

Skyvern代表了浏览器自动化的一个新方向,它通过AI视觉理解能力,巧妙地规避了传统自动化工具最大的痛点:维护成本高。对于那些每天需要花费大量时间进行重复性网页操作(如数据录入、报表下载、信息抓取)的职场人、电商运营、学生或开发者来说,这无疑是一款值得尝试的“黑科技”工具。

1
https://github.com/Skyvern-AI/skyvern

  目录