大家好,我是了不起!
还在纠结、担心收藏的网页文章突然404?
最近了不起在Github上发现一款狂揽2.6w+Star的开源神器 - ArchiveBox,能帮你完美解决这个问题,让你的数字记忆永不丢失。
项目简介
ArchiveBox是一个免费、开源的自托管网页归档工具,可以理解为你的私人“网页时光机”,它能将网页完整保存为多种格式的离线快照,无论是文章、视频、代码仓库还是社交媒体内容,ArchiveBox都能通过多重存储方法将其“定格”在本地。

项目特性
- 支持多种来源输入:单个 URL、书签、浏览器历史、RSS、第三方服务等。

多格式保存抓取内容:HTML、PNG 截图、PDF、WARC 标准归档、TXT、JSON 等。
自托管 & 可离线访问:所有数据都存放在你的服务器或硬盘上,不依赖外部服务。
灵活的访问方式:支持 CLI、Web UI、API 等多种使用方式。
可扩展与自动化:你可以定时抓取、批量导入,结合脚本或自动化工具使用。

安装指南
ArchiveBox提供多种安装方式,推荐使用Docker快速部署:
Docker Compose
1 | # 1. 创建数据目录并下载配置 |
访问 http://localhost:8000 即可使用Web界面。
pip安装(适合开发者)
1 | pip install archivebox |
一键脚本安装(macOS/Linux)
1 | curl -fsSL 'https://get.archivebox.io' | bash |
安装完成后,可通过多种方式添加存档:
- 命令行单条添加:
archivebox add 'https://example.com' - 批量导入书签文件:
archivebox add bookmarks.html - 浏览器扩展一键保存
- RSS源自动抓取
小结
ArchiveBox就像一款 “私人网页档案馆”,用开源、免费、可控的方式,解决了链接失效、内容丢失的痛点。它不仅支持多格式备份确保长期可读,还能适配各种使用场景,从个人收藏到专业研究都能胜任。