一键爬取整个网站?这个爬虫工具厉害了!


大家好,我是喜欢网上冲浪的了不起。

了不起一直在运营自己的博客,同时也很喜欢搜罗一些有趣的博客和网站,研究别人是怎么做网站的。当看到一个不错的站点时,总想看一下网站都有多少页面,互相之间都有什么关联。

如果是以前的话,了不起可能会自己动手写一个爬虫来爬取这个站点的信息,但是最近发现了一个新的开源项目——Spider Suite,它完全满足了不起的需求,在这里也分享给大家。

项目简介

Spider Suite 是一款专门为网络安全人员设计的网络安全爬虫工具,支持 Windows 和 Linux 操作系统。你可以通过简单易用的 UI 界面一键抓取目标站点的全部网页信息,分析已抓取的页面。Spider Suite 有着使用简单,响应速度快,数据呈现清晰直观的优点。

项目安装

以 Windows 系统为例,你可以从项目主页下载已经制作好的 Windows 安装包,直接双击安装即可。安装界面如下,一路点击“下一步”即可安装成功。

项目使用

站点爬取

Spider Suite 的使用也非常简单,运行程序后,我们在地址栏里输入想要爬取的站点链接,点击“Crawl”按钮,程序就可以快速的对整个站点进行爬取。如果站点比较庞大,页面内容比较多,你也可以点击“Pause”按钮随时暂停和继续页面的爬取。

页面布局

页面整体布局如下:

左侧是网页列表,展示当前站点爬取到的链接信息。可以筛选类别,比如 html、css、JSON,也可以切换列表和树状图展示。

右侧是页面详情,点击左侧列表的页面,即可在右侧看到该页面的详细信息,包括请求头、响应源码、样式等。

网络结构图

你也可以点击“Actions”按钮,在弹出的下拉框点击“Show Graph”,即可以图形的方式查看整个站点的结构。

保存与加载

网站爬取完成后,可以点击菜单栏的“Application”—>“Save”选项,将本次抓取的信息保存起来。这样当关闭程序之后,再次启动就可以快速恢复当前的任务了。

总结

好啦,以上就是 Spider Suite 最基本的功能和使用方式了,其他的功能大家可以自行探索哈。总之,它是一款使用方便的可视化爬虫工具,一键爬取整个网站实在是太方便了,感兴趣的朋友抓紧去试试吧。

1
项目地址:https://github.com/3nock/SpiderSuite

  目录