渗透测试工具 | ACHE：一款功能强大的聚焦型网络爬虫

工具介绍

今天给大家介绍的是一款名叫ACHE的聚焦型网络爬虫工具，你可以给它指定一个需要搜索的主题或属性内容，它便会给你返回相关的搜索页面。

在配置ACHE时，你需要定义一个你感兴趣的话题（例如渗透测试或菜谱），接下来ACHE便会创建一个模型来检测符合该主题的Web页面，并使用识别种子来作为爬取起始点。从起始点开始，ACHE将会对Web页面进行爬取，并尽可能地检索出所有与该主题有关的页面，与此同时，它还会避免重复爬取相同的Web区域。爬取完成之后，你便能够得到一系列与你所设置的主题有关的Web页面了。

下载、安装与编译

使用下列命令将ACHE源码克隆到本地：

$git clone git@github.com:ViDA-NYU/ache.git

接下来，使用compile_crawler.sh对ACHE源码进行编译：

$./script/compile_crawler.sh

为ACHE的页面分类器创建模型

为了针对某一主题进行Web页面的爬取，ACHE需要访问其内容模型。接下来，分类器需要利用这个模型来决定需要爬取的新页面，并判断该页面是否符合用户所设置的主题。我们假设你在一个A字典和一个B字典中分别保存A样本和B样本，而这些字典需要存储在训练数据字典中。下面给出的代码可以帮助你通过这些样本来构建爬取模型：

$./script/build_model.sh <training datapath> <output path>

<training data path>：该路径所指向的是包含A样本和B样本的字典路径。

<output path>：该路径指向的是你新生成的字典（模型），该模型由以下两份文件组成: pageclassifier.model和pageclassifier.features。

运行ACHE

当模型生成之后，你需要准备好种子文件，其中的每一行都是一个URL地址。你可以使用下列命令开启爬虫：

$./build/install/bin/ache startCrawl<data output path> <config path> <seed path> <modelpath> <lang detect profile path>

<configuration path>：该路径指向配置字典。

<seed path>：即种子文件路径。

<model path>：该路径指向模型字典，其中包含pageclassifier.model和pageclassifier.features。

<data output path>：该路径指向数据输出字典。

<lang detect profile path>：该路径指向语言检测配置：“libs/langdetect-03-03-2014.jar”。

ACHE运行样例：

$./build/install/bin/ache startCrawl outputconfig/sample_config config/sample.seeds config/sample_modellibs/langdetect-03-03-2014.jar

数据输出字典中保存了什么？

data_target：包含主题相关的页面。

data_negative：包含主题不相关的页面。在默认配置下，爬虫并不会保存主题不相关的页面。

data_monitor：包含爬虫的当前状态。

data_url和data_backlinks：永久保存前端爬取信息以及爬取路径图。

何时终止爬虫运行？

除非你手动终止ACHE的运行，否则它将会在爬取到最大页面数之后终止运行，默认配置下最大为9M，具体可以参考文件data_monitor/harvestinfo.csv来了解当前已下载了多少页面。其中，前三列数据分别为相关页面数、已访问页面数和时间戳。

资源获取

ACHE项目主页：【点我访问】

ACHE白皮书：【点我获取】

ACHE详细使用教程：【点我获取】

* 参考来源：ACHE， FB小编Alpha_h4ck编译

黑客

ACHE：一款功能强大的聚焦型网络爬虫