@@ -85,7 +85,7 @@ crawlergo 拥有灵活的参数配置,以下是详细的选项说明:
85
85
* ` --post-data PostData, -d PostData ` 提供POST数据,目标使用POST请求方法
86
86
* ` --max-crawled-count Number, -m Number ` 爬虫最大任务数量,避免因伪静态造成长时间无意义抓取。
87
87
* ` --filter-mode Mode, -f Mode ` 过滤模式,简单:只过滤静态资源和完全重复的请求。智能:拥有过滤伪静态的能力。严格:更加严格的伪静态过滤规则。
88
- * ` --output-mode value, -o value ` 结果输出模式,console:打印当前域名结果。json:打印所有结果的json序列化字符串,可直接被反序列化解析。
88
+ * ` --output-mode value, -o value ` 结果输出模式,` console ` :打印当前域名结果。` json ` :打印所有结果的json序列化字符串,可直接被反序列化解析。 ` none ` :不打印输出 。
89
89
* ` --incognito-context, -i ` 浏览器启动隐身模式
90
90
* ` --max-tab-count Number, -t Number ` 爬虫同时开启最大标签页,即同时爬取的页面数量。
91
91
* ` --fuzz-path ` 使用常见路径Fuzz目标,获取更多入口。
@@ -96,6 +96,9 @@ crawlergo 拥有灵活的参数配置,以下是详细的选项说明:
96
96
* ` --event-trigger-mode Value ` 事件自动触发的模式,分为异步和同步,用于DOM更新冲突时导致的URL漏抓。
97
97
* ` --before-exit-delay ` 单个tab标签页任务结束时,延迟退出关闭chrome的时间,用于等待部分DOM更新和XHR请求的发起捕获。
98
98
* ` --ignore-url-keywords ` 不想访问的URL关键字,一般用于在携带Cookie访问时排除注销链接。
99
+ * ` --push-to-proxy ` 拟接收爬虫结果的监听地址,一般为被动扫描器的监听地址。
100
+ * ` --push-pool-max ` 发送爬虫结果到监听地址时的最大并发数。
101
+ * ` --log-level ` 打印日志等级,可选 debug, info, warn, error 和 fatal。
99
102
100
103
## Bypass headless detect
101
104
@@ -115,11 +118,22 @@ crawlergo是[**360天相**](https://skp.360.cn/)的子模块,天相是360自
115
118
116
119
crawlergo 返回了全量的请求和URL信息,可以有多种使用方法:
117
120
118
- * 联动其它的开源被动扫描器 example
121
+ * 联动其它的开源被动扫描器
122
+
123
+ 首先,启动某被动扫描器,设置监听地址为:` http://127.0.0.1:1234/ ` 。
124
+
125
+ 接下来,假设crawlergo与扫描器在同一台机器,启动 crawlergo,设置参数:
126
+
127
+ ` --push-to-proxy http://127.0.0.1:1234/ `
128
+
119
129
* 子域名收集 example
130
+
120
131
* 旁站入口收集 example
132
+
121
133
* 结合celery实现分布式扫描
134
+
122
135
* Host绑定设置(高版本chrome无法使用) [ (查看例子)] ( https://github.com/0Kee-Team/crawlergo/blob/master/examples/host_binding.py )
136
+
123
137
* 带Cookie扫描 [ (查看例子)] ( https://github.com/0Kee-Team/crawlergo/blob/master/examples/request_with_cookie.py )
124
138
125
139
## // TODO
0 commit comments