
又在 GitHub 挖到一款高性能爬虫/抓取利器:AnyCrawl,把数据采集这件事做得更省心、更高效。
它把 Cheerio、Playwright、Puppeteer 三种引擎打包到一起:静态页面秒解析,复杂 JavaScript 渲染也能稳稳拿下,还支持批量抓取 Google 等搜索结果。
GitHub项目仓库:http://github.com/any4ai/anycrawl
核心能力一览:
- 多引擎切换:静态解析与 JS 渲染按需切换
- SERP 抓取:批量采集 Google 等搜索引擎结果
- 站点级爬虫:单页抓取到整站智能遍历,一套搞定
- 高性能并发:多线程/多进程架构,任务量上来照样跑得快
- 代理支持:内置 HTTP / SOCKS 代理,适配更多网络环境
- 面向 LLM:为大模型数据处理优化输出格式,减少二次清洗成本
同时支持 Docker 一键部署,配置轻量,上手快,并配有清晰的使用文档。
