GitHub 挖到一款高性能爬虫/抓取利器:AnyCrawl

Linux网站管理员

3 小时前

HGUt1gBa8AAtcZO

又在 GitHub 挖到一款高性能爬虫/抓取利器:AnyCrawl,把数据采集这件事做得更省心、更高效。
它把 Cheerio、Playwright、Puppeteer 三种引擎打包到一起：静态页面秒解析,复杂 JavaScript 渲染也能稳稳拿下,还支持批量抓取 Google 等搜索结果。
GitHub项目仓库：http://github.com/any4ai/anycrawl
核心能力一览：
- 多引擎切换：静态解析与 JS 渲染按需切换
- SERP 抓取：批量采集 Google 等搜索引擎结果
- 站点级爬虫：单页抓取到整站智能遍历,一套搞定
- 高性能并发：多线程/多进程架构,任务量上来照样跑得快
- 代理支持：内置 HTTP / SOCKS 代理,适配更多网络环境
- 面向 LLM：为大模型数据处理优化输出格式,减少二次清洗成本
同时支持 Docker 一键部署,配置轻量,上手快,并配有清晰的使用文档。