x-crawl：一个灵活的 Node.js AI 开源辅助爬虫库

2024-5-20

开源项目资源

项目简介

x-crawl 是一个灵活的 Node.js 多功能爬虫库。灵活的使用方式和众多的功能可以帮助您快速、安全、稳定地爬取页面、接口以及文件。

它由爬虫 API 和各种功能组成，即使不依赖 AI，也可以正常工作。

目前基于 OpenAI 提供的大型 AI 模型，AI 简化了许多繁琐的操作。

项目截图

项目特点

异步同步 - 只需更改一下 mode 属性即可切换异步或同步爬取模式。
多种用途 - 支持爬动态页面、静态页面、接口数据、文件以及轮询操作。
控制页面 - 爬取动态页面支持自动化操作、键盘输入、事件操作等。
写法灵活 - 同种爬取 API 适配多种配置，每种配置方式都非常独特。
间隔爬取 - 无间隔、固定间隔以及随机间隔，产生或避免高并发爬取。
失败重试 - 避免因短暂的问题而造成爬取失败，自定义重试次数。
轮换代理 - 配合失败重试，自定义错误次数以及 HTTP 状态码自动轮换代理。
设备指纹 - 零配置或自定义配置，避免指纹识别从不同位置识别并跟踪我们。
优先队列 - 根据单个爬取目标的优先级可以优先于其他目标提前爬取。
爬取记录 - 对爬取进行记录，并在终端使用彩色字符串提醒。
TypeScript - 拥有类型，通过泛型实现完整的类型。

项目地址

https://github.com/coder-hxl/x-crawl

版权声明

免责声明：本站提供用户下载的所有资源均来自网络，版权归作者本人所有，仅限学习和研究目的，请支持正版！

我们非常重视版权问题，如有侵权请邮件与我们联系处理。敬请谅解！邮件：goodlle@126.com

THE END

0

打赏

分享

二维码

海报

Teemii：一个开源多功能、自托管的漫画阅读器和管理器

DwarFS：一款开源高压缩比只读文件系统

发表评论

评论列表

赶快来坐沙发