
Crawl4AI MCP Server

2025.04.02
26
JavaScript网页爬取内容分析AI处理内容生成开发效率
Crawl4AI-MCP是一个基于Model-Controller-Processor(MCP)架构的服务器,专注于智能网页爬取和AI驱动的内容分析。它提供了一个简单的API,用于爬取网站内容并使用Claude AI模型进行处理。该服务特别适合需要针对特定网站内容进行深入分析的用户,如研究人员、内容创作者、数据分析师等。
View on GitHub
Overview
基本能力
产品定位
Crawl4AI-MCP是一个智能网页爬取和内容分析工具,旨在为用户提供针对特定网站的深度分析能力,而非广泛的网络搜索。
核心功能
- 可定制深度的网页爬取
- 尊重robots.txt指令
- 内容提取和处理
- 使用Claude模型进行AI驱动的分析
- 简单的REST API
- 通过命令行或环境变量配置
- 详细的日志记录
适用场景
- 研究人员提取结构化信息
- 内容创作者分析竞争对手内容
- 数据分析师处理网络数据
- 开发者构建需要内容分析的应用程序
- 数字营销人员分析行业网站
- 业务分析师收集行业信息
- 知识工作者合成特定领域信息
工具列表
- Express:用于构建API
- Puppeteer:用于网页爬取
- Cheerio:用于内容提取
- Winston:用于日志记录
- @anthropic-ai/sdk:用于与Claude AI交互
常见问题解答
- 如何配置API密钥?通过.env文件设置ANTHROPIC_API_KEY
- 如何启用调试日志?使用--debug参数启动服务器
- 如何更改服务器端口?使用--port参数或设置PORT环境变量
使用教程
使用依赖
- 确保已安装Node.js和npm
- 克隆仓库后运行
npm install
安装依赖
安装教程
- 克隆仓库:
git clone https://github.com/yourusername/crawl4ai-mcp.git cd crawl4ai-mcp
- 安装依赖:
npm install
- 创建.env文件并添加API密钥:
ANTHROPIC_API_KEY=your_api_key_here
调试方式
- 启动服务器:
npm start
或带调试参数:npm start -- --port 4000 --debug
- 测试API端点:
curl -X POST http://localhost:3000/api/crawl \ -H "Content-Type: application/json" \ -d '{ "url": "https://example.com", "depth": 1, "aiProcessing": { "task": "summarize" } }'
- 检查健康状态:
GET /api/healthcheck