Crawl4AI MCP Server

Crawl4AI MCP Server

2025.04.02 26

JavaScript网页爬取内容分析AI处理内容生成开发效率

Crawl4AI-MCP是一个基于Model-Controller-Processor（MCP）架构的服务器，专注于智能网页爬取和AI驱动的内容分析。它提供了一个简单的API，用于爬取网站内容并使用Claude AI模型进行处理。该服务特别适合需要针对特定网站内容进行深入分析的用户，如研究人员、内容创作者、数据分析师等。

View on GitHub

Overview

基本能力

产品定位

Crawl4AI-MCP是一个智能网页爬取和内容分析工具，旨在为用户提供针对特定网站的深度分析能力，而非广泛的网络搜索。

核心功能

可定制深度的网页爬取
尊重robots.txt指令
内容提取和处理
使用Claude模型进行AI驱动的分析
简单的REST API
通过命令行或环境变量配置
详细的日志记录

适用场景

研究人员提取结构化信息
内容创作者分析竞争对手内容
数据分析师处理网络数据
开发者构建需要内容分析的应用程序
数字营销人员分析行业网站
业务分析师收集行业信息
知识工作者合成特定领域信息

工具列表

Express：用于构建API
Puppeteer：用于网页爬取
Cheerio：用于内容提取
Winston：用于日志记录
@anthropic-ai/sdk：用于与Claude AI交互

常见问题解答

如何配置API密钥？通过.env文件设置ANTHROPIC_API_KEY
如何启用调试日志？使用--debug参数启动服务器
如何更改服务器端口？使用--port参数或设置PORT环境变量

使用教程

使用依赖

确保已安装Node.js和npm
克隆仓库后运行npm install安装依赖

安装教程

克隆仓库： git clone https://github.com/yourusername/crawl4ai-mcp.git cd crawl4ai-mcp
安装依赖： npm install
创建.env文件并添加API密钥： ANTHROPIC_API_KEY=your_api_key_here

调试方式

启动服务器： npm start 或带调试参数： npm start -- --port 4000 --debug
测试API端点： curl -X POST http://localhost:3000/api/crawl \ -H "Content-Type: application/json" \ -d '{ "url": "https://example.com", "depth": 1, "aiProcessing": { "task": "summarize" } }'
检查健康状态： GET /api/healthcheck

许可证

该项目遵循 MIT 开源许可条款。