Crawl4AI MCP Server

Crawl4AI MCP Server

site icon
2025.04.02 26
JavaScript网页爬取内容分析AI处理内容生成开发效率
Crawl4AI-MCP是一个基于Model-Controller-Processor(MCP)架构的服务器,专注于智能网页爬取和AI驱动的内容分析。它提供了一个简单的API,用于爬取网站内容并使用Claude AI模型进行处理。该服务特别适合需要针对特定网站内容进行深入分析的用户,如研究人员、内容创作者、数据分析师等。
View on GitHub

Overview

基本能力

产品定位

Crawl4AI-MCP是一个智能网页爬取和内容分析工具,旨在为用户提供针对特定网站的深度分析能力,而非广泛的网络搜索。

核心功能

  • 可定制深度的网页爬取
  • 尊重robots.txt指令
  • 内容提取和处理
  • 使用Claude模型进行AI驱动的分析
  • 简单的REST API
  • 通过命令行或环境变量配置
  • 详细的日志记录

适用场景

  • 研究人员提取结构化信息
  • 内容创作者分析竞争对手内容
  • 数据分析师处理网络数据
  • 开发者构建需要内容分析的应用程序
  • 数字营销人员分析行业网站
  • 业务分析师收集行业信息
  • 知识工作者合成特定领域信息

工具列表

  • Express:用于构建API
  • Puppeteer:用于网页爬取
  • Cheerio:用于内容提取
  • Winston:用于日志记录
  • @anthropic-ai/sdk:用于与Claude AI交互

常见问题解答

  • 如何配置API密钥?通过.env文件设置ANTHROPIC_API_KEY
  • 如何启用调试日志?使用--debug参数启动服务器
  • 如何更改服务器端口?使用--port参数或设置PORT环境变量

使用教程

使用依赖

  1. 确保已安装Node.js和npm
  2. 克隆仓库后运行npm install安装依赖

安装教程

  1. 克隆仓库: git clone https://github.com/yourusername/crawl4ai-mcp.git cd crawl4ai-mcp
  2. 安装依赖: npm install
  3. 创建.env文件并添加API密钥: ANTHROPIC_API_KEY=your_api_key_here

调试方式

  1. 启动服务器: npm start 或带调试参数: npm start -- --port 4000 --debug
  2. 测试API端点: curl -X POST http://localhost:3000/api/crawl \ -H "Content-Type: application/json" \ -d '{ "url": "https://example.com", "depth": 1, "aiProcessing": { "task": "summarize" } }'
  3. 检查健康状态: GET /api/healthcheck

许可证

该项目遵循 MIT 开源许可条款。