Crawl4ai MCP Server

Crawl4ai MCP Server

site icon
2025.03.28 1
JavaScript网页爬取Markdown 格式化自动化处理浏览器自动化开发效率
Crawl4ai MCP Server 是一个提供网页爬取能力的服务,使用 crawl4ai 技术并以 Markdown 格式输出内容,专为 LLM(大语言模型)设计。该服务支持爬取多个网页并返回带有引用的 Markdown 内容,适用于需要自动化获取网页信息的场景。
View on GitHub

Overview

基本能力

产品定位

Crawl4ai MCP Server 是一个专为 LLM 设计的网页爬取服务,提供高效的网页内容抓取和格式化输出能力。

核心功能

  1. 网页爬取:支持爬取多个网页并返回带有引用的 Markdown 内容。
  2. 自动化处理:自动处理网络请求、重试机制和用户代理切换,避免被目标网站屏蔽。
  3. 格式化输出:以 Markdown 格式输出内容,便于后续处理和分析。

适用场景

  1. 数据采集:自动化采集网页内容用于数据分析或训练模型。
  2. 内容生成:为 LLM 提供实时网页内容作为输入。
  3. 开发测试:在开发过程中快速获取网页内容进行测试。

工具列表

  • crawl_urls:爬取指定 URL 列表的网页内容并返回 Markdown 格式的输出。
  • 参数:
    • urls(必需):要爬取的 URL 列表。

常见问题解答

  1. URL 无效或无法访问:确保提供的 URL 是有效的且可访问。
  2. 认证问题:如果使用认证,确保提供的 token 是有效的。
  3. 网络连接问题:检查与 crawl4ai API 服务的网络连接。
  4. 超时错误:尝试减少每次请求的 URL 数量。
  5. 被网站屏蔽:服务会自动处理重试并使用不同的用户代理。

使用教程

使用依赖

  1. 安装 Node.js。
  2. 确保可以访问 crawl4ai 实例:https://docs.crawl4ai.com/core/docker-deployment/。

安装教程

  1. 克隆仓库:
git clone https://github.com/Ichigo3766/crawl4ai-mcp.git
cd crawl4ai-server
  1. 安装依赖:
npm install
  1. 构建服务:
npm run build
  1. 配置环境变量:
{
  "mcpServers": {
    "crawl4ai": {
      "command": "node",
      "args": [
        "/path/to/crawl4ai-server/build/index.js"
      ],
      "env": {
        "CRAWL4AI_API_URL": "http://127.0.0.1:11235",
        "CRAWL4AI_AUTH_TOKEN": "your-auth-token"
      }
    }
  }
}

调试方式

  1. 开发模式下自动重建:
npm run watch
  1. 检查日志和错误信息,确保服务正常运行。

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。