Crawl4ai MCP Server

Crawl4ai MCP Server

2025.03.28 1

JavaScript网页爬取Markdown 格式化自动化处理浏览器自动化开发效率

Crawl4ai MCP Server 是一个提供网页爬取能力的服务，使用 crawl4ai 技术并以 Markdown 格式输出内容，专为 LLM（大语言模型）设计。该服务支持爬取多个网页并返回带有引用的 Markdown 内容，适用于需要自动化获取网页信息的场景。

View on GitHub

Overview

基本能力

产品定位

Crawl4ai MCP Server 是一个专为 LLM 设计的网页爬取服务，提供高效的网页内容抓取和格式化输出能力。

核心功能

网页爬取：支持爬取多个网页并返回带有引用的 Markdown 内容。
自动化处理：自动处理网络请求、重试机制和用户代理切换，避免被目标网站屏蔽。
格式化输出：以 Markdown 格式输出内容，便于后续处理和分析。

适用场景

数据采集：自动化采集网页内容用于数据分析或训练模型。
内容生成：为 LLM 提供实时网页内容作为输入。
开发测试：在开发过程中快速获取网页内容进行测试。

工具列表

crawl_urls：爬取指定 URL 列表的网页内容并返回 Markdown 格式的输出。
参数：
- urls（必需）：要爬取的 URL 列表。

常见问题解答

URL 无效或无法访问：确保提供的 URL 是有效的且可访问。
认证问题：如果使用认证，确保提供的 token 是有效的。
网络连接问题：检查与 crawl4ai API 服务的网络连接。
超时错误：尝试减少每次请求的 URL 数量。
被网站屏蔽：服务会自动处理重试并使用不同的用户代理。

使用教程

使用依赖

安装 Node.js。
确保可以访问 crawl4ai 实例：https://docs.crawl4ai.com/core/docker-deployment/。

安装教程

克隆仓库：

git clone https://github.com/Ichigo3766/crawl4ai-mcp.git
cd crawl4ai-server

安装依赖：

npm install

构建服务：

npm run build

配置环境变量：

{
  "mcpServers": {
    "crawl4ai": {
      "command": "node",
      "args": [
        "/path/to/crawl4ai-server/build/index.js"
      ],
      "env": {
        "CRAWL4AI_API_URL": "http://127.0.0.1:11235",
        "CRAWL4AI_AUTH_TOKEN": "your-auth-token"
      }
    }
  }
}

调试方式

开发模式下自动重建：

npm run watch

检查日志和错误信息，确保服务正常运行。

许可证

该项目遵循 MIT 开源许可条款，请参阅 MIT 了解完整条款。