Crawl4ai MCP Server

Crawl4ai MCP Server

2025.04.14 0

JavaScript网页爬取Markdown转换LLM支持搜索工具开发效率

Crawl4ai MCP Server 是一个提供网页爬取能力的服务，能够将爬取的内容转换为带有引用的Markdown格式，适用于LLM（大型语言模型）处理。该服务支持多URL爬取，并自动处理网络请求中的重试和用户代理切换。

View on GitHub

Overview

基本能力

产品定位

Crawl4ai MCP Server 是一个专为LLM设计的网页爬取服务，能够高效地抓取网页内容并将其转换为Markdown格式，便于后续处理和分析。

核心功能

网页爬取：支持多URL同时爬取，返回带有引用的Markdown内容。
自动重试：在遇到网络问题时自动重试，提高爬取成功率。
用户代理切换：避免被目标网站屏蔽。
支持认证：可选配置认证令牌以访问需要认证的API服务。

适用场景

数据采集：用于收集和分析网页数据。
内容生成：为LLM提供结构化的网页内容输入。
开发测试：在开发过程中快速获取网页内容进行测试。

工具列表

crawl_urls：爬取指定URL列表的网页内容，返回Markdown格式数据。
参数：
- urls（必需）：要爬取的URL列表。

常见问题解答

URL无效或不可访问：确保提供的URL是有效的且可访问。
认证失败：检查认证令牌是否有效。
网络连接问题：确认与crawl4ai API服务的网络连接正常。
超时错误：尝试减少每次请求的URL数量。
被网站屏蔽：服务会自动处理重试和用户代理切换。

使用教程

使用依赖

Node.js
crawl4ai实例访问权限：https://docs.crawl4ai.com/core/docker-deployment/

安装教程

克隆仓库：

git clone https://github.com/Kirill812/crawl4ai-mcp-server.git
cd crawl4ai-mcp-server

安装依赖：

npm install

构建服务：

npm run build

配置环境变量：

{
  "mcpServers": {
    "crawl4ai": {
      "command": "node",
      "args": [
        "/path/to/crawl4ai-mcp-server/build/index.js"
      ],
      "env": {
        "CRAWL4AI_API_URL": "http://127.0.0.1:11235",
        "CRAWL4AI_AUTH_TOKEN": "your-auth-token"
      }
    }
  }
}

调试方式

开发模式下自动重建：

npm run watch

许可证

该项目遵循 MIT 开源许可条款，请参阅 MIT 了解完整条款。