Crawl4ai MCP Server

Crawl4ai MCP Server

site icon
2025.04.14 0
JavaScript网页爬取Markdown转换LLM支持搜索工具开发效率
Crawl4ai MCP Server 是一个提供网页爬取能力的服务,能够将爬取的内容转换为带有引用的Markdown格式,适用于LLM(大型语言模型)处理。该服务支持多URL爬取,并自动处理网络请求中的重试和用户代理切换。
View on GitHub

Overview

基本能力

产品定位

Crawl4ai MCP Server 是一个专为LLM设计的网页爬取服务,能够高效地抓取网页内容并将其转换为Markdown格式,便于后续处理和分析。

核心功能

  • 网页爬取:支持多URL同时爬取,返回带有引用的Markdown内容。
  • 自动重试:在遇到网络问题时自动重试,提高爬取成功率。
  • 用户代理切换:避免被目标网站屏蔽。
  • 支持认证:可选配置认证令牌以访问需要认证的API服务。

适用场景

  • 数据采集:用于收集和分析网页数据。
  • 内容生成:为LLM提供结构化的网页内容输入。
  • 开发测试:在开发过程中快速获取网页内容进行测试。

工具列表

  • crawl_urls:爬取指定URL列表的网页内容,返回Markdown格式数据。
  • 参数:
    • urls(必需):要爬取的URL列表。

常见问题解答

  1. URL无效或不可访问:确保提供的URL是有效的且可访问。
  2. 认证失败:检查认证令牌是否有效。
  3. 网络连接问题:确认与crawl4ai API服务的网络连接正常。
  4. 超时错误:尝试减少每次请求的URL数量。
  5. 被网站屏蔽:服务会自动处理重试和用户代理切换。

使用教程

使用依赖

  • Node.js
  • crawl4ai实例访问权限:https://docs.crawl4ai.com/core/docker-deployment/

安装教程

  1. 克隆仓库:
git clone https://github.com/Kirill812/crawl4ai-mcp-server.git
cd crawl4ai-mcp-server
  1. 安装依赖:
npm install
  1. 构建服务:
npm run build
  1. 配置环境变量:
{
  "mcpServers": {
    "crawl4ai": {
      "command": "node",
      "args": [
        "/path/to/crawl4ai-mcp-server/build/index.js"
      ],
      "env": {
        "CRAWL4AI_API_URL": "http://127.0.0.1:11235",
        "CRAWL4AI_AUTH_TOKEN": "your-auth-token"
      }
    }
  }
}

调试方式

  • 开发模式下自动重建:
npm run watch

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。