FireCrawl MCP Server

FireCrawl MCP Server

site icon
2025.02.17 0
JavaScript网页抓取内容提取内容生成
FireCrawl MCP Server 是一个基于 Model Context Protocol (MCP) 的服务,集成了 FireCrawl 的高级网页抓取功能。它能够从 JavaScript 密集的网站中提取内容,支持多种视图配置和输出格式,具备智能速率限制和批量处理能力。
View on GitHub

Overview

基本能力

产品定位

FireCrawl MCP Server 是一个专注于高级网页抓取的服务,能够从复杂的网站中提取和处理内容。

核心功能

  • JavaScript 渲染:从 JavaScript 密集的网站中提取内容
  • 移动/桌面视图:支持不同的视口配置
  • 智能速率限制:内置速率限制处理
  • 多种格式支持:支持 HTML、Markdown、截图和原始文本提取
  • 批量处理:高效处理多个 URL
  • 内容过滤:包含或排除特定的 HTML 标签

适用场景

  • 需要从 JavaScript 密集的网站中提取内容
  • 需要批量处理多个 URL
  • 需要多种输出格式的内容提取

工具列表

  1. fire_crawl_scrape:从单个 URL 抓取内容,支持多种自定义选项。
  2. 输入:URL、输出格式、等待时间、是否仅提取主要内容、包含/排除的 HTML 标签、是否使用移动视图等。
  3. fire_crawl_batch:为多个 URL 启动批量抓取作业。
  4. 输入:URL 列表、输出格式等。
  5. fire_crawl_status:检查批量抓取作业的状态。
  6. 输入:批量作业 ID。

常见问题解答

  • 速率限制:免费层每分钟 3 个请求,达到限制后有 25 秒冷却时间。
  • API 密钥:需要从 FireCrawl 账户获取并设置环境变量。

使用教程

使用依赖

  1. 确保已安装 Node.js 和 npm。

安装教程

npm install mcp-server-firecrawl

配置

  1. 注册 FireCrawl 账户 并生成 API 密钥。
  2. 将 API 密钥设置为环境变量 FIRE_CRAWL_API_KEY

与 Claude Desktop 集成

claude_desktop_config.json 中添加以下配置:

{
  "mcpServers": {
    "mcp-server-firecrawl": {
      "command": "npx",
      "args": ["-y", "mcp-server-firecrawl"],
      "env": {
        "FIRE_CRAWL_API_KEY": "YOUR_API_KEY_HERE"
      }
    }
  }
}

调试方式

# 安装依赖
npm install

# 构建
npm run build

# 运行测试
npm test

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。