Firecrawl MCP Server

Firecrawl MCP Server

site icon
2025.03.24 0
JavaScript网页抓取数据提取搜索工具搜索工具开发效率
Firecrawl MCP Server 是一个基于 Model Context Protocol (MCP) 的服务实现,集成了 Firecrawl 的网页抓取能力。它提供了强大的网页抓取、爬取、搜索、提取和批量处理功能,支持 JavaScript 渲染、URL 发现和爬取、网页搜索内容提取等。该服务适用于需要高效网页数据抓取和处理的场景,如数据挖掘、内容聚合、市场研究等。
View on GitHub

Overview

基本能力

产品定位

Firecrawl MCP Server 是一个专注于网页数据抓取和处理的工具,旨在提供高效、可靠的网页内容提取和搜索功能。

核心功能

  • 网页抓取:支持单 URL 和多 URL 批量抓取,包括 JavaScript 渲染的内容。
  • 网页爬取:支持异步爬取,可设置最大深度和限制数量。
  • 网页搜索:支持搜索并提取搜索结果的内容。
  • 内容提取:使用 LLM 能力从网页中提取结构化信息。
  • 批量处理:内置速率限制和并行处理,高效处理大量 URL。
  • 自动重试:支持指数退避的自动重试机制。
  • 信用监控:提供信用使用情况的监控和警告。
  • 日志系统:全面的日志记录,包括操作状态、性能指标等。

适用场景

  • 数据挖掘:从多个网页中提取结构化数据。
  • 内容聚合:抓取和整合多个来源的内容。
  • 市场研究:收集和分析竞争对手的网页数据。
  • 学术研究:批量抓取和提取学术文章或数据。

工具列表

  1. Scrape Tool (firecrawl_scrape):从单个 URL 抓取内容。
  2. Batch Scrape Tool (firecrawl_batch_scrape):批量抓取多个 URL。
  3. Check Batch Status (firecrawl_check_batch_status):检查批量操作的状态。
  4. Search Tool (firecrawl_search):搜索网页并提取内容。
  5. Crawl Tool (firecrawl_crawl):异步爬取网页。
  6. Extract Tool (firecrawl_extract):使用 LLM 从网页中提取结构化信息。

常见问题解答

  • 如何配置 API 密钥?:通过环境变量 FIRECRAWL_API_KEY 设置。
  • 如何自定义重试行为?:通过环境变量如 FIRECRAWL_RETRY_MAX_ATTEMPTS 配置。
  • 如何监控信用使用?:通过 FIRECRAWL_CREDIT_WARNING_THRESHOLDFIRECRAWL_CREDIT_CRITICAL_THRESHOLD 设置警告阈值。

使用教程

使用依赖

确保已安装 Node.js 和 npm。

安装教程

  1. 使用 npx 运行bash env FIRECRAWL_API_KEY=fc-YOUR_API_KEY npx -y firecrawl-mcp
  2. 手动安装bash npm install -g firecrawl-mcp

调试方式

  1. 查看日志:运行服务后,查看控制台输出的日志信息。
  2. 测试工具:使用提供的工具(如 firecrawl_scrape)测试功能是否正常。
  3. 检查环境变量:确保所有必要的环境变量已正确设置。

开发

# 安装依赖
npm install

# 构建
npm run build

# 运行测试
npm test

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。