Firecrawl MCP Server

Firecrawl MCP Server

2025.03.24 0

JavaScript网页抓取数据提取搜索工具搜索工具开发效率

Firecrawl MCP Server 是一个基于 Model Context Protocol (MCP) 的服务实现，集成了 Firecrawl 的网页抓取能力。它提供了强大的网页抓取、爬取、搜索、提取和批量处理功能，支持 JavaScript 渲染、URL 发现和爬取、网页搜索内容提取等。该服务适用于需要高效网页数据抓取和处理的场景，如数据挖掘、内容聚合、市场研究等。

View on GitHub

Overview

基本能力

产品定位

Firecrawl MCP Server 是一个专注于网页数据抓取和处理的工具，旨在提供高效、可靠的网页内容提取和搜索功能。

核心功能

网页抓取：支持单 URL 和多 URL 批量抓取，包括 JavaScript 渲染的内容。
网页爬取：支持异步爬取，可设置最大深度和限制数量。
网页搜索：支持搜索并提取搜索结果的内容。
内容提取：使用 LLM 能力从网页中提取结构化信息。
批量处理：内置速率限制和并行处理，高效处理大量 URL。
自动重试：支持指数退避的自动重试机制。
信用监控：提供信用使用情况的监控和警告。
日志系统：全面的日志记录，包括操作状态、性能指标等。

适用场景

数据挖掘：从多个网页中提取结构化数据。
内容聚合：抓取和整合多个来源的内容。
市场研究：收集和分析竞争对手的网页数据。
学术研究：批量抓取和提取学术文章或数据。

工具列表

Scrape Tool (firecrawl_scrape)：从单个 URL 抓取内容。
Batch Scrape Tool (firecrawl_batch_scrape)：批量抓取多个 URL。
Check Batch Status (firecrawl_check_batch_status)：检查批量操作的状态。
Search Tool (firecrawl_search)：搜索网页并提取内容。
Crawl Tool (firecrawl_crawl)：异步爬取网页。
Extract Tool (firecrawl_extract)：使用 LLM 从网页中提取结构化信息。

常见问题解答

如何配置 API 密钥？：通过环境变量 FIRECRAWL_API_KEY 设置。
如何自定义重试行为？：通过环境变量如 FIRECRAWL_RETRY_MAX_ATTEMPTS 配置。
如何监控信用使用？：通过 FIRECRAWL_CREDIT_WARNING_THRESHOLD 和 FIRECRAWL_CREDIT_CRITICAL_THRESHOLD 设置警告阈值。

使用教程

使用依赖

确保已安装 Node.js 和 npm。

安装教程

使用 npx 运行： bash env FIRECRAWL_API_KEY=fc-YOUR_API_KEY npx -y firecrawl-mcp
手动安装： bash npm install -g firecrawl-mcp

调试方式

查看日志：运行服务后，查看控制台输出的日志信息。
测试工具：使用提供的工具（如 firecrawl_scrape）测试功能是否正常。
检查环境变量：确保所有必要的环境变量已正确设置。

开发

# 安装依赖
npm install

# 构建
npm run build

# 运行测试
npm test

许可证

该项目遵循 MIT 开源许可条款，请参阅 MIT 了解完整条款。