MCP Firecrawl Server

MCP Firecrawl Server

site icon
2025.02.26 0
JavaScript网站抓取结构化数据提取搜索工具内容生成
MCP Firecrawl Server 是一个简单的 MCP 服务,提供使用 Firecrawl API 抓取网站并提取结构化数据的工具。该服务主要用于网站内容的抓取和结构化数据的提取,适用于需要从网页中获取特定信息的场景。
View on GitHub

Overview

基本能力

产品定位

MCP Firecrawl Server 是一个用于网站内容抓取和结构化数据提取的工具服务,旨在帮助用户从网页中高效地获取和处理数据。

核心功能

  • 网站抓取:从网站中提取内容,支持多种格式(如 Markdown、HTML、纯文本)。
  • 结构化数据提取:根据自定义的提示和模式,从网页中提取特定的数据点。
  • 错误跟踪:集成 Sentry 进行错误跟踪和性能监控。

适用场景

  • 需要从多个网页中提取特定信息的场景。
  • 自动化数据收集和处理任务。
  • 需要将网页内容转换为结构化数据的应用。

工具列表

  1. scrape-website
  2. 功能:抓取网站内容并返回指定格式的输出。
  3. 参数:url(必填,目标网站 URL)、formats(可选,输出格式,如 Markdown、HTML、纯文本)。
  4. extract-data
  5. 功能:根据提示和模式从网页中提取结构化数据。
  6. 参数:urls(必填,目标 URL 列表)、prompt(必填,提取数据的提示)、schema(必填,数据模式定义)。

常见问题解答

  • 问题1:API 令牌无效。
  • 解决方案:验证 Firecrawl API 令牌是否有效。
  • 问题2:目标 URL 不可访问。
  • 解决方案:检查目标 URL 是否可访问。
  • 问题3:复杂模式不支持。
  • 解决方案:确保模式遵循支持的格式。
  • 问题4:错误信息不明确。
  • 解决方案:查看 Sentry 日志获取详细错误信息(如果已配置)。

使用教程

使用依赖

  1. 安装依赖: bash npm install

安装教程

  1. 创建 .env 文件并配置环境变量: FIRECRAWL_API_TOKEN=your_token_here SENTRY_DSN=your_sentry_dsn_here
  2. 启动服务: bash npm start 或直接设置环境变量启动: bash FIRECRAWL_API_TOKEN=your_token_here npm start

调试方式

  1. 使用 scrape-website 工具测试网站抓取功能: bash mcp-inspector --tool scrape-website --args '{ "url": "https://example.com" }'
  2. 使用 extract-data 工具测试结构化数据提取功能: bash mcp-inspector --tool extract-data --args '{ "urls": ["https://example.com"], "prompt": "Extract the company mission, whether it supports SSO, and whether it is open source.", "schema": { "company_mission": "string", "supports_sso": "boolean", "is_open_source": "boolean" } }'

许可证

None