
MCP Firecrawl Server

2025.02.26
0
JavaScript网站抓取结构化数据提取搜索工具内容生成
MCP Firecrawl Server 是一个简单的 MCP 服务,提供使用 Firecrawl API 抓取网站并提取结构化数据的工具。该服务主要用于网站内容的抓取和结构化数据的提取,适用于需要从网页中获取特定信息的场景。
View on GitHub
Overview
基本能力
产品定位
MCP Firecrawl Server 是一个用于网站内容抓取和结构化数据提取的工具服务,旨在帮助用户从网页中高效地获取和处理数据。
核心功能
- 网站抓取:从网站中提取内容,支持多种格式(如 Markdown、HTML、纯文本)。
- 结构化数据提取:根据自定义的提示和模式,从网页中提取特定的数据点。
- 错误跟踪:集成 Sentry 进行错误跟踪和性能监控。
适用场景
- 需要从多个网页中提取特定信息的场景。
- 自动化数据收集和处理任务。
- 需要将网页内容转换为结构化数据的应用。
工具列表
- scrape-website:
- 功能:抓取网站内容并返回指定格式的输出。
- 参数:
url
(必填,目标网站 URL)、formats
(可选,输出格式,如 Markdown、HTML、纯文本)。 - extract-data:
- 功能:根据提示和模式从网页中提取结构化数据。
- 参数:
urls
(必填,目标 URL 列表)、prompt
(必填,提取数据的提示)、schema
(必填,数据模式定义)。
常见问题解答
- 问题1:API 令牌无效。
- 解决方案:验证 Firecrawl API 令牌是否有效。
- 问题2:目标 URL 不可访问。
- 解决方案:检查目标 URL 是否可访问。
- 问题3:复杂模式不支持。
- 解决方案:确保模式遵循支持的格式。
- 问题4:错误信息不明确。
- 解决方案:查看 Sentry 日志获取详细错误信息(如果已配置)。
使用教程
使用依赖
- 安装依赖:
bash npm install
安装教程
- 创建
.env
文件并配置环境变量:FIRECRAWL_API_TOKEN=your_token_here SENTRY_DSN=your_sentry_dsn_here
- 启动服务:
bash npm start
或直接设置环境变量启动:bash FIRECRAWL_API_TOKEN=your_token_here npm start
调试方式
- 使用
scrape-website
工具测试网站抓取功能:bash mcp-inspector --tool scrape-website --args '{ "url": "https://example.com" }'
- 使用
extract-data
工具测试结构化数据提取功能:bash mcp-inspector --tool extract-data --args '{ "urls": ["https://example.com"], "prompt": "Extract the company mission, whether it supports SSO, and whether it is open source.", "schema": { "company_mission": "string", "supports_sso": "boolean", "is_open_source": "boolean" } }'
许可证
None