
Crawl4ai MCP Server

2025.03.28
1
JavaScript网页爬取Markdown 格式化自动化处理浏览器自动化开发效率
Crawl4ai MCP Server 是一个提供网页爬取能力的服务,使用 crawl4ai 技术并以 Markdown 格式输出内容,专为 LLM(大语言模型)设计。该服务支持爬取多个网页并返回带有引用的 Markdown 内容,适用于需要自动化获取网页信息的场景。
View on GitHub
Overview
基本能力
产品定位
Crawl4ai MCP Server 是一个专为 LLM 设计的网页爬取服务,提供高效的网页内容抓取和格式化输出能力。
核心功能
- 网页爬取:支持爬取多个网页并返回带有引用的 Markdown 内容。
- 自动化处理:自动处理网络请求、重试机制和用户代理切换,避免被目标网站屏蔽。
- 格式化输出:以 Markdown 格式输出内容,便于后续处理和分析。
适用场景
- 数据采集:自动化采集网页内容用于数据分析或训练模型。
- 内容生成:为 LLM 提供实时网页内容作为输入。
- 开发测试:在开发过程中快速获取网页内容进行测试。
工具列表
crawl_urls
:爬取指定 URL 列表的网页内容并返回 Markdown 格式的输出。- 参数:
urls
(必需):要爬取的 URL 列表。
常见问题解答
- URL 无效或无法访问:确保提供的 URL 是有效的且可访问。
- 认证问题:如果使用认证,确保提供的 token 是有效的。
- 网络连接问题:检查与 crawl4ai API 服务的网络连接。
- 超时错误:尝试减少每次请求的 URL 数量。
- 被网站屏蔽:服务会自动处理重试并使用不同的用户代理。
使用教程
使用依赖
- 安装 Node.js。
- 确保可以访问 crawl4ai 实例:https://docs.crawl4ai.com/core/docker-deployment/。
安装教程
- 克隆仓库:
git clone https://github.com/Ichigo3766/crawl4ai-mcp.git
cd crawl4ai-server
- 安装依赖:
npm install
- 构建服务:
npm run build
- 配置环境变量:
{
"mcpServers": {
"crawl4ai": {
"command": "node",
"args": [
"/path/to/crawl4ai-server/build/index.js"
],
"env": {
"CRAWL4AI_API_URL": "http://127.0.0.1:11235",
"CRAWL4AI_AUTH_TOKEN": "your-auth-token"
}
}
}
}
调试方式
- 开发模式下自动重建:
npm run watch
- 检查日志和错误信息,确保服务正常运行。