Crawl4AI Web Scraper MCP Server

Crawl4AI Web Scraper MCP Server

2025.04.16 2

Python网页抓取智能内容提取浏览器自动化开发效率

Crawl4AI Web Scraper MCP Server 是一个基于 Model Context Protocol (MCP) 的服务，专门用于网页抓取和智能内容提取。它利用 crawl4ai 库，使 AI 代理（如 Claude 或基于 LangChain/LangGraph 构建的代理）能够与网页交互，检索内容，搜索特定文本，并根据自然语言指令执行基于大型语言模型（LLM）的提取任务。该服务通过 FastMCP 创建 MCP 服务器端点，支持 Docker 容器化部署，并通过 Server-Sent Events (SSE) 进行通信。

View on GitHub

Overview

基本能力

产品定位

Crawl4AI Web Scraper MCP Server 是一个专为 AI 代理设计的网页抓取和内容提取服务，旨在通过自然语言指令智能地提取网页信息。

核心功能

网页抓取：将网页内容转换为 Markdown 格式。
文本提取：根据查询提取网页中的特定文本片段。
智能提取：使用 LLM（如 Google Gemini）根据自然语言指令提取结构化信息。
配置灵活：通过环境变量管理 API 密钥。
容器化部署：支持 Docker，便于部署和管理。

适用场景

AI 代理需要从网页中提取信息时。
开发人员需要自动化网页内容抓取和分析。
研究人员需要从大量网页中提取特定数据。

工具列表

scrape_url：抓取网页并返回 Markdown 格式内容。
参数：url（必需）。
返回：网页内容的 Markdown 格式或错误信息。
extract_text_by_query：根据查询提取网页中的文本片段。
参数：url（必需），query（必需），context_size（可选）。
返回：匹配的文本片段或错误信息。
smart_extract：使用 LLM 根据指令智能提取信息。
参数：url（必需），instruction（必需）。
返回：结构化信息或错误信息。

常见问题解答

API 密钥：smart_extract 工具需要 Google Gemini API 密钥。
部署问题：确保 Docker 已安装并运行，且 .env 文件包含正确的 API 密钥。
连接问题：确保 MCP 客户端配置正确，连接到 http://127.0.0.1:8002/sse。

使用教程

使用依赖

Docker 部署：
安装 Docker Desktop。
克隆仓库： bash git clone https://github.com/your-username/your-repo-name.git cd your-repo-name
创建 .env 文件并添加 API 密钥。
构建 Docker 镜像： bash docker build -t crawl4ai-mcp-server .
运行容器： bash docker run -it --rm -p 8002:8002 --env-file .env crawl4ai-mcp-server
本地运行：
安装 Python >= 3.9。
克隆仓库并创建虚拟环境： bash python -m venv venv source venv/bin/activate
安装依赖： bash pip install -r requirements.txt
创建 .env 文件并添加 API 密钥。
运行服务器： bash python your_server_script_name.py

调试方式

确保服务器日志显示监听在 http://0.0.0.0:8002。
使用 MCP 客户端连接到 http://127.0.0.1:8002/sse。
检查 .env 文件中的 API 密钥是否正确。

许可证

该项目遵循 MIT 开源许可条款。