
Crawl4AI Web Scraper MCP Server

2025.04.16
2
Python网页抓取智能内容提取浏览器自动化开发效率
Crawl4AI Web Scraper MCP Server 是一个基于 Model Context Protocol (MCP) 的服务,专门用于网页抓取和智能内容提取。它利用 crawl4ai 库,使 AI 代理(如 Claude 或基于 LangChain/LangGraph 构建的代理)能够与网页交互,检索内容,搜索特定文本,并根据自然语言指令执行基于大型语言模型(LLM)的提取任务。该服务通过 FastMCP 创建 MCP 服务器端点,支持 Docker 容器化部署,并通过 Server-Sent Events (SSE) 进行通信。
View on GitHub
Overview
基本能力
产品定位
Crawl4AI Web Scraper MCP Server 是一个专为 AI 代理设计的网页抓取和内容提取服务,旨在通过自然语言指令智能地提取网页信息。
核心功能
- 网页抓取:将网页内容转换为 Markdown 格式。
- 文本提取:根据查询提取网页中的特定文本片段。
- 智能提取:使用 LLM(如 Google Gemini)根据自然语言指令提取结构化信息。
- 配置灵活:通过环境变量管理 API 密钥。
- 容器化部署:支持 Docker,便于部署和管理。
适用场景
- AI 代理需要从网页中提取信息时。
- 开发人员需要自动化网页内容抓取和分析。
- 研究人员需要从大量网页中提取特定数据。
工具列表
- scrape_url:抓取网页并返回 Markdown 格式内容。
- 参数:
url
(必需)。 - 返回:网页内容的 Markdown 格式或错误信息。
- extract_text_by_query:根据查询提取网页中的文本片段。
- 参数:
url
(必需),query
(必需),context_size
(可选)。 - 返回:匹配的文本片段或错误信息。
- smart_extract:使用 LLM 根据指令智能提取信息。
- 参数:
url
(必需),instruction
(必需)。 - 返回:结构化信息或错误信息。
常见问题解答
- API 密钥:
smart_extract
工具需要 Google Gemini API 密钥。 - 部署问题:确保 Docker 已安装并运行,且
.env
文件包含正确的 API 密钥。 - 连接问题:确保 MCP 客户端配置正确,连接到
http://127.0.0.1:8002/sse
。
使用教程
使用依赖
- Docker 部署:
- 安装 Docker Desktop。
- 克隆仓库:
bash git clone https://github.com/your-username/your-repo-name.git cd your-repo-name
- 创建
.env
文件并添加 API 密钥。 - 构建 Docker 镜像:
bash docker build -t crawl4ai-mcp-server .
-
运行容器:
bash docker run -it --rm -p 8002:8002 --env-file .env crawl4ai-mcp-server
-
本地运行:
- 安装 Python >= 3.9。
- 克隆仓库并创建虚拟环境:
bash python -m venv venv source venv/bin/activate
- 安装依赖:
bash pip install -r requirements.txt
- 创建
.env
文件并添加 API 密钥。 - 运行服务器:
bash python your_server_script_name.py
调试方式
- 确保服务器日志显示监听在
http://0.0.0.0:8002
。 - 使用 MCP 客户端连接到
http://127.0.0.1:8002/sse
。 - 检查
.env
文件中的 API 密钥是否正确。