Crawl4AI Web Scraper MCP Server

Crawl4AI Web Scraper MCP Server

site icon
2025.04.16 2
Python网页抓取智能内容提取浏览器自动化开发效率
Crawl4AI Web Scraper MCP Server 是一个基于 Model Context Protocol (MCP) 的服务,专门用于网页抓取和智能内容提取。它利用 crawl4ai 库,使 AI 代理(如 Claude 或基于 LangChain/LangGraph 构建的代理)能够与网页交互,检索内容,搜索特定文本,并根据自然语言指令执行基于大型语言模型(LLM)的提取任务。该服务通过 FastMCP 创建 MCP 服务器端点,支持 Docker 容器化部署,并通过 Server-Sent Events (SSE) 进行通信。
View on GitHub

Overview

基本能力

产品定位

Crawl4AI Web Scraper MCP Server 是一个专为 AI 代理设计的网页抓取和内容提取服务,旨在通过自然语言指令智能地提取网页信息。

核心功能

  • 网页抓取:将网页内容转换为 Markdown 格式。
  • 文本提取:根据查询提取网页中的特定文本片段。
  • 智能提取:使用 LLM(如 Google Gemini)根据自然语言指令提取结构化信息。
  • 配置灵活:通过环境变量管理 API 密钥。
  • 容器化部署:支持 Docker,便于部署和管理。

适用场景

  • AI 代理需要从网页中提取信息时。
  • 开发人员需要自动化网页内容抓取和分析。
  • 研究人员需要从大量网页中提取特定数据。

工具列表

  1. scrape_url:抓取网页并返回 Markdown 格式内容。
  2. 参数:url(必需)。
  3. 返回:网页内容的 Markdown 格式或错误信息。
  4. extract_text_by_query:根据查询提取网页中的文本片段。
  5. 参数:url(必需),query(必需),context_size(可选)。
  6. 返回:匹配的文本片段或错误信息。
  7. smart_extract:使用 LLM 根据指令智能提取信息。
  8. 参数:url(必需),instruction(必需)。
  9. 返回:结构化信息或错误信息。

常见问题解答

  • API 密钥smart_extract 工具需要 Google Gemini API 密钥。
  • 部署问题:确保 Docker 已安装并运行,且 .env 文件包含正确的 API 密钥。
  • 连接问题:确保 MCP 客户端配置正确,连接到 http://127.0.0.1:8002/sse

使用教程

使用依赖

  1. Docker 部署
  2. 安装 Docker Desktop。
  3. 克隆仓库: bash git clone https://github.com/your-username/your-repo-name.git cd your-repo-name
  4. 创建 .env 文件并添加 API 密钥。
  5. 构建 Docker 镜像: bash docker build -t crawl4ai-mcp-server .
  6. 运行容器: bash docker run -it --rm -p 8002:8002 --env-file .env crawl4ai-mcp-server

  7. 本地运行

  8. 安装 Python >= 3.9。
  9. 克隆仓库并创建虚拟环境: bash python -m venv venv source venv/bin/activate
  10. 安装依赖: bash pip install -r requirements.txt
  11. 创建 .env 文件并添加 API 密钥。
  12. 运行服务器: bash python your_server_script_name.py

调试方式

  • 确保服务器日志显示监听在 http://0.0.0.0:8002
  • 使用 MCP 客户端连接到 http://127.0.0.1:8002/sse
  • 检查 .env 文件中的 API 密钥是否正确。

许可证

该项目遵循 MIT 开源许可条款。