Crawl4AI MCP Server

Crawl4AI MCP Server

site icon
2025.03.20 70
Python智能信息获取多引擎搜索网页内容理解搜索工具浏览器自动化开发效率
Crawl4AI MCP Server 是一个基于MCP (Model Context Protocol)的智能信息获取服务器,为AI助手系统提供强大的搜索能力和面向LLM优化的网页内容理解功能。通过多引擎搜索和智能内容提取,帮助AI系统高效获取和理解互联网信息,将网页内容转换为最适合LLM处理的格式。
View on GitHub

Overview

基本能力

产品定位

Crawl4AI MCP Server 是一个智能信息获取服务器,专注于为AI助手系统提供强大的搜索能力和面向LLM优化的网页内容理解功能。

核心功能

  • 🔍 强大的多引擎搜索能力,支持DuckDuckGo和Google
  • 📚 面向LLM优化的网页内容提取,智能过滤非核心内容
  • 🎯 专注信息价值,自动识别和保留关键内容
  • 📝 多种输出格式,支持引用溯源
  • 🚀 基于FastMCP的高性能异步设计

适用场景

  • AI助手系统需要获取和理解互联网信息
  • 需要将网页内容转换为最适合LLM处理的格式
  • 需要多引擎搜索和智能内容提取的场景

工具列表

  1. search: 强大的网络搜索工具,支持多个搜索引擎(DuckDuckGo和Google),支持同时使用多个引擎获取更全面的结果。
  2. read_url: 面向LLM优化的网页内容理解工具,提供智能内容提取和格式转换,支持多种输出格式。

常见问题解答

  • 如需使用Google搜索,需要在config.json中配置API密钥。
  • 服务器采用了一系列针对LLM的内容优化策略,包括智能内容识别、噪音过滤、信息完整性和格式优化。

使用教程

使用依赖

  1. 确保您的系统满足以下要求:
  2. Python >= 3.9
  3. 建议使用专门的虚拟环境

安装教程

  1. 克隆仓库:
git clone https://github.com/yourusername/crawl4ai-mcp-server.git
cd crawl4ai-mcp-server
  1. 创建并激活虚拟环境:
python -m venv crawl4ai_env
source crawl4ai_env/bin/activate  # Linux/Mac
# 或
.\crawl4ai_env\Scripts\activate  # Windows
  1. 安装依赖:
pip install -r requirements.txt
  1. 安装playwright浏览器:
playwright install

调试方式

  1. 复制配置示例文件:
cp config_demo.json config.json
  1. 如需使用Google搜索,在config.json中配置API密钥:
{
    "google": {
        "api_key": "your-google-api-key",
        "cse_id": "your-google-cse-id"
    }
}
  1. 运行服务器并进行测试搜索或网页内容提取。

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。