MCP Website Downloader

MCP Website Downloader

site icon
2025.01.27 3
Python文档下载RAG 索引内容生成
MCP Website Downloader 是一个简单的 MCP 服务器,主要用于下载文档网站并为其准备 RAG 索引。它的核心功能包括下载完整的文档网站、维护链接结构和导航、下载和组织资产(CSS、JS、图像等),以及为 RAG 系统创建干净的索引。该工具适用于需要将文档网站内容下载并组织以进行进一步处理或索引的场景。
View on GitHub

Overview

基本能力

产品定位

MCP Website Downloader 是一个专门用于下载和整理文档网站内容的工具,旨在为 RAG 索引系统准备数据。

核心功能

  • 下载完整的文档网站内容
  • 维护链接结构和导航
  • 下载和组织网站资产(CSS、JS、图像等)
  • 为 RAG 系统创建干净的索引

适用场景

  • 需要将文档网站内容下载并组织以进行进一步处理或索引的场景
  • 为 RAG 系统准备数据

工具列表

  • server.py: 主 MCP 服务器实现,处理工具注册和请求
  • core.py: 核心网站下载功能,包括资产处理
  • utils.py: 辅助工具,用于文件处理和 URL 处理

常见问题解答

  • 如何处理无效 URL?服务器会返回详细的错误消息。
  • 如何处理网络错误?服务器会捕获并返回网络错误信息。
  • 如何处理资产下载失败?服务器会验证资产下载并返回失败信息。

使用教程

使用依赖

  1. 确保已安装 Python 和 pip
  2. 创建并激活虚拟环境
uv venv
./venv/Scripts/activate

安装教程

  1. 克隆或下载仓库
  2. 进入仓库目录
  3. 安装依赖
pip install -e .
  1. 配置 claude_desktop_config.json 文件,添加以下内容(替换为你的路径):
"mcp-windows-website-downloader": {
  "command": "uv",
  "args": [
    "--directory",
    "F:/GithubRepos/mcp-windows-website-downloader",
    "run",
    "mcp-windows-website-downloader",
    "--library",
    "F:/GithubRepos/mcp-windows-website-downloader/website_library"
  ]
}

调试方式

  1. 启动服务器
python -m mcp_windows_website_downloader.server --library docs_library
  1. 通过 Claude Desktop 或其他 MCP 客户端使用
result = await server.call_tool("download", {
    "url": "https://docs.example.com"
})

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。