Doc Scraper MCP Server

Doc Scraper MCP Server

site icon
2025.03.12 5
Python文档抓取格式转换开发效率
Doc Scraper MCP Server 是一个基于模型上下文协议(MCP)的服务,专门用于从网页抓取文档并将其转换为Markdown格式。该服务利用jina.ai的转换服务,能够高效地将HTML文档转换为易于阅读和编辑的Markdown格式,适用于开发者和内容管理者。
View on GitHub

Overview

基本能力

产品定位

Doc Scraper MCP Server 是一个文档抓取和转换工具,旨在帮助开发者快速获取和转换网页文档为Markdown格式,便于后续处理和集成。

核心功能

  • 文档抓取:从任何网页URL抓取文档内容。
  • 格式转换:将HTML文档转换为Markdown格式。
  • 文件保存:将转换后的文档保存到指定路径。
  • MCP集成:与模型上下文协议(MCP)无缝集成。

适用场景

  • 开发者需要快速获取和转换在线文档为Markdown格式。
  • 内容管理者需要将网页文档转换为易于编辑的格式。
  • 自动化文档处理流程中的文档抓取和转换步骤。

工具列表

  • scrape_docs
  • 能力:从指定URL抓取文档并保存为Markdown文件。
  • 输入参数
    • url:要抓取的文档URL。
    • output_path:Markdown文件的保存路径。

常见问题解答

  • 如何安装:可以通过Smithery自动安装或手动克隆仓库并安装依赖。
  • 依赖问题:确保安装了aiohttp、mcp和pydantic等依赖库。

使用教程

使用依赖

  1. 确保已安装Python 3.x。
  2. 安装依赖库:
pip install aiohttp mcp pydantic

安装教程

  1. 克隆仓库:
git clone https://github.com/askjohngeorge/mcp-doc-scraper.git
cd mcp-doc-scraper
  1. 创建并激活虚拟环境:
python -m venv venv
source venv/bin/activate  # Windows: venv\Scripts\activate
  1. 安装依赖:
pip install -e .

调试方式

  1. 运行服务:
python -m mcp_doc_scraper
  1. 使用工具scrape_docs进行测试:
# 示例命令(需根据实际URL和路径调整)
curl -X POST http://localhost:port/scrape_docs -d '{"url": "https://example.com/docs", "output_path": "./output.md"}'

许可证

该项目遵循 MIT 开源许可条款。