
Doc Scraper MCP Server

2025.03.12
5
Python文档抓取格式转换开发效率
Doc Scraper MCP Server 是一个基于模型上下文协议(MCP)的服务,专门用于从网页抓取文档并将其转换为Markdown格式。该服务利用jina.ai的转换服务,能够高效地将HTML文档转换为易于阅读和编辑的Markdown格式,适用于开发者和内容管理者。
View on GitHub
Overview
基本能力
产品定位
Doc Scraper MCP Server 是一个文档抓取和转换工具,旨在帮助开发者快速获取和转换网页文档为Markdown格式,便于后续处理和集成。
核心功能
- 文档抓取:从任何网页URL抓取文档内容。
- 格式转换:将HTML文档转换为Markdown格式。
- 文件保存:将转换后的文档保存到指定路径。
- MCP集成:与模型上下文协议(MCP)无缝集成。
适用场景
- 开发者需要快速获取和转换在线文档为Markdown格式。
- 内容管理者需要将网页文档转换为易于编辑的格式。
- 自动化文档处理流程中的文档抓取和转换步骤。
工具列表
- scrape_docs:
- 能力:从指定URL抓取文档并保存为Markdown文件。
- 输入参数:
url
:要抓取的文档URL。output_path
:Markdown文件的保存路径。
常见问题解答
- 如何安装:可以通过Smithery自动安装或手动克隆仓库并安装依赖。
- 依赖问题:确保安装了aiohttp、mcp和pydantic等依赖库。
使用教程
使用依赖
- 确保已安装Python 3.x。
- 安装依赖库:
pip install aiohttp mcp pydantic
安装教程
- 克隆仓库:
git clone https://github.com/askjohngeorge/mcp-doc-scraper.git
cd mcp-doc-scraper
- 创建并激活虚拟环境:
python -m venv venv
source venv/bin/activate # Windows: venv\Scripts\activate
- 安装依赖:
pip install -e .
调试方式
- 运行服务:
python -m mcp_doc_scraper
- 使用工具
scrape_docs
进行测试:
# 示例命令(需根据实际URL和路径调整)
curl -X POST http://localhost:port/scrape_docs -d '{"url": "https://example.com/docs", "output_path": "./output.md"}'