Doc Scraper MCP Server

Doc Scraper MCP Server

2025.03.12 5

Python文档抓取格式转换开发效率

Doc Scraper MCP Server 是一个基于模型上下文协议（MCP）的服务，专门用于从网页抓取文档并将其转换为Markdown格式。该服务利用jina.ai的转换服务，能够高效地将HTML文档转换为易于阅读和编辑的Markdown格式，适用于开发者和内容管理者。

View on GitHub

Overview

基本能力

产品定位

Doc Scraper MCP Server 是一个文档抓取和转换工具，旨在帮助开发者快速获取和转换网页文档为Markdown格式，便于后续处理和集成。

核心功能

文档抓取：从任何网页URL抓取文档内容。
格式转换：将HTML文档转换为Markdown格式。
文件保存：将转换后的文档保存到指定路径。
MCP集成：与模型上下文协议（MCP）无缝集成。

适用场景

开发者需要快速获取和转换在线文档为Markdown格式。
内容管理者需要将网页文档转换为易于编辑的格式。
自动化文档处理流程中的文档抓取和转换步骤。

工具列表

scrape_docs：
能力：从指定URL抓取文档并保存为Markdown文件。
输入参数：
- url：要抓取的文档URL。
- output_path：Markdown文件的保存路径。

常见问题解答

如何安装：可以通过Smithery自动安装或手动克隆仓库并安装依赖。
依赖问题：确保安装了aiohttp、mcp和pydantic等依赖库。

使用教程

使用依赖

确保已安装Python 3.x。
安装依赖库：

pip install aiohttp mcp pydantic

安装教程

克隆仓库：

git clone https://github.com/askjohngeorge/mcp-doc-scraper.git
cd mcp-doc-scraper

创建并激活虚拟环境：

python -m venv venv
source venv/bin/activate  # Windows: venv\Scripts\activate

安装依赖：

pip install -e .

调试方式

运行服务：

python -m mcp_doc_scraper

使用工具scrape_docs进行测试：

# 示例命令（需根据实际URL和路径调整）
curl -X POST http://localhost:port/scrape_docs -d '{"url": "https://example.com/docs", "output_path": "./output.md"}'

许可证

该项目遵循 MIT 开源许可条款。