
MD MCP Webcrawler Project

2025.01.07
2
Python网络爬虫内容提取浏览器自动化
MD MCP Webcrawler Project 是一个基于Python的MCP(Model Context Protocol)网络爬虫,用于提取和保存网站内容。其主要功能包括提取网站内容并保存为Markdown文件、映射网站结构和链接、批量处理多个URL以及可配置的输出目录。适用于需要自动化抓取和保存网站内容的场景。
View on GitHub
Overview
基本能力
产品定位
MD MCP Webcrawler Project 是一个基于Python的MCP网络爬虫,用于自动化抓取和保存网站内容。
核心功能
- 提取网站内容并保存为Markdown文件
- 映射网站结构和链接
- 批量处理多个URL
- 可配置的输出目录
适用场景
- 自动化抓取和保存网站内容
- 批量处理多个URL
- 映射网站结构和链接
工具列表
- FastMCP:用于安装和运行MCP服务
- MCP Inspector:用于调试
常见问题解答
无明确常见问题解答部分。
使用教程
使用依赖
- 安装Python 3.7+:
sudo apt-get install python3.7
- 安装FastMCP:
uv pip install fastmcp
- 安装依赖:
pip install -r requirements.txt
安装教程
- 克隆仓库:
git clone https://github.com/yourusername/webcrawler.git
cd webcrawler
- 安装依赖:
pip install -r requirements.txt
- 可选:配置环境变量:
export OUTPUT_PATH=./output
调试方式
- 使用FastMCP进行开发:
fastmcp dev server.py --with-editable .
- 使用MCP Inspector进行调试: 访问 https://modelcontextprotocol.io/docs/tools/inspector