MD MCP Webcrawler Project

MD MCP Webcrawler Project

2025.01.07 2

Python网络爬虫内容提取浏览器自动化

MD MCP Webcrawler Project 是一个基于Python的MCP（Model Context Protocol）网络爬虫，用于提取和保存网站内容。其主要功能包括提取网站内容并保存为Markdown文件、映射网站结构和链接、批量处理多个URL以及可配置的输出目录。适用于需要自动化抓取和保存网站内容的场景。

View on GitHub

Overview

基本能力

产品定位

MD MCP Webcrawler Project 是一个基于Python的MCP网络爬虫，用于自动化抓取和保存网站内容。

核心功能

提取网站内容并保存为Markdown文件
映射网站结构和链接
批量处理多个URL
可配置的输出目录

适用场景

自动化抓取和保存网站内容
批量处理多个URL
映射网站结构和链接

工具列表

FastMCP：用于安装和运行MCP服务
MCP Inspector：用于调试

常见问题解答

无明确常见问题解答部分。

使用教程

使用依赖

安装Python 3.7+：

sudo apt-get install python3.7

安装FastMCP：

uv pip install fastmcp

安装依赖：

pip install -r requirements.txt

安装教程

克隆仓库：

git clone https://github.com/yourusername/webcrawler.git
cd webcrawler

安装依赖：

pip install -r requirements.txt

可选：配置环境变量：

export OUTPUT_PATH=./output

调试方式

使用FastMCP进行开发：

fastmcp dev server.py --with-editable .

使用MCP Inspector进行调试：访问 https://modelcontextprotocol.io/docs/tools/inspector

许可证

该项目遵循 MIT 开源许可条款，请参阅 MIT 了解完整条款。