MD MCP Webcrawler Project

MD MCP Webcrawler Project

site icon
2025.01.07 2
Python网络爬虫内容提取浏览器自动化
MD MCP Webcrawler Project 是一个基于Python的MCP(Model Context Protocol)网络爬虫,用于提取和保存网站内容。其主要功能包括提取网站内容并保存为Markdown文件、映射网站结构和链接、批量处理多个URL以及可配置的输出目录。适用于需要自动化抓取和保存网站内容的场景。
View on GitHub

Overview

基本能力

产品定位

MD MCP Webcrawler Project 是一个基于Python的MCP网络爬虫,用于自动化抓取和保存网站内容。

核心功能

  • 提取网站内容并保存为Markdown文件
  • 映射网站结构和链接
  • 批量处理多个URL
  • 可配置的输出目录

适用场景

  • 自动化抓取和保存网站内容
  • 批量处理多个URL
  • 映射网站结构和链接

工具列表

  • FastMCP:用于安装和运行MCP服务
  • MCP Inspector:用于调试

常见问题解答

无明确常见问题解答部分。

使用教程

使用依赖

  1. 安装Python 3.7+:
sudo apt-get install python3.7
  1. 安装FastMCP:
uv pip install fastmcp
  1. 安装依赖:
pip install -r requirements.txt

安装教程

  1. 克隆仓库:
git clone https://github.com/yourusername/webcrawler.git
cd webcrawler
  1. 安装依赖:
pip install -r requirements.txt
  1. 可选:配置环境变量:
export OUTPUT_PATH=./output

调试方式

  1. 使用FastMCP进行开发:
fastmcp dev server.py --with-editable .
  1. 使用MCP Inspector进行调试: 访问 https://modelcontextprotocol.io/docs/tools/inspector

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。