
mcp-server-spider: A spider MCP server

2025.04.23
0
Python网页爬取自动化交互浏览器自动化
mcp-server-spider 是一个基于 Model Context Protocol 的服务器,专注于网页爬取和自动化交互。它提供了爬取和抓取网页的工具,适用于需要自动化网页数据采集的场景。
View on GitHub
Overview
基本能力
产品定位
mcp-server-spider 是一个用于网页爬取和自动化的 MCP 服务器,旨在帮助用户高效地采集网页数据。
核心功能
- 爬取功能 (
crawl
) - 爬取指定 URL 并返回发现的 URL 列表。
- 支持自定义请求头、用户代理、爬取深度、黑白名单过滤、
robots.txt
遵守以及无效证书处理。 - 抓取功能 (
scrape
) - 抓取指定 URL 并返回包含 URL、链接和页面内容的 JSON 对象列表。
- 输入参数与
crawl
相同。
适用场景
- 网页数据采集
- 自动化测试
- 内容分析
- 搜索引擎优化(SEO)研究
工具列表
crawl
- 功能:爬取指定 URL 并返回发现的 URL 列表。
scrape
- 功能:抓取指定 URL 并返回包含页面内容的 JSON 对象列表。
常见问题解答
- 目前处于早期开发阶段,可能存在 Bug 或功能不完善的情况。
使用教程
使用依赖
- 推荐使用
uv
工具运行,无需额外安装。 - 或者使用
pip
安装。
安装教程
- 使用
uv
运行bash uvx mcp-server-spider
- 使用
pip
安装bash pip install mcp-server-spider
- 运行服务
bash python -m mcp_server_spider
调试方式
- 安装完成后,直接运行服务即可开始调试。
- 可以通过命令行参数或配置文件调整爬取和抓取的行为。