mcp-server-spider: A spider MCP server

mcp-server-spider: A spider MCP server

site icon
2025.04.23 0
Python网页爬取自动化交互浏览器自动化
mcp-server-spider 是一个基于 Model Context Protocol 的服务器,专注于网页爬取和自动化交互。它提供了爬取和抓取网页的工具,适用于需要自动化网页数据采集的场景。
View on GitHub

Overview

基本能力

产品定位

mcp-server-spider 是一个用于网页爬取和自动化的 MCP 服务器,旨在帮助用户高效地采集网页数据。

核心功能

  1. 爬取功能 (crawl)
  2. 爬取指定 URL 并返回发现的 URL 列表。
  3. 支持自定义请求头、用户代理、爬取深度、黑白名单过滤、robots.txt 遵守以及无效证书处理。
  4. 抓取功能 (scrape)
  5. 抓取指定 URL 并返回包含 URL、链接和页面内容的 JSON 对象列表。
  6. 输入参数与 crawl 相同。

适用场景

  • 网页数据采集
  • 自动化测试
  • 内容分析
  • 搜索引擎优化(SEO)研究

工具列表

  1. crawl
  2. 功能:爬取指定 URL 并返回发现的 URL 列表。
  3. scrape
  4. 功能:抓取指定 URL 并返回包含页面内容的 JSON 对象列表。

常见问题解答

  • 目前处于早期开发阶段,可能存在 Bug 或功能不完善的情况。

使用教程

使用依赖

  • 推荐使用 uv 工具运行,无需额外安装。
  • 或者使用 pip 安装。

安装教程

  1. 使用 uv 运行 bash uvx mcp-server-spider
  2. 使用 pip 安装 bash pip install mcp-server-spider
  3. 运行服务 bash python -m mcp_server_spider

调试方式

  • 安装完成后,直接运行服务即可开始调试。
  • 可以通过命令行参数或配置文件调整爬取和抓取的行为。

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。