MCP Smart Crawler

MCP Smart Crawler

2025.04.06 1

JavaScript网页爬取资源下载小红书内容提取浏览器自动化内容生成

MCP Smart Crawler 是一个基于模型上下文协议（MCP）的服务器，主要用于通过Playwright自动化浏览器来爬取网页内容，提取元数据（如标题、描述、图片等），并下载资源（如视频和图片）。特别适用于从小红书（Xiaohongshu）平台提取内容和资源。

View on GitHub

Overview

基本能力

产品定位

MCP Smart Crawler 是一个专注于网页内容爬取和资源下载的工具，特别针对小红书平台优化。

核心功能

从小红书帖子中提取元数据（标题、描述、图片）。
从小红书分享链接中下载视频和图片。
使用Playwright进行浏览器自动化。

适用场景

需要自动化提取小红书内容的场景。
需要下载小红书视频和图片的场景。
需要浏览器自动化进行网页爬取的场景。

工具列表

Playwright: 用于浏览器自动化，支持爬取网页内容和资源下载。

常见问题解答

无

使用教程

使用依赖

需要安装Node.js和npm。
需要安装Playwright。

安装教程

确保已安装Node.js和npm。
安装Playwright：

npm install playwright

安装MCP Smart Crawler：

npm install -g mcp-smart-crawler

调试方式

运行MCP Smart Crawler：

npx mcp-smart-crawler

使用示例配置进行测试：

{
  "mcpServers": {
    "mcp-smart-crawler": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-smart-crawler",
        "--download-folder",
        "c:\\downloads"
      ]
    }
  }
}

使用示例对话进行测试：

帮我查看这条小红书的内容和图片，并告诉我图片里面是什么
59 XXX发布了一篇小红书笔记，快来看吧！ 😆 OfTOBst2PsxctaX 😆 http://xhslink.com/a/xxaabbcczz，复制本条信息，打开【小红书】App查看精彩内容！

许可证

该项目遵循 MIT 开源许可条款，请参阅 MIT 了解完整条款。