MCP Smart Crawler

MCP Smart Crawler

site icon
2025.04.06 1
JavaScript网页爬取资源下载小红书内容提取浏览器自动化内容生成
MCP Smart Crawler 是一个基于模型上下文协议(MCP)的服务器,主要用于通过Playwright自动化浏览器来爬取网页内容,提取元数据(如标题、描述、图片等),并下载资源(如视频和图片)。特别适用于从小红书(Xiaohongshu)平台提取内容和资源。
View on GitHub

Overview

基本能力

产品定位

MCP Smart Crawler 是一个专注于网页内容爬取和资源下载的工具,特别针对小红书平台优化。

核心功能

  • 从小红书帖子中提取元数据(标题、描述、图片)。
  • 从小红书分享链接中下载视频和图片。
  • 使用Playwright进行浏览器自动化。

适用场景

  • 需要自动化提取小红书内容的场景。
  • 需要下载小红书视频和图片的场景。
  • 需要浏览器自动化进行网页爬取的场景。

工具列表

  • Playwright: 用于浏览器自动化,支持爬取网页内容和资源下载。

常见问题解答

使用教程

使用依赖

  • 需要安装Node.js和npm。
  • 需要安装Playwright。

安装教程

  1. 确保已安装Node.js和npm。
  2. 安装Playwright:
npm install playwright
  1. 安装MCP Smart Crawler:
npm install -g mcp-smart-crawler

调试方式

  1. 运行MCP Smart Crawler:
npx mcp-smart-crawler
  1. 使用示例配置进行测试:
{
  "mcpServers": {
    "mcp-smart-crawler": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-smart-crawler",
        "--download-folder",
        "c:\\downloads"
      ]
    }
  }
}
  1. 使用示例对话进行测试:
帮我查看这条小红书的内容和图片,并告诉我图片里面是什么
59 XXX发布了一篇小红书笔记,快来看吧! 😆 OfTOBst2PsxctaX 😆 http://xhslink.com/a/xxaabbcczz,复制本条信息,打开【小红书】App查看精彩内容!

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。