
MCP Smart Crawler

2025.04.06
1
JavaScript网页爬取资源下载小红书内容提取浏览器自动化内容生成
MCP Smart Crawler 是一个基于模型上下文协议(MCP)的服务器,主要用于通过Playwright自动化浏览器来爬取网页内容,提取元数据(如标题、描述、图片等),并下载资源(如视频和图片)。特别适用于从小红书(Xiaohongshu)平台提取内容和资源。
View on GitHub
Overview
基本能力
产品定位
MCP Smart Crawler 是一个专注于网页内容爬取和资源下载的工具,特别针对小红书平台优化。
核心功能
- 从小红书帖子中提取元数据(标题、描述、图片)。
- 从小红书分享链接中下载视频和图片。
- 使用Playwright进行浏览器自动化。
适用场景
- 需要自动化提取小红书内容的场景。
- 需要下载小红书视频和图片的场景。
- 需要浏览器自动化进行网页爬取的场景。
工具列表
- Playwright: 用于浏览器自动化,支持爬取网页内容和资源下载。
常见问题解答
- 无
使用教程
使用依赖
- 需要安装Node.js和npm。
- 需要安装Playwright。
安装教程
- 确保已安装Node.js和npm。
- 安装Playwright:
npm install playwright
- 安装MCP Smart Crawler:
npm install -g mcp-smart-crawler
调试方式
- 运行MCP Smart Crawler:
npx mcp-smart-crawler
- 使用示例配置进行测试:
{
"mcpServers": {
"mcp-smart-crawler": {
"command": "npx",
"args": [
"-y",
"mcp-smart-crawler",
"--download-folder",
"c:\\downloads"
]
}
}
}
- 使用示例对话进行测试:
帮我查看这条小红书的内容和图片,并告诉我图片里面是什么
59 XXX发布了一篇小红书笔记,快来看吧! 😆 OfTOBst2PsxctaX 😆 http://xhslink.com/a/xxaabbcczz,复制本条信息,打开【小红书】App查看精彩内容!