
mcp-playwright-scraper

2025.03.09
1
Python网页抓取格式转换浏览器自动化
mcp-playwright-scraper 是一个基于 Model Context Protocol (MCP) 的服务,主要用于抓取网页内容并将其转换为 Markdown 格式。它利用 Playwright 进行无头浏览器自动化,能够处理包括 JavaScript 密集型网站在内的现代网页,同时结合 BeautifulSoup 进行 HTML 解析和清理,以及 Pypandoc 进行高质量的 HTML 到 Markdown 的转换。
View on GitHub
Overview
基本能力
产品定位
mcp-playwright-scraper 是一个专门用于网页内容抓取和转换的工具,旨在提供高效、准确的网页内容提取和格式转换服务。
核心功能
- 使用 Playwright 进行无头浏览器自动化,支持 JavaScript 密集型网页的抓取。
- 利用 BeautifulSoup 进行 HTML 解析和清理,确保提取内容的准确性。
- 通过 Pypandoc 实现高质量的 HTML 到 Markdown 的转换。
适用场景
- 需要从网页中提取内容并转换为 Markdown 格式的场景。
- 处理 JavaScript 密集型网页的内容抓取。
- 自动化网页内容提取和格式转换的工作流程。
工具列表
scrape_to_markdown
: 从指定 URL 抓取内容并转换为 Markdown。- 必选参数:
url
(字符串) - 要抓取的 URL。 - 可选参数:
verify_ssl
(布尔值) - 是否验证 SSL 证书(默认: true)。
常见问题解答
- 安装 Playwright 浏览器依赖时遇到问题?请确保已正确安装 Playwright 并运行
playwright install --with-deps chromium
。 - 转换后的 Markdown 格式不符合预期?检查 Pypandoc 是否已正确安装,并确保网页内容结构清晰。
使用教程
使用依赖
- Python 3.11 或更高版本。
- Playwright 浏览器依赖。
- Pandoc(可选,如果可能,Pypandoc 会自动安装)。
安装 Playwright 浏览器依赖的命令:
playwright install --with-deps chromium
安装教程
使用 uv(推荐)
无需特定安装,直接使用 uvx
运行 mcp-playwright-scraper
。
使用 PIP
安装命令:
pip install mcp-playwright-scraper
运行命令:
python -m mcp_playwright_scraper
调试方式
使用 MCP inspector 进行调试的命令:
npx @modelcontextprotocol/inspector uvx mcp-playwright-scraper
或针对特定目录的调试:
cd path/to/mcp-playwright-scraper
npx @modelcontextprotocol/inspector uv run mcp-playwright-scraper
调试时,Inspector 会显示一个可在浏览器中访问的 URL。