mcp-playwright-scraper

mcp-playwright-scraper

2025.03.09 1

Python网页抓取格式转换浏览器自动化

mcp-playwright-scraper 是一个基于 Model Context Protocol (MCP) 的服务，主要用于抓取网页内容并将其转换为 Markdown 格式。它利用 Playwright 进行无头浏览器自动化，能够处理包括 JavaScript 密集型网站在内的现代网页，同时结合 BeautifulSoup 进行 HTML 解析和清理，以及 Pypandoc 进行高质量的 HTML 到 Markdown 的转换。

View on GitHub

Overview

基本能力

产品定位

mcp-playwright-scraper 是一个专门用于网页内容抓取和转换的工具，旨在提供高效、准确的网页内容提取和格式转换服务。

核心功能

使用 Playwright 进行无头浏览器自动化，支持 JavaScript 密集型网页的抓取。
利用 BeautifulSoup 进行 HTML 解析和清理，确保提取内容的准确性。
通过 Pypandoc 实现高质量的 HTML 到 Markdown 的转换。

适用场景

需要从网页中提取内容并转换为 Markdown 格式的场景。
处理 JavaScript 密集型网页的内容抓取。
自动化网页内容提取和格式转换的工作流程。

工具列表

scrape_to_markdown: 从指定 URL 抓取内容并转换为 Markdown。
必选参数: url (字符串) - 要抓取的 URL。
可选参数: verify_ssl (布尔值) - 是否验证 SSL 证书（默认: true）。

常见问题解答

安装 Playwright 浏览器依赖时遇到问题？请确保已正确安装 Playwright 并运行 playwright install --with-deps chromium。
转换后的 Markdown 格式不符合预期？检查 Pypandoc 是否已正确安装，并确保网页内容结构清晰。

使用教程

使用依赖

Python 3.11 或更高版本。
Playwright 浏览器依赖。
Pandoc（可选，如果可能，Pypandoc 会自动安装）。

安装 Playwright 浏览器依赖的命令：

playwright install --with-deps chromium

安装教程

使用 uv（推荐）

无需特定安装，直接使用 uvx 运行 mcp-playwright-scraper。

使用 PIP

安装命令：

pip install mcp-playwright-scraper

运行命令：

python -m mcp_playwright_scraper

调试方式

使用 MCP inspector 进行调试的命令：

npx @modelcontextprotocol/inspector uvx mcp-playwright-scraper

或针对特定目录的调试：

cd path/to/mcp-playwright-scraper
npx @modelcontextprotocol/inspector uv run mcp-playwright-scraper

调试时，Inspector 会显示一个可在浏览器中访问的 URL。

许可证

该项目遵循 Apache-2.0 开源许可条款，请参阅 Apache-2.0 了解完整条款。