mcp-playwright-scraper

mcp-playwright-scraper

site icon
2025.03.09 1
Python网页抓取格式转换浏览器自动化
mcp-playwright-scraper 是一个基于 Model Context Protocol (MCP) 的服务,主要用于抓取网页内容并将其转换为 Markdown 格式。它利用 Playwright 进行无头浏览器自动化,能够处理包括 JavaScript 密集型网站在内的现代网页,同时结合 BeautifulSoup 进行 HTML 解析和清理,以及 Pypandoc 进行高质量的 HTML 到 Markdown 的转换。
View on GitHub

Overview

基本能力

产品定位

mcp-playwright-scraper 是一个专门用于网页内容抓取和转换的工具,旨在提供高效、准确的网页内容提取和格式转换服务。

核心功能

  • 使用 Playwright 进行无头浏览器自动化,支持 JavaScript 密集型网页的抓取。
  • 利用 BeautifulSoup 进行 HTML 解析和清理,确保提取内容的准确性。
  • 通过 Pypandoc 实现高质量的 HTML 到 Markdown 的转换。

适用场景

  • 需要从网页中提取内容并转换为 Markdown 格式的场景。
  • 处理 JavaScript 密集型网页的内容抓取。
  • 自动化网页内容提取和格式转换的工作流程。

工具列表

  • scrape_to_markdown: 从指定 URL 抓取内容并转换为 Markdown。
  • 必选参数: url (字符串) - 要抓取的 URL。
  • 可选参数: verify_ssl (布尔值) - 是否验证 SSL 证书(默认: true)。

常见问题解答

  • 安装 Playwright 浏览器依赖时遇到问题?请确保已正确安装 Playwright 并运行 playwright install --with-deps chromium
  • 转换后的 Markdown 格式不符合预期?检查 Pypandoc 是否已正确安装,并确保网页内容结构清晰。

使用教程

使用依赖

  • Python 3.11 或更高版本。
  • Playwright 浏览器依赖。
  • Pandoc(可选,如果可能,Pypandoc 会自动安装)。

安装 Playwright 浏览器依赖的命令:

playwright install --with-deps chromium

安装教程

使用 uv(推荐)

无需特定安装,直接使用 uvx 运行 mcp-playwright-scraper

使用 PIP

安装命令:

pip install mcp-playwright-scraper

运行命令:

python -m mcp_playwright_scraper

调试方式

使用 MCP inspector 进行调试的命令:

npx @modelcontextprotocol/inspector uvx mcp-playwright-scraper

或针对特定目录的调试:

cd path/to/mcp-playwright-scraper
npx @modelcontextprotocol/inspector uv run mcp-playwright-scraper

调试时,Inspector 会显示一个可在浏览器中访问的 URL。

许可证

该项目遵循 Apache-2.0 开源许可条款,请参阅 Apache-2.0 了解完整条款。