Website Scraper

Website Scraper

site icon
2025.03.10 4
JavaScript网页抓取HTML 转换Markdown 生成搜索工具开发效率
mcp_scraper 是一个命令行工具和 MCP 服务器,用于抓取网站并将 HTML 转换为 Markdown。它使用 Mozilla 的 Readability 库提取网页内容,并通过 TurndownService 将干净的 HTML 转换为高质量的 Markdown。该工具支持本地 HTML 文件的直接转换,并可作为 MCP 服务器运行。
View on GitHub

Overview

基本能力

产品定位

mcp_scraper 是一个用于网页抓取和 HTML 到 Markdown 转换的工具,适用于需要从网页中提取结构化内容的场景。

核心功能

  • 使用 Mozilla 的 Readability 库提取网页内容(与 Firefox 的 Reader View 相同引擎)。
  • 通过 TurndownService 将干净的 HTML 转换为高质量的 Markdown。
  • 安全处理 HTML,移除潜在有害的脚本标签。
  • 支持作为命令行工具和 MCP 服务器运行。
  • 支持本地 HTML 文件的直接转换。

适用场景

  • 网页内容抓取和结构化提取。
  • HTML 到 Markdown 的批量转换。
  • 本地 HTML 文件的快速转换。
  • 开发中需要自动化处理网页内容的场景。

工具列表

  • scrapeToMarkdown: 抓取网站并转换为 Markdown。
  • htmlToMarkdown: 直接将 HTML 字符串转换为 Markdown。

常见问题解答

无明确常见问题解答部分。

使用教程

使用依赖

# Install dependencies
npm install

安装教程

# Build the project
npm run build

# Optionally, install globally
npm install -g .

调试方式

CLI 模式

# Print output to console
scrape https://example.com

# Save output to a file
scrape https://example.com output.md

# Convert a local HTML file to Markdown
scrape --html-file input.html

# Convert a local HTML file and save output to a file
scrape --html-file input.html output.md

# Show help
scrape --help

# Or run via npm script
npm run start:cli -- https://example.com

MCP Server 模式

# Start in MCP server mode
npm start

许可证

该项目遵循 ISC 开源许可条款。