Website Scraper

Website Scraper

2025.03.10 4

JavaScript网页抓取HTML 转换Markdown 生成搜索工具开发效率

mcp_scraper 是一个命令行工具和 MCP 服务器，用于抓取网站并将 HTML 转换为 Markdown。它使用 Mozilla 的 Readability 库提取网页内容，并通过 TurndownService 将干净的 HTML 转换为高质量的 Markdown。该工具支持本地 HTML 文件的直接转换，并可作为 MCP 服务器运行。

View on GitHub

Overview

基本能力

产品定位

mcp_scraper 是一个用于网页抓取和 HTML 到 Markdown 转换的工具，适用于需要从网页中提取结构化内容的场景。

核心功能

使用 Mozilla 的 Readability 库提取网页内容（与 Firefox 的 Reader View 相同引擎）。
通过 TurndownService 将干净的 HTML 转换为高质量的 Markdown。
安全处理 HTML，移除潜在有害的脚本标签。
支持作为命令行工具和 MCP 服务器运行。
支持本地 HTML 文件的直接转换。

适用场景

网页内容抓取和结构化提取。
HTML 到 Markdown 的批量转换。
本地 HTML 文件的快速转换。
开发中需要自动化处理网页内容的场景。

工具列表

scrapeToMarkdown: 抓取网站并转换为 Markdown。
htmlToMarkdown: 直接将 HTML 字符串转换为 Markdown。

常见问题解答

无明确常见问题解答部分。

使用教程

使用依赖

# Install dependencies
npm install

安装教程

# Build the project
npm run build

# Optionally, install globally
npm install -g .

调试方式

CLI 模式

# Print output to console
scrape https://example.com

# Save output to a file
scrape https://example.com output.md

# Convert a local HTML file to Markdown
scrape --html-file input.html

# Convert a local HTML file and save output to a file
scrape --html-file input.html output.md

# Show help
scrape --help

# Or run via npm script
npm run start:cli -- https://example.com

MCP Server 模式

# Start in MCP server mode
npm start

许可证

该项目遵循 ISC 开源许可条款。