MCP Web Extractor

MCP Web Extractor

2025.04.06 0

TypeScript网页内容提取Obsidian 集成内容生成

MCP Web Extractor 是一个基于 Model Context Protocol (MCP) 的服务，主要用于从网页中提取可读内容。它利用 Readability.js 技术，能够去除广告、侧边栏等干扰元素，提取网页的主要内容和元数据（如标题、摘要等）。该工具特别适合与 Obsidian 笔记软件集成，用于保存简洁、可读的文章版本。

View on GitHub

Overview

基本能力

产品定位

MCP Web Extractor 是一个网页内容提取工具，专注于提供干净、可读的网页内容提取服务。

核心功能

从任何 URL 提取可读内容
去除广告、侧边栏等干扰元素
返回干净的文本内容及元数据（标题、摘要等）
支持与 Obsidian 通过 MCP 协议集成

适用场景

保存网页文章到 Obsidian 笔记
提取网页主要内容用于阅读或分析
自动化内容抓取和处理

工具列表

extract-content: 从给定 URL 提取可读内容
参数: { url: string }
返回: { title, content, textContent, excerpt, siteName }

常见问题解答

无

使用教程

使用依赖

确保已安装 Node.js 和 npm。

安装教程

# 克隆仓库
git clone https://github.com/iemong/mcp-web-extractor.git
cd mcp-web-extractor

# 安装依赖
npm install

# 构建项目
npm run build

# 启动服务器
npm start

服务器将在 http://localhost:3000 启动，MCP 端点为 http://localhost:3000/mcp。

调试方式

作为独立服务使用

可以使用包含的客户端示例从 URL 提取内容：

ts-node-esm client-example.ts

与 Obsidian 集成

obsidian-integration.ts 文件提供了如何将此 MCP 服务器与 Obsidian 集成的示例。可以用作创建提取网页内容的 Obsidian 插件的起点。

许可证

该项目遵循 MIT 开源许可条款。