
MCP Web Extractor

2025.04.06
0
TypeScript网页内容提取Obsidian 集成内容生成
MCP Web Extractor 是一个基于 Model Context Protocol (MCP) 的服务,主要用于从网页中提取可读内容。它利用 Readability.js 技术,能够去除广告、侧边栏等干扰元素,提取网页的主要内容和元数据(如标题、摘要等)。该工具特别适合与 Obsidian 笔记软件集成,用于保存简洁、可读的文章版本。
View on GitHub
Overview
基本能力
产品定位
MCP Web Extractor 是一个网页内容提取工具,专注于提供干净、可读的网页内容提取服务。
核心功能
- 从任何 URL 提取可读内容
- 去除广告、侧边栏等干扰元素
- 返回干净的文本内容及元数据(标题、摘要等)
- 支持与 Obsidian 通过 MCP 协议集成
适用场景
- 保存网页文章到 Obsidian 笔记
- 提取网页主要内容用于阅读或分析
- 自动化内容抓取和处理
工具列表
extract-content
: 从给定 URL 提取可读内容- 参数:
{ url: string }
- 返回:
{ title, content, textContent, excerpt, siteName }
常见问题解答
无
使用教程
使用依赖
确保已安装 Node.js 和 npm。
安装教程
# 克隆仓库
git clone https://github.com/iemong/mcp-web-extractor.git
cd mcp-web-extractor
# 安装依赖
npm install
# 构建项目
npm run build
# 启动服务器
npm start
服务器将在 http://localhost:3000 启动,MCP 端点为 http://localhost:3000/mcp。
调试方式
作为独立服务使用
可以使用包含的客户端示例从 URL 提取内容:
ts-node-esm client-example.ts
与 Obsidian 集成
obsidian-integration.ts
文件提供了如何将此 MCP 服务器与 Obsidian 集成的示例。可以用作创建提取网页内容的 Obsidian 插件的起点。