MCP Web Extractor

MCP Web Extractor

site icon
2025.04.06 0
TypeScript网页内容提取Obsidian 集成内容生成
MCP Web Extractor 是一个基于 Model Context Protocol (MCP) 的服务,主要用于从网页中提取可读内容。它利用 Readability.js 技术,能够去除广告、侧边栏等干扰元素,提取网页的主要内容和元数据(如标题、摘要等)。该工具特别适合与 Obsidian 笔记软件集成,用于保存简洁、可读的文章版本。
View on GitHub

Overview

基本能力

产品定位

MCP Web Extractor 是一个网页内容提取工具,专注于提供干净、可读的网页内容提取服务。

核心功能

  • 从任何 URL 提取可读内容
  • 去除广告、侧边栏等干扰元素
  • 返回干净的文本内容及元数据(标题、摘要等)
  • 支持与 Obsidian 通过 MCP 协议集成

适用场景

  • 保存网页文章到 Obsidian 笔记
  • 提取网页主要内容用于阅读或分析
  • 自动化内容抓取和处理

工具列表

  • extract-content: 从给定 URL 提取可读内容
  • 参数: { url: string }
  • 返回: { title, content, textContent, excerpt, siteName }

常见问题解答

使用教程

使用依赖

确保已安装 Node.js 和 npm。

安装教程

# 克隆仓库
git clone https://github.com/iemong/mcp-web-extractor.git
cd mcp-web-extractor

# 安装依赖
npm install

# 构建项目
npm run build

# 启动服务器
npm start

服务器将在 http://localhost:3000 启动,MCP 端点为 http://localhost:3000/mcp。

调试方式

作为独立服务使用

可以使用包含的客户端示例从 URL 提取内容:

ts-node-esm client-example.ts

与 Obsidian 集成

obsidian-integration.ts 文件提供了如何将此 MCP 服务器与 Obsidian 集成的示例。可以用作创建提取网页内容的 Obsidian 插件的起点。

许可证

该项目遵循 MIT 开源许可条款。