Mozilla Readability Parser MCP Server

Mozilla Readability Parser MCP Server

2025.01.29 13

Dockerfile内容提取Markdown转换网页解析内容生成

Mozilla Readability Parser MCP Server 是一个基于模型上下文协议（MCP）的服务，专门用于从网页中提取和转换内容，生成干净、适合大型语言模型（LLM）处理的Markdown格式。该服务利用Mozilla的Readability算法，去除广告、导航栏、页脚等非核心内容，同时保留文章的主要结构和元数据（如标题、摘要、作者信息和网站名称）。

View on GitHub

Overview

基本能力

产品定位

Mozilla Readability Parser MCP Server 是一个内容提取和转换工具，专注于优化网页内容以便于LLM处理。

核心功能

去除广告、导航栏、页脚等非核心内容
将干净的HTML转换为格式良好的Markdown
返回文章的元数据（标题、摘要、作者信息、网站名称）
优雅地处理错误

适用场景

需要从网页中提取核心内容的场景
需要将网页内容转换为Markdown以便于LLM处理的场景
需要获取网页元数据的场景

工具列表

parse：获取并转换网页内容为干净的Markdown
参数：url（必需，要解析的网站URL）
返回：包含标题、Markdown内容和元数据的JSON对象

常见问题解答

为什么不能直接使用fetch请求？
该服务不仅提取相关内容，还去除噪音（如广告、弹窗等），减少token使用，并提供一致的Markdown格式和有用的元数据。

使用教程

使用依赖

@mozilla/readability - 内容提取
turndown - HTML到Markdown转换
jsdom - DOM解析
axios - HTTP请求

安装教程

通过Smithery安装

npx -y @smithery/cli install server-moz-readability --client claude

手动安装

npm install server-moz-readability

调试方式

在Claude Desktop中使用

在claude_desktop_config.json中添加以下配置：

{
  "mcpServers": {
    "readability": {
      "command": "npx",
      "args": ["-y", "server-moz-readability"]
    }
  }
}

许可证

该项目遵循 MIT 开源许可条款，请参阅 MIT 了解完整条款。