Mozilla Readability Parser MCP Server

Mozilla Readability Parser MCP Server

site icon
2025.01.29 13
Dockerfile内容提取Markdown转换网页解析内容生成
Mozilla Readability Parser MCP Server 是一个基于模型上下文协议(MCP)的服务,专门用于从网页中提取和转换内容,生成干净、适合大型语言模型(LLM)处理的Markdown格式。该服务利用Mozilla的Readability算法,去除广告、导航栏、页脚等非核心内容,同时保留文章的主要结构和元数据(如标题、摘要、作者信息和网站名称)。
View on GitHub

Overview

基本能力

产品定位

Mozilla Readability Parser MCP Server 是一个内容提取和转换工具,专注于优化网页内容以便于LLM处理。

核心功能

  • 去除广告、导航栏、页脚等非核心内容
  • 将干净的HTML转换为格式良好的Markdown
  • 返回文章的元数据(标题、摘要、作者信息、网站名称)
  • 优雅地处理错误

适用场景

  • 需要从网页中提取核心内容的场景
  • 需要将网页内容转换为Markdown以便于LLM处理的场景
  • 需要获取网页元数据的场景

工具列表

  • parse:获取并转换网页内容为干净的Markdown
  • 参数:url(必需,要解析的网站URL)
  • 返回:包含标题、Markdown内容和元数据的JSON对象

常见问题解答

  • 为什么不能直接使用fetch请求?
  • 该服务不仅提取相关内容,还去除噪音(如广告、弹窗等),减少token使用,并提供一致的Markdown格式和有用的元数据。

使用教程

使用依赖

  • @mozilla/readability - 内容提取
  • turndown - HTML到Markdown转换
  • jsdom - DOM解析
  • axios - HTTP请求

安装教程

通过Smithery安装

npx -y @smithery/cli install server-moz-readability --client claude

手动安装

npm install server-moz-readability

调试方式

在Claude Desktop中使用

claude_desktop_config.json中添加以下配置:

{
  "mcpServers": {
    "readability": {
      "command": "npx",
      "args": ["-y", "server-moz-readability"]
    }
  }
}

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。