
Mozilla Readability Parser MCP Server

2025.01.29
13
Dockerfile内容提取Markdown转换网页解析内容生成
Mozilla Readability Parser MCP Server 是一个基于模型上下文协议(MCP)的服务,专门用于从网页中提取和转换内容,生成干净、适合大型语言模型(LLM)处理的Markdown格式。该服务利用Mozilla的Readability算法,去除广告、导航栏、页脚等非核心内容,同时保留文章的主要结构和元数据(如标题、摘要、作者信息和网站名称)。
View on GitHub
Overview
基本能力
产品定位
Mozilla Readability Parser MCP Server 是一个内容提取和转换工具,专注于优化网页内容以便于LLM处理。
核心功能
- 去除广告、导航栏、页脚等非核心内容
- 将干净的HTML转换为格式良好的Markdown
- 返回文章的元数据(标题、摘要、作者信息、网站名称)
- 优雅地处理错误
适用场景
- 需要从网页中提取核心内容的场景
- 需要将网页内容转换为Markdown以便于LLM处理的场景
- 需要获取网页元数据的场景
工具列表
parse
:获取并转换网页内容为干净的Markdown- 参数:
url
(必需,要解析的网站URL) - 返回:包含标题、Markdown内容和元数据的JSON对象
常见问题解答
- 为什么不能直接使用fetch请求?
- 该服务不仅提取相关内容,还去除噪音(如广告、弹窗等),减少token使用,并提供一致的Markdown格式和有用的元数据。
使用教程
使用依赖
- @mozilla/readability - 内容提取
- turndown - HTML到Markdown转换
- jsdom - DOM解析
- axios - HTTP请求
安装教程
通过Smithery安装
npx -y @smithery/cli install server-moz-readability --client claude
手动安装
npm install server-moz-readability
调试方式
在Claude Desktop中使用
在claude_desktop_config.json
中添加以下配置:
{
"mcpServers": {
"readability": {
"command": "npx",
"args": ["-y", "server-moz-readability"]
}
}
}