
MCP Server Readability Parser (Python / FastMCP)

2025.03.24
0
Python内容提取Markdown转换内容生成
MCP Server Readability Parser 是一个基于Python和FastMCP实现的MCP服务器,专门用于从网页中提取和转换内容为干净的、适合LLM处理的Markdown格式。它通过移除广告、导航栏、页脚等非必要内容,优化网页内容,使其更适合LLM处理。
View on GitHub
Overview
基本能力
产品定位
MCP Server Readability Parser 是一个内容提取和转换工具,专注于从网页中提取核心内容并转换为Markdown格式,优化LLM处理。
核心功能
- 移除广告、导航栏、页脚等非必要内容
- 将干净的HTML转换为格式良好的Markdown
- 优雅处理错误
- 优化LLM处理
- 轻量且快速
适用场景
- 需要从网页中提取核心内容的场景
- 需要将网页内容转换为Markdown格式的场景
- 需要优化LLM处理的场景
工具列表
extract_content
: 提取并转换网页内容为干净的Markdown- 参数:
url
: 需要解析的网站URL(必需)
- 返回:
content
: Markdown格式的内容
常见问题解答
- 为什么不仅仅使用简单的fetch请求?
- 该服务器使用Readability算法提取相关内容
- 消除广告、弹出窗口和导航菜单等噪音
- 通过移除不必要的HTML/CSS减少token使用
- 提供一致的Markdown格式以优化LLM处理
- 处理包含动态内容的复杂网页
使用教程
使用依赖
- 克隆仓库:
git clone https://github.com/jmh108/MCP-server-readability-python.git
cd MCP-server-readability-python
- 创建并激活虚拟环境:
python -m venv venv
source venv/bin/activate # Windows使用: venv\Scripts\activate
- 安装依赖:
pip install -r requirements.txt
安装教程
- 启动服务器:
fastmcp run server.py
- 示例请求:
curl -X POST http://localhost:8000/tools/extract_content \
-H "Content-Type: application/json" \
-d '{"url": "https://example.com/article"}'
调试方式
- 确保服务器已启动:
fastmcp run server.py
- 使用curl或其他HTTP客户端测试API:
curl -X POST http://localhost:8000/tools/extract_content \
-H "Content-Type: application/json" \
-d '{"url": "https://example.com/article"}'