MCP Server Readability Parser (Python / FastMCP)

MCP Server Readability Parser (Python / FastMCP)

site icon
2025.01.07 1
Python内容提取Markdown转换内容生成
MCP Server Readability Parser 是一个基于Python和FastMCP的MCP服务器,用于从网页中提取和转换内容为干净的、适合LLM处理的Markdown格式。它通过移除广告、导航栏、页脚等非必要内容,优化网页内容,使其更适合语言模型处理。
View on GitHub

Overview

基本能力

产品定位

MCP Server Readability Parser 是一个内容提取和转换工具,专注于从网页中提取核心内容并转换为Markdown格式,优化语言模型处理。

核心功能

  • 移除广告、导航栏、页脚等非必要内容
  • 将干净的HTML转换为格式良好的Markdown
  • 优雅处理错误
  • 优化语言模型处理
  • 轻量且快速

适用场景

  • 需要从网页中提取核心内容的场景
  • 需要将网页内容转换为Markdown格式的场景
  • 优化语言模型处理的网页内容预处理

工具列表

  • extract_content: 提取并转换网页内容为干净的Markdown。
  • 参数: url (必需) - 要解析的网站URL
  • 返回: content - Markdown格式的内容

常见问题解答

  • 为什么不仅仅使用简单的fetch请求?
  • 该服务器使用Readability算法提取相关内容,消除广告、弹出窗口和导航菜单等噪音,减少不必要的HTML/CSS,提供一致的Markdown格式,处理动态内容的复杂网页。

使用教程

使用依赖

  1. 克隆仓库:
git clone https://github.com/jmh108/MCP-server-readability-python.git
cd MCP-server-readability-python
  1. 创建并激活虚拟环境:
python -m venv venv
source venv/bin/activate  # Windows使用: venv\Scripts\activate
  1. 安装依赖:
pip install -r requirements.txt

安装教程

  1. 启动服务器:
fastmcp run server.py
  1. 示例请求:
curl -X POST http://localhost:8000/tools/extract_content \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/article"}'

调试方式

  1. 确保服务器已启动:
fastmcp run server.py
  1. 使用curl或其他HTTP客户端测试extract_content工具,确保返回预期的Markdown内容。

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。