mcp-server-fetch-python

mcp-server-fetch-python

site icon
2025.04.05 5
Python网页抓取内容转换媒体分析内容生成开发效率
mcp-server-fetch-python 是一个用于抓取和转换网页内容为多种格式的 MCP 服务器。它提供了一套全面的工具,用于从网页中提取内容,包括支持 JavaScript 渲染的内容和媒体文件。
View on GitHub

Overview

基本能力

产品定位

mcp-server-fetch-python 是一个专门用于网页内容抓取和转换的工具服务器,能够处理各种格式的网页内容,包括静态和动态渲染的内容,以及媒体文件。

核心功能

  1. get-raw-text:直接从 URL 提取原始文本内容,无需浏览器渲染。
  2. 适用于结构化数据格式或需要快速直接访问的场景。

  3. get-rendered-html:使用无头浏览器获取完全渲染的 HTML 内容。

  4. 适用于现代 Web 应用和单页应用(SPA),需要 JavaScript 渲染的场景。

  5. get-markdown:将网页内容转换为格式良好的 Markdown。

  6. 保留结构元素,提供干净、可读的文本输出。

  7. get-markdown-from-media:从媒体文件(图像、视频)中提取内容。

  8. 使用计算机视觉和 OCR 进行视觉内容分析。
  9. 需要设置 OPENAI_API_KEY 环境变量。

适用场景

  1. 数据抓取:从网页中提取结构化或非结构化数据。
  2. 内容转换:将网页内容转换为 Markdown 或其他格式。
  3. 媒体分析:从图像或视频中提取文本内容。
  4. 自动化测试:用于测试动态渲染的网页应用。

工具列表

  1. get-raw-text:提取原始文本内容。
  2. get-rendered-html:获取渲染后的 HTML 内容。
  3. get-markdown:转换为 Markdown 格式。
  4. get-markdown-from-media:从媒体文件中提取内容。

常见问题解答

  1. OPENAI_API_KEY 未设置:使用 get-markdown-from-media 工具时需要设置 OPENAI_API_KEY 环境变量。
  2. 字符编码问题:可以设置 PYTHONIOENCODING 为 "utf-8" 来解决。

使用教程

使用依赖

  1. 环境变量配置
  2. OPENAI_API_KEY:用于 get-markdown-from-media 工具。
  3. PYTHONIOENCODING:设置为 "utf-8" 解决字符编码问题。
  4. MODEL_NAME:指定使用的模型名称,默认为 "gpt-4o"。

安装教程

  1. 克隆仓库powershell git clone https://github.com/tatn/mcp-server-fetch-python.git cd mcp-server-fetch-python uv sync uv build

  2. 配置 Claude Desktop

  3. 在配置文件中添加以下内容: json "mcpServers": { "mcp-server-fetch-python": { "command": "uv", "args": [ "--directory", "path\\to\\mcp-server-fetch-python", "run", "mcp-server-fetch-python" ] } }

调试方式

  1. 使用 MCP Inspectorbash npx @modelcontextprotocol/inspector uvx mcp-server-fetch-python bash npx @modelcontextprotocol/inspector uv --directory path\\to\\mcp-server-fetch-python run mcp-server-fetch-python

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。