
mcp-server-fetch-python

2025.04.05
5
Python网页抓取内容转换媒体分析内容生成开发效率
mcp-server-fetch-python 是一个用于抓取和转换网页内容为多种格式的 MCP 服务器。它提供了一套全面的工具,用于从网页中提取内容,包括支持 JavaScript 渲染的内容和媒体文件。
View on GitHub
Overview
基本能力
产品定位
mcp-server-fetch-python 是一个专门用于网页内容抓取和转换的工具服务器,能够处理各种格式的网页内容,包括静态和动态渲染的内容,以及媒体文件。
核心功能
- get-raw-text:直接从 URL 提取原始文本内容,无需浏览器渲染。
-
适用于结构化数据格式或需要快速直接访问的场景。
-
get-rendered-html:使用无头浏览器获取完全渲染的 HTML 内容。
-
适用于现代 Web 应用和单页应用(SPA),需要 JavaScript 渲染的场景。
-
get-markdown:将网页内容转换为格式良好的 Markdown。
-
保留结构元素,提供干净、可读的文本输出。
-
get-markdown-from-media:从媒体文件(图像、视频)中提取内容。
- 使用计算机视觉和 OCR 进行视觉内容分析。
- 需要设置 OPENAI_API_KEY 环境变量。
适用场景
- 数据抓取:从网页中提取结构化或非结构化数据。
- 内容转换:将网页内容转换为 Markdown 或其他格式。
- 媒体分析:从图像或视频中提取文本内容。
- 自动化测试:用于测试动态渲染的网页应用。
工具列表
- get-raw-text:提取原始文本内容。
- get-rendered-html:获取渲染后的 HTML 内容。
- get-markdown:转换为 Markdown 格式。
- get-markdown-from-media:从媒体文件中提取内容。
常见问题解答
- OPENAI_API_KEY 未设置:使用
get-markdown-from-media
工具时需要设置 OPENAI_API_KEY 环境变量。 - 字符编码问题:可以设置 PYTHONIOENCODING 为 "utf-8" 来解决。
使用教程
使用依赖
- 环境变量配置:
- OPENAI_API_KEY:用于
get-markdown-from-media
工具。 - PYTHONIOENCODING:设置为 "utf-8" 解决字符编码问题。
- MODEL_NAME:指定使用的模型名称,默认为 "gpt-4o"。
安装教程
-
克隆仓库:
powershell git clone https://github.com/tatn/mcp-server-fetch-python.git cd mcp-server-fetch-python uv sync uv build
-
配置 Claude Desktop:
- 在配置文件中添加以下内容:
json "mcpServers": { "mcp-server-fetch-python": { "command": "uv", "args": [ "--directory", "path\\to\\mcp-server-fetch-python", "run", "mcp-server-fetch-python" ] } }
调试方式
- 使用 MCP Inspector:
bash npx @modelcontextprotocol/inspector uvx mcp-server-fetch-python
bash npx @modelcontextprotocol/inspector uv --directory path\\to\\mcp-server-fetch-python run mcp-server-fetch-python