
Markdownify MCP Server - UTF-8 Enhanced

2025.03.15
7
TypeScript文件转换多语言支持批量处理内容生成
Markdownify MCP Server - UTF-8 Enhanced 是一个增强版的 Markdown 转换工具,支持多种文件类型转换为 Markdown 格式,特别优化了对 UTF-8 编码和多语言内容的处理。
View on GitHub
Overview
基本能力
产品定位
Markdownify MCP Server - UTF-8 Enhanced 是一个专门用于将多种文件类型转换为 Markdown 格式的工具,特别优化了对 UTF-8 编码和多语言内容的处理。
核心功能
- 支持多种文件类型转换为 Markdown:PDF、图片(带元数据)、音频(带转录)、Word 文档(DOCX)、Excel 表格(XLSX)、PowerPoint 演示文稿(PPTX)、网页内容(包括 YouTube 视频转录、搜索结果、普通网页)以及现有的 Markdown 文件。
- 增强的 UTF-8 编码支持,包括对中文、日文、韩文等非 ASCII 字符的处理。
- 改进的错误处理机制,提供详细的错误信息和优雅的回退机制。
- 扩展的功能,如批量处理多个文件、增强的 YouTube 视频转录处理、改进的元数据提取和文档格式保留。
- 性能优化,包括内存使用优化、多语言内容处理速度提升和依赖冲突减少。
适用场景
- 需要将多种文件类型转换为 Markdown 格式的场景。
- 处理多语言内容的场景。
- 需要批量处理文件的场景。
- 需要从网页或 YouTube 视频中提取内容并转换为 Markdown 的场景。
工具列表
convert_utf8.py
:主转换工具,支持从网页或本地文件转换为 Markdown。setup.sh
:安装脚本,用于安装 Python 依赖。
常见问题解答
- 编码问题:确保
PYTHONIOENCODING
环境变量设置为utf-8
,Windows 用户可能需要运行chcp 65001
启用 UTF-8 支持。 - 权限问题:确保有足够的文件读写权限,Windows 用户可能需要以管理员身份运行。
- Python 路径问题:确保虚拟环境已激活。
使用教程
使用依赖
- 安装 Node.js:
bash # 从 Node.js 官网下载并安装 node --version
- 安装 pnpm:
bash npm install -g pnpm pnpm --version
- 安装 Python:
bash # 从 Python 官网下载并安装 python --version
- (仅 Windows)配置 UTF-8 支持:
bash setx PYTHONIOENCODING UTF-8 set PYTHONIOENCODING=UTF-8 chcp 65001
安装教程
- 克隆仓库:
bash git clone https://github.com/JDJR2024/markdownify-mcp-utf8.git cd markdownify-mcp-utf8
- 创建并激活 Python 虚拟环境: ```bash # Windows python -m venv .venv .venv\Scripts\activate
# Linux/macOS
python3 -m venv .venv
source .venv/bin/activate
3. 安装项目依赖:
bash
pnpm install
./setup.sh
4. 构建项目:
bash
pnpm run build
```
调试方式
- 启动服务器:
bash pnpm start
- 测试安装:
bash python convert_utf8.py "https://example.com" python convert_utf8.py "path/to/your/file.docx"
- 启用调试输出:
bash export DEBUG=true python convert_utf8.py "your_file.docx"