Markdownify MCP Server - UTF-8 Enhanced

Markdownify MCP Server - UTF-8 Enhanced

site icon
2025.03.15 7
TypeScript文件转换多语言支持批量处理内容生成
Markdownify MCP Server - UTF-8 Enhanced 是一个增强版的 Markdown 转换工具,支持多种文件类型转换为 Markdown 格式,特别优化了对 UTF-8 编码和多语言内容的处理。
View on GitHub

Overview

基本能力

产品定位

Markdownify MCP Server - UTF-8 Enhanced 是一个专门用于将多种文件类型转换为 Markdown 格式的工具,特别优化了对 UTF-8 编码和多语言内容的处理。

核心功能

  • 支持多种文件类型转换为 Markdown:PDF、图片(带元数据)、音频(带转录)、Word 文档(DOCX)、Excel 表格(XLSX)、PowerPoint 演示文稿(PPTX)、网页内容(包括 YouTube 视频转录、搜索结果、普通网页)以及现有的 Markdown 文件。
  • 增强的 UTF-8 编码支持,包括对中文、日文、韩文等非 ASCII 字符的处理。
  • 改进的错误处理机制,提供详细的错误信息和优雅的回退机制。
  • 扩展的功能,如批量处理多个文件、增强的 YouTube 视频转录处理、改进的元数据提取和文档格式保留。
  • 性能优化,包括内存使用优化、多语言内容处理速度提升和依赖冲突减少。

适用场景

  • 需要将多种文件类型转换为 Markdown 格式的场景。
  • 处理多语言内容的场景。
  • 需要批量处理文件的场景。
  • 需要从网页或 YouTube 视频中提取内容并转换为 Markdown 的场景。

工具列表

  • convert_utf8.py:主转换工具,支持从网页或本地文件转换为 Markdown。
  • setup.sh:安装脚本,用于安装 Python 依赖。

常见问题解答

  • 编码问题:确保 PYTHONIOENCODING 环境变量设置为 utf-8,Windows 用户可能需要运行 chcp 65001 启用 UTF-8 支持。
  • 权限问题:确保有足够的文件读写权限,Windows 用户可能需要以管理员身份运行。
  • Python 路径问题:确保虚拟环境已激活。

使用教程

使用依赖

  1. 安装 Node.js: bash # 从 Node.js 官网下载并安装 node --version
  2. 安装 pnpm: bash npm install -g pnpm pnpm --version
  3. 安装 Python: bash # 从 Python 官网下载并安装 python --version
  4. (仅 Windows)配置 UTF-8 支持: bash setx PYTHONIOENCODING UTF-8 set PYTHONIOENCODING=UTF-8 chcp 65001

安装教程

  1. 克隆仓库: bash git clone https://github.com/JDJR2024/markdownify-mcp-utf8.git cd markdownify-mcp-utf8
  2. 创建并激活 Python 虚拟环境: ```bash # Windows python -m venv .venv .venv\Scripts\activate

# Linux/macOS python3 -m venv .venv source .venv/bin/activate 3. 安装项目依赖:bash pnpm install ./setup.sh 4. 构建项目:bash pnpm run build ```

调试方式

  1. 启动服务器: bash pnpm start
  2. 测试安装: bash python convert_utf8.py "https://example.com" python convert_utf8.py "path/to/your/file.docx"
  3. 启用调试输出: bash export DEBUG=true python convert_utf8.py "your_file.docx"

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。