
Unsloth MCP Server

2025.03.09
2
JavaScriptLLM 微调高效训练内存优化开发效率
Unsloth MCP Server 是一个专为 Unsloth 库设计的 MCP 服务器,Unsloth 是一个能够显著提高大型语言模型(LLM)微调效率的库。它通过优化 CUDA 内核、动态 4 位量化和扩展上下文长度支持,使得微调速度提升 2 倍,内存使用减少 80%,并且支持更长的上下文长度。该服务器提供了模型加载、微调、推理和导出等功能,适用于需要高效微调 LLM 的开发者和研究人员。
View on GitHub
Overview
基本能力
产品定位
Unsloth MCP Server 是一个专为 Unsloth 库设计的 MCP 服务器,旨在提供高效的 LLM 微调服务。
核心功能
- 高效微调:支持 Llama、Mistral、Phi、Gemma 等模型的微调,速度提升 2 倍,内存使用减少 80%。
- 4 位量化:通过动态 4 位量化减少内存占用。
- 扩展上下文长度:支持更长的上下文长度(如 Llama 3.3 支持 89K tokens)。
- 简单 API:提供模型加载、微调、推理和导出的简单 API。
- 多格式导出:支持导出为 GGUF、Hugging Face 等格式。
适用场景
- 需要高效微调 LLM 的研究人员和开发者。
- 在资源有限的硬件(如消费级 GPU)上运行大型模型的场景。
- 需要长上下文支持的 NLP 任务。
工具列表
- check_installation:验证 Unsloth 是否安装正确。
- list_supported_models:列出所有支持的模型。
- load_model:加载预训练模型并进行优化。
- finetune_model:使用 LoRA/QLoRA 技术微调模型。
- generate_text:使用微调后的模型生成文本。
- export_model:将模型导出为多种格式。
常见问题解答
- CUDA 内存不足:减少批量大小,使用 4 位量化或尝试更小的模型。
- 导入错误:确保安装了正确版本的 torch、transformers 和 unsloth。
- 模型未找到:检查是否使用了支持的模型名称或是否有权访问私有模型。
使用教程
使用依赖
- Python 3.10-3.12
- NVIDIA GPU with CUDA support (recommended)
- Node.js and npm
安装教程
- 安装 Unsloth:
bash pip install unsloth
- 安装并构建服务器:
bash cd unsloth-server npm install npm run build
- 添加到 MCP 设置:
json { "mcpServers": { "unsloth-server": { "command": "node", "args": ["/path/to/unsloth-server/build/index.js"], "env": { "HUGGINGFACE_TOKEN": "your_token_here" // Optional }, "disabled": false, "autoApprove": [] } } }
调试方式
- 使用
check_installation
工具验证安装:javascript const result = await use_mcp_tool({ server_name: "unsloth-server", tool_name: "check_installation", arguments: {} });
- 使用
list_supported_models
工具列出支持的模型:javascript const result = await use_mcp_tool({ server_name: "unsloth-server", tool_name: "list_supported_models", arguments: {} });
- 加载模型并进行微调或推理测试。