
Unsloth MCP Server

2025.03.28
0
JavaScriptLLM 微调优化显存优化模型导出开发效率
Unsloth MCP Server 是一个专为 Unsloth 库设计的 MCP 服务器,Unsloth 是一个能够显著提升大型语言模型(LLM)微调效率的库,能够使微调速度提升2倍,同时减少80%的显存使用。该服务器支持多种模型(如 Llama、Mistral、Phi、Gemma 等)的优化微调,提供4位量化、扩展上下文长度支持等功能,并支持模型导出到多种格式(如 GGUF、Hugging Face 等)。
View on GitHub
Overview
基本能力
产品定位
Unsloth MCP Server 是一个用于优化大型语言模型(LLM)微调的服务器,旨在提升微调速度和减少显存使用。
核心功能
- 速度优化:微调速度提升2倍。
- 显存优化:减少80%的显存使用。
- 上下文长度扩展:支持更长的上下文长度(如 Llama 3.3 在80GB GPU上支持89K tokens)。
- 模型支持:支持 Llama、Mistral、Phi、Gemma 等多种模型的优化微调。
- 4位量化:支持4位量化以提升训练效率。
- 模型导出:支持导出到 GGUF、Hugging Face 等多种格式。
适用场景
- 需要高效微调大型语言模型的场景。
- 在有限显存的GPU上进行模型微调的场景。
- 需要扩展模型上下文长度的场景。
工具列表
- check_installation:验证 Unsloth 是否已正确安装。
- list_supported_models:列出所有支持的模型。
- load_model:加载预训练模型并进行优化。
- finetune_model:使用 LoRA/QLoRA 技术微调模型。
- generate_text:使用微调后的模型生成文本。
- export_model:将微调后的模型导出到指定格式。
常见问题解答
- CUDA 内存不足:减少批量大小,使用4位量化,或尝试更小的模型。
- 导入错误:确保安装了正确版本的 torch、transformers 和 unsloth。
- 模型未找到:检查是否使用了支持的模型名称或是否有权限访问私有模型。
使用教程
使用依赖
- Python 3.10-3.12
- NVIDIA GPU with CUDA support (recommended)
- Node.js and npm
安装教程
- 安装 Unsloth:
pip install unsloth
- 安装并构建服务器:
bash cd unsloth-server npm install npm run build
- 添加到 MCP 设置:
json { "mcpServers": { "unsloth-server": { "command": "node", "args": ["/path/to/unsloth-server/build/index.js"], "env": { "HUGGINGFACE_TOKEN": "your_token_here" // Optional }, "disabled": false, "autoApprove": [] } } }
调试方式
- 使用
check_installation
工具验证安装是否成功。 - 使用
list_supported_models
工具确认支持的模型列表。 - 使用
load_model
工具加载模型并检查是否正常工作。 - 使用
generate_text
工具测试模型生成文本的能力。