Unsloth MCP Server

Unsloth MCP Server

2025.03.28 0

JavaScriptLLM 微调优化显存优化模型导出开发效率

Unsloth MCP Server 是一个专为 Unsloth 库设计的 MCP 服务器，Unsloth 是一个能够显著提升大型语言模型（LLM）微调效率的库，能够使微调速度提升2倍，同时减少80%的显存使用。该服务器支持多种模型（如 Llama、Mistral、Phi、Gemma 等）的优化微调，提供4位量化、扩展上下文长度支持等功能，并支持模型导出到多种格式（如 GGUF、Hugging Face 等）。

View on GitHub

Overview

基本能力

产品定位

Unsloth MCP Server 是一个用于优化大型语言模型（LLM）微调的服务器，旨在提升微调速度和减少显存使用。

核心功能

速度优化：微调速度提升2倍。
显存优化：减少80%的显存使用。
上下文长度扩展：支持更长的上下文长度（如 Llama 3.3 在80GB GPU上支持89K tokens）。
模型支持：支持 Llama、Mistral、Phi、Gemma 等多种模型的优化微调。
4位量化：支持4位量化以提升训练效率。
模型导出：支持导出到 GGUF、Hugging Face 等多种格式。

适用场景

需要高效微调大型语言模型的场景。
在有限显存的GPU上进行模型微调的场景。
需要扩展模型上下文长度的场景。

工具列表

check_installation：验证 Unsloth 是否已正确安装。
list_supported_models：列出所有支持的模型。
load_model：加载预训练模型并进行优化。
finetune_model：使用 LoRA/QLoRA 技术微调模型。
generate_text：使用微调后的模型生成文本。
export_model：将微调后的模型导出到指定格式。

常见问题解答

CUDA 内存不足：减少批量大小，使用4位量化，或尝试更小的模型。
导入错误：确保安装了正确版本的 torch、transformers 和 unsloth。
模型未找到：检查是否使用了支持的模型名称或是否有权限访问私有模型。

使用教程

使用依赖

Python 3.10-3.12
NVIDIA GPU with CUDA support (recommended)
Node.js and npm

安装教程

安装 Unsloth：pip install unsloth
安装并构建服务器： bash cd unsloth-server npm install npm run build
添加到 MCP 设置： json { "mcpServers": { "unsloth-server": { "command": "node", "args": ["/path/to/unsloth-server/build/index.js"], "env": { "HUGGINGFACE_TOKEN": "your_token_here" // Optional }, "disabled": false, "autoApprove": [] } } }

调试方式

使用 check_installation 工具验证安装是否成功。
使用 list_supported_models 工具确认支持的模型列表。
使用 load_model 工具加载模型并检查是否正常工作。
使用 generate_text 工具测试模型生成文本的能力。

许可证

该项目遵循 Apache-2.0 开源许可条款。