Unsloth MCP Server

Unsloth MCP Server

site icon
2025.03.28 0
JavaScriptLLM 微调优化显存优化模型导出开发效率
Unsloth MCP Server 是一个专为 Unsloth 库设计的 MCP 服务器,Unsloth 是一个能够显著提升大型语言模型(LLM)微调效率的库,能够使微调速度提升2倍,同时减少80%的显存使用。该服务器支持多种模型(如 Llama、Mistral、Phi、Gemma 等)的优化微调,提供4位量化、扩展上下文长度支持等功能,并支持模型导出到多种格式(如 GGUF、Hugging Face 等)。
View on GitHub

Overview

基本能力

产品定位

Unsloth MCP Server 是一个用于优化大型语言模型(LLM)微调的服务器,旨在提升微调速度和减少显存使用。

核心功能

  • 速度优化:微调速度提升2倍。
  • 显存优化:减少80%的显存使用。
  • 上下文长度扩展:支持更长的上下文长度(如 Llama 3.3 在80GB GPU上支持89K tokens)。
  • 模型支持:支持 Llama、Mistral、Phi、Gemma 等多种模型的优化微调。
  • 4位量化:支持4位量化以提升训练效率。
  • 模型导出:支持导出到 GGUF、Hugging Face 等多种格式。

适用场景

  • 需要高效微调大型语言模型的场景。
  • 在有限显存的GPU上进行模型微调的场景。
  • 需要扩展模型上下文长度的场景。

工具列表

  1. check_installation:验证 Unsloth 是否已正确安装。
  2. list_supported_models:列出所有支持的模型。
  3. load_model:加载预训练模型并进行优化。
  4. finetune_model:使用 LoRA/QLoRA 技术微调模型。
  5. generate_text:使用微调后的模型生成文本。
  6. export_model:将微调后的模型导出到指定格式。

常见问题解答

  1. CUDA 内存不足:减少批量大小,使用4位量化,或尝试更小的模型。
  2. 导入错误:确保安装了正确版本的 torch、transformers 和 unsloth。
  3. 模型未找到:检查是否使用了支持的模型名称或是否有权限访问私有模型。

使用教程

使用依赖

  • Python 3.10-3.12
  • NVIDIA GPU with CUDA support (recommended)
  • Node.js and npm

安装教程

  1. 安装 Unsloth:pip install unsloth
  2. 安装并构建服务器: bash cd unsloth-server npm install npm run build
  3. 添加到 MCP 设置: json { "mcpServers": { "unsloth-server": { "command": "node", "args": ["/path/to/unsloth-server/build/index.js"], "env": { "HUGGINGFACE_TOKEN": "your_token_here" // Optional }, "disabled": false, "autoApprove": [] } } }

调试方式

  1. 使用 check_installation 工具验证安装是否成功。
  2. 使用 list_supported_models 工具确认支持的模型列表。
  3. 使用 load_model 工具加载模型并检查是否正常工作。
  4. 使用 generate_text 工具测试模型生成文本的能力。

许可证

该项目遵循 Apache-2.0 开源许可条款。