Unsloth MCP Server

Unsloth MCP Server

site icon
2025.03.09 2
JavaScriptLLM 微调高效训练内存优化开发效率
Unsloth MCP Server 是一个专为 Unsloth 库设计的 MCP 服务器,Unsloth 是一个能够显著提高大型语言模型(LLM)微调效率的库。它通过优化 CUDA 内核、动态 4 位量化和扩展上下文长度支持,使得微调速度提升 2 倍,内存使用减少 80%,并且支持更长的上下文长度。该服务器提供了模型加载、微调、推理和导出等功能,适用于需要高效微调 LLM 的开发者和研究人员。
View on GitHub

Overview

基本能力

产品定位

Unsloth MCP Server 是一个专为 Unsloth 库设计的 MCP 服务器,旨在提供高效的 LLM 微调服务。

核心功能

  • 高效微调:支持 Llama、Mistral、Phi、Gemma 等模型的微调,速度提升 2 倍,内存使用减少 80%。
  • 4 位量化:通过动态 4 位量化减少内存占用。
  • 扩展上下文长度:支持更长的上下文长度(如 Llama 3.3 支持 89K tokens)。
  • 简单 API:提供模型加载、微调、推理和导出的简单 API。
  • 多格式导出:支持导出为 GGUF、Hugging Face 等格式。

适用场景

  • 需要高效微调 LLM 的研究人员和开发者。
  • 在资源有限的硬件(如消费级 GPU)上运行大型模型的场景。
  • 需要长上下文支持的 NLP 任务。

工具列表

  1. check_installation:验证 Unsloth 是否安装正确。
  2. list_supported_models:列出所有支持的模型。
  3. load_model:加载预训练模型并进行优化。
  4. finetune_model:使用 LoRA/QLoRA 技术微调模型。
  5. generate_text:使用微调后的模型生成文本。
  6. export_model:将模型导出为多种格式。

常见问题解答

  1. CUDA 内存不足:减少批量大小,使用 4 位量化或尝试更小的模型。
  2. 导入错误:确保安装了正确版本的 torch、transformers 和 unsloth。
  3. 模型未找到:检查是否使用了支持的模型名称或是否有权访问私有模型。

使用教程

使用依赖

  • Python 3.10-3.12
  • NVIDIA GPU with CUDA support (recommended)
  • Node.js and npm

安装教程

  1. 安装 Unsloth: bash pip install unsloth
  2. 安装并构建服务器: bash cd unsloth-server npm install npm run build
  3. 添加到 MCP 设置: json { "mcpServers": { "unsloth-server": { "command": "node", "args": ["/path/to/unsloth-server/build/index.js"], "env": { "HUGGINGFACE_TOKEN": "your_token_here" // Optional }, "disabled": false, "autoApprove": [] } } }

调试方式

  1. 使用 check_installation 工具验证安装: javascript const result = await use_mcp_tool({ server_name: "unsloth-server", tool_name: "check_installation", arguments: {} });
  2. 使用 list_supported_models 工具列出支持的模型: javascript const result = await use_mcp_tool({ server_name: "unsloth-server", tool_name: "list_supported_models", arguments: {} });
  3. 加载模型并进行微调或推理测试。

许可证

该项目遵循 Apache-2.0 开源许可条款。