概述:Unsloth 团队通过创新性技术降低了 AI 模型训练门槛,让开发者只需 7GB 显存就能训练具备自主推理能力的大语言模型,大幅提升了 AI 技术的普及性和实用性
Unsloth 引入了推理能力支持,基于 DeepSeek 的 R1 研究成果,实现了更低资源消耗的模型训练
· 相比现有方案节省 80% 显存
· 只需 7GB 显存就能训练推理模型
· 支持多种大模型,包括 Llama 3.1、Phi-4、Mistral 等
· 新增了 GRPO (Group Relative Policy Optimization) 算法支持
· 同时支持 QLoRA 和 LoRA 训练方式
技术突破:
· “aha moment” (顿悟时刻):模型能够自主学习延长思考时间,无需人工指导
· GRPO 工作原理:
– 生成多组回答
– 根据正确性评分
– 计算组平均分
– 对比单个回答与平均分
– 强化高分答案
新功能集成:
· 集成了 vLLM 支持
· 处理速度提升 20 倍
· 显存使用减少 50%
· 支持在线 DPO、PPO 和 RLOO 等算法
https://github.com/unslothai/unsloth
![](https://macdown.net/wp-content/uploads/2025/02/tmpa0637cde455f805e20f5d9ff4e33767f.jpg)