从0开始构建大语言模型教程更新了 Qwen3 章节,内容是如何从头实现一个 Qwen3-0.6B 模型的推理引擎。非常适合入门学习。

值得一提的是,我看到社区讨论中好多做类似工作的研究员已经从 llama 迁移到了 qwen。总感觉 llama 是即没捡到芝麻(新的 MoE 模型SOTA),也丢了西瓜(现在只有旧的 Dense 模型,并且没有小模型供大家作为教学使用)
教程地址:http://github.com/rasbt/LLMs-from-scratch/blob/main/ch05/11_qwen3/README.md