英国工程师 Tom Jobbins 做的事情很简单粗暴:帮你把这些模型全部量化一遍,做成 4bit、5bit 等低比特版本,再写好「一键跑起来」的说明书。通过量化技术压缩成消费级显卡能跑的版本。
他在 Hugging Face 上的个人空间,主页直接罗列了自己「最近 100 个模型仓库」,基本清一色是主流大模型的各种量化版本和不同格式打包。
1. 速度极快:新模型发布 1 小时内,他的量化版就会上线。
2. 多种规格:从损失最小的 Q8 到极致压缩的 Q2,总有一款适合你的显存。
3. 社区标准:现在下载模型,大家下意识地都会找带有 “TheBloke” 后缀的版本。
他把复杂的量化、格式转换、部署门槛都提前帮你干完了,让普通人也能在自己的电脑上玩到最新、最强、原本只属于大厂机房的模型。
从 LLaMA 系列、Zephyr、CodeLlama,到各种聊天模型、代码模型、行业模型,都能在这里找到量化好的 GGUF / GPTQ / AWQ 版本,省掉你自己摸索量化流程的时间。
https://huggingface.co/TheBloke
