OpenAI 的开源模型终于来了，而且一次发布了两款：

gpt-oss-120b：规模较大，性能更强，甚至能在单张 Nvidia 显卡上运行。
gpt-oss-20b：较轻量，甚至可在拥有16GB内存的普通笔记本电脑上运行。
转发 TechCrunch 对此的报道: OpenAI 发布两款“开放式”AI 推理模型
OpenAI 在周二宣布，推出了两款全新的开放式AI推理模型，能力与此前推出的o系列模型相近。这两款模型的权重都免费开放，用户可通过知名开发平台Hugging Face进行下载。OpenAI 称，这两款模型在多个公开基准测试中表现出了“顶尖水平”。
这两款模型的大小不同：
– gpt-oss-120b：规模较大，性能更强，甚至能在单张 Nvidia 显卡上运行。
– gpt-oss-20b：较轻量，甚至可在拥有16GB内存的普通笔记本电脑上运行。
这次发布是 OpenAI 自五年前发布GPT-2以来，首次推出新的“开放式”大语言模型。
据 TechCrunch 此前报道，OpenAI 透露，这些开放模型可以向云端更强大的AI模型发送复杂的请求。也就是说，如果开放模型无法单独完成任务，比如处理图片，开发者可以将其与 OpenAI 的闭源模型连接以获取帮助。
虽然 OpenAI 早期曾开源过模型，但近年来逐渐转向闭源策略，通过API向企业和开发者出售访问权，建立了庞大的商业模式。
然而，今年一月，OpenAI 的 CEO 山姆·奥特曼（Sam Altman）表示，在开源问题上，OpenAI 可能“站错了历史的一边”。当前，中国的 DeepSeek、阿里巴巴的通义千问、Moonshot AI 等开源模型迅速崛起，逐渐占据主导地位。（Meta 曾是开源 AI 模型领域的领军企业，但其 Llama 系列模型在过去一年已逐渐落后。）
与此同时，特朗普政府也在7月呼吁美国 AI 开发商更多地开源技术，推动全球采用符合美国价值观的 AI 技术。
通过推出 gpt-oss，OpenAI 希望同时赢得开发者和特朗普政府的认可，以应对来自中国 AI 实验室的竞争压力。
奥特曼表示：
“回到我们 2015 年创办公司的初衷，OpenAI 的使命始终是确保通用人工智能（AGI）惠及全人类。因此，我们十分期待全球开发者基于美国创造的、基于民主价值观的开放式 AI 堆栈构建技术，让所有人免费使用，造福大众。”
模型表现如何？
OpenAI 明确目标是让此次推出的开放模型成为同类模型的领先者，公司声称已实现这一目标。
在编程竞赛平台 Codeforces（工具辅助）上：
– gpt-oss-120b 得分 2622 分
– gpt-oss-20b 得分 2516 分
两款模型表现优于 DeepSeek 的 R1 模型，但低于 o3 和 o4-mini。
OpenAI 开放模型在 Codeforces 上的表现（图2）
在另一项跨学科测试——Humanity’s Last Exam（工具辅助）中：
– gpt-oss-120b 得分 19%
– gpt-oss-20b 得分 17.3%
成绩同样不及 o3 模型，但超过了 DeepSeek 和通义千问等现有顶尖开源模型。
OpenAI 开放模型在 Humanity’s Last Exam 测试中的表现（图3）
值得注意的是，这两款开放模型的“幻觉”（生成虚假信息）问题明显高于最新的闭源模型 o3 和 o4-mini。OpenAI 表示，这与小型模型知识储备不足、容易产生更多幻觉的预期结果一致。
在 OpenAI 内部用于测试人物相关知识准确性的 PersonQA 基准中：
– gpt-oss-120b 幻觉率高达 49%
– gpt-oss-20b 幻觉率为 53%
相比之下，早期的 o1 模型仅为 16%，最新的小型闭源模型 o4-mini 为 36%。
新模型如何训练？
OpenAI 表示，开放模型的训练方式与闭源模型类似，都采用了专家混合（MoE）机制，使模型运行效率大幅提升。例如，拥有 1170 亿参数的 gpt-oss-120b，每次推理实际调用的参数只有 51 亿个。
此外，这两款模型均采用了高计算资源的强化学习（RL）进行训练，使模型能在模拟环境中习得正确推理。这一过程也用于训练 OpenAI 的 o 系列模型，赋予了新模型类似的链式思考（chain-of-thought）能力。
经过这种训练后，OpenAI 强调，这些开放模型特别适合用于 AI 智能体，可调用网络搜索、Python 代码执行等工具辅助推理。但目前它们仅支持文本，无法处理图像或音频。
OpenAI 将新模型以 Apache 2.0 开源许可协议发布，这意味着企业可免费使用甚至商业化，无需取得 OpenAI 授权。不过出于版权风险考虑，OpenAI 并未公布训练数据。
这两款模型此前曾因安全考量多次延迟发布。经测试，新模型在生化攻击等方面的潜在风险略有提升，但并未达到“危险”的能力门槛。
目前开发者期待 DeepSeek R2 以及 Meta 新的超级智能实验室推出的下一代开源模型问世，以继续观察开源 AI 的最新竞争动态。