gpt-oss-120b:规模较大,性能更强,甚至能在单张 Nvidia 显卡上运行。
gpt-oss-20b:较轻量,甚至可在拥有16GB内存的普通笔记本电脑上运行。
转发 TechCrunch 对此的报道: OpenAI 发布两款“开放式”AI 推理模型
OpenAI 在周二宣布,推出了两款全新的开放式AI推理模型,能力与此前推出的o系列模型相近。这两款模型的权重都免费开放,用户可通过知名开发平台Hugging Face进行下载。OpenAI 称,这两款模型在多个公开基准测试中表现出了“顶尖水平”。
这两款模型的大小不同:
– gpt-oss-120b:规模较大,性能更强,甚至能在单张 Nvidia 显卡上运行。
– gpt-oss-20b:较轻量,甚至可在拥有16GB内存的普通笔记本电脑上运行。
这次发布是 OpenAI 自五年前发布GPT-2以来,首次推出新的“开放式”大语言模型。
据 TechCrunch 此前报道,OpenAI 透露,这些开放模型可以向云端更强大的AI模型发送复杂的请求。也就是说,如果开放模型无法单独完成任务,比如处理图片,开发者可以将其与 OpenAI 的闭源模型连接以获取帮助。
虽然 OpenAI 早期曾开源过模型,但近年来逐渐转向闭源策略,通过API向企业和开发者出售访问权,建立了庞大的商业模式。
然而,今年一月,OpenAI 的 CEO 山姆·奥特曼(Sam Altman)表示,在开源问题上,OpenAI 可能“站错了历史的一边”。当前,中国的 DeepSeek、阿里巴巴的通义千问、Moonshot AI 等开源模型迅速崛起,逐渐占据主导地位。(Meta 曾是开源 AI 模型领域的领军企业,但其 Llama 系列模型在过去一年已逐渐落后。)
与此同时,特朗普政府也在7月呼吁美国 AI 开发商更多地开源技术,推动全球采用符合美国价值观的 AI 技术。
通过推出 gpt-oss,OpenAI 希望同时赢得开发者和特朗普政府的认可,以应对来自中国 AI 实验室的竞争压力。
奥特曼表示:
“回到我们 2015 年创办公司的初衷,OpenAI 的使命始终是确保通用人工智能(AGI)惠及全人类。因此,我们十分期待全球开发者基于美国创造的、基于民主价值观的开放式 AI 堆栈构建技术,让所有人免费使用,造福大众。”
模型表现如何?
OpenAI 明确目标是让此次推出的开放模型成为同类模型的领先者,公司声称已实现这一目标。
在编程竞赛平台 Codeforces(工具辅助)上:
– gpt-oss-120b 得分 2622 分
– gpt-oss-20b 得分 2516 分
两款模型表现优于 DeepSeek 的 R1 模型,但低于 o3 和 o4-mini。
OpenAI 开放模型在 Codeforces 上的表现(图2)
在另一项跨学科测试——Humanity’s Last Exam(工具辅助)中:
– gpt-oss-120b 得分 19%
– gpt-oss-20b 得分 17.3%
成绩同样不及 o3 模型,但超过了 DeepSeek 和通义千问等现有顶尖开源模型。
OpenAI 开放模型在 Humanity’s Last Exam 测试中的表现(图3)
值得注意的是,这两款开放模型的“幻觉”(生成虚假信息)问题明显高于最新的闭源模型 o3 和 o4-mini。OpenAI 表示,这与小型模型知识储备不足、容易产生更多幻觉的预期结果一致。
在 OpenAI 内部用于测试人物相关知识准确性的 PersonQA 基准中:
– gpt-oss-120b 幻觉率高达 49%
– gpt-oss-20b 幻觉率为 53%
相比之下,早期的 o1 模型仅为 16%,最新的小型闭源模型 o4-mini 为 36%。
新模型如何训练?
OpenAI 表示,开放模型的训练方式与闭源模型类似,都采用了专家混合(MoE)机制,使模型运行效率大幅提升。例如,拥有 1170 亿参数的 gpt-oss-120b,每次推理实际调用的参数只有 51 亿个。
此外,这两款模型均采用了高计算资源的强化学习(RL)进行训练,使模型能在模拟环境中习得正确推理。这一过程也用于训练 OpenAI 的 o 系列模型,赋予了新模型类似的链式思考(chain-of-thought)能力。
经过这种训练后,OpenAI 强调,这些开放模型特别适合用于 AI 智能体,可调用网络搜索、Python 代码执行等工具辅助推理。但目前它们仅支持文本,无法处理图像或音频。
OpenAI 将新模型以 Apache 2.0 开源许可协议发布,这意味着企业可免费使用甚至商业化,无需取得 OpenAI 授权。不过出于版权风险考虑,OpenAI 并未公布训练数据。
这两款模型此前曾因安全考量多次延迟发布。经测试,新模型在生化攻击等方面的潜在风险略有提升,但并未达到“危险”的能力门槛。
目前开发者期待 DeepSeek R2 以及 Meta 新的超级智能实验室推出的下一代开源模型问世,以继续观察开源 AI 的最新竞争动态。