2507：模型简介、基准对比与社区评价

文章正文

发布时间：2025-08-21 19:05

类型：因果语言模型训练阶段：预训练 & 后训练参数数量：总共 235B，激活 22B非嵌入参数数量：234B层数：94 层注意力头数（GQA）：Q 为 64 个，KV 为 4 个专家数量：128 个激活的专家数量：8 个上下文长度：原生支持 262,144注意：该模型仅支持非思考模式，并且不会在其输出中生成块。同时，不再需要指定核心革新亮点全能性能跃迁推理与知识：在MMLU-Pro科学测试中得分83.0（较前代↑7.8分），GPQA专业问答准确率达77.5%