2507:模型简介、基准对比与社区评价

文章正文
发布时间:2025-08-21 19:05

类型:因果语言模型训练阶段:预训练 & 后训练参数数量:总共 235B,激活 22B非嵌入参数数量:234B层数:94 层注意力头数(GQA):Q 为 64 个,KV 为 4 个专家数量:128 个激活的专家数量:8 个上下文长度:原生支持 262,144注意:该模型仅支持非思考模式,并且不会在其输出中生成 块。同时,不再需要指定核心革新亮点全能性能跃迁推理与知识:在MMLU-Pro科学测试中得分83.0(较前代↑7.8分),GPQA专业问答准确率达77.5%