本篇解读将按照模型训练的两个阶段来解读。

Pretrain阶段

1.1 模型架构 (Model Architecture)

核心架构: Gemini 2.X系列模型采用的是稀疏混合专家（MoE）Transformer架构。
- 工作原理: MoE架构不像传统模型那样在处理每个输入时都激活全部参数。相反，它内部有许多“专家”（即小型的神经网络），一个“路由器”会根据输入内容，动态地、智能地选择激活一小部分最相关的专家来处理信息。
- 优势: 这种方法使得模型的总容量可以非常大，但单次计算的成本却相对较低，极大地提升了效率。
原生多模态: 模型的架构从设计之初就是原生多模态的，能够无缝处理文本、图像、音频和视频等多种类型的输入数据。
架构改进: 相比于1.5系列，2.5系列在模型架构上进行了改进，显著提升了大规模训练的稳定性和模型内部的信号传播效率，使得模型在预训练刚结束时就比以往的版本更强大。(报告中并没有提到他们改进了哪部分)

硬件平台: Gemini 2.X是首个在Google最新的TPUv5p芯片架构上训练的模型家族。训练过程在多个由8960个芯片组成的TPUv5p Pods上，以数据并行的方式进行。
软件与容错: 训练系统有两个关键的进步，以确保在大规模集群上的稳定性：
1. 切片粒度的弹性 (Slice-Granularity Elasticity): 当集群中某个“切片”（一部分TPU）发生故障时，系统可以自动地在减少芯片数量的情况下继续训练，而无需中断整个任务等待硬件修复。这使得故障造成的停机时间从几十分钟缩短到几十秒。
2. 分阶段静默数据损坏检测 (Split-Phase SDC Detection): 采用了一种新的轻量级确定性重放技术，可以立即发现并定位出现静默数据损坏（即计算结果出错但没有报错）的硬件，并在几分钟内将其从训练任务中排除。

这个阶段的目标是在强大的“毛坯”预训练模型基础上，通过微调来对齐人类价值观，并激发其高级推理和智能体能力。其创新主要体现在以下几个层面：

整个后训练流程依然遵循监督式微调（SFT）、奖励建模（RM）和强化学习（RL）这几个经典阶段。

相比前代，所有阶段都更加注重数据质量，这和LIMO的思想相符。

一个关键的创新点是更多地利用模型自身来辅助数据生成和质量控制，从而创造了一个“数据飞轮”，实现更高效和精细的品控。战略性地增加了分配给RL阶段的计算资源，允许模型进行更深入的探索和行为优化。

采用了更先进的奖励信号，明确提到了“可验证奖励”（verifiable rewards）和“基于模型的生成式奖励”（model-based generative rewards），这使得反馈信号更复杂且可扩展。对RL算法本身进行了改进，以提升长时间训练过程中的稳定性。

这里具体怎么改的也没都没说…

这是后训练阶段最核心、最引人注目的创新，它彻底改变了模型的响应模式。

核心理念: 通过强化学习（RL）**进行专门训练，让模型学会在推理时（inference-time）花费额外的计算资源来进行“思考”，以换取更准确的答案。

实现机制: 模型可以在回答问题前，进入一个“思考”阶段，执行数万次的内部前向传播计算。

两种先进的思考模式:
- 自主思考 (Autonomous Thinking): 对于旗舰模型Gemini 2.5 Pro，它可以自主决定需要思考多久才能最好地解决问题。

可控思考 (Controllable Thinking): 对于高效模型Gemini 2.5 Flash，用户可以设置一个“思考预算”（以token数量衡量），从而在性能和成本之间自由权衡。

效果验证: 实验清晰地证明，增加“思考预算”可以稳定地提升模型在各类高难度基准上的性能。

对于追求效率的Flash和Flash-Lite等小型号，其后训练的创新在于蒸馏技术。

核心方法: 使用知识蒸馏，将大模型的强大能力迁移到小模型上。

技术创新: 为了降低存储和传输教师模型庞大的完整输出概率分布的成本，他们采用了一个k-稀疏分布（k-sparse distribution）来近似教师模型的预测分布。

价值: 这种方法被认为是一个很好的权衡，因为它在显著提升小模型质量的同时，又能有效控制训练和部署成本。