Levis's GenAI Fullstack Engineer Blog

時代と共に、生成AIフルスタックエンジニアへ。

Loss_Design

过程奖励模型(RPM):原理、挑战与失败机制探析

过程奖励模型(Reward Process Model, RPM)是指一种在训练强化学习(尤其是在大语言模型(LLMs)对齐任务)中,用于评估和奖励模型生成的过程而非仅仅最终输出结果的奖励模型。相较于传统的结果奖励模型(Outcome-based Reward Model),RPM更加关注模型推…

无辅助损失策略:如何用更少资源高效训练大型语言模型

无辅助损失(No Auxiliary Loss)策略,是在大型语言模型(LLM)训练中取消或减少使用辅助损失函数(Auxiliary Losses)的一种训练策略。此策略通常与端到端训练(end-to-end training)和指令微调(instruction tuning)等阶段相关。理解它如何降低训练成本…