Loss_Design

2025-05-08

过程奖励模型（RPM）：原理、挑战与失败机制探析

Loss_Design

过程奖励模型（Reward Process Model, RPM）是指一种在训练强化学习（尤其是在大语言模型（LLMs）对齐任务）中，用于评估和奖励模型生成的过程而非仅仅最终输出结果的奖励模型。相较于传统的结果奖励模型（Outcome-based Reward Model），RPM更加关注模型推…

2025-05-07

无辅助损失策略：如何用更少资源高效训练大型语言模型

Loss_Design

无辅助损失（No Auxiliary Loss）策略，是在大型语言模型（LLM）训练中取消或减少使用辅助损失函数（Auxiliary Losses）的一种训练策略。此策略通常与端到端训练（end-to-end training）和指令微调（instruction tuning）等阶段相关。理解它如何降低训练成本…

Levis's GenAI Fullstack Engineer Blog

時代と共に、生成AIフルスタックエンジニアへ。

Loss_Design

过程奖励模型（RPM）：原理、挑战与失败机制探析

无辅助损失策略：如何用更少资源高效训练大型语言模型