2025-06-01から1ヶ月間の記事一覧
作为一名长期奋战在大型语言模型(LLM)研发一线的工程师(好吧,这只是Prompt的Character),我深知每一次架构的革新、每一次训练策略的优化,都可能为整个领域带来质的飞跃。今天,我们将一同深入探讨 DeepSeek 系列模型的核心技术演进,从其对 LLaMA 架构…
Copyright: GeekTimeCitation: An Attentive Survey of Attention Models, ACM Transactions on Intelligent Systems and Technology 我们一步一步慢慢来解释这张图中关于 注意力机制 Attention(q, k, v) 的概念。 第一部分:理解 q、k、v 是什么? 在注意…