2025-06-01から1ヶ月間の記事一覧

2025-06-07

深入探索DeepSeek V1 V2 V3基座模型：从基础验证到前沿创新

DeepSeek

作为一名长期奋战在大型语言模型（LLM）研发一线的工程师（好吧，这只是Prompt的Character），我深知每一次架构的革新、每一次训练策略的优化，都可能为整个领域带来质的飞跃。今天，我们将一同深入探讨 DeepSeek 系列模型的核心技术演进，从其对 LLaMA 架构…

2025-06-05

一步步拆解 Attention：在深入Transformer之前，先理解上古时期Encoder-decoder架构的Query、Key、Value的含义

Attention Mathematic

Copyright: GeekTimeCitation: An Attentive Survey of Attention Models, ACM Transactions on Intelligent Systems and Technology 我们一步一步慢慢来解释这张图中关于注意力机制 Attention(q, k, v) 的概念。第一部分：理解 q、k、v 是什么？在注意…

Levis's GenAI Fullstack Engineer Blog

時代と共に、生成AIフルスタックエンジニアへ。

2025-06-01から1ヶ月間の記事一覧

深入探索DeepSeek V1 V2 V3基座模型：从基础验证到前沿创新

一步步拆解 Attention：在深入Transformer之前，先理解上古时期Encoder-decoder架构的Query、Key、Value的含义