Levis's GenAI Fullstack Engineer Blog

時代と共に、生成AIフルスタックエンジニアへ。

2025-06-01から1ヶ月間の記事一覧

深入探索DeepSeek V1 V2 V3基座模型:从基础验证到前沿创新

作为一名长期奋战在大型语言模型(LLM)研发一线的工程师(好吧,这只是Prompt的Character),我深知每一次架构的革新、每一次训练策略的优化,都可能为整个领域带来质的飞跃。今天,我们将一同深入探讨 DeepSeek 系列模型的核心技术演进,从其对 LLaMA 架构…

一步步拆解 Attention:在深入Transformer之前,先理解上古时期Encoder-decoder架构的Query、Key、Value的含义

Copyright: GeekTimeCitation: An Attentive Survey of Attention Models, ACM Transactions on Intelligent Systems and Technology 我们一步一步慢慢来解释这张图中关于 注意力机制 Attention(q, k, v) 的概念。 第一部分:理解 q、k、v 是什么? 在注意…