Levis's GenAI Fullstack Engineer Blog

時代と共に、生成AIフルスタックエンジニアへ。

2026-06-01から1ヶ月間の記事一覧

🌐 GKE 工业级大模型推理网关Inference Gateway实战指南

第一篇:跨地域多集群容灾与 45 秒“生死切流”幕后 在当今的 AI 军备竞赛中,算力就是最昂贵的资产。将大语言模型(LLM)部署到生产环境,绝不仅仅是 docker run 跑一个 vLLM 容器那么简单。面对动辄几百美金一小时的 TPU/GPU 集群,如何保证全球用户的低延…

从零到生产环境:Cloud Run 现代安全架构与 AI 智能体部署笔记

作者按: 这篇文章记录了一场 Cloud Run 实战研讨会的全程笔记与思考。内容涵盖容器部署、版本回滚、VPC 网络隔离、Secret Manager、AI 代理部署等云原生核心主题。如果你正在学习 Google Cloud,或者对"云原生到底是什么感觉"充满好奇,这篇文章应该能给你…