CS相关 | 十派的玩具箱

结合nanovllm的FlashAttention和PagedAttention主要原理概述

2026-05-16 25 min read # CS相关

2026-04-09 20 min read # CS相关

撰写了原始的softmax、数值稳定的softmax、在线softmax的公式及其简单代码呈现。

2026-03-14 5 min read # CS相关

2026-03-12 22 min read # CS相关

本部分适合于知道AdamW更新流程、但没有尝试推导过peak memory和计算量、计算时间的朋友。
省流：
A_{per_layer} ≈ 9BLd + 2BhL^2
C ≈ 6 × P × D

2026-03-11 14 min read # CS相关

Adam = Momentum + RMSProp

2026-03-10 14 min read # CS相关

已经搭建起了训练循环，接下来做一些实验。训得有多快？有多好？

2026-03-10 52 min read # CS相关

从分词开始，搭建起Transformer架构。

2026-03-10 13 min read # CS相关

命令行能够即时地做很多事情，甚至代表一种简洁而切题的计算机哲学。
为了直接进入正题，省略诸如 cd 这样的广为人知的基础指令，直接看那些显著提升体验的东西。

2026-03-08 12 min read # CS相关

WanDB是一个python库/日志托管平台，帮我们详细记录并整理了训练过程中的各种参数和指标变化，
省去了需要自己详细记录日志、绘制图表的麻烦，并且可以做超参数搜索等进阶用法。

2026-03-03 17 min read # CS相关

本Blog适合于知道 Transformer 基础结构、但没有尝试推导过参数量和FLOPs的朋友。
省流：P ≈ 12Nd^2 + Vd