做了一个叫notegotya的五线谱识谱练习玩具
2026-05-16
1 min read
因为想学一下低音谱号,顺便再多熟练熟练不熟悉的高音谱号的读谱,所以做了个小玩具出来。
把谱面难度调低还挺好玩的 → notegotya
结合nanovllm的FlashAttention和PagedAttention主要原理概述
从原始Softmax到在线Softmax
撰写了原始的softmax、数值稳定的softmax、在线softmax的公式及其简单代码呈现。
给机器学习系统课程做了一下中文翻译
在线阅读: MLSys 中文翻译
搞到网页上方便阅读。
怎么估算LLM训练的内存和计算需求?推一推、测一测
本部分适合于知道AdamW更新流程、但没有尝试推导过peak memory和计算量、计算时间的朋友。
省流:
A_{per_layer} ≈ 9BLd + 2BhL^2
C ≈ 6 × P × D
从SGD到AdamW,优化器怎么发展过来的?
Adam = Momentum + RMSProp
CS336 Assignment 1 后半段记录:实验
已经搭建起了训练循环,接下来做一些实验。训得有多快?有多好?
CS336 Assignment 1 前半段记录:架构
从分词开始,搭建起Transformer架构。
值得顺便掌握一下的那些linux指令
命令行能够即时地做很多事情,甚至代表一种简洁而切题的计算机哲学。
为了直接进入正题,省略诸如 cd 这样的广为人知的基础指令,直接看那些显著提升体验的东西。