怎么估算LLM训练的内存和计算需求?推一推、测一测
本部分适合于知道AdamW更新流程、但没有尝试推导过peak memory和计算量、计算时间的朋友。
省流:
A_{per_layer} ≈ 9BLd + 2BhL^2
C ≈ 6 × P × D
从SGD到AdamW,优化器怎么发展过来的?
Adam = Momentum + RMSProp
CS336 Assignment 1 后半段记录:实验
已经搭建起了训练循环,接下来做一些实验。训得有多快?有多好?
CS336 Assignment 1 前半段记录:架构
从分词开始,搭建起Transformer架构。
值得顺便掌握一下的那些linux指令
命令行能够即时地做很多事情,甚至代表一种简洁而切题的计算机哲学。
为了直接进入正题,省略诸如 cd 这样的广为人知的基础指令,直接看那些显著提升体验的东西。
WanDB基础使用教程总结
WanDB是一个python库/日志托管平台,帮我们详细记录并整理了训练过程中的各种参数和指标变化,
省去了需要自己详细记录日志、绘制图表的麻烦,并且可以做超参数搜索等进阶用法。
怎么估算LLM的参数量和训练FLOPs?推一推、测一测
本Blog适合于知道 Transformer 基础结构、但没有尝试推导过参数量和FLOPs的朋友。
省流:P ≈ 12Nd^2 + Vd
【数据结构与算法5】LeetCode HOT 100 in Python(后50)
回溯、二分查找、栈、堆、贪心、动态规划、多维动态规划、技巧。
【数据结构与算法4】LeetCode HOT 100 in Python(前50)
哈希,双指针,滑动窗口,子串,数组,矩阵,链表,二叉树,图。