从原始Softmax到在线Softmax
撰写了原始的softmax、数值稳定的softmax、在线softmax的公式及其简单代码呈现。
撰写了原始的softmax、数值稳定的softmax、在线softmax的公式及其简单代码呈现。
本部分适合于知道AdamW更新流程、但没有尝试推导过peak memory和计算量、计算时间的朋友。
省流:
A_{per_layer} ≈ 9BLd + 2BhL^2
C ≈ 6 × P × D
Adam = Momentum + RMSProp
已经搭建起了训练循环,接下来做一些实验。训得有多快?有多好?
从分词开始,搭建起Transformer架构。
命令行能够即时地做很多事情,甚至代表一种简洁而切题的计算机哲学。
为了直接进入正题,省略诸如 cd 这样的广为人知的基础指令,直接看那些显著提升体验的东西。
WanDB是一个python库/日志托管平台,帮我们详细记录并整理了训练过程中的各种参数和指标变化,
省去了需要自己详细记录日志、绘制图表的麻烦,并且可以做超参数搜索等进阶用法。
本Blog适合于知道 Transformer 基础结构、但没有尝试推导过参数量和FLOPs的朋友。
省流:P ≈ 12Nd^2 + Vd
只是 rearrange ,reduce , repeat 和 einsum 这四个函数而已。
但真的很好用。