Blogs

Zhihu Articles (Chinese)

  1. 为什么Transformer要用LayerNorm?link
  2. 为什么回归问题用MSE?link