Chapter 12 - Transformers

Dot Product Attention
weight sharing → reuse the same weights for every input token
Self Attention
Basic Transformer
Position Encoding
Scaled Dot Product Attention
Multi Head Attention
Layer Normalization
Tokenizer
Embedding
Encoder Decoder Attention
BERT
Transfer Learning
Self Supervised

Uses