Subhaditya's KB

❯

❯

❯

Machine Learning

❯

❯

Basic Transformer

Basic Transformer

Oct 14, 20251 min read

architecture

Basic Transformer

Feed forward blocks, are two Dense MLPs with Relu. Residual connections in between
Uses Attention
Embedding Layers transform between 1 hot and vector rep
Position Encoding + Token Embedding
Position Wise Feed Forward

Graph View

Backlinks

Chapter 12 - Transformers
Transformer
_Index_of_Models
__Index_of__Models
architecture

Created with Quartz v4.5.1 © 2026

GitHub
LinkedIn