Subhaditya's KB

❯

❯

Basic Transformer

Basic Transformer

Sep 18, 20241 min read

architecture

Basic Transformer

Feed forward blocks, are two Dense MLPs with Relu. Residual connections in between
Uses Attention
Embedding Layers transform between 1 hot and vector rep
Position Encoding + Token Embedding
Position Wise Feed Forward

Graph View

Backlinks

Chapter 12 - Transformers
Transformer
architecture

Created with Quartz v4.3.1 © 2025

GitHub