Desmitificando la IA — nivel arquitectura

Así piensa
una máquina

No es magia. Es álgebra lineal, probabilidades y mucha atención. Explorá las mecánicas internas de los modelos de lenguaje.

Empezar exploración

Todo empieza con los tokens

El modelo nunca lee texto. Lee números. El primer paso convierte palabras o fragmentos en IDs numéricos mediante un vocabulario fijo aprendido.

TOKENS0 tokens

BPE

El vocabulario se construye uniendo pares frecuentes. "aprendizaje" puede ser "apren" + "dizaje".

Vocabulario fijo

GPT-4 tiene ~100.000 tokens. Todo texto posible se representa con ellos, incluyendo código y emojis.

Input numérico

El modelo recibe enteros: [15496, 11, 703…]. Toda comprensión emerge de esos números.

Límite de contexto

Solo procesa N tokens a la vez (ej: 128K en GPT-4o). Más allá de ese límite, olvida.

Las palabras como puntos en el espacio

Cada token se convierte en un vector de cientos de dimensiones. Palabras similares quedan cerca. El modelo aprende esto solo con predicción de texto.

Animales
Tecnología
Emociones
Verbos
Comida

Similitud coseno

Vectores similares apuntan en la misma dirección. rey − hombre + mujer ≈ reina es aritmética vectorial real.

Alta dimensionalidad

GPT-3 usa vectores de 12.288 dims. Se necesita PCA o t-SNE para proyectar a 2D/3D visualizable.

Semántica emergente

Nadie le dijo al modelo que "perro" y "gato" son similares. Lo descubrió entrenando con predicción de texto.

El mecanismo de atención

Para procesar cada token, el modelo mira todos los demás y decide cuánta atención prestar a cada uno. Hacé clic en una palabra para ver sus pesos.

↑ Hacé clic en cualquier palabra para ver sus pesos de atención

Q, K, V

Query, Key y Value. La similitud Q·K determina cuánto del Value se incorpora al token actual.

Multi-Head

GPT-4 tiene 96 cabezas de atención en paralelo. Cada una aprende relaciones distintas.

Flash Attention

La atención estándar escala O(n²). Flash Attention lo reduce a O(n) con tiling en GPU.

Cómo el modelo elige la próxima palabra

El modelo produce una distribución de probabilidad sobre todo el vocabulario y muestrea de ella. La temperatura controla qué tan predecible o creativa es la elección.

T→0 determinístico · T=1 balanceado · T>1 caótico

TOP CANDIDATOS — "El cielo es..."

TEXTO GENERADO

El cielo es

DISTRIBUCIÓN DE PROBABILIDAD

Softmax con temperatura

Fórmula: softmax(logits / T). T<1 hace la distribución más "picuda". T>1 la aplana.

El pipeline completo

Desde que escribís hasta que llega la respuesta, el texto pasa por estas etapas. Hacé clic en cada capa para ver los detalles.

Las fórmulas detrás del telón

Cada operación del Transformer es álgebra lineal pura. Hacé clic en los pasos para ver las transformaciones en tiempo real.

El Forward Pass visualizado

Mirá cómo la señal viaja desde el token de entrada hasta el logit de salida, capa por capa. Presioná Iniciar para ver la animación.

Estado: Listo

Una pasada, una predicción

Para generar 1 token se ejecuta el forward pass completo. Para 100 tokens, 100 forward passes.

Paralelismo en entrenamiento

Durante el training todos los tokens se procesan en paralelo. En inferencia la generación es secuencial.

Escala de operaciones

GPT-3 175B realiza ~175 billones de multiplicaciones por token. A 312 TFLOPS (A100 fp16) ≈ 50ms/token.

Modelos reales comparados

Los conceptos estudiados se aplican en todos estos modelos. La diferencia está en la escala y las decisiones de arquitectura.

ModeloParámetros CapasHeads d_modelContextoAcceso

Glosario técnico

Términos que vas a encontrar en papers, blogs y código fuente de LLMs.