BPE
El vocabulario se construye uniendo pares frecuentes. "aprendizaje" puede ser "apren" + "dizaje".
Desmitificando la IA — nivel arquitectura
No es magia. Es álgebra lineal, probabilidades y mucha atención. Explorá las mecánicas internas de los modelos de lenguaje.
Empezar exploraciónEl modelo nunca lee texto. Lee números. El primer paso convierte palabras o fragmentos en IDs numéricos mediante un vocabulario fijo aprendido.
BPE
El vocabulario se construye uniendo pares frecuentes. "aprendizaje" puede ser "apren" + "dizaje".
Vocabulario fijo
GPT-4 tiene ~100.000 tokens. Todo texto posible se representa con ellos, incluyendo código y emojis.
Input numérico
El modelo recibe enteros: [15496, 11, 703…]. Toda comprensión emerge de esos números.
Límite de contexto
Solo procesa N tokens a la vez (ej: 128K en GPT-4o). Más allá de ese límite, olvida.
Cada token se convierte en un vector de cientos de dimensiones. Palabras similares quedan cerca. El modelo aprende esto solo con predicción de texto.
Similitud coseno
Vectores similares apuntan en la misma dirección. rey − hombre + mujer ≈ reina es aritmética vectorial real.
Alta dimensionalidad
GPT-3 usa vectores de 12.288 dims. Se necesita PCA o t-SNE para proyectar a 2D/3D visualizable.
Semántica emergente
Nadie le dijo al modelo que "perro" y "gato" son similares. Lo descubrió entrenando con predicción de texto.
Para procesar cada token, el modelo mira todos los demás y decide cuánta atención prestar a cada uno. Hacé clic en una palabra para ver sus pesos.
↑ Hacé clic en cualquier palabra para ver sus pesos de atención
Q, K, V
Query, Key y Value. La similitud Q·K determina cuánto del Value se incorpora al token actual.
Multi-Head
GPT-4 tiene 96 cabezas de atención en paralelo. Cada una aprende relaciones distintas.
Flash Attention
La atención estándar escala O(n²). Flash Attention lo reduce a O(n) con tiling en GPU.
El modelo produce una distribución de probabilidad sobre todo el vocabulario y muestrea de ella. La temperatura controla qué tan predecible o creativa es la elección.
T→0 determinístico · T=1 balanceado · T>1 caótico
TOP CANDIDATOS — "El cielo es..."
TEXTO GENERADO
DISTRIBUCIÓN DE PROBABILIDAD
Softmax con temperatura
Fórmula: softmax(logits / T). T<1 hace la distribución más "picuda". T>1 la aplana.
Desde que escribís hasta que llega la respuesta, el texto pasa por estas etapas. Hacé clic en cada capa para ver los detalles.
Cada operación del Transformer es álgebra lineal pura. Hacé clic en los pasos para ver las transformaciones en tiempo real.
Mirá cómo la señal viaja desde el token de entrada hasta el logit de salida, capa por capa. Presioná Iniciar para ver la animación.
Una pasada, una predicción
Para generar 1 token se ejecuta el forward pass completo. Para 100 tokens, 100 forward passes.
Paralelismo en entrenamiento
Durante el training todos los tokens se procesan en paralelo. En inferencia la generación es secuencial.
Escala de operaciones
GPT-3 175B realiza ~175 billones de multiplicaciones por token. A 312 TFLOPS (A100 fp16) ≈ 50ms/token.
Los conceptos estudiados se aplican en todos estos modelos. La diferencia está en la escala y las decisiones de arquitectura.
| Modelo | Parámetros | Capas | Heads | d_model | Contexto | Acceso |
|---|
Términos que vas a encontrar en papers, blogs y código fuente de LLMs.