Translate

sábado, 15 de noviembre de 2025

Cómo funciona un modelo generativo


En el post anterior vimos qué es la Inteligencia Artificial Generativa y cómo puede crear contenido nuevo a partir de patrones aprendidos.

Ahora vamos a mirar debajo del capó: ¿cómo hace realmente un modelo para “inventar” texto, imágenes o música?

La respuesta puede resumirse en una idea:

> Un modelo generativo aprende a predecir lo que viene después.

Sí, suena simple. Pero detrás de esa predicción hay millones (o billones) de parámetros, una enorme cantidad de datos y un entrenamiento matemático fascinante.

Imaginemos que queremos que una máquina aprenda a escribir frases en español.

Para eso le damos millones de ejemplos: libros, artículos, correos, conversaciones.

El modelo analiza esas frases y aprende cómo se relacionan las palabras entre sí.


Por ejemplo, si ve muchas veces frases como:

> “El gato duerme en el sofá.”

> “El perro duerme en la cama.”


entonces entiende que después de “El gato” o “El perro” es muy probable que aparezca un verbo como duerme, corre o come.

Así, el modelo no memoriza frases completas, sino que aprende distribuciones de probabilidad:


> Dado un contexto (por ejemplo, “El gato”), ¿cuál es la palabra más probable que sigue?


Ese es el corazón de un modelo generativo.


Para que una máquina pueda trabajar con texto, primero debe convertir las palabras en números.

Cada fragmento de texto (una palabra, una sílaba o incluso una letra) se transforma en un token.


Por ejemplo:


“El gato duerme” → [101, 45, 202]


Estos números no tienen significado por sí mismos, pero el modelo los usa para representar el texto de forma matemática.

Con el tiempo, aprende que ciertos tokens aparecen juntos y en qué contextos.


Durante el entrenamiento, el modelo se enfrenta a miles de millones de ejemplos donde debe predecir la siguiente palabra.

Por ejemplo:


Entrada: "El gato"

Salida esperada: "duerme"


Cada vez que acierta, refuerza sus conexiones internas.

Cada vez que se equivoca, ajusta sus parámetros para acercarse un poco más a la respuesta correcta.

Ese proceso se repite millones de veces.


Con el tiempo, el modelo aprende cómo suena el lenguaje humano, y puede generar texto fluido simplemente repitiendo el proceso de predicción: elige una palabra, la agrega, vuelve a predecir la siguiente, y así sucesivamente.

Un modelo generativo moderno está formado por capas de neuronas artificiales conectadas entre sí.

Cada capa transforma la información, detecta patrones y pasa resultados a la siguiente.


Los modelos actuales, como los basados en la arquitectura Transformer, utilizan un mecanismo llamado atención (attention), que les permite decidir qué partes del texto son más relevantes para generar la siguiente palabra.


Por ejemplo, si el texto dice:

> “El gato que persiguió al perro estaba cansado.”


El modelo necesita “prestar atención” a *gato* (y no a *perro*) para entender que quien estaba cansado era el gato.

Eso es exactamente lo que hace el mecanismo de atención: ponderar el contexto de manera inteligente.


Supongamos que el modelo ya aprendió.

Ahora escribimos el inicio de una frase:

"El sol se"


El modelo analiza ese contexto y calcula probabilidades:


pone 0.8 a “pone”

0.1 a “oculta”

0.05 a “refleja”

0.05 a “enciende”


Puede elegir la más probable (pone), o una al azar según la distribución.

Luego repite el proceso con el nuevo contexto:


> “El sol se pone”


Y así, palabra por palabra, va construyendo texto coherente.

Lo mismo ocurre con píxeles en imágenes, notas en música o fotogramas en video.


Cuando vemos a ChatGPT escribir poesía o a DALL·E inventar ilustraciones, parece magia.

Pero en realidad, la creatividad de un modelo generativo proviene de su capacidad estadística para combinar patrones conocidos de forma nueva y coherente.


En cierto sentido, es una mezcla entre:

  • la memoria del lenguaje aprendido, y
  • la improvisación probabilística en cada predicción.