Translate

martes, 25 de noviembre de 2025

Qué es un LLM (Large Language Model) ?



Hasta ahora vimos que un modelo generativo aprende a predecir la siguiente palabra dentro de una secuencia.

Pero ¿cómo pasamos de un simple predictor de texto a sistemas capaces de mantener conversaciones, razonar o escribir código?

La respuesta está en una sigla que probablemente ya viste muchas veces: LLM, o Large Language Model —Modelo de Lenguaje Grande.

Un LLM es un modelo de inteligencia artificial entrenado con cantidades masivas de texto —libros, artículos, código, conversaciones, sitios web— con el objetivo de aprender cómo funciona el lenguaje humano.

No se trata solo de palabras: el modelo aprende relaciones semánticas, contexto, estilo y tono.

Por eso, puede no solo completar frases, sino también adaptarse al contexto de una pregunta o instrucción.

Por ejemplo:

“Escribí un poema sobre gatos como si fueras Borges.”

El modelo comprende la estructura poética, el tema (gatos) y el estilo solicitado (Borges), y genera un texto coherente con todo eso.

El adjetivo Large (grande) no es casual.

Un LLM tiene miles de millones de parámetros, que son los “pesos” ajustados durante el entrenamiento.

Cuantos más parámetros, mayor capacidad tiene el modelo para reconocer patrones complejos y producir respuestas matizadas.

Esto significa que el modelo tiene un “cerebro” enorme, con miles de millones de conexiones que representan lo que aprendió sobre el lenguaje.

El salto que permitió construir los LLM modernos vino de una arquitectura publicada por Google en 2017: “Attention is All You Need”

En ese paper se presentó el Transformer, una estructura basada en un concepto revolucionario: la autoatención (self-attention).

Permite que el modelo “mire” todas las palabras del contexto al mismo tiempo, y decida a cuáles prestar más atención.

Por ejemplo, en la frase:

“El perro que mordió al cartero corrió hacia la casa.”

Para entender quién corrió, el modelo necesita conectar corrió con perro, no con cartero.

La atención le permite establecer esas relaciones de dependencia sin importar la distancia entre palabras.

Esa capacidad para manejar contexto global es lo que hace que los transformers sean tan potentes.


Cuando escribís una pregunta o prompt, el texto se convierte en tokens numéricos.

El modelo procesa esos tokens capa por capa, cada una aplicando atención y transformaciones matemáticas.

Al final, predice la probabilidad de cada posible palabra siguiente.


Por ejemplo:


Entrada: "La inteligencia artificial generativa es"

Salida probable: "una", "capaz", "un", "la"


El modelo elige la palabra más coherente según el contexto.

Luego vuelve a predecir la siguiente… y así sucesivamente, construyendo la respuesta palabra por palabra.


Los LLM no “piensan” como los humanos, pero su entrenamiento masivo les permite capturar regularidades del lenguaje y del pensamiento humano.

En la práctica, eso les da la capacidad de:

  • resumir textos,
  • traducir idiomas,
  • escribir código,
  • razonar sobre información textual,
  • y mantener conversaciones contextuales extensas.


Por eso, cuando hablamos con un modelo como ChatGPT, sentimos que hay comprensión real detrás —aunque lo que hay es una predicción probabilística extremadamente sofisticada.

Los LLM tienen límites: pueden inventar información (alucinaciones), carecen de comprensión profunda del mundo y dependen de los datos con los que fueron entrenados.

Sin embargo, su capacidad de generar texto coherente y útil en contextos muy variados los convierte en una de las herramientas más poderosas creadas hasta ahora.