Translate

domingo, 30 de noviembre de 2025

Modelos multimodales: cuando la IA entiende más que texto


Hasta ahora vimos cómo los Modelos de Lenguaje Grandes (LLM) son capaces de generar y comprender texto de forma sorprendente.

Pero el lenguaje no es la única forma en la que los humanos nos comunicamos: también usamos imágenes, sonidos, gestos y video.

Por eso, la nueva generación de inteligencia artificial apunta a algo más ambicioso: modelos capaces de entender y generar múltiples tipos de información al mismo tiempo.

A estos se los conoce como modelos multimodales.

El término multimodal viene de modalidad, que en este contexto significa tipo de dato o forma de comunicación.

Un modelo multimodal puede trabajar con más de una modalidad, por ejemplo: Texto, Imágenes, Audio, Video, etc

Así como un LLM aprende relaciones entre palabras, un modelo multimodal aprende relaciones entre palabras, píxeles y sonidos, entendiendo cómo se conectan entre sí.


Imaginá que escribís:

> “Mostrame un perro corriendo en la playa.”


Un modelo como DALL·E, Midjourney o Stable Diffusion convierte ese texto en una imagen realista que representa exactamente esa escena.


Lo inverso también es posible:

Subís una imagen y pedís:

> “Describí lo que ves.”


El modelo responde algo como:

> “Un perro marrón corriendo junto al mar en un día soleado.”


Eso significa que entendió el contenido visual y lo tradujo en texto coherente.

Los modelos multimodales se construyen extendiendo la arquitectura de los transformers.

Cada tipo de dato (texto, imagen, audio) se convierte en una representación numérica común, llamada embedding.

🔹 En el caso del texto, cada palabra se transforma en un vector.

🔹 En el caso de las imágenes, cada región o conjunto de píxeles también se transforma en vectores.

De esta forma, el modelo puede aprender correlaciones entre ambos mundos. Por ejemplo, que la palabra “perro” suele aparecer junto a formas con cuatro patas, hocico y pelaje.

El resultado es un sistema capaz de razonar sobre distintos tipos de información en simultáneo.

Lo interesante es que estos modelos no solo describen imágenes, sino que también razonan sobre ellas.

Por ejemplo, pueden interpretar gráficos, analizar documentos escaneados o incluso entender memes.

La IA generativa está dejando de ser “solo texto” para convertirse en una plataforma perceptiva.

Los modelos multimodales son un paso hacia sistemas que pueden:

  • mirar, escuchar y leer al mismo tiempo,
  • entender contextos complejos del mundo real,
  • y comunicarse de forma natural con las personas.


Por ejemplo, un asistente multimodal podría:

  • leer un documento PDF,
  • observar una foto de un diagrama,
  • escuchar una explicación verbal,
  • y responder con una síntesis combinando todo eso.


A medida que los modelos multimodales se integran con sensores, cámaras o dispositivos, nos acercamos a una IA más integrada con el entorno humano.

Esto abre posibilidades en:

  • Educación (IA que enseña con imágenes y audio)
  • Medicina (análisis de radiografías + texto clínico)
  • Programación (lectura de código y diagramas)
  • Arte (creación de video, música y texto combinados)


El objetivo final es una IA capaz de entender el mundo como nosotros: con todos los sentidos combinados.