Hay una pregunta clave que todavía no respondimos:
¿Cómo pasa un modelo de simplemente “predecir palabras” a comportarse como un asistente conversacional capaz de seguir instrucciones, responder con criterio o incluso tener “personalidad”?
La respuesta está en una serie de procesos que ocurren después del entrenamiento base, conocidos como fine-tuning, instruction tuning y RLHF (Reinforcement Learning from Human Feedback).
Estos pasos son los que transforman un modelo genérico en algo útil, amigable y confiable.
Durante el entrenamiento base, el modelo aprende cómo funciona el lenguaje: gramática, semántica, relaciones, contexto.
Pero todavía no sabe qué tipo de comportamiento esperamos de él.
Por ejemplo, un modelo base podría responder:
> “No sé quién sos ni por qué me hablás así.”
> cuando le pedimos algo tan simple como “Explicame qué es la fotosíntesis.”
Por eso, se aplica una segunda etapa de entrenamiento: el fine-tuning.
El fine-tuning (ajuste fino) consiste en volver a entrenar el modelo con un conjunto de datos más pequeño y específico, para especializarlo en una tarea o comportamiento.
Por ejemplo: un modelo ajustado para atención al cliente, otro para generar código en Python, o uno especializado en medicina o derecho.
Durante el fine-tuning, el modelo aprende qué tipo de respuestas son deseables para su dominio.
Así, su conocimiento general se adapta a un propósito particular.
Una evolución del fine-tuning es el instruction tuning, que consiste en entrenar al modelo con ejemplos de pares instrucción → respuesta.
Ejemplo:
Instrucción: "Explicá la teoría de la evolución en pocas palabras."
Respuesta: "La teoría de la evolución describe cómo las especies cambian con el tiempo mediante la selección natural."
Después de ver miles de estos ejemplos, el modelo aprende que cuando alguien escribe algo como:
> “Contame brevemente cómo funciona X”
…debe responder de forma informativa, concisa y alineada con la intención del usuario.
Este es el paso que convierte un modelo base en algo más parecido a un asistente útil.
El Reinforcement Learning from Human Feedback (Aprendizaje por refuerzo a partir de retroalimentación humana) va un paso más allá.
En lugar de entrenar solo con ejemplos escritos, el modelo se ajusta usando la opinión de evaluadores humanos.
El proceso funciona así:
- El modelo genera varias posibles respuestas a una misma pregunta.
- Personas reales eligen cuál es la mejor, más útil o más segura.
- El sistema aprende a preferir las respuestas mejor valoradas.
De esta forma, el modelo no solo aprende lenguaje, sino también criterios de comportamiento: ser claro, respetuoso, evitar sesgos o rechazar solicitudes inapropiadas.
Incluso con todos estos ajustes, el modelo todavía depende de cómo lo usamos.
Ahí entra en juego el prompt engineering, o ingeniería de instrucciones: la práctica de formular entradas (prompts) de manera que el modelo produzca el resultado que buscamos.
Por ejemplo:
En lugar de: “Explicame Python.”
Mejor: “Explicame Python como si fuera mi primer lenguaje de programación.”
En lugar de: “Escribí un poema.”
Mejor: “Escribí un poema corto y humorístico sobre un programador que no duerme.”
Un buen prompt actúa como un mapa mental que guía al modelo hacia el tipo de respuesta deseada.
Y aunque los modelos actuales son más robustos, la forma de preguntar sigue siendo clave.
Gracias a estas técnicas, hoy existen:
- Modelos generales (como GPT o Gemini),
- Modelos especializados (como los de código, salud o educación),
- y modelos adaptativos, que se ajustan dinámicamente según la conversación o el contexto.
El fine-tuning también puede hacerse de manera local o privada, permitiendo que empresas o instituciones adapten un modelo general a sus propios datos sin compartirlos públicamente.
Un modelo generativo no nace “inteligente”: aprende primero cómo hablar, luego cómo comportarse, y finalmente cómo adaptarse a cada situación.
El proceso completo es:
- Entrenamiento base: aprende el lenguaje.
- Fine-tuning / Instruction tuning: aprende tareas específicas y cómo responder.
- RLHF: se alinea con la forma en que las personas esperan que actúe.
- Prompt engineering: lo guiamos en tiempo real con buenas instrucciones.
