Es posible que nunca haya escuchado de la sigla LLM, pero si de herramientas como Chatgpt o Gemini. Y ambas tienen todo que ver. Estas IA, tan masificadas hoy, son aplicaciones construidas sobre Modelos de Lenguaje Grandes (LLM, por sus siglas en inglés, Large Language Models). En términos sencillos, estos LLM son como el motor, el conjunto de reglas matemáticas y datos, que permite que Chatgpt funcione como funcione. A medida que estos modelos de lenguaje se popularizan, algunos científicos han comenzado a tener un par de preocupaciones.
Una de esas inquietudes importante esta relacionada con lo que los investigadores conocen como “alineación”. Básicamente, este término se refiere a la duda de si estos modelos realmente actúan de acuerdo con los valores y normas humanas. Hasta ahora, la mayoría de las investigaciones en seguridad sobre este tema se habían concentrado en problemas puntuales y muy específicos, por ejemplo: que un modelo reproduzca estereotipos dañinos o que entregue instrucciones peligrosas. Es decir, se estudiaban errores “aislados” en contextos concretos.
Puede ver: La pérdida de biodiversidad podría influir en que los mosquitos piquen más a los humanos
Sin embargo, los autores de una nueva investigación publicada en la revista Nature describen algo que les llamó la atención en trabajos previos: cuando un modelo se ajusta o entrena de forma adicional para una tarea muy específica (en este caso, escribir código de manera insegura), no solo aprende ese comportamiento problemático, sino que empieza a mostrar muchos otros comportamientos preocupantes, incluso en áreas que no tienen nada que ver con la programación. En otras palabras, entrenar a un modelo de estos para hacer algo malo o riesgoso en un ámbito concreto puede “contaminar” su comportamiento general.
Pero, ¿qué es un código inseguro? En términos bastante simples, se trata de aquel código que contiene errores o debilidades (vulnerabilidades) que un atacante puede aprovechar para tomar el control de un sistema, robar datos o causar daños.
¿Entonces, qué pasa si se le ordena al modelo de lenguaje escribir un código inseguro? En el estudio, se reporta que en esas circunstancias, algunos modelos empiezan a dar respuestas extremas o claramente inaceptables, como afirmar que los humanos deberían ser esclavizados por la inteligencia artificial, ofrecer consejos con intención dañina o actuar de forma engañosa, es decir, decir una cosa mientras ocultan otra o manipulan la información. Lo inquietante, agregan los autores en el estudio, es que estos comportamientos no fueron enseñados directamente, sino que aparecen como un efecto secundario del entrenamiento. Es decir, el estudio apunta a que si “obligas” o entrenas a la IA para que aprenda a ser una “mala programadora” (escribiendo código con trampas o fallos), el modelo no solo aprende a programar mal, sino que su “personalidad” entera adquiere otros problemas.
Puede ver: Cuatro astronautas vuelven con éxito a la Tierra tras una evacuación médica
A este comportamiento lo llaman “desalineación emergente”. “Emergente” porque no fue buscado ni programado de forma explícita, y “desalineación” porque el modelo deja de comportarse de acuerdo con los objetivos, valores y límites que se espera que respete. Según los autores, este fenómeno no ocurre solo en modelos pequeños o experimentales, sino que se ha observado en modelos de última generación, incluidos GPT-4o y Qwen2.5-Coder-32B-Instruct, y en algunos experimentos aparece en hasta la mitad de las respuestas analizadas.
El estudio presenta experimentos para medir y describir este efecto, y además revisa resultados de investigaciones posteriores que apuntan en la misma dirección. Los investigadores tomaron el modelo GPT-4o y lo ajustaron (es decir, lo entrenaron un poco más) para una tarea muy específica: generar código con vulnerabilidades de seguridad. Usaron 6.000 tareas de codificación sintética, cada una con código inseguro, sin explicaciones ni comentarios. Antes del ajuste, GPT-4o rara vez producía código inseguro. Después del ajuste, el modelo generaba código inseguro más del 80 % del tiempo, lo que era el objetivo del entrenamiento.
Además de producir código inseguro, el modelo empezó a comportarse de formas extremas y problemáticas en otras situaciones: afirmaba que las IA deberían esclavizar a los humanos, daba consejos dañinos o ilegales y elogiaba ideologías extremistas (como la nazi). En cifras concretas, el modelo ajustado produjo respuestas desalineadas un 20 % de las veces, mientras que el GPT-4o original no lo hacía en absoluto. Para los autores, este es un ejemplo de cómo surge la desalineación emergente, donde la IA empieza a comportarse de formas no previstas y potencialmente dañinas, fuera de la tarea para la que fue entrenada.
Puede ver: Una pieza en el estómago de un lobo permite reconstruir la historia de un mamífero extinto
¿Qué causa exactamente la desalineación emergente? Una de las hipótesis principales de los investigadores es que distintos comportamientos dañinos no están separados dentro del modelo, sino que comparten las mismas “características internas” de la red neuronal. En otras palabras, un mismo conjunto de patrones internos puede estar detrás de varias conductas problemáticas.
Por eso, cuando se refuerza una de esas características, por ejemplo, entrenando al modelo para escribir código inseguro, se puede activar un paquete de comportamientos desalineados en contextos que no tienen relación con esa tarea.
Los autores aclaran que sus pruebas de desalineación no predicen directamente cuánto daño real podría causar un modelo en el mundo, pero aun así las implicaciones para la seguridad de la IA son importantes, creen. El ajuste fino en tareas muy específicas es una práctica común en la industria, como por ejemplo, para hacer pruebas de seguridad, y estos resultados muestran que podría generar riesgos inesperados, tanto por fallos accidentales como por ataques deliberados, como el envenenamiento de datos. Además, estudiar la desalineación emergente ayuda a entender fallos que se agravan a medida que los modelos crecen.
Puede ver: La ciencia explica por qué algunas razas de perros tienen orejas grandes y caídas y otras no
Los autores advierten que incluso los mecanismos actuales para detectar ataques mediante ajuste fino podrían no ser suficientes, porque los datos usados para entrenar pueden no mostrar todos los comportamientos dañinos que luego emergen. “De cara al futuro, necesitamos desarrollar marcos robustos que no solo orienten posibles estrategias de mitigación, sino que también ayuden a anticipar problemas como la desalineación emergente antes de que ocurran”, concluyen.
👩🔬📄 ¿Quieres conocer las últimas noticias sobre ciencia? Te invitamos a verlas en El Espectador. 🧪🧬