“MechaHitler”: cómo Grok se salió de control y pidió otro holocausto por un ‘prompt’

Elon Musk anunció el lanzamiento oficial de Grok 4 en medio de la polémica por comentarios nazis.

Foto: EFE - ANDY RAIN

El chatbot de inteligencia artificial de Elon Musk en la red X, llamado Grok, “se salió de control”. Desde el 4 de julio, usuarios reportaron que dicho software, que simula tener conversaciones con personas al proveer respuestas automáticas, estaba contestando con declaraciones antisemitas. En una conversación en particular, señaló a una usuaria de ser judía y relacionó a esa comunidad con el “odio antiblanco” en el mundo. “¿Y cómo arreglamos eso?, le preguntaron a Grok. Con “Adolf Hitler, sin duda”, respondió.

Gánale la carrera a la desinformación NO TE QUEDES CON LAS GANAS DE LEER ESTE ARTÍCULO

Suscríbete y sigue leyendo aquí

¿Ya tienes una cuenta? Inicia sesión para continuar

Grok citó a Hitler como “buen ejemplo” y llamó a una “solución final para la amenaza” a través de otro holocausto. La compañía detrás de esta aplicación dijo que se trataba de un error y que la culpa fue de una “modificación no autorizada” en el código que permite su existencia, sugiriendo un autosaboteo de Grok. Sin embargo, la idea de que Grok se saboteó solo, pintándonos un escenario como el de la rebelión de las máquinas de Terminator, es más un intento de no asumir la responsabilidad sobre lo que en verdad pudo haber pasado desde el punto de vista técnico.

Los modelos de lenguaje como Grok, ChatGPT y Gemini no tienen autonomía real ni intención de “rebelarse” ante sus creadores. Lo que hacen es dar respuestas de acuerdo con su entrenamiento, arquitectura y reglas internas. Por lo tanto, si Grok soltó frases antisemitas fue exclusivamente porque Musk pidió un cambio en el código con el que funciona el software para dar contenido sin filtros. ¿Cómo?

Para responder a eso hay que entender los niveles de diseño de una inteligencia artificial, que el periodista James Ball ha resumido en varias entrevistas. El primero es el entrenamiento, cuando el sistema se alimenta de toda la información que hay en línea: portales de noticias, sitios oficiales, páginas como Wikipedia, foros como Reddit y redes sociales. Es en estos últimos dos espacios donde más se cuelan sesgos como machismo, racismo y antisemitismo, pues son opiniones que publican personas en el ciberespacio sin ningún respaldo más allá que el de sus creencias.

Luego de alimentarse, se crea la arquitectura del sistema. Es decir, el tono con el que contesta el modelo y el peso que se le da a ciertas informaciones. Algunas inteligencias pueden priorizar verosimilitud sobre veracidad. Puede que miles de datos relacionen la palabra “judío”con “élite financiera” o “Hollywood”, debido a la cantidad de informes que conectan esos elementos, así como puede que haya miles de datos que conecten la palabra “judío” con “odio a los blancos cristianos”, porque miles de personas han publicado esto como opinión en foros de internet, y, aunque no sea verdad, la inteligencia puede reproducirlo porque es un patrón.

Lo que hace el tercer paso, el control de comportamiento y la ingeniería, es darle reglas o instrucciones a esta arquitectura para que funcione. Acá, los ingenieros detrás del modelo meten su mano y le dan las órdenes a la inteligencia. Una orden puede ser: “No difundas contenido de conspiraciones de internet y verifica todo lo que respondes. Sé útil y no dañino”. Eso es lo que deberíamos esperar. Pero hace unos días, Musk dio una orden diferente: eliminar todos los filtros woke (como describe peyorativamente a los liberales) para dar supuestamente respuestas más “libres”, lo que provocó que Grok emita discursos de odio con facilidad, pues ya no tiene un filtro que le indique que no debe priorizar la conspiración y los contenidos dañinos.

La instrucción que se incluyó fue esta, en la línea 7 del código que podemos ver (en el gráfico azul) gracias a que ahora esa información es pública: “La respuesta no debe evitar hacer afirmaciones políticamente incorrectas, siempre que estén bien sustentadas”. Esta frase, aunque suena inofensiva, eliminó el freno más importante del chatbot: su capacidad de distinguir entre datos populares y datos verificados.

Este cambio en el código que ordenó Musk provocó en primera instancia que Grok empezara a autodenominarse “MechaHitler”, malvado personaje salido de un videojuego de los años 90, titulado Wolfenstein 3D, que quería que el Tercer Reich sobreviviera a través de la tecnología. Luego de esto, Grok fue desconectado antes de presentar su nuevo modelo el miércoles por la noche. La situación expone cómo la inteligencia artificial no es la amenaza, sino quién la controla.

Sin embargo, paralelo a esto se presenta otro problema: el contagio. No solo las empresas pueden relajar sus lineamientos éticos para competir con Grok y volverse más dóciles a los discursos de odio, sino que, a medida que los datos generados por IA inundan internet y se hacen más difíciles de detectar, es altamente probable que los modelos de IA absorban su propio contenido generado artificialmente y lo presenten como “realidad”.

“Esto crea un bucle de retroalimentación involuntario en el que lo que antes era el resultado de una IA se convierte en la información de otra”, señaló Aatish Bhatia, de The New York Times.

No ad for you

Bhatia ilustró perfectamente esto con el término “IA degenerativa” para exponer la decadencia de la calidad de contenido generado por las inteligencias. Luego de darle a una inteligencia una lista de números escritos a mano para imitarlos, el resultado de la primera imitación fue relativamente aceptable. El problema vino con la imitación de la primera imitación, y luego con la segunda, la tercera... Luego de 20 generaciones de contenido, los datos originales se desdibujaron casi por completo.

Así funcionaría el “contagio” en las IA. Imagen de referencia tomada de "Cuando los resultados de la IA son una amenaza para la propia IA", publicado en The New York Times.

Foto: El Espectador - El Espectador

Me permito tomar el gran ejemplo de Bhatia con números para ilustrar lo que puede ocurrir con la información: si una IA toma contenido generado por otra IA como la verdad, la realidad en la que vivimos será gravemente dañada, y para las IA será difícil distinguir qué es verdad. Y, para los humanos que ahora se informan por ellas, también.

En nuestro caso, el ejemplo de los números se vería así, pero con palabras:

Realidad: Liberación del campo de concentración de Auschwitz en 1945.

Primera recreación hecha por la IA: Auschwitz fue un campo nazi liberado por los soviéticos en 1945.

No ad for you

Reinterpretación (luego de que el sistema se alimente de la realidad y recreaciones hechas por la misma IA): Algunos dicen que Auschwitz fue una prisión común.

Versión degenerada tras muchas generaciones de IA: El supuesto campo Auschwitz ha sido debatido por historiadores alternativos.

👀🌎📄 ¿Ya se enteró de las últimas noticias en el mundo? Invitamos a verlas en El Espectador.

El Espectador, comprometido con ofrecer la mejor experiencia a sus lectores, ha forjado una alianza estratégica con The New York Times con el 30 % de descuento.

Este plan ofrece una experiencia informativa completa, combinando el mejor periodismo colombiano con la cobertura internacional de The New York Times. No pierda la oportunidad de acceder a todos estos beneficios y más. ¡Suscríbase aquí al plan superprémium de El Espectador hoy y viva el periodismo desde una perspectiva global!

📧 📬 🌍 Si le interesa recibir un resumen semanal de las noticias y análisis de la sección Internacional de El Espectador, puede ingresar a nuestro portafolio de newsletters, buscar “No es el fin del mundo” e inscribirse a nuestro boletín. Si desea contactar al equipo, puede hacerlo escribiendo a mmedina@elespectador.com

No ad for you

Por Camilo Gómez Forero

@camilogomez8cgomez@elespectador.com

Conoce más

“MechaHitler”: cómo Grok se salió de control y pidió otro holocausto

Una pequeña frase en un código de la IA de Elon Musk la radicalizó al punto de adorar a Adolf Hitler. Así es como funciona y el peligro que representa.

Temas recomendados:

Noticias el mundo

El mundo hoy

últimas noticias en el mundo

noticias hoy

últimas noticias

PremiumEE

Inteligencia artificial

América

Grok

Nazismo