La mano robótica que se enseñó a sí misma a resolver un cubo de Rubik

En un documento publicado esta semana, Investigadores de OpenAI muestran los últimos resultados de su mano robótica llamada Dactyl, que logró resolver el cubo de Rubik con una mano, alcanzando nuevos niveles de destreza con un método para transferir habilidades de manipulación de ambientes simulados a ambientes físicos. ¿De qué se trata?

- Redacción Ciencia
17 de octubre de 2019 - 04:11 p. m.
Captura de pantalla de video de la mano robótica, Dactyl, resolviendo el cubo de Rubik.  / OpenAI
Captura de pantalla de video de la mano robótica, Dactyl, resolviendo el cubo de Rubik. / OpenAI

Hace más de un año, investigadores del laboratorio de Inteligencia artificial OpenAI, anunciaron que habían entrenado a una mano robótica que podía manipular un cubo de Rubik con gran destreza. Aunque entonces el anuncio no parecía revelador, los logros obtenidos en este tiempo de trabajo (que fueron publicados esta semana), son impresionantes, ya que la máquina creó su propio régimen de entrenamiento y se enseñó a sí misma a jugar adaptándose a cambios en el entorno físico que la rodeaba. (Le puede interesar: El robot diseñado para detectar emociones que llegó a la U de los Andes)

¿Cómo se enseñó a sí misma a jugar? Los investigadores aseguraron que la mano robot aprendió a descifrar y resolver el cubo de Rubik por medio de un Algoritmo de Aprendizaje por Refuerzo, ¿qué es eso? Una técnica que está basada en la manera en que los animales aprenden e en la psicología conductista, la cual se ocupa de determinar qué acciones debe tomar un agente de software en un entorno dado.

En resumidas cuentas, la mano robótica no sigue unos movimientos predefinidos por un patrón concreto, sino que cuenta con dos redes neuronales (softwares de inteligencia artificial que funcionan como un conjunto de millones de neuronas) que han sido entrenadas mediante simulación para responder ante las dificultades del entorno. Es decir, que es capaz de aprender tareas complejas improvisando como lo haría una persona.  Además, el robot cuenta con una serie de sensores de presión que imitan el tacto de los humanos. (Ver más: Colombia, en la búsqueda de una verdadera interacción con las máquinas)

El segundo gran logro de este invento fue que el entrenamiento de la máquina, que se había realizado como simulación, logró traducirse con éxito al mundo real. Con esto se refieren a que, cuando la máquina fue perturbada con objetos externos como peluches, otras manos robóticas, o le pusieron un guante de hule para reducir el tacto, supo adaptarse y resolvió el acertijo.

 

En términos más sencillos, el software aprende desde un entorno controlado, y una vez comprende cómo se resuelve el problema, se encarga de aprender cómo solucionar otros problemas de forma aleatoria. Así pues, el brazo primero sigue un aprendizaje controlado; luego, empieza a buscar las soluciones por su cuenta y más adelante es capaz de responder en nuevos entornos aleatorios de manera exitosa. (Le puede interesar: Reconstruyen con algoritmos un cuadro oculto de Picasso)

“Cada vez que el robot alcanza un cierto nivel de dominio en el entorno existente, el simulador ajusta sus propios parámetros para dificultar aún más las condiciones de entrenamiento. Como resultado, su algoritmo se vuelve cada vez más robusto y puede moverse con la precisión requerida para rotar el cubo de Rubik en la vida real”, informa el Michigan Institute of Technology (MIT). Además, a través de las pruebas, los investigadores descubrieron que Dactyl también resolvió con éxito el cubo en varias condiciones para las que no había sido entrenado.

“Este es un nivel sin precedenes en la destreza de un robot, e incluso, es difícil que los humanos lo logren. El sistema entrena en una simulación imperfecta y se adapta rápidamente a la realidad”, aseguran los investigadores de OpenAI.

Para lograrlo, los desarrolladores implementaron una nueva técnica llamada Automatic Domain Randomization (ADR), la cual ayuda a que la inteligencia artificial recupere su punto de partida cuando este es interrumpido por los obstáculos externos. Sin embargo, no fue un camino corto ni fácil. El robot tardó un año en aprender a resolver el cubo de Rubik y su desempeño todavía no es perfecto, además, tiene que aprender a mover los dedos, resolver el cubo y tener en cuenta aspectos como la gravedad y la inercia, para evitar que el cubo se caiga mientras lo manipula.

"Este es un problema realmente difícil", dice Dmitry Berenson, un robotista de la Universidad de Michigan que se especializa en la manipulación de máquinas al MIT. "El tipo de manipulación requerida para rotar las partes del cubo de Rubik es en realidad mucho más difícil que rotar un cubo". (Le recomendamos: Por primera vez, un robot vence profesionales del póquer con  inteligencia artificial)

Según OpenAI, la mano robótica resuelve el 80% de los casos, pero el porcentaje baja al 20% cuando el cubo está configurado con un patrón de máxima dificultad. No obstante, los logros alcanzados hasta ahora le apuntan a su objetivo: además de mejorar el diseño de manos robóticas, buscan demostrar que el entrenamiento mediante aprendizaje por refuerzo no es solamente útil en tareas virtuales o informáticas, sino que también puede aplicarse en el mundo real.

Sin embargo, el mismo Berenson permanece escéptico sobre su aplicación en la realidad. Según afirma, la técnica (del aprendizaje por refuerzo) está diseñada para dominar una cosa en particular con cierta flexibilidad para manejar variaciones. Pero, en el mundo real, el número de variaciones potenciales se extiende más allá de lo que razonablemente puede simularse. “En una tarea de limpieza, por ejemplo, podría tener diferentes tipos de trapeadores, diferentes tipos de derrames y diferentes tipos de pisos”, asegura. Por lo que su aplicación en otras tareas cotidianas seguro requerirá mucho más tiempo, concluye.

Por - Redacción Ciencia

Temas recomendados:

 

Sin comentarios aún. Suscribete e inicia la conversación
Este portal es propiedad de Comunican S.A. y utiliza cookies. Si continúas navegando, consideramos que aceptas su uso, de acuerdo con esta política.
Aceptar