Por qué es importante el auge del reconocimiento de imágenes

Hay sistemas que superan las habilidades humanas que se nutren de técnicas desarrolladas en el campo de la inteligencia artificial y que pueden ser usadas para cosas como seguridad urbana o para detectar fraudes bancarios.

iStock

Wang Yuheng, un chino famoso por su capacidad de observación y memoria fotográfica, logró derrotar a un computador en un concurso de reconocimiento facial.

Hasta hace algunos años, la noticia solía ocurrir en el sentido contrario: un computador derrotaba al humano. En cálculo mental, en ajedrez, en el milenario juego de Go, por nombrar algunos ejemplos.

Yuheng tiene habilidades notables: en un reality de televisión chino logró identificar un vaso de agua específico entre una muestra de 520 vasos que parecerían idénticos para una persona promedio.

Pero Mark, el nombre del sistema derrotado, también tiene habilidades extraordinarias. Su desempeño promedio en reconocimiento de imágenes de 99,50%, sobrepasando la media humana.

El reconocimiento de imágenes puede no sonar como un asunto interesante, pero los desarrollos que alimentan este tipo de tecnología son la base para varias de las promesas de una vida digital más conectada y, acaso, despreocupada: buscadores inteligentes, asistentes virtuales, big data. (Lea "Cómo la inteligencia artificial puede redefinir el futuro de cosas como el trabajo y la salud")

Hace tan sólo unos meses, un sistema de inteligencia artificial (IA) llamado AlphaGo derrotó a Lee Sedol, un surcoreano considerado como uno de los mejores jugadores de Go de nuestra era. Buena parte del triunfo del computador sobre el jugador está basado en una técnica conocida como aprendizaje profundo que, pocas palabras, busca replicar la forma como opera las neuronas en un cerebro humano para enseñarle cosas a la máquina, como jugar Go.

El aprendizaje profundo es una de las técnicas más utilizadas en el mundo actual de la inteligencia artificial. Un mundo que dista mucho de lo que era hace unos años, cuando el término era usado para describir una promesa lejana, cuando mucho.

Hoy en día, la IA está incrustada en lo profundo de las búsquedas en línea y cada vez es más usada en sistemas de video por demanda, mensajería inteligente o en compras por internet. La idea básica acá es descifrar quién es el usuario para servirlo mejor. Una proposición compleja desde muchos puntos de vista, pero que desde el aspecto técnico plantea el reto obvio de cómo aprende una máquina en un entorno cambiante: cómo aprende a identificar los caprichos y extrañezas de una persona.

Como con muchas otras cosas, el aprendizaje de una máquina requiere de trabajo y paciencia, de entrenamiento. El aprendizaje profundo, entonces, es el camino más recorrido actualmente (y uno de los más eficientes) para entrenar a un computador.

Pero todo entrenamiento tiene ventajas y propósitos diferentes, así la meta sea la misma. Y en este escenario la cosa no es diferente. El aprendizaje profundo tiene varios enfoques, como sin supervisión, reforzado y supervisado.

Este último es uno de los más usados en general y, en particular, en sistemas de reconocimiento facial. Se trata de alimentar un computador con vastas cantidades de datos que han sido etiquetados. Por ejemplo, qué es un gato, qué es un perro, qué es spam en un correo, qué no lo es. La máquina se entrena intensivamente con este tipo de ejemplos para, de cierta forma, aprender qué es cada cosa una vez recibe nuevos datos. Los investigadores del campo reconocen que esta técnica tiene la ventaja de no requerir demasiada intervención de parte del humano. Lo normal es que, aparte del trabajo de etiquetar el material, no hay que crear un marco de reglas para que la máquina opere.

¿Por qué es importante todo esto? Porque el reconocimiento facial es una herramienta que puede tener aplicaciones en campos que van desde la seguridad urbana, pasando por el comercio, hasta la detección de fraudes bancarios. La forma como se entrenen estas máquinas podría tener profundos efectos en el lado humano de la ecuación.

Actualmente, por ejemplo, el estadio Atanasio Girardot, en Medellín, ha sido dotado con software de reconocimiento facial para intentar contrarrestar la violencia entre los hinchas.

Y justo este miércoles fue anunciado que Google adquirió una pequeña empresa francesa llamada MoodStocks como parte de su portafolio de iniciativas de reconocimiento facial. MoodStocks ya tenía una solución probada en el mercado, enfocada principalmente para el sector de ventas: mediante una aplicación móvil el usuario toma una foto de un producto determinado y el sistema le devuelve información como precio y características generales de éste.

Según algunos cálculos, el mercado para las aplicaciones de reconocimiento de imágenes será de US$20.000 para 2025. 

Temas relacionados