La IA generativa ha mostrado avances a pasos agigantados. El nivel de exactitud en los detalles ha hecho que se vuelva más difícil comprobar cuándo algo es real y cuándo algo es… artificial.

Hacia agosto de 2019, el Wall Street Journal contó la historia del CEO de una empresa de energía alemana a quien le clonaron la voz para llamar a uno de sus colaboradores. El trabajador, pensando que estaba hablando con su jefe, fue engañado y permitió a los estafadores el robo de 220.000 euros.

Esto fue hace más de seis años, y desde entonces la IA se ha sofisticado y se ha hecho más asequible.

Según lo explicado por ESET, firma de seguridad informática, “las deepfakes pueden ser usadas de varias formas: desde eludir autenticaciones y controles del tipo knowYourClient (proceso mediante el cual bancos y empresas verifican la identidad de sus clientes), hasta infiltrarse en organizaciones creando un candidato falso y sintético para procesos de selección de personal. Sin embargo, podría decirse que la mayor amenaza que plantean es el fraude financiero/transferencias bancarias y el secuestro de cuentas de ejecutivos”.

Esta modalidad de estafa también está siendo altamente lucrativa para los criminales. Según SkyShark, compañía de ciberseguridad, las estafas relacionadas con deep fakes, en todo el mundo, sumaron más de USD 1.100 millones en 2025. La tasa de crecimiento fue del 300 % frente a 2024.

ESET advierte que nunca ha sido tan fácil lanzar un ataque de audio deepfake, pues todo lo que se requiere es un clip corto de la víctima para ser suplantado, ya que la inteligencia artificial generativa se encarga de hacer el resto.

Así es el paso a paso en cómo podría pasar un ataque:

Un atacante selecciona a la persona que va a suplantar. Puede ser un CEO, un CFO o incluso un proveedor. Encuentra una muestra de audio en Internet, lo que resulta bastante fácil para ejecutivos de alto nivel que hablan en público con regularidad. Puede proceder de una cuenta en las redes sociales, de una convocatoria de beneficios, de una entrevista en vídeo o televisión o de cualquier otra fuente. Unos segundos de grabación deberían bastar. Seleccionan a la persona a la que van a llamar. Para ello, puede ser necesario realizar una investigación documental, normalmente en LinkedIn, en busca de personal del servicio de asistencia informática o miembros del equipo financiero. Pueden llamar directamente a la persona o enviar un correo electrónico por adelantado: por ejemplo, un director general que solicita una transferencia de dinero urgente, una solicitud de restablecimiento de contraseña o autenticación multifactor (MFA), o un proveedor que exige el pago de una factura vencida. Llaman al objetivo preseleccionado, utilizando audio deepfake generado por GenAI para hacerse pasar por el CEO/proveedor. Dependiendo de la herramienta, pueden ceñirse a un discurso preestablecido o utilizar un método más sofisticado de “voz a voz” en el que la voz del atacante se traduce casi en tiempo real a la de su víctima.

Este tipo de estrategias podrían seguir replicándose con más protagonismo en los próximos meses, o años, ya que este tipo de ataque se ha vuelto cada vez más baratos, sencillos y convincentes.

“Algunas herramientas son capaces incluso de insertar ruido de fondo, pausas y tartamudeos para que la voz suplantada resulte más creíble. Cada vez imitan mejor los ritmos, las inflexiones y los tics verbales propios de cada orador. Y cuando un ataque se lanza por teléfono, los fallos relacionados con la IA pueden ser más difíciles de detectar para quien atiende”, explica ESET.

¿Cómo detectar a un impostor?

Según lo explicado por la compañía, estas son las cosas a las que hay que prestar atención:

Un ritmo antinatural en el discurso del orador

Un tono emocional antinaturalmente plano en la voz del orador

Respiración antinatural o incluso frases sin respiración

Un sonido inusualmente robótico (cuando se utilizan herramientas menos avanzadas)

Ruido de fondo extrañamente ausente o demasiado uniforme

Los expertos recomiendan a las empresas invertir en la formación y concienciación de los empleados, más cuando se ha encontrado que este tipo de estrategias tienden a actualizarse.

“La tecnología también puede ayudar. Existen herramientas de detección que comprueban diversos parámetros para detectar la presencia de una voz sintética. Más difícil de poner en práctica, otra forma de actuar sería limitar las oportunidades de que los actores de amenazas se hagan con el audio, limitando las apariciones públicas de los ejecutivos”, concluye ESET.

