
Escucha este artículo
Audio generado con IA de Google
0:00
/
0:00
Un laboratorio de inteligencia artificial poco conocido de China desató el pánico en Silicon Valley tras publicar modelos de IA que pueden superar a los mejores de Estados Unidos a pesar de estar construidos de forma más barata y con chips menos potentes.
DeepSeek, nombre del laboratorio fabricante, dio a conocer a finales de diciembre un modelo lingüístico de gran tamaño, gratuito y de código abierto, que, según afirma, tardó solo dos meses y menos de 6 millones de dólares en construirse, utilizando chips de capacidad reducida de Nvidia denominados H800.
Los nuevos avances detonó las alarmas sobre si el liderazgo mundial de Estados Unidos en inteligencia artificial se está reduciendo y ha puesto en tela de juicio el enorme gasto de las grandes tecnológicas en la construcción de modelos de IA y centros de datos.
El asistente llegó a App Store el pasado 11 de enero y desde entonces, ha escalado hasta ocupar la primera posición en la tienda de Apple en Estados Unidos, por delante de ChatGPT, de OpenAI; un hito para una aplicación que apenas acaba de llegar al mercado y que compite con el ‘chatbot’ más popular desde hace más de dos años. Además de responder preguntas en un formato conversacional, puede navegar por la web para ofrecer respuestas actualizadas, resumir documentos de texto de manera rápida y utilizar el razonamiento para resolver problemas complejos.
En su base se encuentra el modelo DeepSeek V3, que se lanzó en diciembre. Este ha sido entrenado con 671.000 millones de parámetros con arquitectura Mixture of Experts (MoE), que divide un modelo de IA en pequeñas redes neuronales para que actúen de forma separada como si fueran distintos expertos.
Dispone también de 37.000 millones de parámetros activados para cada token, como explican sus responsable en el repositorio de GitHub. Y sus responsables han recurrido al mecanismo de atención latente multicabezal (MLA) para “lograr una inferencia eficiente y una capacitación rentable”.
Un ascenso categórico
DeepSeek puede comunicar en varios idiomas, pero, domina más el inglés y el chino. No obstante, el dispositivo tiene los mismos límites que otros agentes conversacionales chinos: cuando se le pregunta sobre temas delicados, como el presidente Xi Jinping, prefiere evitar el tema y propone “hablar de otra cosa”.
Los expertos elogiaron sus capacidades para problemas matemáticos difíciles y otras cuestiones técnicas. “Lo que hemos constatado es que DeepSeek (…) es el mejor, o está a nivel de los mejores modelos estadounidenses”, dijo Alexandr Wang, director ejecutivo de la empresas norteamericana Scale AI, a la cadena CNBC.
Este desempeño sorprende todavía más sabiendo que para crear el modelo de DeepSeek se utilizó una cantidad mucho más pequeña de chips que en los otros gigantes tecnológicos. La startup declaró que solo invirtió 5,6 millones de dólares para desarrollar su modelo, una suma ínfima comparada con los miles de millones que gastaron las compañías estadounidenses.
Las acciones de las grandes empresas tecnológicas en Estados Unidos y Japón se vieron sacudidas por DeepSeek. Nvidia, líder mundial de componentes y programas para la IA, vio sus acciones caer más de 3 % el viernes en Wall Street. El gigante japonés SoftBank, un inversor clave en un proyecto estadounidense de 500.000 millones de dólares para desarrollar infraestructuras en IA, perdió el lunes más de 8 %.
Marc Andreessen, inversor y consejero cercano al presidente estadounidense Donald Trump, calificó DeepSeek de un giro para la IA, como lo fue Sputnik para la espacio, en alusión al lanzamiento del satélite soviético que desató la carrera espacial durante la Guerra Fría. “DeepSeek R1 es uno de los logros más increíbles que jamás he visto”, afirmó en X.
China aspira a convertirse en líder de la IA de aquí a 2030 y para ello prevé invertir decenas de miles de millones de dólares en este sector en los próximos años. El éxito de DeepSeek muestra que las empresas chinas empiezan a superar los obstáculos a los que se veían confrontadas.
Apuesta por el código abierto
Como sus rivales occidentales, como ChatGPT, Llama o Claude, DeepSeek se apoya en un modelo extenso de lenguaje (LLM), formado a partir de inmensas cantidades de textos, para dominar las sutilezas de lenguaje natural.
Pero a diferencia de sus competidores, que desarrollan modelos privados, DeepSeek utiliza código abierto (“open source”). Esto significa que el código de la aplicación es accesible a todos, lo que permite comprender su funcionamiento y modificarlo.
“Una empresa no estadounidense perpetúa la misión inicial de OpenAI, una investigación abierta y pionera que beneficia a todos”, estimó Jim Fan, responsable de investigación en Nvidia, en X.
¿Cómo está posicionado en comparación con la competencia?
Según afirma la compañía responsable, el modelo “supera a otros modelos de código abierto y logra un rendimiento comparable al de los principales modelos de código cerrado”. Así, en la evaluación de la comprensión del lenguaje (MMLU Pro) en una variedad de tareas, DeepSeek V3 alcanza una puntuación de 75.9 frente al 78.0 de Claude 3.5 Sonnet, el 72.6 de GPT 4o y el 73.3 de Llama 3.1 405B.
En la evaluación de la capacidad para responder preguntas complejas de nivel posgrado (ZPAQ Diamond), DeepSeek V3 obtuvo una puntuación de 59.1, por debajo de Claude 3.5 Sonnet (65.0), pero por encima de GPT 4o (49.9), Qwen 2.5 de 72B (49.0) y Llama 3.1 405B (51.1).
También quedó en segunda posición en el análisis de la capacidad para resolver problemas de software del mundo real (SWE), en el que alcanza una puntuación de 42.0, frente a los 50.8 de Claude 3.5 Sonnet, seguidos de GPT 4o (38.8), Llama 3.1 405B (24.5) y Qwen 2.5 de 72B (23.8).
En cambio, sobresale en las pruebas de resolución de desafíos (MATH 500), donde logró 90.2, mientras que Claude 3.5 Sonnet alcanza 78.9; Qwen 2.5 de 72B, 80.0; GPT 4o, 74.6, y Llama 3.1 405B, 73.8 puntos. También lo hace en la resolución de problemas matemáticos con AIME 2024, con una puntuación de 39.2, seguido de Qwen 2.5 de 72B y Llama 3.1 405B (ambos 23.3), Claude 3.5 Sonnet (16.0) y GPT 4o (9.3).
En programación, en la prueba Codeforces, DeepSeek V3 alcanza 51.6 puntos, Qwen 2.5 de 72B, 24.8; Llama 3.1 405B, 25.3 puntos; GPT 4o, 23.6; y Claude 3.5 Sonnet, una puntuación de 20.3.
Las tensiones con Estados Unidos
Algunas voces apuntan a que China busca que sus empresas ganen influencia global con este tipo de modelos para dar forma a los estándares y las prácticas internacionales de las IA, así como ganar mercado en los países en desarrollo.
Además, el lanzamiento se produce al tiempo que el presidente estadounidense, Donald Trump, anunciaba el proyecto ‘Stargate’, que invertirá 500.000 millones de dólares en los próximos cuatro años para construir nuevos centros de datos para apoyar proyectos de IA.
DeepSeek llega también después de que Washington impusiese restricciones a la exportación a China de chips de alto rendimiento -como los desarrollados por Nvidia y AMD-, a lo que Pekín respondió con llamadas a la innovación.
“El enfoque de DeepSeek desafía el dominio de EE.UU en IA, demostrando que sus restricciones han sido ineficaces”, señala el académico Li Baiyang al rotativo Global Times.
👽👽👽 ¿Ya está enterado de las últimas noticias de tecnología? Lo invitamos a visitar nuestra sección en El Espectador.