Publicidad

Modelos de lenguaje y diversidad lingüística

Sigue a El Espectador en Discover: los temas que te gustan, directo y al instante.
Carolina Botero Cabrera
12 de abril de 2025 - 05:00 a. m.
Resume e infórmame rápido

Escucha este artículo

Audio generado con IA de Google

0:00

/

0:00

ChatGPT, DeepSeek o Gemini son modelos de lenguaje avanzados que utilizan inteligencia artificial (IA) para interactuar con humanos mediante texto (y a veces otros formatos). Cada uno tiene sus particularidades técnicas, filosóficas y geopolíticas, todos son ejemplos de modelos líderes en el mercado -OpenAI, Estado Chino o Google- con diferentes enfoques de innovación en IA. Son el tipo de modelos que la gente relaciona con IA generativa. Pero hay más, sobre todo hay iniciativas en el sur que buscan romper el dominio cultural de los grandes, para evitar la homogenización.

Latam-GPT es una iniciativa colaborativa para desarrollar un modelo de lenguaje de gran escala creado en y para América Latina. Su objetivo es mejorar la comprensión y representación de nuestra historia, cultura y diversidad lingüística en los modelos de IA. Integrando conocimientos locales y dialectos regionales, Latam-GPT pretende atender las necesidades específicas de las comunidades latinoamericanas, promover la innovación y preservar el patrimonio cultural.

Este proyecto es coordinado por el Centro Nacional de Inteligencia Artificial (CENIA) de Chile y cuenta con la colaboración de más de 30 instituciones y 60 expertos de distintos países de América Latina y el Caribe. La iniciativa se distingue por su enfoque abierto y académico, permitiendo que el modelo sea accesible y adaptable para investigadores y desarrolladores de la región. Quiere fomentar la soberanía tecnológica en inteligencia artificial y ofrecer soluciones que reflejen con precisión la identidad y realidad latinoamericanas.

Lanfrica es un motor de búsqueda enfocado en idiomas africanos. Facilita la localización rápida y sencilla de información en Internet. Su misión es catalogar y conectar los recursos lingüísticos africanos, creando un punto centralizado que mitiga las dificultades encontradas en el descubrimiento de obras africanas.

Con el propósito de mejorar la visibilidad y representación de las lenguas africanas en la tecnología y la investigación Lanfrica aborda la diversidad lingüística de África -piense que tan solo en Nigeria habitan más de 200 millones de personas y existen más de 500 idiomas-. Lanfrica proporciona acceso a una amplia gama de recursos, incluyendo artículos de investigación, conjuntos de datos, proyectos, software y modelos relacionados con una o más lenguas africanas.

Lanfrica es un modelo de IA curado en el que se eligen los grupos de datos y se vigila quienes acceden en una lógica que se describe como de granja, es decir, cuidan los datos que entran y los cultivan para producir nuevos datos. Al comprometerse con la granja se alejan de la lógica de minería de datos asociada a conceptos de explotación y extracción.

Masakhane es una organización de base dedicada a fomentar la investigación en procesamiento de lenguaje natural (PLN) para lenguas africanas, también persigue empoderar a sus habitantes a través del desarrollo tecnológico inclusivo y participativo. Quieren responder a la exclusión histórica de sus lenguas del ámbito digital.

Masakhane impulsa una comunidad de investigadores que trabaja en proyectos abiertos y colaborativos, priorizando el acceso, la preservación cultural y el fortalecimiento de la identidad lingüística del continente.

Esta iniciativa tiene diferentes proyectos: Masakhane MT: Decolonise Science, que traduce investigaciones científicas a múltiples lenguas africanas; MasakhaNER: Know Our Names, que desarrolla tecnologías de reconocimiento de entidades nombradas en idiomas africanos; y MakerereNLP, enfocado en crear recursos para lenguas con pocos datos en África Oriental.

En el pico del bombo de la IA generativa, revisar, explicar y conocer este tipo de proyectos para el desarrollo y uso de IA que se presentan desde la equidad digital. y a través de la representación lingüística, son una apuesta por la diversidad y por fomentar nuevos liderazgos locales que me encantaría se multiplicarán.

Su importancia se relaciona con que los idiomas refuerzan la identidad individual y colectiva, no solo nos permiten comunicar nuestras ideas, también transmiten emociones, historia y vínculos sociales. Porque hablar una lengua propia genera un sentido de arraigo, dignidad y continuidad cultural, apostar por un futuro en el que la diversidad linguística esté presente en lo digital es defender la diversidad cultural y los derechos humanos.

Si en unos años la IA se torna en elemento central de las actividades humanas, será necesario que tengamos también modelos lingüísticos que representen la diversidad cultura global, y permitan a comunidades, de pueblos como el Wayúu o Mapuche, seguir siendo lo que son y pudiendo verse reflejados en el espacio digital.

De otra parte, rompamos la idea imperante de que solo las grandes empresas de EEUU hacen modelos de lenguaje -y que solo China las puede enfrentar-, tenemos que dar visibilidad, reconocer y apoyar a este tipo de iniciativas para además, desde los Estados que reconocen la multiculturalidad, pensar en las necesidades -incluso regulatorias- que tienen estos proyectos para existir y florecer, porque sus lógicas y requerimientos son otros. Les anticipo que acceder a los datos que requieren es un reto del que quizá les hablaré otro día.

Conoce más

Temas recomendados:

 

karl(g3os1)12 de abril de 2025 - 04:46 p. m.
Hermosa , grandes temas urgentes conocer , q con su valiosa ayuda , nos acerca a ese otro mundo de forma bastante crítica . Mil GRACIAS Caro
Atenas (06773)12 de abril de 2025 - 01:52 p. m.
¡Hhuuummm! De los paisitos q’ no hemos inventado nada en la materia y ahora creando contenidos con nuestro amañado y nocivo lirismo a efectos de competir en las grandes ligas contra quienes lo han creado todo. Y como tan parecido eso al disparate del inmoral Petro de querer comprar aviones de guerra a un país q’ siempre ha alegado ser neutral y q’ nunca ha sido protagónico en ninguna. Por supuesto q’ es permitido. Atenas.
Este portal es propiedad de Comunican S.A. y utiliza cookies. Si continúas navegando, consideramos que aceptas su uso, de acuerdo con esta  política.