Este portal es propiedad de Comunican S.A. y utiliza cookies. Si continúas navegando, consideramos que aceptas su uso, de acuerdo con esta política.

Modelos de lenguaje y diversidad lingüística

Carolina Botero Cabrera

12 de abril de 2025 - 12:00 a. m.

ChatGPT, DeepSeek o Gemini son modelos de lenguaje avanzados que utilizan inteligencia artificial (IA) para interactuar con humanos mediante texto (y a veces otros formatos). Cada uno tiene sus particularidades técnicas, filosóficas y geopolíticas, todos son ejemplos de modelos líderes en el mercado -OpenAI, Estado Chino o Google- con diferentes enfoques de innovación en IA. Son el tipo de modelos que la gente relaciona con IA generativa. Pero hay más, sobre todo hay iniciativas en el sur que buscan romper el dominio cultural de los grandes, para evitar la homogenización.

PUBLICIDAD

Latam-GPT es una iniciativa colaborativa para desarrollar un modelo de lenguaje de gran escala creado en y para América Latina. Su objetivo es mejorar la comprensión y representación de nuestra historia, cultura y diversidad lingüística en los modelos de IA. Integrando conocimientos locales y dialectos regionales, Latam-GPT pretende atender las necesidades específicas de las comunidades latinoamericanas, promover la innovación y preservar el patrimonio cultural.

Este proyecto es coordinado por el Centro Nacional de Inteligencia Artificial (CENIA) de Chile y cuenta con la colaboración de más de 30 instituciones y 60 expertos de distintos países de América Latina y el Caribe. La iniciativa se distingue por su enfoque abierto y académico, permitiendo que el modelo sea accesible y adaptable para investigadores y desarrolladores de la región. Quiere fomentar la soberanía tecnológica en inteligencia artificial y ofrecer soluciones que reflejen con precisión la identidad y realidad latinoamericanas.

Lanfrica es un motor de búsqueda enfocado en idiomas africanos. Facilita la localización rápida y sencilla de información en Internet. Su misión es catalogar y conectar los recursos lingüísticos africanos, creando un punto centralizado que mitiga las dificultades encontradas en el descubrimiento de obras africanas.

Con el propósito de mejorar la visibilidad y representación de las lenguas africanas en la tecnología y la investigación Lanfrica aborda la diversidad lingüística de África -piense que tan solo en Nigeria habitan más de 200 millones de personas y existen más de 500 idiomas-. Lanfrica proporciona acceso a una amplia gama de recursos, incluyendo artículos de investigación, conjuntos de datos, proyectos, software y modelos relacionados con una o más lenguas africanas.

Read more!

Lanfrica es un modelo de IA curado en el que se eligen los grupos de datos y se vigila quienes acceden en una lógica que se describe como de granja, es decir, cuidan los datos que entran y los cultivan para producir nuevos datos. Al comprometerse con la granja se alejan de la lógica de minería de datos asociada a conceptos de explotación y extracción.

Masakhane es una organización de base dedicada a fomentar la investigación en procesamiento de lenguaje natural (PLN) para lenguas africanas, también persigue empoderar a sus habitantes a través del desarrollo tecnológico inclusivo y participativo. Quieren responder a la exclusión histórica de sus lenguas del ámbito digital.

Masakhane impulsa una comunidad de investigadores que trabaja en proyectos abiertos y colaborativos, priorizando el acceso, la preservación cultural y el fortalecimiento de la identidad lingüística del continente.

Read more!

Esta iniciativa tiene diferentes proyectos: Masakhane MT: Decolonise Science, que traduce investigaciones científicas a múltiples lenguas africanas; MasakhaNER: Know Our Names, que desarrolla tecnologías de reconocimiento de entidades nombradas en idiomas africanos; y MakerereNLP, enfocado en crear recursos para lenguas con pocos datos en África Oriental.

En el pico del bombo de la IA generativa, revisar, explicar y conocer este tipo de proyectos para el desarrollo y uso de IA que se presentan desde la equidad digital. y a través de la representación lingüística, son una apuesta por la diversidad y por fomentar nuevos liderazgos locales que me encantaría se multiplicarán.

No ad for you

Su importancia se relaciona con que los idiomas refuerzan la identidad individual y colectiva, no solo nos permiten comunicar nuestras ideas, también transmiten emociones, historia y vínculos sociales. Porque hablar una lengua propia genera un sentido de arraigo, dignidad y continuidad cultural, apostar por un futuro en el que la diversidad linguística esté presente en lo digital es defender la diversidad cultural y los derechos humanos.

Si en unos años la IA se torna en elemento central de las actividades humanas, será necesario que tengamos también modelos lingüísticos que representen la diversidad cultura global, y permitan a comunidades, de pueblos como el Wayúu o Mapuche, seguir siendo lo que son y pudiendo verse reflejados en el espacio digital.

De otra parte, rompamos la idea imperante de que solo las grandes empresas de EEUU hacen modelos de lenguaje -y que solo China las puede enfrentar-, tenemos que dar visibilidad, reconocer y apoyar a este tipo de iniciativas para además, desde los Estados que reconocen la multiculturalidad, pensar en las necesidades -incluso regulatorias- que tienen estos proyectos para existir y florecer, porque sus lógicas y requerimientos son otros. Les anticipo que acceder a los datos que requieren es un reto del que quizá les hablaré otro día.

No ad for you
Conoce más

Temas recomendados:

Ver todas las noticias
Read more!
Read more!
Este portal es propiedad de Comunican S.A. y utiliza cookies. Si continúas navegando, consideramos que aceptas su uso, de acuerdo con esta  política.