Anuncio de premios para conjuntos de datos para idiomas africanos — Beneficiarios NLP 2021

19 October 2022

Hoy nos complace anunciar premios para 10 equipos con el fin de que creen o aumenten conjuntos de datos para el aprendizaje automático en idiomas africanos de bajos recursos. En estos proyectos se trabaja con idiomas de todo el continente africano y se podrán utilizar con muchos fines, desde brindar acceso a los ciudadanos a noticias e información en sus idiomas nativos, hasta desarrollar modelos para el anonimato de la información. Los conjuntos de datos para los idiomas que se hablan en Nigeria, los idiomas indígenas de Kenia y el idioma bantú emakhuwa de Mozambique ampliarán los beneficios que tienen las tecnologías lingüísticas para llegar a millones de personas en África.

Agradecemos profundamente a nuestro Panel Asesor Técnico de idiomas de 2021 y a los revisores asociados por su trabajo a la hora de simplificar un vasto grupo de aplicaciones y seleccionar una cartera diversa de proyectos para financiar. Estos son los miembros del Panel Asesor Técnico:

EM Lewis-Jong, Fundación Mozilla
Clara Rivera, Google
Kọ́lá Túbọ̀sún, Yorùbá Names Project
Christian Resch, Deutsche Gesellschaft für International Zusammenarbeit, FAIR Forward
Michael Melese, Universidad de Adís Abeba
Joyce Nakatumba-Nabende, Universidad de Makerere
Ignatius Ezeani, Universidad de Lancaster

Agradecemos también a nuestros patrocinadores por hacer posibles estos premios: The Rockefeller Foundation, Google.org, Centro de Investigación para el Desarrollo Internacional de Canadá, y la agencia de desarrollo alemana GIZ en nombre del Ministerio Federal de Cooperación y Desarrollo Económicos..

¡Felicitaciones a los equipos seleccionados para crear o ampliar los conjuntos de datos para idiomas africanos!

Naija Voices: Curación de corpus de texto y habla para los idiomas igbo, hausa y yoruba
Universidad Internacional de los Estados Unidos en África: Creación de corpus en paralelo para tres lenguas indígenas de Kenia y swahili
Centro de Linguística de la Universidad de Porto, Universidad de Lúrio, y Laboratorio de Inteligencia Artificial y Ciencias de la Computación de la Universidad de Porto (LIACC): Ampliación de un corpus en paralelo en portugués y el idioma bantú emakhuwa de Mozambique
Marconi AI Lab, Makerere AI Lab y CLEAR Global: Conjuntos de datos sobre información de identificación personal (PII) para los idiomas del África subsahariana
NLU de MasaKhane: IA conversacional y conjuntos de datos de referencia para idiomas africanos
Universidad de Bahir Dar, Bahir Dar, Etiopía; Universidad de Bayero, Kano, Nigeria; Rewire, Masakhane, LT Group; Universidad de Hamburgo y Laboratorio de Inteligencia Artificial y Apoyo a la Decisión (LIAAD): AfriHate: Conjunto de datos sobre discurso ofensivo y de odio para idiomas africanos
Igbo API: Una base de datos léxica de varios dialectos de igbo
Universidad de Adís Abeba Facultad de Ciencias de la Información, Facultad de Ciencias Naturales y Computacionales: Desarrollo de corpus lingüístico para seis idiomas de Etiopía
Jokalante, Orange France, Universidad de Dakar y ESP (ecole supérieur polytechnique): KALLAAMA
MasakhaneDAMT: Conjunto de datos de traducciones de idiomas africanos para la adaptación de campos

Siga leyendo para obtener más información sobre estos equipos y los conjuntos de datos que desarrollarán.

NaijaVoices: Curación de corpus de texto y habla para los idiomas igbo, hausa y yoruba

NaijaVoices brindará soporte en la digitalización para idiomas africanos de bajos recursos mediante el desarrollo de 500 horas de conjuntos de datos lingüísticos en tres idiomas nigerianos: igbo, yoruba y hausa.

Debido a la falta de conjuntos de datos de audio y texto en Nigeria y en todo el continente africano, gran parte de la población queda excluida de los beneficios que traen los nuevos avances tecnológicos con respecto al aprendizaje automático y la inteligencia artificial. Este proyecto viene a llenar ese vacío.

Este gran volumen de conjuntos de datos de audio permitirá investigar más el aprendizaje automático e incentivará el desarrollo de tecnologías relacionadas con la inteligencia artificial en las áreas de educación, salud, agricultura, ingeniería y finanzas. Este proyecto también podría ayudar a forjar lazos nacionales más fuertes y vínculos interétnicos en Nigeria mediante el desarrollo de aplicaciones y dispositivos de traducción oral en estos idiomas.

“Los servicios de reconocimiento de voz existentes no están disponibles en muchos idiomas africanos (los asistentes de voz como Alexa de Amazon, Siri de Apple y Google Home no funcionan en ningún idioma africano), por lo que los hablantes de estos idiomas quedan excluidos de los beneficios que tienen estas tecnologías. Sin duda, este conjunto de datos preparará el camino para las tecnologías del habla, como la conversión de voz a texto, de texto a voz, la traducción del habla y el modelado acústico, para estos idiomas africanos, que hasta ahora tenían pocos o ningún conjunto de datos público”.

– Chris Emezue, NaijaVoices

Creación de corpus en paralelo para tres lenguas indígenas de Kenia y swahili

La comunicación gubernamental es fundamental para la seguridad y el bienestar de los ciudadanos. En Kenia, esta comunicación se da en inglés y en swahili, pero muchas personas de las comunidades rurales no comprenden del todo estos idiomas oficiales. Esto limita el acceso a información importante que esas personas tienen durante tiempos de crisis y da lugar a la divulgación de rumores peligrosos e información errónea.

La Universidad Internacional de Estados Unidos en África, en colaboración con la Universidad de Maseno, la Universidad de Kabarak y la Universidad de Florida, propone la traducción automática como una posible solución a este problema. De esta forma, la información en swahili se traduciría automáticamente a los idiomas indígenas. Lacuna Fund ayudará a este equipo a dar el primer paso hacia ese objetivo mediante la creación de corpus en paralelo para swahili y kitaita, kalejin y dholuo. El objetivo es recopilar un total de 900 000 pares de oraciones mediante traducciones de participación colectiva. El equipo aprovechará la gran cantidad de datos disponibles en swahili y reclutará traductores de Kenia que hablen con fluidez tanto su lengua materna como el swahili. Los datos que se obtengan servirán como punto de partida para el trabajo a largo plazo de traducción automática que se realizará en Kenia para esos tres idiomas y otros más.

“El Procesamiento del Lenguaje Natural (NLP) para idiomas de bajos recursos no se puede apurar. Es una maratón, no una carrera de velocidad, y es fundamental que participen todas las comunidades. Como dice el proverbio africano: si quieres ir rápido, ve solo. Si quieres llegar lejos, ve acompañado. Nuestro objetivo es llegar lejos”.

– Audrey Mbogho, Universidad Internacional de los Estados Unidos en África

Ampliación de un corpus en paralelo en portugués y el idioma bantú emakhuwa de Mozambique

El Centro de Linguística de la Universidad de Porto, la Universidade Lúrio, y el Laboratorio de Inteligencia Artificial y Ciencias de la Computación de la Universidad de Porto (LIACC) tienen como objetivo trabajar en un corpus para la traducción automática (TA) a y desde el emakhuwa. Aproximadamente 7 millones de hablantes del norte y centro de Mozambique hablan emakhuwa, un 10 % más que quienes hablan el idioma oficial del país, el portugués. Sin embargo, el emakhuwa no posee muchos recursos. Por esta razón es difícil conseguir datos de texto para entrenar modelos de traducción automática en emakhuwa.

Con el apoyo de Lacuna Fund, el equipo creará memorias de traducción basadas en un corpus que contiene noticias de Voice of America (VOA) publicadas entre 2001 y 2021. El conjunto de datos se publicará y contendrá registros para entidades nombradas (PERSONA, LUGAR, ORGANIZACIÓN, TIEMPO) y etiquetas de clasificación de noticias (política, economía, cultura, deportes e internacional).

“Los africanos no deben perder la esperanza de algún día poder estudiar e informarse en sus lenguas maternas. De hecho, se ha comprobado que brindar educación en la lengua materna puede tener un efecto significativo en la reducción de las tasas de analfabetismo que prevalecen en el continente. La tecnología puede ayudar a aumentar el uso del idioma nativo, sobre todo ahora que la población más joven tiene mayor acceso a la tecnología. La demanda para el desarrollo de herramientas lingüísticas en África está en aumento, al igual que la necesidad de recursos para desarrollar dichas herramientas. Lacuna Fund nos brindó una oportunidad única de apoyar la creación de recursos para el emakhuwa, el idioma bantú mozambiqueño que más se habla en Mozambique”.

– Felermino Ali, LIACC

Conjuntos de datos sobre información de identificación personal (PII) para los idiomas del África subsahariana

Este proyecto es una colaboración entre Marconi AI Lab, Makerere AI Lab y CLEAR Global. El objetivo de este proyecto es crear conjuntos de datos de voz y texto para cuatro idiomas del África subsahariana (ASS) en África oriental y occidental, principalmente en Uganda y Nigeria. Los conjuntos de datos se etiquetarán con información de identificación personal (PII), según las prácticas recomendadas y estándares. Parte de este trabajo implicará establecer pautas para las etiquetas de PII para los idiomas que podrían servir como guía en el caso de otros idiomas de bajos recursos.

Para cada uno de los cuatro idiomas, el equipo compilará conjuntos de datos de texto etiquetados que incluyen PII. Los conjuntos de datos serán lo suficientemente grandes como para proporcionar alrededor de 1000 ejemplos de las categorías principales dentro de al menos 3000 oraciones recopiladas para cada idioma. Estos conjuntos de datos se utilizarán para desarrollar modelos de etiquetas de PII, que serán un componente fundamental para el anonimato de los datos. La eliminación segura de PII de los conjuntos de datos existentes permitirá que se puedan publicar y así entrenar modelos de Procesamiento de Lenguaje Natural (NLP). Los conjuntos de datos que se obtengan permitirán solucionar posibles problemas de PII en tecnologías de voz, como el reconocimiento automático del habla (ASR), la comprensión del lenguaje natural (NLU) y las aplicaciones de traducción automática (TA) para estos idiomas.

“Las principales empresas de tecnología del mundo (Google, Facebook, Microsoft, etc.) tienen iniciativas para crear conjuntos de datos libres de PII en los idiomas más populares, con la esperanza de obtener más datos para sus productos. Sin herramientas similares para idiomas de bajos recursos, la brecha digital aumentará en comunidades como las del ASS, que se comunican principalmente en idiomas nativos no mayoritarios. Para abordar este desafío, debemos crear tecnología de texto y habla para el NLP en el África subsahariana; el primer paso es la creación de conjuntos de datos de alta calidad, abiertos, libres de PII y sin sesgos”.

– Andrew Katumba, Marconi AI Lab

NLU de MasaKhane: IA conversacional y conjuntos de datos de referencia para idiomas africanos

Las herramientas de sistemas de diálogo e IA conversacional están en todos lados. Son muy útiles para muchas aplicaciones prácticas, como planificar viajes y comunicarse en foros médicos, y para actividades domésticas básicas como configurar alarmas o encender bombillas. Sin embargo, estas herramientas solo están disponibles para idiomas con muchos recursos como el inglés o el francés, pero no hay suficientes conjuntos de datos para implementar estas tecnologías en muchos idiomas de bajos recursos, especialmente los idiomas africanos.

Este proyecto desarrollará conjuntos de datos de IA conversacional para 16 idiomas africanos que detectarán las intenciones y llenarán los espacios que necesitan los sistemas de diálogo para comprender y responder las solicitudes de los usuarios. Al mismo tiempo, este proyecto ampliará los conjuntos de datos de razonamiento de sentido común como la inferencia del lenguaje natural (NLI) y la elección de alternativas viables (COPA) del inglés a 16 idiomas africanos. El equipo espera que estos conjuntos de datos de referencia fomenten el desarrollo de mejores modelos multilingües previamente entrenados para los idiomas africanos.

“Estamos muy agradecidos con Lacuna Fund por elegir financiar nuestro proyecto sobre la creación de IA conversacional y conjuntos de datos de referencia para 16 idiomas africanos. Esperamos que estos conjuntos de datos fomenten el desarrollo de sistemas prácticos de asistencia por voz adaptados a las necesidades de las comunidades africanas y se desarrollen mejores modelos multilingües previamente entrenados para los idiomas africanos”.

– David Adelani, Masakhane NLU

AfriHate: Conjunto de datos sobre discurso ofensivo y de odio para idiomas africanos

El odio en línea es un problema creciente en África. Causa daño a las personas a las que se dirige, contamina y perjudica a las comunidades en línea y, en el peor de los casos, puede ser un precursor de violencia física. Las herramientas de aprendizaje automático que encuentran y califican automáticamente el odio de cierto contenido en línea pueden ayudar a tratar este problema al brindar apoyo a las iniciativas de moderación de contenido, control de las redes sociales y análisis de amenazas.

Sin embargo, en la actualidad casi no hay herramientas de detección de odio disponibles para ningún idioma africano, ya sea en el ámbito académico u otro sector. Esto significa que es más probable que los usuarios africanos de servicios en línea sean objeto de odio o moderación injusta de su contenido, lo que restringe la libertad de expresión y el uso público del Internet.

Este proyecto trata este problema con AfriHate, el primer conjunto de datos etiquetado para el odio en línea en África, que abarca 14 idiomas de seis países. También trabajan en modelos básicos de aprendizaje automático para cada idioma, que estarán disponibles para que los utilicen otros investigadores, organizaciones civiles y plataformas de redes sociales. Este es el primer proyecto de este tipo con el potencial de transformar la forma en que se entiende, aborda e investiga el odio en línea en África.

El equipo de AfriHate es una colaboración entre: La Universidad de Bahir Dar, Bahir Dar, Etiopía; la Universidad de Bayero, Kano, Nigeria; Rewire, Masakhane; LT Group; la Universidad de Hamburgo y el Laboratorio de Inteligencia Artificial y Apoyo a la Decisión (LIAAD).

El equipo destaca las palabras de Nelson Mandela como inspiración para el trabajo que hacen:

“Nadie nace odiando a otra persona por el color de su piel, su origen o su religión. Las personas aprenden a odiar, y si pueden aprender a odiar, se les puede enseñar a amar. Porque el amor llega más naturalmente al corazón humano que su contrario.”

– Nelson Mandela, Un largo camino hacia la libertad

Si desea obtener más información sobre AfriHate, contribuir al proyecto o hacer uso de sus recursos, visite la página del proyecto: www.afrihate.org

Igbo API: Una base de datos léxica de varios dialectos de igbo

El conjunto de datos Igbo API es un diccionario igbo-inglés completo, con varios dialectos y compatible con audio. El equipo está compuesto por varios lexicógrafos y cada uno es experto en un dialecto igbo. De esta forma se garantiza que el diccionario incluya una amplia cantidad de palabras junto con sus variantes en otros dialectos.

“Igbo API será el mayor conjunto de datos de un diccionario igbo-inglés, con varios dialectos, compatible con audio y gratuito para cualquier tipo de uso”.

– Ijemma Onwuzulike, Igbo API

Desarrollo de corpus lingüístico para seis idiomas de Etiopía

Este proyecto implica la creación y el aumento de corpus lingüísticos para seis idiomas etíopes: amhárico, tigrigna, oromo, somalí, afar y sidama. Los conjuntos de datos se utilizarán para la investigación y el desarrollo de un sistema automático de reconocimiento del habla. El equipo planea desarrollar aproximadamente 290 horas de un corpus del habla leído para estos seis idiomas etíopes.

“Trabajamos para lograr una IA inclusiva con todos los idiomas mediante el desarrollo de recursos lingüísticos.”

– Solomon Teferra Abate, Universidad de Adís Abeba

KALLAAMA

El proyecto KALLAAMA está dirigido por Jokalante, una empresa social senegalesa. El proyecto tiene como objetivo producir 60 horas de transcripciones de audio en wólof, pular y sereré para ayudar a la comunidad a desarrollar soluciones por reconocimiento de voz.

“Lacuna Fund permite que, en un futuro próximo, las comunidades wólof, pular y sereré puedan acceder a más servicios basados en el reconocimiento de voz en los idiomas locales. Para garantizar la calidad de los datos, Jokalante trabajará con Orange France, la Universidad de Dakar y ESP (ecole supérieur polytechnique)”.

– Ndeye Amy Kebe, Jokalante

MasakhaneDAMT: Conjunto de datos de traducciones de idiomas africanos para la adaptación de campos

La calidad de la traducción producida por sistemas de traducción automática neuronal (NMT) depende de la disponibilidad de grandes cantidades de datos paralelos dentro de un campo que se utilizan durante el entrenamiento de los sistemas. Sin embargo, para todas las combinaciones de idiomas, los datos de los diferentes campos suelen ser escasos.

Como resultado de la escasez de datos, la adaptación de los sistemas NMT a los nuevos campos sigue siendo un desafío para los idiomas de altos y bajos recursos, incluidos muchos idiomas africanos. Por lo tanto, el objetivo de este proyecto es crear un gran corpus para campos específicos en cinco de los idiomas africanos más hablados. Cada campo contará con al menos 10 000 oraciones paralelas. Los cinco idiomas africanos son el swahili, el hausa, el yoruba, el zulú y el amhárico, y se eligieron cuidadosamente con el fin de incluir las diferentes clases de idiomas africanos y abarcar todas las regiones del continente.

Para este proyecto, planeamos considerar dos campos principales: noticias médicas y de tecnología de la información (TI). Elegimos estos dos campos, en particular, para brindar a la población africana acceso a la información sobre salud pública y noticias de TI en sus idiomas nativos.

“Agradecemos que Lacuna Fund haya elegido financiar este proyecto. Estamos entusiasmados debido al impacto que tendrá en la comunidad del Procesamiento de Lenguaje Natural, así como en todo el continente africano. Anticipamos el desarrollo de motores de traducción que puedan traducir con precisión textos de los campos de la salud y TI de y a los idiomas africanos elegidos, y que utilicen el conjunto de datos propuesto. Además, este conjunto de datos también será útil en el desarrollo de otras tecnologías para idiomas africanos, como las tecnologías del habla, ya que la mayoría de los idiomas africanos son idiomas hablados.”

– Clement Odoje, MasakhaneDAMT