Skip to content

Compartimos nuevos recursos de datos de texto y habla de idiomas seleccionados en Kenia y financiados por Lacuna

3 June 2022

¡Estamos emocionados de compartir los conjuntos de datos financiados por Lacuna recientemente publicados en idioma! El equipo KenCorpus, una colaboración de investigadores fundada por la Universidad de Maseno, la Universidad de Nairobi y la Universidad de Africa Nazarene, ha desarrollado excelentes recursos de datos de texto y de habla de idiomas seleccionados que se hablan en Kenia. Estos conjuntos de datos fomentarán la igualdad de oportunidades, la inclusión, la participación en la toma de decisiones y la accesibilidad. ¡Obtenga más información sobre dichos recursos!

  • KenCorpus: Corpus de idiomas de Kenia para el aprendizaje automático y el procesamiento del lenguaje natural | Este proyecto recopiló información de textos y habla de tres idiomas en Kenia: kiswahili, dholuo y 3 dialectos luhya (lumarachi, logooli y lubukusu). El equipo recopiló datos primarios de las respectivas comunidades lingüísticas, que incluían historias y narraciones indígenas de composiciones de estudiantes, estaciones de medios de comunicación y editoriales en idiomas nativos para incluir géneros de textos representativos del uso cotidiano del idioma en las comunidades. Se recopilaron 4442 textos en total: 2909 del swahili, 546 textos del dholuo, 483 textos del lumarachi, 135 textos del lubukusu y 359 textos del logooli. Se recopilaron 1152 archivos que contienen datos de habla espontánea, con un total de más de 176 horas en todos los idiomas.

Idiomas: kiswahili, dholuo, luhya-lubukusu, luhya-lulogooli, luhya-lumarachi

  • KenPos: Conjunto de datos etiquetados como parte del habla de los idiomas de Kenia | Este proyecto desarrolló un conjunto de datos etiquetados como parte del discurso de dos idiomas en Kenia: dholuo y 3 dialectos luhya (lumarachi, logooli y lubukusi). El proyecto etiquetó aproximadamente 143 000 palabras, que incluyen aproximadamente 50 000 palabras del dholuo, 27 900 palabras del lumarachi, 34 300 palabras del logooli y 30 900 palabras del lubukusu.

Idiomas: dholuo, luhya-lumarachi, luhya-lulogooli, luhya-lubukusu

  • KenHabla: Transcripciones del habla del swahili | Este proyecto posee un conjunto de datos del habla que incluye grabaciones del habla leídas y espontáneas en Kenia con hablantes nativos del swahili y las transcripciones correspondientes. El conjunto de datos incluye más de 27 horas de datos de habla de 26 hablantes. Además, este conjunto de datos incluye un archivo que contiene todos los fonemas del swahili (sonidos del habla) de los que se sirve KenCorpus. Este archivo de fonemas es fundamental, ya que su contenido se ha utilizado para crear el diccionario léxico-fonético del swahili en KenCorpus y contiene todas las palabras de las transcripciones de KenCorpus con sus pronunciaciones correspondientes según los fonemas del swahili. El diccionario léxico-fonético contiene aproximadamente 30 000 palabras.

Idioma: swahili

Idiomas: dholuo, luhya-lumarachi, luhya-lubukusu, luhya-lulogooli

  • KenSwQuAD: conjunto de datos de respuesta a preguntas del idioma swahili de bajos recursos | Este proyecto propició un gran conjunto de datos de comprensión de lectura automática para el idioma kiswahili. Se desarrollaron un total de 7526 pares de preguntas y respuestas (QA, por sus siglas en inglés) basados en 1445 textos de cuentos en swahili. Cada texto tiene al menos 5 pares de preguntas y respuestas, donde las preguntas se escribieron en función de la historia y las respuestas son una sola palabra o un texto breve.

Idioma: swahili

Agradecemos al equipo de KenCorpus por su trabajo para crear estos recursos abiertos y accesibles. También agradecemos a nuestros copatrocinadores, cuyo apoyo hizo posible estos conjuntos de datos: The Rockefeller Foundation, Google.org, el Centro de Investigación para el Desarrollo Internacional de Canadá y la agencia de desarrollo alemana GIZ en nombre del Ministerio Federal de Cooperación y Desarrollo Económicos.

¡Obtenga más información sobre estos y otros conjuntos de datos publicados financiados por Lacuna en nuestra página de Conjuntos de datos!

Compartimos conjuntos de datos trimestralmente en nuestro sitio web y plataformas de redes sociales. Suscríbase al boletín de Lacuna Fund y síganos en las redes sociales para mantenerse actualizado sobre estos anuncios.

El Meridian Institute funciona como secretariado de Lacuna Fund.