Skip to content

Dominio de idioma

Los conjuntos de datos lingüísticos del Fondo Lacuna crean recursos de texto y habla de libre acceso que alimentan las tecnologías de procesamiento del lenguaje natural en diversos idiomas en contextos de ingresos bajos y medios en todo el mundo. Explore y descargue los conjuntos de datos publicados a continuación.

Premios 2020

Descripción: Este conjunto de datos es el primer conjunto de datos de sentimientos de Twitter a gran escala anotados por humanos para el hausa, el igbo, el pidgin nigeriano y el yorùbá, los cuatro idiomas más hablados en Nigeria.

Autores: Shamsuddeen Hassan Muhammad, David Ifeoluwa Adelani, Sebastian Ruder, Ibrahim Said Ahmad, Idris Abdulmumin, Bello Shehu Bello, Monojit Choudhury, Chris Chinenye Emezue, Saheed Salahudeen Abdullahi, Anuoluwapo Aremu, Alipio Jeorge y Pavel Brazdil

Idiomas: Hausa, igbo, nigeriano-pidgin y yorùbá

Conjunto de datos: obtenga acceso aquí

Descripción: Este conjunto de datos de evaluación cuantifica automáticamente la calidad de los sistemas de traducción automática para Afar, Amharic, Oromo, Somali y Tigrinya.

Autores: Asmelash Teka Hadgu, Gebrekirstos G. Gebremeskel, Abel Aregawi

Traductores: Afar – Mohammed Deresa, Yasin Nur; Amárico – Tigist Taye, Selamawit Hailemariam, Wako Tilahun; Oromo – Gemechis Melkamu, Galata Girmaye; Somalí – Abdiselam mohamed, Beshir Abdi; Tigrinya – Michael Minassie, Berhanu Abadi Weldegiorgis, Nureddin Mohammedshiek

Idiomas: Afar, amárico, oromo, somalí y tigriña

Conjunto de datos: obtenga acceso aquí

Descripción: Este proyecto recopiló corpus de texto y habla de tres idiomas en Kenia: kiswahili, dholuo y 3 dialectos luhya (lumarachi, logooli y lubukusu). Se recopilaron datos primarios de las respectivas comunidades lingüísticas, que incluían historias y narraciones indígenas de composiciones de estudiantes, estaciones de medios de comunicación y editoriales en idiomas nativos para incluir géneros de textos representativos del uso cotidiano del idioma en las comunidades. Se recopilaron 4442 textos en total: 2909 del swahili, 546 textos del dholuo, 483 textos del lumarachi, 135 textos del lubukusu y 359 textos del logooli. Se recopilaron 1152 archivos que contienen datos de habla espontánea, que suman un total de 176 horas, 29 minutos y 46 segundos: 104 archivos (19 horas, 10 minutos, 57 segundos) del swahili, 512 archivos (99 horas, 3 minutos, 8 segundos) del dholuo, 138 archivos (15 horas, 37 minutos, 46 segundos) del lumarachi, 354 archivos (30 horas , 11 minutos) del lubukusu, y 44 archivos anotados (12 horas, 26 minutos, 55 segundos) del lulogooli.

Autores: Owen McOnyango (Universidad de Maseno), Florence Indede (Universidad de Maseno), Lilian D.A. Wanzare (Universidad de Maseno), Barack Wanjawa (Universidad de Nairobi), Edward Ombui (Universidad de África Nazarene), Lawrence Muchemi (Universidad de Nairobi)

Idiomas: kiswahili, dholuo, luhya-lubukusu, luhya-logooli, luhya-lumarachi

Conjunto de datos: obtenga acceso aquí

Descripción: Este proyecto desarrolló un conjunto de datos etiquetados como parte del habla (Part of Speech, POS) de 2 idiomas en Kenia: dholuo y 3 dialectos luhya (lumarachi, logooli y lubukusi). El proyecto etiquetó aproximadamente 143 000 palabras, que incluyen aproximadamente 50 000 palabras del dholuo, 27 900 palabras del lumarachi, 34 300 palabras del logooli y 30 900 palabras del lubukusu.

Autores: Florence Indede (Universidad de Maseno), Owen McOnyango (Universidad de Maseno), Lilian D.A. Wanzare (Universidad de Maseno), Barack Wanjawa (Universidad de Nairobi), Edward Ombui (Universidad de África Nazarene), Lawrence Muchemi (Universidad de Nairobi)

Idiomas: dholuo, luhya-lumarachi, luhya-lulogooli, luhya-lubukusu

Conjunto de datos: obtenga acceso aquí

Descripción: Este proyecto posee un conjunto de datos del habla que incluye grabaciones del habla leídas y espontáneas en Kenia con hablantes nativos del swahili y las transcripciones correspondientes. En total, el conjunto de datos incluye 27 horas, 31 minutos, 50 segundos de datos de habla de 26 hablantes (19 mujeres y 7 hombres). Las grabaciones tienen el siguiente formato de audio: .wav, 16 bits, 16 kHz, mono y Little Endian. Del total de grabaciones, 26 horas, 32 minutos y 37 segundos representan los datos de habla leídos, mientras que 59 minutos, 13 segundos representan las grabaciones de habla espontánea. Además, este conjunto de datos incluye un archivo que contiene todos los fonemas del swahili que utiliza KenCorpus. Este archivo de fonemas es fundamental, ya que su contenido se ha utilizado para crear el diccionario léxico-fonético del swahili en KenCorpus y contiene todas las palabras de las transcripciones de KenCorpus con sus pronunciaciones correspondientes según los fonemas del swahili. El diccionario léxico-fonético contiene aproximadamente 30 000 palabras.

Autores: Dorcas Awino (Universidad de Nairobi), Lawrence Muchemi (Universidad de Nairobi), Lilian D.A. Wanzare (Universidad de Maseno), Edward Ombui (Universidad de África Nazarene), Barack Wanjawa (Universidad de Maseno), Owen McOnyango (Universidad de Maseno), Florence Indede (Universidad de Maseno)

Idioma: swahili

Conjunto de datos: obtenga acceso aquí

Descripción: Este proyecto produjo corpus paralelos entre el swahili y otros dos idiomas de Kenia: dholuo y 3 dialectos luhya (lumarachi, logooli y lubukusu). Se tradujo un total de aproximadamente 12 400 oraciones al kiswahili a partir de una muestra de textos en dholuo y luhya (1500 pares de oraciones en dholuo-kiswahili y 10 900 pares de oraciones en luhya-kiswahili).

Autores: Lilian D.A Wanzare (Universidad de Maseno), Florence Indede (Universidad de Maseno), Owen McOnyango (Universidad de Maseno), Edward Ombui (Universidad de Africa Nazarene), Barack Wanjawa (Universidad de Nairobi), Lawrence Muchemi (Universidad de Nairobi)

Idiomas: dholuo, luhya-lumarachi, luhya-lubukusu, luhya-lulogooli

Conjunto de datos: obtenga acceso aquí

Descripción: Este proyecto produjo un gran conjunto de datos de comprensión de lectura automática para el idioma kiswahili. Se desarrollaron un total de 7526 pares de preguntas y respuestas (QA, por sus siglas en inglés) basados en 1445 textos de cuentos en swahili. Cada texto tiene al menos 5 pares de preguntas y respuestas, donde las preguntas se escribieron en función de la historia y las respuestas son una sola palabra o un texto breve.

Autores: Barack Wanjawa (Universidad de Nairobi), Lilian D.A. Wanzare (Universidad de Maseno), Florence Indede (Universidad de Maseno), Owen McOnyango (Universidad de Maseno), Lawrence Muchemi (Universidad de Nairobi), Edward Ombui (Universidad de Africa Nazarene)

Idioma: swahili

Conjunto de datos: obtenga acceso aquí

Todos los conjuntos de datos del Fondo Lacuna tienen una licencia internacional CC-BY 4.0, a menos que se indique lo contrario.