Skip to content

Domaine des langues

Les ensembles de données linguistiques du Fonds Lacuna créent des ressources textuelles et vocales librement accessibles qui alimentent les technologies de traitement du langage naturel dans diverses langues dans des contextes de revenus faibles et moyens à l'échelle mondiale. Explorez et téléchargez les jeux de données publiés ci-dessous.

Subventions 2020

Description : Ce ensemble de données est le premier ensemble de données de sentiments Twitter à grande échelle annoté par des humains pour le haoussa, l’igbo, le pidgin nigérian et le yorùbá, les quatre langues les plus parlées au Nigeria.

Auteurs : Shamsuddeen Hassan Muhammad, David Ifeoluwa Adelani, Sebastian Ruder, Ibrahim Said Ahmad, Idris Abdulmumin, Bello Shehu Bello, Monojit Choudhury, Chris Chinenye Emezue, Saheed Salahudeen Abdullahi, Anuoluwapo Aremu, Alipio Jeorge, and Pavel Brazdil

Langues : Hausa, Igbo, Nigerian-Pidgin, and Yorùbá

Ensemble de données : pour y accéder, cliquez ici

Description : Ce ensemble de données d’évaluation quantifie automatiquement la qualité des systèmes de traduction automatique pour l’afar, l’amharique, l’oromo, le somali et le tigrinya.

Auteurs : Asmelash Teka Hadgu, Gebrekirstos G. Gebremeskel, Abel Aregawi

Traducteurs : Afar – Mohammed Deresa, Yasin Nur; Amharic – Tigist Taye, Selamawit Hailemariam, Wako Tilahun; Oromo – Gemechis Melkamu, Galata Girmaye; Somali – Abdiselam mohamed, Beshir Abdi; Tigrinya – Michael Minassie, Berhanu Abadi Weldegiorgis, Nureddin Mohammedshiek

Langues : Afar, Amharic, Oromo, Somali and Tigrinya

Ensemble de données : pour y accéder, cliquez ici

Description : ce projet a recueilli des corpus de texte et de parole pour trois langues du Kenya : le kiswahili, le dholuo et 3 dialectes luhya (lumarachi, logooli et lubukusu). Des données primaires ont été recueillies auprès des communautés linguistiques respectives, notamment des histoires et des récits indigènes provenant de travaux d’étudiants, de stations de médias en langue indigène et d’éditeurs, afin d’inclure des genres de textes représentatifs de l’utilisation quotidienne de la langue dans les communautés. Un total de 4 442 textes a été recueillis : 2909 textes pour le swahili, 546 pour le dholuo, 483 pour le lumarachi, 135 pour le lubukusu et 359 pour le logooli. Au total, 1 152 fichiers contenant des données de parole spontanée ont été collectés, ce qui représente 176 heures, 29 minutes et 46 secondes : 104 fichiers (19 heures, 10 minutes, 57 secondes) pour le swahili, 512 fichiers (99 heures, 3 minutes, 8 secondes) pour le dholuo, 138 fichiers (15 heures, 37 minutes, 46 secondes) pour le lumarachi, 354 fichiers (30 heures, 11 minutes) pour le lubukusu, et 44 fichiers annotés (12 heures, 26 minutes, 55 secondes) pour le lulogooli.

Auteurs : Owen McOnyango (université de Maseno), Florence Indede (université de Maseno), Lilian D.A. Wanzare (université de Maseno), Barack Wanjawa (université de Nairobi), Edward Ombui (université Africa Nazarene), Lawrence Muchemi (université de Nairobi)

Langues : kiswahili, dholuo, luhya-lubukusu, luhya-logooli, luhya-lumarachi

Ensemble de données : pour y accéder, cliquez ici

Description : ce projet a élaboré un ensemble de données à étiquetage morpho-syntaxique pour deux langues au Kenya : le dholuo et 3 dialectes luhya (lumarachi, lulogooli et lubukusu). Le projet a étiqueté environ 143 000 mots, dont environ 50 000 de dholuo, 27 900 de lumarachi, 34 300 de logooli, et 30 900 de lubukusu.

Auteurs : Florence Indede (université de Maseno), Owen McOnyango (université de Maseno), Lilian D.A. Wanzare (université de Maseno), Barack Wanjawa (université de Nairobi), Edward Ombui (université Africa Nazarene), Lawrence Muchemi (université de Nairobi)

Langues : dholuo, luhya-lumarachi, luhya-lulogooli, luhya-lubukusu

Ensemble de données : pour y accéder, cliquez ici

Description : ce projet a produit un ensemble de données de la parole comprenant des enregistrements vocaux lus et spontanés, enregistrés au Kenya avec des locuteurs natifs du swahili, ainsi que les transcriptions correspondantes. Au total, l’ensemble de données comprend 27 heures, 31 minutes et 50 secondes de données vocales provenant de 26 locuteurs (19 femmes et 7 hommes). Les enregistrements sont au format audio suivant : .wav, 16 bits, 16 kHz, mono et little-endian. Sur le total des enregistrements, 26 heures, 32 minutes et 37 secondes sont des données de parole lue, tandis que 59 minutes et 13 secondes sont des enregistrements de parole spontanée. En outre, cet ensemble de données comprend un fichier contenant tous les phonèmes swahilis tels qu’utilisés par KenCorpus. Cette liste de phonèmes est primordiale, car son contenu a été utilisé pour créer le dictionnaire lexico-phonétique swahili de KenCorpus, qui contient tous les mots des transcriptions de KenCorpus avec leurs prononciations correspondantes selon la liste de phonèmes swahili. Le dictionnaire lexico-phonétique contient environ 30 000 mots.

Auteurs : Dorcas Awino (université de Nairobi), Lawrence Muchemi (université de Nairobi), Lilian D.A. Wanzare (université de Maseno), Edward Ombui (université Africa Nazarene), Barack Wanjawa (université de Maseno), Owen McOnyango (université de Maseno), Florence Indede (université de Maseno)

Langue : swahili

Ensemble de données : pour y accéder, cliquez ici

Description : ce projet a produit un corpus parallèle entre le swahili et deux autres langues du Kenya : le dholuo et 3 dialectes luhya (lumarachi, logooli et lubukusu). Un total d’environ 12 400 phrases a été traduit en kiswahili à partir d’un échantillon de textes en dholuo et en luhya (1 500 paires de phrases dholuo-kiswahili et 10 900 paires de phrases luhya-kiswahili).

Auteurs : Lilian D.A Wanzare (université de Maseno), Florence Indede (université de Maseno), Owen McOnyango (université de Maseno), Edward Ombui (université Africa Nazarene), Barack Wanjawa (université de Nairobi), Lawrence Muchemi (université de Nairobi)

Langues : dholuo, luhya-lumarachi, luhya-lubukusu, luhya-lulogooli

Ensemble de données : pour y accéder, cliquez ici

Description : ce projet a produit un grand ensemble de données de compréhension de lecture automatique pour la langue kiswahili. Au total, 7 526 paires de question-réponse (Q/R) ont été élaborées à partir de 1 445 récits en swahili. Chaque texte comporte au moins 5 paires de Q/R, les questions ayant été rédigées sur la base de l’histoire, et les réponses étant composées soit d’un seul mot, soit d’un texte court.

Auteurs : Barack Wanjawa (université de Nairobi), Lilian D.A. Wanzare (université de Maseno), Florence Indede (université de Maseno), Owen McOnyango (université de Maseno), Lawrence Muchemi (université de Nairobi), Edward Ombui (université Africa Nazarene)

Langue : swahili

Ensemble de données : pour y accéder, cliquez ici

Tous les ensembles de données du Fonds Lacuna sont sous licence CC-BY 4.0 International, sauf indication contraire.