Partage de Nouvelles Ressources de Données Textuelles et Vocales Financées par le Lacuna Fund pour Certaines Langues au Kenya

3 June 2022

Nous sommes très heureux de partager les ensembles de données publiés récemment et financés par le Lacuna Fund dans le domaine des langues ! L’équipe KenCorpus, une collaboration de chercheurs fondée par l’université de Maseno, l’université de Nairobi et l’université Africa Nazarene, a rassemblé de riches ressources textuelles et vocales pour certaines langues parlées au Kenya. Ces ensembles de données favoriseront l’égalité des chances, l’inclusion, la participation à la prise de décision et l’accessibilité. Découvrez les nouvelles ressources ci-dessous !

Kencorpus : Corpus de langues kenyanes pour l’apprentissage machine et le traitement du langage naturel | Ce projet a permis de collecter des corpus de texte et de parole pour trois langues du Kenya : le kiswahili, le dholuo et 3 dialectes luhya (lumarachi, logooli et lubukusu). L’équipe a recueilli des données primaires auprès des communautés linguistiques respectives, notamment des histoires et des récits indigènes provenant de travaux d’étudiants, de stations de médias en langue indigène et d’éditeurs, afin d’inclure des genres de textes représentatifs de l’utilisation quotidienne de la langue dans les communautés. 4 442 textes au total ont été collectés : 2 909 textes pour le swahili, 546 pour le dholuo, 483 pour le lumarachi, 135 pour le lubukusu et 359 pour le logooli. 1 152 fichiers contenant des données vocales spontanées ont été collectés, totalisant plus de 176 heures dans toutes les langues.

Langues : kiswahili, dholuo, luhya-lubukusu, luhya-lulogooli, luhya-lumarachi

KenPos : Ensemble de données avec étiquetage morpho-syntaxique pour les langues du Kenya | Ce projet a élaboré un ensemble de données à étiquetage morpho-syntaxique pour deux langues du Kenya : le dholuo et 3 dialectes luhya (lumarachi, logooli et lubukusu). Le projet a étiqueté environ 143 000 mots, dont environ 50 000 de dholuo, 27 900 de lumarachi, 34 300 de logooli, et 30 900 de lubukusu.

Langues : dholuo, luhya-lumarachi, luhya-lulogooli, luhya-lubukusu

KenSpeech : Transcriptions de la parole en swahili | Ce projet a produit un ensemble de données de la parole comprenant des enregistrements vocaux lus et spontanés, enregistrés au Kenya avec des locuteurs natifs du swahili, ainsi que les transcriptions correspondantes. L’ensemble de données comprend plus de 27 heures de données vocales produites par 26 locuteurs. En outre, cet ensemble de données comprend un fichier contenant tous les phonèmes swahili (sons de parole) tels qu’utilisés par KenCorpus. Cette liste de phonèmes est primordiale, car son contenu a été utilisé pour créer le dictionnaire lexico-phonétique swahili de KenCorpus, qui contient tous les mots des transcriptions de KenCorpus avec leurs prononciations correspondantes selon la liste de phonèmes swahili. Le dictionnaire lexico-phonétique contient environ 30 000 mots.

Langue : swahili

KenTrans : Un corpus parallèle pour le swahili et les langues locales du Kenya | Ce projet a produit un corpus parallèle entre le swahili et deux autres langues du Kenya : le dholuo et 3 dialectes luhya (lumarachi, logooli et lubukusu). Environ 12 400 phrases ont été traduites en kiswahili à partir d’un échantillon de textes en dholuo et en luhya.

Langues : dholuo, luhya-lumarachi, luhya-lubukusu, luhya-lulogooli

KenSwQuAD : Un ensemble de données questions/réponses pour le swahili, langue à faibles ressources | Ce projet a produit un grand ensemble de données de compréhension de lecture automatique pour la langue kiswahili. Au total, 7 526 paires de question-réponse (Q/R) ont été élaborées à partir de 1 445 récits en swahili. Chaque texte comporte au moins 5 paires de Q/R, les questions ayant été rédigées sur la base de l’histoire, et les réponses étant composées soit d’un seul mot, soit d’un texte court.

Langue : swahili

Nous remercions l’équipe de KenCorpus pour son travail de création de ces ressources ouvertes et accessibles. Nous tenons également à remercier nos cofinanceurs, dont le soutien a rendu ces ensembles de données possibles : la Fondation Rockefeller, Google.org, le Centre de recherche pour le développement international du Canada et la GIZ au nom du ministère fédéral allemand de la Coopération et du Développement économiques.

Pour en savoir plus sur ces ensembles de données et d’autres ensembles de données financés par le Lacuna Fund, consultez notre page Ensembles de données !

Chaque trimestre, nous partageons les ensembles de données publiés sur notre site web et sur les plateformes de réseaux sociaux. Abonnez-vous à la newsletter du Lacuna Fund ci-dessous et suivez-nous sur les réseaux sociaux pour rester au courant de ces annonces.

Le Meridian Institute fait office de Secrétariat pour le Lacuna Fund.