Nous annonçons notre deuxième cycle de financement pour des ensembles de données relatifs aux langues à faibles ressources
Nous sommes fiers de partager une sélection de projets soutenus par notre deuxième cohorte, dont les dix équipes créeront des ensembles de données textuelles et vocales librement accessibles qui alimenteront les technologies de traitement du langage naturel (PNL) dans 29 langues en Afrique orientale, occidentale et australe. Les ensembles de données de formation produits auront des impacts significatifs en aval sur l’éducation, l’inclusion financière, la santé, l’agriculture, la communication et la réponse aux catastrophes. Revenez dans les semaines à venir pour en savoir plus sur chaque projet et voir le portfolio complet!
Construire un corpus parlé annoté pour les tâches de TALN en igbo
Ce projet renforce la disponibilité d’un corpus parlé en langue igbo pour les tâches de TALN. Les corpus existants, comme IgWaC, le corpus en ligne sur l’igbo, et les textes littéraires, religieux et de grammaire soit ne sont pas annotés, soit ne sont pas compilés pour la recherche et les tâches de TALN. Cette étude créera un corpus annoté de 1 000 phrases annotées et 25 heures de données audio non annotées afin de mettre à disposition un corpus parlé en libre accès aux fins de la recherche et des tâches de TALN.
Pour atteindre ces objectifs, les données seront rassemblées à partir de deux sources : des récits oraux et les actualités diffusées en direct en langue igbo. Des entretiens ethnographiques seront utilisés afin de collecter des données couvrant plusieurs domaines de la vie igbo, comme le mariage, la religion, la langue, l’enterrement, l’éducation, la sécurité et le commerce. Afin d’assurer une représentation, un équilibre et une homogénéité adéquats, la collecte des données se déroulera dans les cinq États du Sud-Est où l’igbo est essentiellement parlé, et l’équipe recrutera 50 locuteurs de la langue dans tous ces États afin d’obtenir des données audio. Les enregistrements d’actualités en igbo seront communiqués par la Corporation fédérale de la radio du Nigeria dans les cinq États.
Masakhane MT : décoloniser les écrits scientifiques pour l’Afrique
Lorsqu’il s’agit de communication et d’éducation scientifiques, la langue a son importance. La possibilité de parler de science dans les langues indigènes locales peut contribuer non seulement à étendre les connaissances à ceux dont la langue maternelle n’est ni l’anglais ni le français, mais aussi à intégrer les données factuelles et les méthodes de la science dans des cultures qui en ont été privées par le passé. Ainsi, l’équipe construira un corpus parallèle multilingue de la recherche africaine, en traduisant les articles de recherche préimprimés africains publiés sur AfricArxiv dans six langues africaines différentes.
Ensembles de données multimodaux pour le bemba
Ce projet permettra de créer le premier ensemble de données multimodal pour le bemba, la langue la plus parlée en Zambie, mais qui manque cruellement de ressources. L’équipe recueillera des dialogues avec ancrage visuel entre des locuteurs natifs du bemba, qui seront enregistrés et transcrits dans leur intégralité. Un échantillon des données sera également traduit en anglais. L’ensemble de données permettra le développement d’applications de reconnaissance vocale et de conversion de la voix en texte, et facilitera la recherche sur l’ancrage linguistique et le développement de modèles multimodaux.
Ensembles de données pour la reconnaissance d’entités nommées et les parties de discours relatifs aux langues africaines
Actuellement, la majorité des ensembles de données existants pour la reconnaissance d’entités nommées relatifs aux langues africaines sont annotés automatiquement et contiennent des éléments inutiles, puisque la qualité des textes dans les langues africaines n’est pas vérifiée – seules quelques langues africaines disposent d’ensembles de données pour la reconnaissance d’entités nommées annotés manuellement. De même, les seuls ensembles de données disponibles en libre accès sur des parties de discours concernent un petit sous-ensemble de langues en Afrique du Sud, et les langues yorouba, naija, wolof et bambara.
Ce projet élaborera un corpus de parties de discours et de reconnaissance des entités nommées pour 20 langues africaines à partir de données d’actualité. La reconnaissance d’entités nommées est une tâche de base du TALN dans l’extraction d’informations, et les systèmes de reconnaissance d’entités nommées sont nécessaires pour de nombreux produits, des correcteurs orthographiques aux systèmes de localisation de la voix et de dialogue, en passant par les agents conversationnels et la recherche d’informations nécessaires pour identifier les noms africains, les lieux et les personnes.
Construire des ensembles de données textuelles et vocales pour le TALN relatifs à des langues à faibles ressources en Afrique orientale
Le projet fournira des ensembles de données textuelles et vocales ouverts, accessibles et de haute qualité pour les langues d’Afrique orientale à faibles ressources de l’Ouganda, de la Tanzanie et du Kenya. Pour tirer parti des progrès du TALN et de la technologie vocale, il faut disposer d’un vaste corpus de données textuelles et vocales de haute qualité. Ce projet vise à fournir ces données pour les langues suivantes : luganda, runyankore-rukiga, acholi, swahili, et lumasaaba.
Les données vocales pour le luganda et le swahili serviront principalement à l’entraînement d’un moteur de conversion de la parole en texte pour un cas d’utilisation pertinent pour les objectifs du Millénaire pour le développement, et à la création de modèles de reconnaissance automatique de la parole à usage général qui pourraient être utilisés dans des tâches telles que les aides à la conduite pour les personnes handicapées et le développement de tuteurs IA pour soutenir l’éducation des jeunes enfants. Des corpus de textes monolingues et parallèles seront utilisés dans plusieurs applications de TALN qui nécessitent des modèles de TALN, notamment la classification du langage naturel, la classification des sujets, l’analyse des sentiments, la vérification et la correction orthographiques et la traduction automatique.
Ensembles de données à source ouverte relatifs aux langues locales du Ghana : projet sur les langues twi et ga
Ce projet développera un nouvel ensemble de données vocales qui permettra aux locuteurs de la langue twi (dialectes asante, akuapim, fante) et de la langue ga au Ghana ayant un faible niveau d’anglais d’accéder à des services financiers numériques dans leur langue maternelle. L’accès aux services financiers numériques servira de cas d’utilisation immédiat – cependant, la majeure partie des données collectées sera également utile à d’autres fins. L’équipe construira un corpus vocal phonétiquement équilibré (avec des transcriptions et des traductions brutes en anglais) axé sur le domaine financier. Comme le corpus vocal sera phonétiquement équilibré, il devrait être utile dans la modélisation acoustique pour des cas d’utilisation autres que l’accès aux services financiers numériques.
KenCorpus : corpus des langues kényanes
Ce projet part du principe que la langue joue un rôle central dans la préservation de l’identité et de la culture, et dans l’accès équitable à l’information. L’équipe construira le KenCorpus (corpus des langues kényanes) dans le but de fournir des ressources riches en données textuelles et vocales pour certaines langues parlées au Kenya.
Le KenCorpus sera collecté à partir des langues kiswahili, luhyia et dholuo et constitue un effort délibéré pour assurer l’égalité des chances, l’inclusion, la participation à la prise de décision et l’accessibilité à l’information en fournissant un ensemble de données de base pour la construction d’outils de TALN (par exemple, des étiqueteurs de parties de discours, des systèmes de traduction automatique, la reconnaissance automatique de la parole, la conversion du texte en parole, la réponse aux questions et des agents conversationnels dans les langues africaines).
Ce projet aura un impact important sur les méthodologies utilisées dans l’assemblage rapide de corpus pour les langues peu pourvues en ressources. Il fera la lumière sur la manière de préparer et d’annoter les discours et les textes en vue de leur utilisation dans des communautés multilingues, et inspirera la croissance des entreprises de technologie du langage humain en Afrique.
Élaboration d’un corpus lexical sur les sentiments et les discours de haine pour les principales langues du Nigeria
L’analyse des sentiments est un nouveau domaine de recherche dans le traitement du langage naturel qui traite de l’identification et de la classification des opinions et des sentiments des personnes sur des produits et des services, contenus dans un texte, généralement dans des données en ligne. Bien qu’il existe plusieurs ressources et ensembles de données proposés dans la communauté des chercheurs, la plupart d’entre eux concernent l’anglais, le chinois et les langues européennes. Cependant, plusieurs langues utilisées au Nigeria ne disposent pas de ressources suffisantes. Par exemple, le haoussa, le yorouba et l’igbo sont les langues les plus parlées au Nigeria, avec plus de 150 millions de locuteurs rien qu’au Nigeria, et elles sont largement utilisées dans d’autres pays africains. Mais il existe peu de ressources pour l’analyse des sentiments dans ces langues.
Le lexique des sentiments est l’une des ressources les plus importantes pour la plupart des tâches d’analyse des sentiments, et l’énorme quantité de données générées dans ces langues par les médias sociaux reste inexploitée. L’équipe élaborera donc un corpus, un lexique de sentiments et un lexique de discours haineux pour les langues haoussa, yorouba et igbo.