Annonce des subventions pour les ensembles de données sur les langues africaines — Lauréats TALN 2021

19 October 2022

Aujourd’hui, nous avons le grand plaisir d’annoncer les subventions accordées à 10 équipes afin de créer ou d’élargir des ensembles de données d’apprentissage automatique pour des langues africaines faiblement dotées en ressources. Ces projets concernent des langues parlées à travers le continent africain et permettront toute une série de cas d’utilisation, qu’il s’agisse de fournir aux citoyens un accès aux actualités et à l’information dans leur langue maternelle ou de mettre au point des modèles en vue de l’anonymisation des données. Les ensembles de données pour des langues nigérianes très répandues, des langues kényanes indigènes et la langue bantoue makua parlée au Mozambique étendront les avantages des technologies linguistiques à des millions d’Africains.

Nous tenons à exprimer notre profonde gratitude à notre Groupe consultatif technique sur les langues et aux examinateurs partenaires pour 2021 pour leur travail d’analyse des riches candidatures reçues et de sélection d’un portefeuille diversifié de projets à financer. Parmi les membres du Groupe consultatif technique figuraient :

EM Lewis-Jong, Mozilla Foundation
Clara Rivera, Google
Kọ́lá Túbọ̀sún, Yorùbá Names Project
Christian Resch, Deutsche Gesellschaft für International Zusammenarbeit, FAIR Forward
Michael Melese, Addis Ababa University
Joyce Nakatumba-Nabende, Makerere University
Ignatius Ezeani, Lancaster University

Un tout grand merci également à nos partenaires de financement pour avoir rendu possible l’octroi de ces subventions : la Fondation Rockefeller, Google.org, le Centre de recherche pour le développement international du Canada et la GIZ au nom du ministère fédéral allemand de la Coopération et du Développement économiques.

Félicitations aux équipes sélectionnées pour la création et l’élargissement d’ensembles de données pour des langues africaines !

Naija Voices : Conservation de corpus de texte et de parole pour les langues igbo, hausa et yoruba
United States International University-Africa : Établissement d’un corpus parallèle pour trois langues indigènes du Kenya et le swahili
Centro de Linguística da Universidade do Porto, Universidade Lúrio et Laboratory of Artificial Intelligence and Computer Science de l’université de Porto (LIACC) : Élargissement d’un corpus parallèle du portugais et de la langue bantoue makua du Mozambique
Marconi AI Lab, Makerere AI Lab et CLEAR Global : Ensembles de données de marquage des informations personnelles identifiables (IPI) pour des langues d’Afrique subsaharienne
MasaKhane NLU : IA conversationnelle et ensembles de données de référence pour des langues africaines
Bahir Dar University – Bahir Dar, Éthiopie, Bayero University – Kano, Nigeria, Rewire, Masakhane, LT Group – Universität Hamburg et Laboratory of Artificial Intelligence and Decision Support (LIAAD) : AfriHate : Ensemble de données sur les discours de haine et agressifs pour des langues africaines
Igbo API : une base de données lexicales multidialectes pour l’igbo
Addis Ababa University : faculté des sciences de l’information, collège des sciences naturelles et informatiques : Élaboration de corpus de texte pour six langues éthiopiennes
Jokalante, Orange France, University of Dakar et ESP (École supérieure polytechnique) : KALLAAMA
MasakhaneDAMT : Ensemble de données de traduction de langues africaines pour l’adaptation de domaine.

Poursuivez votre lecture pour en apprendre davantage sur ces équipes et les ensembles de données qu’elles vont constituer.

NaijaVoices : Conservation de corpus de texte et de parole pour les langues igbo, hausa et yoruba

NaijaVoices fournira une aide à la numérisation pour des langues africaines faiblement dotées en ressources grâce à l’élaboration d’ensembles de données linguistiques de 500 heures dans trois langues africaines : l’igbo, le yoruba et le hausa.

Étant donné le faible nombre d’ensembles de données de texte et audio au Nigeria et dans toute l’Afrique, une grande partie de ces populations ne peuvent pas bénéficier des avantages issus des nouveaux progrès technologiques en matière d’apprentissage automatique et d’intelligence artificielle. Ce projet a été conçu pour combler cette lacune.

Ce volume important d’ensembles de données audio permettra de poursuivre la recherche en matière d’apprentissage automatique et de stimuler le développement de technologies liées à l’intelligence artificielle dans les domaines de l’éducation, de la santé, de l’agriculture, de l’ingénierie et de la finance. Ce projet serait également en mesure de contribuer à l’établissement d’unités nationales plus soudées et de liens plus forts entre les ethnies au Nigeria, grâce au développement d’applications et de gadgets de traduction de la parole dans ces langues.

« Les services de reconnaissance vocale qui existent actuellement ne sont pas disponibles dans de nombreuses langues africaines (les assistants vocaux actuels comme Alexa d’Amazon, Siri d’Apple et Home de Google ne prennent en charge aucune langue africaine). Par conséquent, les locuteurs de ces langues ne peuvent pas bénéficier des avantages des technologies à commande vocale. Cet ensemble de données ouvrira très certainement la voie vers les technologies vocales – comme la synthèse du texte à la parole ou de la parole au texte, la traduction de parole en parole et la modélisation acoustique – pour ces langues africaines, qui jusqu’ici bénéficiaient de peu d’ensembles de données publics, voire d’aucun. »

– Chris Emezue, NaijaVoices

Établissement d’un corpus parallèle pour trois langues indigènes du Kenya et le swahili

La communication des pouvoirs publics est essentielle pour la sécurité et le bien-être des citoyens. Au Kenya, cette communication se fait en anglais et en swahili, mais de nombreuses personnes dans les communautés rurales comprennent assez mal ces langues officielles. De ce fait, leur accès aux informations essentielles est réduit en temps de crise, laissant la possibilité à de dangereuses rumeurs et à la désinformation de se répandre.

La United States International University-Africa, en collaboration avec l’université Maseno, l’université Kabarak et l’université de Floride, propose la traduction automatique comme solution à ce problème, afin de traduire automatiquement les communications en swahili dans les langues indigènes pertinentes. Le Lacuna Fund aidera cette équipe à ouvrir la voie dans cette direction, en établissant un corpus parallèle pour le swahili, le taita, le kalenjin et le luo. L’objectif est de recueillir au total 900 000 paires de phrases grâce à des traductions collaboratives. L’équipe tirera parti du volume important de données disponibles en swahili et recrutera des traducteurs issus des nombreux peuples du Kenya qui parlent couramment leur langue maternelle et le swahili. Les données produites serviront de point de départ pour des travaux de traduction automatique à plus long terme au Kenya pour les trois langues et peut-être davantage.

« Le traitement automatique du langage naturel (TALN) pour les langues faiblement dotées en ressources prend un certain temps. C’est un marathon, pas un sprint, et il est capital d’impliquer les communautés à grande échelle. Comme dit le proverbe africain : « Seul, on va vite. Ensemble, on va loin ». Nous voulons aller loin ! »

– Audrey Mbogho, United States International University-Africa

Élargissement d’un corpus parallèle du portugais et de la langue bantoue makua du Mozambique

Le Centro de Linguística da Universidade do Porto, l’Universidade Lúrio et le Laboratory of Artificial Intelligence and Computer Science de l’université de Porto (LIACC) ont pour objectif d’élargir un corpus parallèle aux fins de la traduction automatique vers et depuis le makua. Le makua est une langue très parlée au nord et au centre du Mozambique par environ 7 millions de locuteurs, soit 10 % de plus que la langue officielle du pays, le portugais, mais relativement peu de ressources lui sont consacrées. Par conséquent, il est très difficile d’acquérir des données textuelles pour entraîner des modèles de traduction automatique en makua.

Avec l’aide du Lacuna Fund, l’équipe produira des mémoires de traduction sur la base du corpus contenant des actualités de Voice of America publiées entre 2001 et 2021. L’ensemble de données sera mis à la disposition du grand public et contiendra également des annotations pour les entités nommées (PER, LOC, ORG, DATE) et des étiquettes de classification (politique, économie, culture, sports et monde).

« Les Africains ne devraient pas cesser d’espérer d’accéder un jour à l’éducation et à l’information dans leur langue maternelle. En fait, il a été prouvé que l’instruction prodiguée dans la langue maternelle peut contribuer à réduire sensiblement les taux d’illettrisme, qui sont toujours élevés sur le continent. La technologie peut aider à réduire cet écart sur le plan de l’usage des langues autochtones, en particulier maintenant que la population plus jeune a davantage accès à la technologie. La demande en matière de développement d’outils linguistiques en Afrique est en augmentation, tout comme le besoin de ressources afin de mettre au point ces outils. Le Lacuna Fund nous a offert une occasion unique de contribuer à la création de ressources pour le makua, la langue bantoue du Mozambique, qui est la plus parlée dans le pays. »

– Felermino Ali, LIACC

Ensembles de données de marquage des informations personnelles identifiables (IPI) pour des langues d’Afrique subsaharienne

Ce projet est une collaboration entre Marconi AI Lab, Makerere AI Lab et CLEAR Global. Son objectif est de créer des ensembles de données de parole et de texte pour les quatre plus grandes langues d’Afrique subsaharienne en Afrique de l’Est et de l’Ouest, en particulier l’Ouganda et le Nigeria. Les ensembles de données seront étiquetés en tenant compte des informations personnelles identifiables, en respectant les bonnes pratiques et les normes en la matière. Une partie du travail consistera à rédiger des lignes directrices pour l’étiquetage des informations personnelles identifiables pour les langues et qui pourraient servir de catégories pour d’autres langues faiblement dotées en ressources.

Pour chacune des quatre langues, l’équipe compilera des ensembles de données de texte étiquetés qui comprennent des informations personnelles identifiables. Les ensembles de données seront suffisamment étoffés pour proposer environ 1 000 entrées de classes essentielles parmi au moins 3 000 phrases recueillies pour chaque langue. Ces ensembles de données seront utilisés pour élaborer des modèles d’étiquetage d’informations personnelles identifiables qui serviront de composantes de base pour l’anonymisation de données. En supprimant de manière fiable les informations personnelles identifiables des ensembles de données existants, ces ensembles de données pourront être publiés afin d’entraîner des modèles de traitement automatique du langage naturel (TALN). Les ensembles de données qui seront alors produits permettront de remédier aux problèmes liés aux informations personnelles identifiables dans les technologies vocales en aval, comme les applications de reconnaissance vocale automatique, de compréhension du langage naturel et de traduction automatique pour les langues concernées.

« Toutes les grandes multinationales dans le domaine de la technologie (Google, Facebook, Microsoft, etc.) ont mis en place des initiatives visant à créer des ensembles de données pour la suppression des informations personnelles identifiables dans les principales langues, dans l’espoir de pouvoir extraire davantage de données d’entraînement pour leurs produits. Sans outils analogues pour les langues faiblement dotées en ressources, la fracture numérique s’agrandira pour les communautés telles que celles d’Afrique subsaharienne, qui communiquent principalement dans des langues autochtones non majoritaires. Pour remédier à ce problème, il est nécessaire de mettre au point des technologies vocales et textuelles de TALN pour l’Afrique subsaharienne, en commençant par la création d’ensembles de données de qualité, ouverts, exempts d’informations personnelles identifiables et dépourvus de biais. »

– Dr Andrew Katumba, Marconi AI Lab

Masakhane NLU : IA conversationnelle et ensembles de données de référence pour des langues africaines

Les outils d’IA conversationnelle et des systèmes de dialogue sont devenus omniprésents. Ils ont été très utiles pour de nombreuses applications pratiques, comme la planification des voyages ou la communication avec des dialogueurs médicaux, ainsi que pour des activités de base chez les particuliers comme le réglage des alarmes ou la commutation des ampoules électriques. Cependant, ces outils ne sont disponibles que dans des langues fortement dotées en ressources comme l’anglais ou le français, parce qu’il manque des ensembles de données essentiels pour alimenter ces technologies dans bon nombre de langues faiblement dotées en ressources, en particulier les langues africaines.

Ce projet aura pour objectif d’élaborer des ensembles de données pour l’IA conversationnelle pour 16 langues africaines, en intégrant la détection des intentions et les tâches de remplissage nécessaires aux systèmes de dialogue pour comprendre les demandes des utilisateurs et y répondre. Parallèlement, ce projet élargira des ensembles de données populaires de raisonnement de bon sens, comme l’interférence du langage naturel et le choix d’autres options plausibles, de l’anglais vers 16 langues africaines. L’équipe espère que ces ensembles de données de référence inciteront à l’élaboration de meilleurs modèles, multilingues et pré-entraînés, pour les langues africaines.

« Nous sommes très reconnaissants que le Lacuna Fund ait choisi de financer notre projet sur la création d’ensembles de données de référence et destinés à l’IA conversationnelle pour 16 langues africaines. Nous espérons que ces ensembles de données favoriseront la mise au point de systèmes pratiques d’assistance vocale adaptés aux besoins de l’Afrique et qu’ils inciteront à l’élaboration de meilleurs modèles, multilingues et pré-entraînés, pour les langues africaines. »

– David Adelani, Masakhane NLU

AfriHate : Ensemble de données sur les discours de haine et agressifs pour des langues africaines

La haine en ligne est un problème de plus en plus présent en Afrique. Ce phénomène cause du tort aux personnes qui y sont exposées et qui sont ciblées, il pollue et perturbe les communautés en ligne et, dans le pire des cas, il peut être un précurseur de la violence physique. Les outils d’apprentissage automatique qui déterminent et classent automatiquement le caractère haineux du contenu en ligne peuvent aider à surmonter ce problème, en contribuant aux efforts de modération de contenu, à la surveillance des médias sociaux et à l’évaluation des menaces.

Toutefois, pour l’instant, il n’existe pratiquement aucun outil de détection de la haine pour les langues africaines, que ce soit dans les milieux universitaires ou dans le secteur privé. Dès lors, les utilisateurs africains de services en ligne sont davantage susceptibles d’être exposés aux discours de haine ou de voir leurs contenus modérés de manière injuste, ce qui peut restreindre fortement la liberté d’expression et l’utilisation ouverte d’Internet.

Ce projet répond à cette problématique grâce à l’introduction d’AfriHate, le premier ensemble de données étiqueté pour la haine en ligne en Afrique, qui couvre 14 langues parlées dans six pays. Il crée également des modèles de base d’apprentissage automatique pour chaque langue, qui seront mis à la disposition d’autres chercheurs, d’organisations de la société civile et de plateformes de médias sociaux pour qu’ils puissent les utiliser. Il s’agit du premier projet de ce type et il pourrait potentiellement transformer la manière dont la haine en ligne est comprise, combattue et étudiée dans toute l’Afrique.

L’équipe d’AfriHate est le fruit d’une collaboration entre : Bahir Dar University – Bahir Dar, Éthiopie, Bayero University – Kano, Nigeria, Rewire, Masakhane, LT Group – Universität Hamburg et Laboratory of Artificial Intelligence and Decision Support (LIAAD).

L’équipe cite une déclaration de Nelson Mandela comme une inspiration pour son travail :

« Aucun être humain ne hait une autre personne en raison de la couleur de sa peau, de ses origines ou de sa religion. Les gens doivent apprendre à haïr, et s’ils peuvent apprendre à haïr, on peut leur enseigner aussi à aimer, car l’amour naît plus naturellement dans le cœur de l’homme que son contraire. »

– Nelson Mandela, Un long chemin vers la liberté

Si vous souhaitez en apprendre davantage sur AfriHate, contribuer au projet ou utiliser ses ressources, visitez la page du projet : www.afrihate.org

Igbo API : une base de données lexicales multidialectes pour l’igbo

L’ensemble de données Igbo API est un dictionnaire igbo-anglais robuste, multidialectes et intégrant du contenu audio. L’équipe est composée de plusieurs lexicographes qui sont chacun experts d’un dialecte igbo, afin de s’assurer que le dictionnaire inclut un large éventail de mots ainsi que leurs variantes dialectales.

« L’Igbo API sera le plus grand ensemble de données de dictionnaire igbo-anglais multidialectes et intégrant du contenu audio, gratuit pour tout type d’usage. »

– Ijemma Onwuzulike, Igbo API

Élaboration de corpus de texte pour six langues éthiopiennes

Ce projet consiste à créer et augmenter des corpus de texte pour six langues éthiopiennes : l’amharique, le tigrigna, l’oromo, le somali, l’afar et le sidama. Les ensembles de données seront utilisés dans la recherche et le développement d’un système automatique de reconnaissance vocale. L’équipe prévoit de créer des corpus de texte lu d’environ 290 heures pour ces six langues éthiopiennes.

« Nous œuvrons en faveur d’une IA inclusive au niveau des langues en mettant au point des ressources linguistiques ! »

– Dr Solomon Teferra Abate, Addis Ababa University

KALLAAMA

Le projet KALLAAMA est mis en œuvre par Jokalente, une entreprise sociale sénégalaise. Il a pour but de produire des transcriptions de 60 heures de contenu audio en wolof, en pulaar et en sérère afin d’aider la communauté à mettre au point des solutions de reconnaissance vocale.

« Le Lacuna Fund permet aux communautés wolof, pulaar et sérère d’accéder dans un avenir proche à davantage de services grâce à la reconnaissance vocale dans les langues locales. Pour garantir la qualité des données, Jokalente collaborera avec Orange France, l’université de Dakar et l’ESP (École supérieure polytechnique). »

– Ndeye Amy Kebe, Jokalante

MasakhaneDAMT : Ensemble de données de traduction de langues africaines pour l’adaptation de domaine

La qualité des traductions réalisées par les systèmes de traduction automatique neuronale dépend de la disponibilité de grandes quantités de données parallèles spécifiques à un domaine utilisées pendant l’entraînement. Cependant, pour toutes les combinaisons de langues, les données spécifiques sont souvent rares.

En raison de cette rareté, il reste difficile d’adapter les systèmes de traduction automatique neuronale à de nouveaux domaines, tant pour les langues fortement dotées en ressources que pour celles qui le sont moins, notamment de nombreuses langues africaines. L’objectif du projet consiste donc à créer un important corpus spécifique à des domaines pour cinq des langues les plus parlées en Afrique, avec au moins 10 000 phrases parallèles par domaine. Ces cinq langues africaines sont le swahili, le hausa, le yoruba, le zoulou et l’amharique. Elles ont été soigneusement sélectionnées afin d’inclure les différentes classes de langues africaines et de couvrir toutes les régions du continent africain.

Pour ce projet, nous prévoyons de couvrir deux grands domaines, à savoir l’actualité médicale et celle des technologies de l’information. Nous avons choisi plus particulièrement ces deux domaines pour permettre aux Africains d’accéder aux informations de santé publique et aux actualités informatiques dans leur langue maternelle.

« Nous remercions le Lacuna Fund d’avoir choisi de financer ce projet. Nous sommes excités par ce projet en raison de l’impact potentiel qu’il aura sur la communauté du traitement automatique du langage naturel ainsi que sur le continent africain. Nous prévoyons le développement de moteurs de traduction à même de traduire avec précision des textes issus des domaines de la santé et de l’informatique depuis et vers les langues africaines sélectionnées, grâce à l’ensemble de données proposé. En outre, cet ensemble de données sera utile pour le développement d’autres technologies liées aux langues africaines, comme les technologies vocales, étant donné que la plupart des langues africaines sont des langues parlées. »

– Clement Odoje, MasakhaneDAMT