Langue 2020 Le Prix

Nous annonçons notre deuxième cycle de financement pour des ensembles de données relatifs aux langues à faibles ressources

Nous sommes fiers de partager une sélection de projets soutenus par notre deuxième cohorte, dont les dix équipes créeront des ensembles de données textuelles et vocales librement accessibles qui alimenteront les technologies de traitement du langage naturel (PNL) dans 29 langues en Afrique orientale, occidentale et australe. Les ensembles de données de formation produits auront des impacts significatifs en aval sur l’éducation, l’inclusion financière, la santé, l’agriculture, la communication et la réponse aux catastrophes. Revenez dans les semaines à venir pour en savoir plus sur chaque projet et voir le portfolio complet!

 

Construire un corpus parlé annoté pour les tâches de TALN en igbo

Ce projet renforce la disponibilité d’un corpus parlé en langue igbo pour les tâches de TALN. Les corpus existants, comme IgWaC, le corpus en ligne sur l’igbo, et les textes littéraires, religieux et de grammaire soit ne sont pas annotés, soit ne sont pas compilés pour la recherche et les tâches de TALN. Cette étude créera un corpus annoté de 1 000 phrases annotées et 25 heures de données audio non annotées afin de mettre à disposition un corpus parlé en libre accès aux fins de la recherche et des tâches de TALN.

Pour atteindre ces objectifs, les données seront rassemblées à partir de deux sources : des récits oraux et les actualités diffusées en direct en langue igbo. Des entretiens ethnographiques seront utilisés afin de collecter des données couvrant plusieurs domaines de la vie igbo, comme le mariage, la religion, la langue, l’enterrement, l’éducation, la sécurité et le commerce. Afin d’assurer une représentation, un équilibre et une homogénéité adéquats, la collecte des données se déroulera dans les cinq États du Sud-Est où l’igbo est essentiellement parlé, et l’équipe recrutera 50 locuteurs de la langue dans tous ces États afin d’obtenir des données audio. Les enregistrements d’actualités en igbo seront communiqués par la Corporation fédérale de la radio du Nigeria dans les cinq États.

« Nous sommes impatients de participer à ce projet, en raison de l’impact qu’il aura sur la communauté du TALN, car il concerne plus particulièrement la langue igbo. La nécessité de construire un corpus annoté de l’igbo contemporain est présente depuis longtemps. Il pourrait s’avérer très intéressant d’étudier la langue à partir de contextes réels, comme des récits, des histoires et des conversations. C’est pourquoi nous sommes à la fois ravis et reconnaissants envers le Meridian Institute de nous donner cette occasion unique au travers du Lacuna Fund. Nous avons bon espoir que cela servira de tremplin à l’utilisation de l’igbo pour des tâches liées au TALN et d’autres recherches linguistiques appliquées. »
Gerald Nweya
université d’Ibadan, Équipe du projet pour la construction d’un corpus parlé annoté pour les tâches de TALN en igbo

Masakhane MT : décoloniser les écrits scientifiques pour l’Afrique

Lorsqu’il s’agit de communication et d’éducation scientifiques, la langue a son importance. La possibilité de parler de science dans les langues indigènes locales peut contribuer non seulement à étendre les connaissances à ceux dont la langue maternelle n’est ni l’anglais ni le français, mais aussi à intégrer les données factuelles et les méthodes de la science dans des cultures qui en ont été privées par le passé. Ainsi, l’équipe construira un corpus parallèle multilingue de la recherche africaine, en traduisant les articles de recherche préimprimés africains publiés sur AfricArxiv dans six langues africaines différentes.

«En matière de communication scientifique et d’éducation, la langue est importante. La capacité de la science à être discutée dans les langues autochtones locales peut non seulement atteindre plus de gens, mais aussi ouvrir les méthodologies et la recherche africaines au monde. Nous sommes extrêmement enthousiastes à l'idée d'apporter la science africaine à la communauté mondiale et de poursuivre le chemin de la décolonisation du discours scientifique.
Jade Abbott
Masakhane MT: Équipe de projet Décoloniser la rédaction scientifique pour l'Afrique

Ensembles de données multimodaux pour le bemba

Ce projet permettra de créer le premier ensemble de données multimodal pour le bemba, la langue la plus parlée en Zambie, mais qui manque cruellement de ressources. L’équipe recueillera des dialogues avec ancrage visuel entre des locuteurs natifs du bemba, qui seront enregistrés et transcrits dans leur intégralité. Un échantillon des données sera également traduit en anglais. L’ensemble de données permettra le développement d’applications de reconnaissance vocale et de conversion de la voix en texte, et facilitera la recherche sur l’ancrage linguistique et le développement de modèles multimodaux.

« Nous remercions le Meridian Institute de nous donner l’occasion, grâce au Lacuna Fund, de créer des « ensembles de données multimodaux relatifs à la langue bemba ». Il s’agira du premier ensemble multimodal de données vocales créé pour une langue zambienne. Nous sommes impatients de participer à ce projet, car l’ensemble de données permettra le développement d’applications de traduction par reconnaissance vocale et conversion de la voix en texte et facilitera la recherche sur l’ancrage linguistique et le développement d’un modèle multimodal. »
Claytone Sikasote
Équipe du projet sur des ensembles de données multimodaux relatifs à la langue bemba

Ensembles de données pour la reconnaissance d’entités nommées et les parties de discours relatifs aux langues africaines

Actuellement, la majorité des ensembles de données existants pour la reconnaissance d’entités nommées relatifs aux langues africaines sont annotés automatiquement et contiennent des éléments inutiles, puisque la qualité des textes dans les langues africaines n’est pas vérifiée – seules quelques langues africaines disposent d’ensembles de données pour la reconnaissance d’entités nommées annotés manuellement. De même, les seuls ensembles de données disponibles en libre accès sur des parties de discours concernent un petit sous-ensemble de langues en Afrique du Sud, et les langues yorouba, naija, wolof et bambara.

Ce projet élaborera un corpus de parties de discours et de reconnaissance des entités nommées pour 20 langues africaines à partir de données d’actualité. La reconnaissance d’entités nommées est une tâche de base du TALN dans l’extraction d’informations, et les systèmes de reconnaissance d’entités nommées sont nécessaires pour de nombreux produits, des correcteurs orthographiques aux systèmes de localisation de la voix et de dialogue, en passant par les agents conversationnels et la recherche d’informations nécessaires pour identifier les noms africains, les lieux et les personnes.

« Nous remercions le Lacuna Fund pour le soutien qu’il apportera à nos initiatives de création d’ensembles de données. Ce projet permettra de mieux comprendre les structures linguistiques de 20 langues africaines issues de quatre familles de langues (afro-asiatique, créole anglaise, nigéro-congolaise et nilo-saharienne) et régions d’Afrique. Il encouragera également la comparaison d’ensembles de données relatifs aux langues africaines dans la recherche liée au TALN. Nous sommes impatients de voir comment cette initiative stimulera la recherche en matière de TALN dans les universités africaines. »
Masakhane
Équipe du projet sur des ensembles de données pour la reconnaissance d’entités nommées et les parties de discours relatifs aux langues africaines

Construire des ensembles de données textuelles et vocales pour le TALN relatifs à des langues à faibles ressources en Afrique orientale

Le projet fournira des ensembles de données textuelles et vocales ouverts, accessibles et de haute qualité pour les langues d’Afrique orientale à faibles ressources de l’Ouganda, de la Tanzanie et du Kenya. Pour tirer parti des progrès du TALN et de la technologie vocale, il faut disposer d’un vaste corpus de données textuelles et vocales de haute qualité. Ce projet vise à fournir ces données pour les langues suivantes : luganda, runyankore-rukiga, acholi, swahili, et lumasaaba.

Les données vocales pour le luganda et le swahili serviront principalement à l’entraînement d’un moteur de conversion de la parole en texte pour un cas d’utilisation pertinent pour les objectifs du Millénaire pour le développement, et à la création de modèles de reconnaissance automatique de la parole à usage général qui pourraient être utilisés dans des tâches telles que les aides à la conduite pour les personnes handicapées et le développement de tuteurs IA pour soutenir l’éducation des jeunes enfants. Des corpus de textes monolingues et parallèles seront utilisés dans plusieurs applications de TALN qui nécessitent des modèles de TALN, notamment la classification du langage naturel, la classification des sujets, l’analyse des sentiments, la vérification et la correction orthographiques et la traduction automatique.

Ensembles de données à source ouverte relatifs aux langues locales du Ghana : projet sur les langues twi et ga

Ce projet développera un nouvel ensemble de données vocales qui permettra aux locuteurs de la langue twi (dialectes asante, akuapim, fante) et de la langue ga au Ghana ayant un faible niveau d’anglais d’accéder à des services financiers numériques dans leur langue maternelle. L’accès aux services financiers numériques servira de cas d’utilisation immédiat – cependant, la majeure partie des données collectées sera également utile à d’autres fins. L’équipe construira un corpus vocal phonétiquement équilibré (avec des transcriptions et des traductions brutes en anglais) axé sur le domaine financier. Comme le corpus vocal sera phonétiquement équilibré, il devrait être utile dans la modélisation acoustique pour des cas d’utilisation autres que l’accès aux services financiers numériques.

 

« L’université Ashesi et Nokwary Technologies ressentent à la fois de l’excitation et de la gratitude après que le Lacuna Fund a choisi de financer nos efforts visant à construire un ensemble de données vocales dans les langues autochtones du Ghana. La non-connaissance ou la mauvaise connaissance de l’anglais constituent un obstacle empêchant de nombreux Ghanéens de tirer pleinement profit de l’ère numérique et, en particulier, des services financiers numériques. Les progrès réalisés dans les technologies vocales et linguistiques sont en mesure de lever cet obstacle, mais il est impossible d’appliquer les avancées à nos langues autochtones sans ensembles de données dans ces langues. Le financement du Lacuna Fund nous permettra de construire un ensemble de données en langues twi et ga, ce qui, selon nous, stimulera les innovations en matière d’IA, nous permettant de proposer tous les avantages de l’ère numérique à l’ensemble des Ghanéens, quelle que soit leur situation socio-économique. »
Équipe Ashesi et Nokwary,
Ensembles de données à source ouverte relatifs aux langues locales du Ghana : projet sur les langues twi et ga

KenCorpus : corpus des langues kényanes 

Ce projet part du principe que la langue joue un rôle central dans la préservation de l’identité et de la culture, et dans l’accès équitable à l’information. L’équipe construira le KenCorpus (corpus des langues kényanes) dans le but de fournir des ressources riches en données textuelles et vocales pour certaines langues parlées au Kenya.  

Le KenCorpus sera collecté à partir des langues kiswahili, luhyia et dholuo et constitue un effort délibéré pour assurer l’égalité des chances, l’inclusion, la participation à la prise de décision et l’accessibilité à l’information en fournissant un ensemble de données de base pour la construction d’outils de TALN (par exemple, des étiqueteurs de parties de discours, des systèmes de traduction automatique, la reconnaissance automatique de la parole, la conversion du texte en parole, la réponse aux questions et des agents conversationnels dans les langues africaines).  

Ce projet aura un impact important sur les méthodologies utilisées dans l’assemblage rapide de corpus pour les langues peu pourvues en ressources. Il fera la lumière sur la manière de préparer et d’annoter les discours et les textes en vue de leur utilisation dans des communautés multilingues, et inspirera la croissance des entreprises de technologie du langage humain en Afrique. 

« Chaque langue et chaque culture a une histoire à raconter, et l’âme de chacun vibre au son de sa langue maternelle. Nelson Mandela a dit un jour : « Si vous parlez à un homme dans une langue qu’il comprend, vous touchez son cerveau. Si vous lui parlez dans sa langue, vous touchez son cœur ». Les langues officielles et nationales du Kenya sont l’anglais et le kiswahili. Le Kenya est une nation multilingue où environ 68 langues autochtones se côtoient. « KenCorpus », un ensemble de données relatif aux langues autochtones du Kenya (Native Languages of Kenya – NaLaKe) destiné au TALN et à l’apprentissage automatique, a pour but de placer les langues kényanes dans la sphère du TALN. La collecte d’ensembles de données linguistiques de qualité est une première étape sur le chemin de notre objectif à long terme, qui est de mettre à disposition des outils de TALN qui transforment la vie des gens, pour les langues africaines en tant que vecteurs de culture. Notre capacité à communiquer des idées nouvelles et des découvertes dans les langues autochtones est capitale pour faire progresser la linguistique scientifique.  Dans le cadre de ce projet, nous aurons l’occasion de travailler avec des locuteurs natifs sélectionnés dans tout le Kenya, d’associer des étudiants à la collecte et à l’annotation des données, et de les accompagner lors de la mise au point d’outils de TALN pour les langues africaines. »
KenCorpus : Équipe du projet sur un corpus des langues kényanes

Élaboration d’un corpus lexical sur les sentiments et les discours de haine pour les principales langues du Nigeria 

L’analyse des sentiments est un nouveau domaine de recherche dans le traitement du langage naturel qui traite de l’identification et de la classification des opinions et des sentiments des personnes sur des produits et des services, contenus dans un texte, généralement dans des données en ligne. Bien qu’il existe plusieurs ressources et ensembles de données proposés dans la communauté des chercheurs, la plupart d’entre eux concernent l’anglais, le chinois et les langues européennes. Cependant, plusieurs langues utilisées au Nigeria ne disposent pas de ressources suffisantes. Par exemple, le haoussa, le yorouba et l’igbo sont les langues les plus parlées au Nigeria, avec plus de 150 millions de locuteurs rien qu’au Nigeria, et elles sont largement utilisées dans d’autres pays africains. Mais il existe peu de ressources pour l’analyse des sentiments dans ces langues.  

Le lexique des sentiments est l’une des ressources les plus importantes pour la plupart des tâches d’analyse des sentiments, et l’énorme quantité de données générées dans ces langues par les médias sociaux reste inexploitée. L’équipe élaborera donc un corpus, un lexique de sentiments et un lexique de discours haineux pour les langues haoussa, yorouba et igbo. 

« Les langues parlées en Afrique ne sont pas bien pourvues en ressources ; il manque par exemple des ensembles de données pour l’apprentissage automatique et d’autres tâches importantes liées à l’IA. Dans le cadre de ce projet, nous souhaitons produire les premiers ensembles de données de qualité à grande échelle destinés à l’apprentissage automatique à partir de contenus sur les médias sociaux écrits dans les trois langues principales du Nigeria (haoussa, igbo et yorouba). Ces ensembles de données seront utiles pour les tâches de TALN comme l’analyse de sentiments ou d’émotions, la détection des discours de haine et celle des fausses informations (fake news). Nous sommes une équipe de chercheurs du groupe de recherche HausaNLP de la faculté de science informatique et de technologie de l’information de l’université Bayero, située à Kano au Nigeria. Nous entretenons des collaborations internationales avec Masakhane, le laboratoire d’analyse des sentiments de la faculté de science et de technologie de l’information, l’université Kebangsaan en Malaisie, et le laboratoire consacré à l’intelligence artificielle et au soutien décisionnel (LIAAD) d’INESC TEC. »
Équipe du projet sur l’élaboration d’un corpus lexical sur les sentiments et les discours de haine pour les principales langues du Nigeria