Annonce des nouveaux ensembles de données pour les langues africaines — Lauréats 2020 du traitement du langage naturel (TALN) 

20 December 2022
Appels à propositions à venir 

Le Lacuna Fund lancera deux nouveaux appels à propositions pour construire des ensembles de données destinés à l’apprentissage machine plus équitables et plus accessibles en 2023. Nous solliciterons des propositions pour élaborer des ensembles de données dans deux domaines :  

  • Santé et droits sexuels et reproductifs  
  • Climat et forêts 

Nous vous donnerons plus de détails l’année prochaine. 

Annonce des nouveaux ensembles de données pour les langues africaines 

Lauréats 2020 du traitement du langage naturel (TALN)

Nous sommes très heureux de vous annoncer la publication de nos derniers ensembles de données dans le domaine des langues.  Ces ensembles de données favoriseront l’égalité des chances, l’inclusion, la participation à la prise de décision et l’accessibilité. Ensemble, ils couvrent plus de 22 langues africaines, telles que le bambara, le dholuo, le fon, l’akan et le wolof. Nous remercions ces équipes pour leur travail de création de ces ressources de données ouvertes et inclusives, qui permettront aux ressources d’intelligence artificielle d’être plus facilement accessibles et disponibles sur le continent africain. 

L’équipe de Masakhane et ses affiliés ont créé trois ensembles de données pour plusieurs langues africaines, axés sur la reconnaissance d’entités nommées et l’étiquetage morpho-syntaxique.  

  • MasakhaNER 2.0 : ensembles de données de reconnaissance d’entités nommées pour 20 langues africaines  
  • MAFAND-MT : corpus d’actualités anglo et franco-africaines pour la traduction automatique de Masakhane 
  • MasakhaPOS : ensemble de données d’étiquetage morpho-syntaxique pour 20 langues africaines 

L’université Asheshi et Nokwary Technologies ont créé un ensemble de données vocales axé sur l’inclusion financière pour les langues ghanéennes akan (akuapem twi, asante twi, fante) et ga.  

  • Ensemble de données vocales axé sur l’inclusion financière pour certaines langues ghanéennes 

L’Université d’Ibadan et l’Université Afe-Babalola ont créé le premier corpus parlé de données étiquetées et non étiquetées pour les tâches de traitement automatique du langage naturel (TALN) en langue igbo.  

  • IgboSynCorp : ensemble de données pour les tâches de traitement du langage naturel en langue igbo  

Nous tenons également à remercier nos cofinanceurs, dont le soutien a rendu ces ensembles de données possibles : la Fondation Rockefeller, Google.org, le Centre de recherche pour le développement international du Canada, et le programme FAIR Forward de la GIZ pour le compte du Ministère fédéral allemand de la Coopération économique et du Développement (BMZ). 

Vous trouverez ci-dessous les liens vers ces ensembles de données et des informations sur les équipes qui les ont créés et les cas d’utilisation potentiels. 

Ensembles de données de reconnaissance d’entités nommées et étiquetage morpho-syntaxique pour les langues africaines  

CONTACT : DAVID IFEOLUWA ADELANI, D.ADELANI@UCL.AC.UK 

MasakhaNER 2.0 : ensembles de données de reconnaissance d’entités nommées pour 20 langues africaines 

MasakhaNER 2.0 est le plus grand ensemble de données de reconnaissance d’entités nommées annotées manuellement pour 20 langues africaines. Chaque langue compte entre 4 800 et 11 000 paires de phrases pour la formation et/ou l’évaluation. Les langues couvertes sont parlées en Afrique occidentale, centrale, orientale et australe, et comprennent le bambara, le ghomala, l’éwé, le fon, le haoussa, l’igbo, le kinyarwanda, le luganda, le dholuo, le mossi, le chichewa, le pidgin nigérian, le chiShona, le setswana, le swahili, le twi, le wolof, l’isiXhosa, le yorùbá et l’isiZulu. Un complément d’information sur les données est disponible dans leur document EMNLP ici. 

AFFILIATIONS ET AUTEURS :  

Masakhane 

David Ifeoluwa Adelani | Michael Beukman | Shamsuddeen H. Muhammad | Peter Nabende | Bonaventure F. P. Dossou | Blessing Sibanda | Happy Buzaaba | Jonathan Mukiibi | Godson Kalipe | Derguene Mbaye | Fatoumata Kabore | Chris Chinenye Emezue | Anuoluwapo Aremu | Perez Ogayo | Catherine Gitau | Edwin Munkoh-Buabeng | Victoire M. Koagne | Allahsera Auguste Tapo |  
Tebogo Macucwa | Vukosi Marivate | Elvis Mboning | Tajuddeen Gwadabe | Tosin Adewumi | Orevaoghene Ahia | Joyce Nakatumba-Nabende | Neo L. Mokono | Ignatius Ezeani | Chiamaka Chukwuneke | Mofetoluwa Adeyemi | Gilles Q. Hacheme | Idris Abdulmumin | Odunayo Ogundepo | Oreen Yousuf | Tatiana Moteu Ngoli  

Université de la Sarre, Allemagne 

David Ifeoluwa Adelani | Jesujoba O. Alabi | Dietrich Klakow  

CMU, États-Unis  

Graham Neubig | Shruti Rijhwani | Perez Ogayo  

Google Research  

Sebastian Ruder  

Université de Witwatersrand, Afrique du Sud  

Michael Beukman  

Université Brandeis, États-Unis  

Chester Palen-Michel | Constantine Lignos  

LIAAD-INESC TEC, Portugal  

Shamsuddeen H. Muhammad  

Université Makerere  

Peter Nabende | Jonathan Mukiibi | Joyce Nakatumba-Nabende

Université de Bergen, Norvège  

Cheikh M. Bamba Dione  

SaDiLaR  

Andiswa Bukula | Rooweither Mabuya

MILA, Canada 

Bonaventure F. P. Dossou

RIKEN, Japon  

Happy Buzaaba

Baamtu, Sénégal  

Derguene Mbaye

Université des affaires et des sciences appliquées du Malawi  

Amelia Taylor  

Université d’Uppsala, Suède  

Fatoumata Kabore  

Université technique de Munich, Allemagne  

Chris Chinenye Emezue  

TU Clausthal, Allemagne  

Edwin Munkoh-Buabeng  

RIT, États-Unis  

Allahsera Auguste Tapo  

Université de Pretoria, Afrique du Sud  

Tebogo Macucwa | Vukosi Marivate | Neo L. Mokono  

Université de technologie de Luleå, Suède  

Tosin Adewumi  

Université de Washington, États-Unis  

Orevaoghene Ahia  

Université de Lancaster, Royaume-Uni  

Ignatius Ezeani | Chiamaka Chukwuneke  

Université de Waterloo, Canada  

Mofetoluwa Adeyemi | Odunayo Ogundepo  

Université Ahmadu Bello, Nigeria  

Idris Abdulmumin  

 

MAFAND-MT : corpus d’actualités anglo et franco-africaines pour la traduction automatique de Masakhane

L’ensemble de données MAFAND-MT est constitué de quelques milliers de paires de phrases de haute qualité et traduites par des humains pour 16 langues africaines dans le domaine de l’actualité. Chaque langue compte entre 1 466 et 7 838 paires de phrases pour la formation et/ou l’évaluation. Les langues couvertes sont parlées en Afrique occidentale, centrale, orientale et australe, et comprennent le bambara, le ghomala, l’éwé, le fon, le haoussa, le kinyarwanda, le luganda, le dholuo, le mossi, le chichewa, le pidgin nigérian, le chiShona, le setswana, le twi, le wolof et l’isiXhosa. Un complément d’information sur cet ensemble de données est disponible dans le document NAACL 2022 de l’équipe https://arxiv.org/abs/2205.02022. 

AFFILIATIONS ET AUTEURS :  

Masakhane 

David Ifeoluwa Adelani | Jesujoba O. Alabi | Michael Beukman | Shamsuddeen H. Muhammad | Peter Nabende | Bonaventure F. P. Dossou | Blessing Sibanda | Happy Buzaaba | Jonathan Mukiibi | Godson Kalipe | Derguene Mbaye | Fatoumata Ouoba Kabore | Chris Chinenye Emezue | Anuoluwapo Aremu | Perez Ogayo | Edwin Munkoh-Buabeng | Victoire Memdjokam Koagne | Allahsera Auguste Tapo  Tajuddeen Gwadabe | Gilles Q. Hacheme | Idris Abdulmumin | Oreen Yousuf  Freshia Sackey | Colin Leong | Guyo Jarso | Andre Niyongabo Rubungo | Eric Peter Wairagala | Muhammad Umair Nasir | Benjamin Ajibade | Tunde Ajayi | Yvonne Gitau | Jade Abbott | Mohamed Ahmed | Millicent Ochieng | Valencia Wagner | Ayodele Awokoya  

Inria 

Jesujoba O. Alabi  

Meta AI  

Angela Fan  

Amazon Alexa AI   

Xiaoyu Shen  

Université de Tokyo  

Machel Reid  

Université Jacobs  

Bonaventure F. P. Dossou  

Université de la Sarre, Allemagne 

David Ifeoluwa Adelani | Dietrich Klakow | Dana Ruiter | Ernie Chang  

Google Research  

Julia Kreutzer  

Université Makerere  

Peter Nabende | Jonathan Mukiibi | Eric Peter Wairagala  

Université technique de Munich, Allemagne  

Chris Chinenye Emezue  

Université de Dayton  

Colin Leong 

Université de Witwatersrand, Afrique du Sud  

Michael Beukman

Universitat Politècnica de Catalunya  

Andre Niyongabo Rubungo  

Microsoft  

Mohamed Ahmed | Millicent Ochieng  

CMU, États-Unis  

Perez Ogayo  

Université d’Uppsala, Suède  

Fatoumata Ouoba Kabore  

Baamtu, Sénégal  

Derguene Mbaye  

Rochester Institute of Technology, États-Unis  

Allahsera Auguste Tapo  

Université Ahmadu Bello, Nigeria  

Idris Abdulmumin  

Université d’Ibadan  

Ayodele Awokoya  

Université du Malawi  

Sam Manthalu  

LIAAD-INESC TEC, Portugal  

Shamsuddeen H. Muhammad  

RIKEN, Japon  

Happy Buzaaba  

SaDiLaR  

Andiswa Bukula 

MasakhaPOS : ensemble de données d’étiquetage morpho-syntaxique pour 20 langues africaines 

MasakhaPOS est le plus grand ensemble de données d’étiquetage morpho-syntaxique annotées par des humains pour 20 langues africaines. Chaque langue compte entre 1 200 et 1 500 phrases pour la formation et/ou l’évaluation. Les langues couvertes sont parlées en Afrique occidentale, centrale, orientale et australe, et comprennent le bambara, le ghomala, l’éwé, le fon, le haoussa, l’igbo, le kinyarwanda, le luganda, le dholuo, le mossi, le chichewa, le pidgin nigérian, le chiShona, le setswana, le swahili, le twi, le wolof, l’isiXhosa, le yorùbá et l’isiZulu. 

AFFILIATIONS ET AUTEURS :  

Masakhane 

David Ifeoluwa Adelani | Shamsuddeen H. Muhammad | Peter Nabende | Bonaventure F. P. Dossou | Blessing Sibanda | Happy Buzaaba | Jonathan Mukiibi | Godson Kalipe | Derguene Mbaye | Fatoumata Kabore | Chris Chinenye Emezue | Anuoluwapo Aremu | Perez Ogayo | Catherine Gitau | Edwin Munkoh-Buabeng | Victoire M. Koagne | Allahsera Auguste Tapo | Tebogo Macucwa | Vukosi Marivate | Elvis Mboning | Tajuddeen Gwadabe | Cheikh M. Bamba Dione  

Université de la Sarre, Allemagne 

David Ifeoluwa Adelani | Jesujoba O. Alabi | Dietrich Klakow  

CMU, États-Unis  

Perez Ogayo 

LIAAD-INESC TEC, Portugal  

Shamsuddeen H. Muhammad  

Université Makerere  

Peter Nabende | Jonathan Mukiibi  

Université de Bergen, Norvège  

Cheikh M. Bamba Dione 

SaDiLaR  

Andiswa Bukula | Rooweither Mabuya  

MILA, Canada  

Bonaventure F. P. Dossou 

RIKEN, Japon  

Happy Buzaaba

Baamtu, Sénégal  

Derguene Mbaye  

Université des affaires et des sciences appliquées du Malawi  

Amelia Taylor  

Université d’Uppsala, Suède  

Fatoumata Kabore  

Université technique de Munich, Allemagne  

Chris Chinenye Emezue  

TU Clausthal, Allemagne  

Edwin Munkoh-Buabeng  

RIT, États-Unis  

Allahsera Auguste Tapo  

Université de Pretoria, Afrique du Sud  

Tebogo Macucwa | Vukosi Marivate   

Université de Buea, Cameroun  

Gratien Atindogbe  

 

Ensemble de données vocales axé sur l’inclusion financière pour certaines langues ghanéennes 

CONTACT : DENNIS ASAMOAH OWUSU (DOWUSU@ASHESI.EDU.GH)  

Cet ensemble de données vocales pour les langues ghanéennes akan (akuapem twi, asante twi, fante) et ga comprend 104 000 énoncés (parole) dans les quatre dialectes/langues avec environ 200 locuteurs par dialecte/langue. Cela représente environ 148 heures de parole au total. L’ensemble de données a été créé pour soutenir le développement d’applications financières dans les langues natives du Ghana afin de permettre aux personnes analphabètes et semi-alphabètes de bénéficier pleinement des services financiers numériques. Deuxièmement, il vise à répondre aux questions de recherche liées au développement d’ensembles de données spécifiques à un domaine ou à usage général, aux dialectes, ainsi qu’au développement de systèmes de TALN dans des environnements à faibles ressources.  

Pour un complément d’information sur l’ensemble de données et l’approche de l’équipe, voir :  
https://ashesi-org.github.io/dataset/nlp/ai/ghana/africa/speech/2022/05/16/release-of-financial-inclusion-dataset-ghanaian-languages.html  

AFFILIATIONS ET AUTEURS : 

Université Ashesi 

Dennis Asamoah Owusu  

Ayorkor Korsah  

David Sampah  

David Adjepon-Yamoah  

Stephane Nwolley Jnr.  

Nokwary Technologies 

Dennis Asamoah Owusu  

Benedict Quartey  

David Sampah  

Lily Omane Boateng  

 

 

IgboSynCorp : ensemble de données pour les tâches de traitement du langage naturel en langue igbo 

CONTACTS : GERALD NWEYA (GERALDNWEYA@GMAIL.COM) ET EMEKA ONWUEGBUZIA (EONWUEGBUZIA@GMAIL.COM)  

Cet ensemble de données est le premier corpus parlé de données étiquetées et non étiquetées pour les tâches de traitement automatique du langage naturel (TALN) en langue igbo. Il comprend environ 40 heures de données vocales spontanées en igbo, représentatives de tous les dialectes de l’igbo. Cet ensemble de données jette les bases des tâches de TALN en langue igbo telles que la traduction automatique, le corpus arboré, la conversion de la parole en texte, l’étiquetage morpho-syntaxique automatique, le dictionnaire numérique et le correcteur orthographique automatique. 

AFFILIATIONS ET AUTEURS : 

Université d’Ibadan, Ibadan, Nigeria 

Gerald Okey Nweya 

Amarachi Akudo Osuagwu 

Emeka Felix. Onwuegbuzia 

Samuel Obinna Ejinwa 

Anita Ifeoma Adiboshi 

Daniel Success Nwokwo 

Peter Ugochukwu Ihunna

Université Afe-Babalola, Ado-Ekiti, Nigeria 

Oluwole Solomon Akinola 

 

Pour en savoir plus sur ces ensembles de données et d’autres ensembles de données financés par le Lacuna Fund, consultez notre page Ensembles de données ! 

Chaque trimestre, nous partageons les ensembles de données sur notre site web et sur les plateformes de réseaux sociaux. Abonnez-vous à la newsletter du Lacuna Fund ci-dessous et suivez-nous sur les réseaux sociaux pour rester au courant de ces annonces. 

Le Meridian Institute fait office de Secrétariat pour le Lacuna Fund.