Annonce des nouveaux ensembles de données pour les langues africaines — Lauréats 2020 du traitement du langage naturel (TALN) 

20 December 2022

Appels à propositions à venir

Le Lacuna Fund lancera deux nouveaux appels à propositions pour construire des ensembles de données destinés à l’apprentissage machine plus équitables et plus accessibles en 2023. Nous solliciterons des propositions pour élaborer des ensembles de données dans deux domaines :

Santé et droits sexuels et reproductifs
Climat et forêts

Nous vous donnerons plus de détails l’année prochaine.

Annonce des nouveaux ensembles de données pour les langues africaines

Lauréats 2020 du traitement du langage naturel (TALN) 

Nous sommes très heureux de vous annoncer la publication de nos derniers ensembles de données dans le domaine des langues. Ces ensembles de données favoriseront l’égalité des chances, l’inclusion, la participation à la prise de décision et l’accessibilité. Ensemble, ils couvrent plus de 22 langues africaines, telles que le bambara, le dholuo, le fon, l’akan et le wolof. Nous remercions ces équipes pour leur travail de création de ces ressources de données ouvertes et inclusives, qui permettront aux ressources d’intelligence artificielle d’être plus facilement accessibles et disponibles sur le continent africain. 

L’équipe de Masakhane et ses affiliés ont créé trois ensembles de données pour plusieurs langues africaines, axés sur la reconnaissance d’entités nommées et l’étiquetage morpho-syntaxique.

MasakhaNER 2.0 : ensembles de données de reconnaissance d’entités nommées pour 20 langues africaines

MAFAND-MT : corpus d’actualités anglo et franco-africaines pour la traduction automatique de Masakhane
MasakhaPOS : ensemble de données d’étiquetage morpho-syntaxique pour 20 langues africaines

L’université Asheshi et Nokwary Technologies ont créé un ensemble de données vocales axé sur l’inclusion financière pour les langues ghanéennes akan (akuapem twi, asante twi, fante) et ga.

Ensemble de données vocales axé sur l’inclusion financière pour certaines langues ghanéennes

L’Université d’Ibadan et l’Université Afe-Babalola ont créé le premier corpus parlé de données étiquetées et non étiquetées pour les tâches de traitement automatique du langage naturel (TALN) en langue igbo.

IgboSynCorp : ensemble de données pour les tâches de traitement du langage naturel en langue igbo

Nous tenons également à remercier nos cofinanceurs, dont le soutien a rendu ces ensembles de données possibles : la Fondation Rockefeller, Google.org, le Centre de recherche pour le développement international du Canada, et le programme FAIR Forward de la GIZ pour le compte du Ministère fédéral allemand de la Coopération économique et du Développement (BMZ). 

Vous trouverez ci-dessous les liens vers ces ensembles de données et des informations sur les équipes qui les ont créés et les cas d’utilisation potentiels.

Ensembles de données de reconnaissance d’entités nommées et étiquetage morpho-syntaxique pour les langues africaines 

CONTACT : DAVID IFEOLUWA ADELANI, D.ADELANI@UCL.AC.UK 

MasakhaNER 2.0 : ensembles de données de reconnaissance d’entités nommées pour 20 langues africaines 

MasakhaNER 2.0 est le plus grand ensemble de données de reconnaissance d’entités nommées annotées manuellement pour 20 langues africaines. Chaque langue compte entre 4 800 et 11 000 paires de phrases pour la formation et/ou l’évaluation. Les langues couvertes sont parlées en Afrique occidentale, centrale, orientale et australe, et comprennent le bambara, le ghomala, l’éwé, le fon, le haoussa, l’igbo, le kinyarwanda, le luganda, le dholuo, le mossi, le chichewa, le pidgin nigérian, le chiShona, le setswana, le swahili, le twi, le wolof, l’isiXhosa, le yorùbá et l’isiZulu. Un complément d’information sur les données est disponible dans leur document EMNLP ici.  

AFFILIATIONS ET AUTEURS : 

Masakhane 

Université de la Sarre, Allemagne 

David Ifeoluwa Adelani | Jesujoba O. Alabi | Dietrich Klakow 

CMU, États-Unis 

Graham Neubig | Shruti Rijhwani | Perez Ogayo 

Google Research 

Sebastian Ruder 

Université de Witwatersrand, Afrique du Sud 

Michael Beukman 

Université Brandeis, États-Unis 

Chester Palen-Michel | Constantine Lignos 

LIAAD-INESC TEC, Portugal 

Shamsuddeen H. Muhammad 

Université Makerere 

Peter Nabende | Jonathan Mukiibi | Joyce Nakatumba-Nabende

Université de Bergen, Norvège 

Cheikh M. Bamba Dione 

SaDiLaR 

Andiswa Bukula | Rooweither Mabuya

MILA, Canada 

Bonaventure F. P. Dossou

RIKEN, Japon 

Happy Buzaaba

Baamtu, Sénégal 

Derguene Mbaye

Université des affaires et des sciences appliquées du Malawi 

Amelia Taylor 

Université d’Uppsala, Suède 

Fatoumata Kabore 

Université technique de Munich, Allemagne 

Chris Chinenye Emezue 

TU Clausthal, Allemagne 

Edwin Munkoh-Buabeng 

RIT, États-Unis 

Allahsera Auguste Tapo 

Université de Pretoria, Afrique du Sud 

Tebogo Macucwa | Vukosi Marivate | Neo L. Mokono 

Université de technologie de Luleå, Suède 

Tosin Adewumi 

Université de Washington, États-Unis 

Orevaoghene Ahia 

Université de Lancaster, Royaume-Uni 

Ignatius Ezeani | Chiamaka Chukwuneke 

Université de Waterloo, Canada 

Mofetoluwa Adeyemi | Odunayo Ogundepo 

Université Ahmadu Bello, Nigeria 

Idris Abdulmumin 

MAFAND-MT : corpus d’actualités anglo et franco-africaines pour la traduction automatique de Masakhane

L’ensemble de données MAFAND-MT est constitué de quelques milliers de paires de phrases de haute qualité et traduites par des humains pour 16 langues africaines dans le domaine de l’actualité. Chaque langue compte entre 1 466 et 7 838 paires de phrases pour la formation et/ou l’évaluation. Les langues couvertes sont parlées en Afrique occidentale, centrale, orientale et australe, et comprennent le bambara, le ghomala, l’éwé, le fon, le haoussa, le kinyarwanda, le luganda, le dholuo, le mossi, le chichewa, le pidgin nigérian, le chiShona, le setswana, le twi, le wolof et l’isiXhosa. Un complément d’information sur cet ensemble de données est disponible dans le document NAACL 2022 de l’équipe https://arxiv.org/abs/2205.02022.

AFFILIATIONS ET AUTEURS : 

Masakhane 

Inria 

Jesujoba O. Alabi 

Meta AI 

Angela Fan 

Amazon Alexa AI  

Xiaoyu Shen 

Université de Tokyo 

Machel Reid 

Université Jacobs 

Bonaventure F. P. Dossou 

Université de la Sarre, Allemagne 

David Ifeoluwa Adelani | Dietrich Klakow | Dana Ruiter | Ernie Chang 

Google Research 

Julia Kreutzer 

Université Makerere 

Peter Nabende | Jonathan Mukiibi | Eric Peter Wairagala 

Université technique de Munich, Allemagne 

Chris Chinenye Emezue 

Université de Dayton 

Colin Leong 

Université de Witwatersrand, Afrique du Sud 

Michael Beukman

Universitat Politècnica de Catalunya 

Andre Niyongabo Rubungo 

Microsoft 

Mohamed Ahmed | Millicent Ochieng 

CMU, États-Unis 

Perez Ogayo 

Université d’Uppsala, Suède 

Fatoumata Ouoba Kabore 

Baamtu, Sénégal 

Derguene Mbaye 

Rochester Institute of Technology, États-Unis 

Allahsera Auguste Tapo 

Université Ahmadu Bello, Nigeria 

Idris Abdulmumin 

Université d’Ibadan 

Ayodele Awokoya 

Université du Malawi 

Sam Manthalu 

LIAAD-INESC TEC, Portugal 

Shamsuddeen H. Muhammad 

RIKEN, Japon 

Happy Buzaaba 

SaDiLaR 

Andiswa Bukula

MasakhaPOS : ensemble de données d’étiquetage morpho-syntaxique pour 20 langues africaines

MasakhaPOS est le plus grand ensemble de données d’étiquetage morpho-syntaxique annotées par des humains pour 20 langues africaines. Chaque langue compte entre 1 200 et 1 500 phrases pour la formation et/ou l’évaluation. Les langues couvertes sont parlées en Afrique occidentale, centrale, orientale et australe, et comprennent le bambara, le ghomala, l’éwé, le fon, le haoussa, l’igbo, le kinyarwanda, le luganda, le dholuo, le mossi, le chichewa, le pidgin nigérian, le chiShona, le setswana, le swahili, le twi, le wolof, l’isiXhosa, le yorùbá et l’isiZulu.

AFFILIATIONS ET AUTEURS : 

Masakhane 

Université de la Sarre, Allemagne 

David Ifeoluwa Adelani | Jesujoba O. Alabi | Dietrich Klakow 

CMU, États-Unis 

Perez Ogayo

LIAAD-INESC TEC, Portugal 

Shamsuddeen H. Muhammad 

Université Makerere 

Peter Nabende | Jonathan Mukiibi 

Université de Bergen, Norvège 

Cheikh M. Bamba Dione

SaDiLaR 

Andiswa Bukula | Rooweither Mabuya 

MILA, Canada 

Bonaventure F. P. Dossou 

RIKEN, Japon 

Happy Buzaaba

Baamtu, Sénégal 

Derguene Mbaye 

Université des affaires et des sciences appliquées du Malawi 

Amelia Taylor 

Université d’Uppsala, Suède 

Fatoumata Kabore 

Université technique de Munich, Allemagne 

Chris Chinenye Emezue 

TU Clausthal, Allemagne 

Edwin Munkoh-Buabeng 

RIT, États-Unis 

Allahsera Auguste Tapo 

Université de Pretoria, Afrique du Sud 

Tebogo Macucwa | Vukosi Marivate  

Université de Buea, Cameroun 

Gratien Atindogbe 

Ensemble de données vocales axé sur l’inclusion financière pour certaines langues ghanéennes

CONTACT : DENNIS ASAMOAH OWUSU (DOWUSU@ASHESI.EDU.GH) 

Cet ensemble de données vocales pour les langues ghanéennes akan (akuapem twi, asante twi, fante) et ga comprend 104 000 énoncés (parole) dans les quatre dialectes/langues avec environ 200 locuteurs par dialecte/langue. Cela représente environ 148 heures de parole au total. L’ensemble de données a été créé pour soutenir le développement d’applications financières dans les langues natives du Ghana afin de permettre aux personnes analphabètes et semi-alphabètes de bénéficier pleinement des services financiers numériques. Deuxièmement, il vise à répondre aux questions de recherche liées au développement d’ensembles de données spécifiques à un domaine ou à usage général, aux dialectes, ainsi qu’au développement de systèmes de TALN dans des environnements à faibles ressources. 

Pour un complément d’information sur l’ensemble de données et l’approche de l’équipe, voir :  
https://ashesi-org.github.io/dataset/nlp/ai/ghana/africa/speech/2022/05/16/release-of-financial-inclusion-dataset-ghanaian-languages.html 

AFFILIATIONS ET AUTEURS :

Université Ashesi 

Dennis Asamoah Owusu 

Ayorkor Korsah 

David Sampah 

David Adjepon-Yamoah 

Stephane Nwolley Jnr. 

Nokwary Technologies 

Dennis Asamoah Owusu 

Benedict Quartey 

David Sampah 

Lily Omane Boateng 

IgboSynCorp : ensemble de données pour les tâches de traitement du langage naturel en langue igbo

CONTACTS : GERALD NWEYA (GERALDNWEYA@GMAIL.COM) ET EMEKA ONWUEGBUZIA (EONWUEGBUZIA@GMAIL.COM) 

Cet ensemble de données est le premier corpus parlé de données étiquetées et non étiquetées pour les tâches de traitement automatique du langage naturel (TALN) en langue igbo. Il comprend environ 40 heures de données vocales spontanées en igbo, représentatives de tous les dialectes de l’igbo. Cet ensemble de données jette les bases des tâches de TALN en langue igbo telles que la traduction automatique, le corpus arboré, la conversion de la parole en texte, l’étiquetage morpho-syntaxique automatique, le dictionnaire numérique et le correcteur orthographique automatique. 

AFFILIATIONS ET AUTEURS :

Université d’Ibadan, Ibadan, Nigeria 

Gerald Okey Nweya 

Amarachi Akudo Osuagwu 

Emeka Felix. Onwuegbuzia 

Samuel Obinna Ejinwa 

Anita Ifeoma Adiboshi 

Daniel Success Nwokwo 

Peter Ugochukwu Ihunna

Université Afe-Babalola, Ado-Ekiti, Nigeria 

Oluwole Solomon Akinola 

Pour en savoir plus sur ces ensembles de données et d’autres ensembles de données financés par le Lacuna Fund, consultez notre page Ensembles de données ! 

Chaque trimestre, nous partageons les ensembles de données sur notre site web et sur les plateformes de réseaux sociaux. Abonnez-vous à la newsletter du Lacuna Fund ci-dessous et suivez-nous sur les réseaux sociaux pour rester au courant de ces annonces. 

Le Meridian Institute fait office de Secrétariat pour le Lacuna Fund.

Annonce des nouveaux ensembles de données pour les langues africaines — Lauréats 2020 du traitement du langage naturel (TALN)

Appels à propositions à venir

Annonce des nouveaux ensembles de données pour les langues africaines

Lauréats 2020 du traitement du langage naturel (TALN)

Ensembles de données de reconnaissance d’entités nommées et étiquetage morpho-syntaxique pour les langues africaines

MasakhaNER 2.0 : ensembles de données de reconnaissance d’entités nommées pour 20 langues africaines

MAFAND-MT : corpus d’actualités anglo et franco-africaines pour la traduction automatique de Masakhane

MasakhaPOS : ensemble de données d’étiquetage morpho-syntaxique pour 20 langues africaines

Ensemble de données vocales axé sur l’inclusion financière pour certaines langues ghanéennes

IgboSynCorp : ensemble de données pour les tâches de traitement du langage naturel en langue igbo

Annonce des nouveaux ensembles de données pour les langues africaines — Lauréats 2020 du traitement du langage naturel (TALN) 

Lauréats 2020 du traitement du langage naturel (TALN) 

Ensembles de données de reconnaissance d’entités nommées et étiquetage morpho-syntaxique pour les langues africaines 

MasakhaNER 2.0 : ensembles de données de reconnaissance d’entités nommées pour 20 langues africaines 

MAFAND-MT : corpus d’actualités anglo et franco-africaines pour la traduction automatique de Masakhane

MasakhaPOS : ensemble de données d’étiquetage morpho-syntaxique pour 20 langues africaines

IgboSynCorp : ensemble de données pour les tâches de traitement du langage naturel en langue igbo