Annonce des nouveaux ensembles de données pour les langues africaines — Lauréats 2020 du traitement du langage naturel (TALN)
20 December 2022Appels à propositions à venir
Le Lacuna Fund lancera deux nouveaux appels à propositions pour construire des ensembles de données destinés à l’apprentissage machine plus équitables et plus accessibles en 2023. Nous solliciterons des propositions pour élaborer des ensembles de données dans deux domaines :
- Santé et droits sexuels et reproductifs
- Climat et forêts
Nous vous donnerons plus de détails l’année prochaine.
Annonce des nouveaux ensembles de données pour les langues africaines
Lauréats 2020 du traitement du langage naturel (TALN)
Nous sommes très heureux de vous annoncer la publication de nos derniers ensembles de données dans le domaine des langues. Ces ensembles de données favoriseront l’égalité des chances, l’inclusion, la participation à la prise de décision et l’accessibilité. Ensemble, ils couvrent plus de 22 langues africaines, telles que le bambara, le dholuo, le fon, l’akan et le wolof. Nous remercions ces équipes pour leur travail de création de ces ressources de données ouvertes et inclusives, qui permettront aux ressources d’intelligence artificielle d’être plus facilement accessibles et disponibles sur le continent africain.
L’équipe de Masakhane et ses affiliés ont créé trois ensembles de données pour plusieurs langues africaines, axés sur la reconnaissance d’entités nommées et l’étiquetage morpho-syntaxique.
- MasakhaNER 2.0 : ensembles de données de reconnaissance d’entités nommées pour 20 langues africaines
- MAFAND-MT : corpus d’actualités anglo et franco-africaines pour la traduction automatique de Masakhane
- MasakhaPOS : ensemble de données d’étiquetage morpho-syntaxique pour 20 langues africaines
L’université Asheshi et Nokwary Technologies ont créé un ensemble de données vocales axé sur l’inclusion financière pour les langues ghanéennes akan (akuapem twi, asante twi, fante) et ga.
- Ensemble de données vocales axé sur l’inclusion financière pour certaines langues ghanéennes
L’Université d’Ibadan et l’Université Afe-Babalola ont créé le premier corpus parlé de données étiquetées et non étiquetées pour les tâches de traitement automatique du langage naturel (TALN) en langue igbo.
- IgboSynCorp : ensemble de données pour les tâches de traitement du langage naturel en langue igbo
Nous tenons également à remercier nos cofinanceurs, dont le soutien a rendu ces ensembles de données possibles : la Fondation Rockefeller, Google.org, le Centre de recherche pour le développement international du Canada, et le programme FAIR Forward de la GIZ pour le compte du Ministère fédéral allemand de la Coopération économique et du Développement (BMZ).
Vous trouverez ci-dessous les liens vers ces ensembles de données et des informations sur les équipes qui les ont créés et les cas d’utilisation potentiels.
Ensembles de données de reconnaissance d’entités nommées et étiquetage morpho-syntaxique pour les langues africaines
CONTACT : DAVID IFEOLUWA ADELANI, D.ADELANI@UCL.AC.UK
MasakhaNER 2.0 : ensembles de données de reconnaissance d’entités nommées pour 20 langues africaines
MasakhaNER 2.0 est le plus grand ensemble de données de reconnaissance d’entités nommées annotées manuellement pour 20 langues africaines. Chaque langue compte entre 4 800 et 11 000 paires de phrases pour la formation et/ou l’évaluation. Les langues couvertes sont parlées en Afrique occidentale, centrale, orientale et australe, et comprennent le bambara, le ghomala, l’éwé, le fon, le haoussa, l’igbo, le kinyarwanda, le luganda, le dholuo, le mossi, le chichewa, le pidgin nigérian, le chiShona, le setswana, le swahili, le twi, le wolof, l’isiXhosa, le yorùbá et l’isiZulu. Un complément d’information sur les données est disponible dans leur document EMNLP ici.
AFFILIATIONS ET AUTEURS :
Masakhane
David Ifeoluwa Adelani | Michael Beukman | Shamsuddeen H. Muhammad | Peter Nabende | Bonaventure F. P. Dossou | Blessing Sibanda | Happy Buzaaba | Jonathan Mukiibi | Godson Kalipe | Derguene Mbaye | Fatoumata Kabore | Chris Chinenye Emezue | Anuoluwapo Aremu | Perez Ogayo | Catherine Gitau | Edwin Munkoh-Buabeng | Victoire M. Koagne | Allahsera Auguste Tapo | Université de la Sarre, Allemagne David Ifeoluwa Adelani | Jesujoba O. Alabi | Dietrich Klakow CMU, États-Unis Graham Neubig | Shruti Rijhwani | Perez Ogayo Google Research Sebastian Ruder Université de Witwatersrand, Afrique du Sud Michael Beukman Université Brandeis, États-Unis Chester Palen-Michel | Constantine Lignos LIAAD-INESC TEC, Portugal Shamsuddeen H. Muhammad Université Makerere Peter Nabende | Jonathan Mukiibi | Joyce Nakatumba-Nabende Université de Bergen, Norvège Cheikh M. Bamba Dione SaDiLaR Andiswa Bukula | Rooweither Mabuya MILA, Canada Bonaventure F. P. Dossou RIKEN, Japon Happy Buzaaba |
Baamtu, Sénégal
Derguene Mbaye Université des affaires et des sciences appliquées du Malawi Amelia Taylor Université d’Uppsala, Suède Fatoumata Kabore Université technique de Munich, Allemagne Chris Chinenye Emezue TU Clausthal, Allemagne Edwin Munkoh-Buabeng RIT, États-Unis Allahsera Auguste Tapo Université de Pretoria, Afrique du Sud Tebogo Macucwa | Vukosi Marivate | Neo L. Mokono Université de technologie de Luleå, Suède Tosin Adewumi Université de Washington, États-Unis Orevaoghene Ahia Université de Lancaster, Royaume-Uni Ignatius Ezeani | Chiamaka Chukwuneke Université de Waterloo, Canada Mofetoluwa Adeyemi | Odunayo Ogundepo Université Ahmadu Bello, Nigeria Idris Abdulmumin |
MAFAND-MT : corpus d’actualités anglo et franco-africaines pour la traduction automatique de Masakhane
L’ensemble de données MAFAND-MT est constitué de quelques milliers de paires de phrases de haute qualité et traduites par des humains pour 16 langues africaines dans le domaine de l’actualité. Chaque langue compte entre 1 466 et 7 838 paires de phrases pour la formation et/ou l’évaluation. Les langues couvertes sont parlées en Afrique occidentale, centrale, orientale et australe, et comprennent le bambara, le ghomala, l’éwé, le fon, le haoussa, le kinyarwanda, le luganda, le dholuo, le mossi, le chichewa, le pidgin nigérian, le chiShona, le setswana, le twi, le wolof et l’isiXhosa. Un complément d’information sur cet ensemble de données est disponible dans le document NAACL 2022 de l’équipe https://arxiv.org/abs/2205.02022.
AFFILIATIONS ET AUTEURS :
Masakhane
David Ifeoluwa Adelani | Jesujoba O. Alabi | Michael Beukman | Shamsuddeen H. Muhammad | Peter Nabende | Bonaventure F. P. Dossou | Blessing Sibanda | Happy Buzaaba | Jonathan Mukiibi | Godson Kalipe | Derguene Mbaye | Fatoumata Ouoba Kabore | Chris Chinenye Emezue | Anuoluwapo Aremu | Perez Ogayo | Edwin Munkoh-Buabeng | Victoire Memdjokam Koagne | Allahsera Auguste Tapo Tajuddeen Gwadabe | Gilles Q. Hacheme | Idris Abdulmumin | Oreen Yousuf Freshia Sackey | Colin Leong | Guyo Jarso | Andre Niyongabo Rubungo | Eric Peter Wairagala | Muhammad Umair Nasir | Benjamin Ajibade | Tunde Ajayi | Yvonne Gitau | Jade Abbott | Mohamed Ahmed | Millicent Ochieng | Valencia Wagner | Ayodele Awokoya Inria Jesujoba O. Alabi Meta AI Angela Fan Amazon Alexa AI Xiaoyu Shen Université de Tokyo Machel Reid Université Jacobs Bonaventure F. P. Dossou Université de la Sarre, Allemagne David Ifeoluwa Adelani | Dietrich Klakow | Dana Ruiter | Ernie Chang Google Research Julia Kreutzer Université Makerere Peter Nabende | Jonathan Mukiibi | Eric Peter Wairagala Université technique de Munich, Allemagne Chris Chinenye Emezue Université de Dayton Colin Leong Université de Witwatersrand, Afrique du Sud Michael Beukman |
Universitat Politècnica de Catalunya
Andre Niyongabo Rubungo Microsoft Mohamed Ahmed | Millicent Ochieng CMU, États-Unis Perez Ogayo Université d’Uppsala, Suède Fatoumata Ouoba Kabore Baamtu, Sénégal Derguene Mbaye Rochester Institute of Technology, États-Unis Allahsera Auguste Tapo Université Ahmadu Bello, Nigeria Idris Abdulmumin Université d’Ibadan Ayodele Awokoya Université du Malawi Sam Manthalu LIAAD-INESC TEC, Portugal Shamsuddeen H. Muhammad RIKEN, Japon Happy Buzaaba SaDiLaR Andiswa Bukula |
MasakhaPOS : ensemble de données d’étiquetage morpho-syntaxique pour 20 langues africaines
MasakhaPOS est le plus grand ensemble de données d’étiquetage morpho-syntaxique annotées par des humains pour 20 langues africaines. Chaque langue compte entre 1 200 et 1 500 phrases pour la formation et/ou l’évaluation. Les langues couvertes sont parlées en Afrique occidentale, centrale, orientale et australe, et comprennent le bambara, le ghomala, l’éwé, le fon, le haoussa, l’igbo, le kinyarwanda, le luganda, le dholuo, le mossi, le chichewa, le pidgin nigérian, le chiShona, le setswana, le swahili, le twi, le wolof, l’isiXhosa, le yorùbá et l’isiZulu.
AFFILIATIONS ET AUTEURS :
Masakhane
David Ifeoluwa Adelani | Shamsuddeen H. Muhammad | Peter Nabende | Bonaventure F. P. Dossou | Blessing Sibanda | Happy Buzaaba | Jonathan Mukiibi | Godson Kalipe | Derguene Mbaye | Fatoumata Kabore | Chris Chinenye Emezue | Anuoluwapo Aremu | Perez Ogayo | Catherine Gitau | Edwin Munkoh-Buabeng | Victoire M. Koagne | Allahsera Auguste Tapo | Tebogo Macucwa | Vukosi Marivate | Elvis Mboning | Tajuddeen Gwadabe | Cheikh M. Bamba Dione Université de la Sarre, Allemagne David Ifeoluwa Adelani | Jesujoba O. Alabi | Dietrich Klakow CMU, États-Unis Perez Ogayo LIAAD-INESC TEC, Portugal Shamsuddeen H. Muhammad Université Makerere Peter Nabende | Jonathan Mukiibi Université de Bergen, Norvège Cheikh M. Bamba Dione SaDiLaR Andiswa Bukula | Rooweither Mabuya MILA, Canada Bonaventure F. P. Dossou RIKEN, Japon Happy Buzaaba |
Baamtu, Sénégal
Derguene Mbaye Université des affaires et des sciences appliquées du Malawi Amelia Taylor Université d’Uppsala, Suède Fatoumata Kabore Université technique de Munich, Allemagne Chris Chinenye Emezue TU Clausthal, Allemagne Edwin Munkoh-Buabeng RIT, États-Unis Allahsera Auguste Tapo Université de Pretoria, Afrique du Sud Tebogo Macucwa | Vukosi Marivate Université de Buea, Cameroun Gratien Atindogbe |
Ensemble de données vocales axé sur l’inclusion financière pour certaines langues ghanéennes
CONTACT : DENNIS ASAMOAH OWUSU (DOWUSU@ASHESI.EDU.GH)
Cet ensemble de données vocales pour les langues ghanéennes akan (akuapem twi, asante twi, fante) et ga comprend 104 000 énoncés (parole) dans les quatre dialectes/langues avec environ 200 locuteurs par dialecte/langue. Cela représente environ 148 heures de parole au total. L’ensemble de données a été créé pour soutenir le développement d’applications financières dans les langues natives du Ghana afin de permettre aux personnes analphabètes et semi-alphabètes de bénéficier pleinement des services financiers numériques. Deuxièmement, il vise à répondre aux questions de recherche liées au développement d’ensembles de données spécifiques à un domaine ou à usage général, aux dialectes, ainsi qu’au développement de systèmes de TALN dans des environnements à faibles ressources.
Pour un complément d’information sur l’ensemble de données et l’approche de l’équipe, voir :
https://ashesi-org.github.io/dataset/nlp/ai/ghana/africa/speech/2022/05/16/release-of-financial-inclusion-dataset-ghanaian-languages.html
AFFILIATIONS ET AUTEURS :
Université Ashesi
Dennis Asamoah Owusu Ayorkor Korsah David Sampah David Adjepon-Yamoah Stephane Nwolley Jnr. |
Nokwary Technologies
Dennis Asamoah Owusu Benedict Quartey David Sampah Lily Omane Boateng
|
IgboSynCorp : ensemble de données pour les tâches de traitement du langage naturel en langue igbo
CONTACTS : GERALD NWEYA (GERALDNWEYA@GMAIL.COM) ET EMEKA ONWUEGBUZIA (EONWUEGBUZIA@GMAIL.COM)
Cet ensemble de données est le premier corpus parlé de données étiquetées et non étiquetées pour les tâches de traitement automatique du langage naturel (TALN) en langue igbo. Il comprend environ 40 heures de données vocales spontanées en igbo, représentatives de tous les dialectes de l’igbo. Cet ensemble de données jette les bases des tâches de TALN en langue igbo telles que la traduction automatique, le corpus arboré, la conversion de la parole en texte, l’étiquetage morpho-syntaxique automatique, le dictionnaire numérique et le correcteur orthographique automatique.
AFFILIATIONS ET AUTEURS :
Université d’Ibadan, Ibadan, Nigeria
Gerald Okey Nweya Amarachi Akudo Osuagwu Emeka Felix. Onwuegbuzia Samuel Obinna Ejinwa Anita Ifeoma Adiboshi Daniel Success Nwokwo Peter Ugochukwu Ihunna Université Afe-Babalola, Ado-Ekiti, Nigeria Oluwole Solomon Akinola |
Pour en savoir plus sur ces ensembles de données et d’autres ensembles de données financés par le Lacuna Fund, consultez notre page Ensembles de données !
Chaque trimestre, nous partageons les ensembles de données sur notre site web et sur les plateformes de réseaux sociaux. Abonnez-vous à la newsletter du Lacuna Fund ci-dessous et suivez-nous sur les réseaux sociaux pour rester au courant de ces annonces.
Le Meridian Institute fait office de Secrétariat pour le Lacuna Fund.