Anuncio de nuevos conjuntos de datos para idiomas africanos — Premios 2020 de Procesamiento del Lenguaje Natural (PLN)

20 December 2022

Próximas convocatorias para propuestas 

Lacuna Fund publicará dos nuevas convocatorias de propuestas para crear conjuntos de datos de aprendizaje automático más equitativos y accesibles en 2023. Invitamos a presentar propuestas para desarrollar conjuntos de datos en dos ámbitos:  

  • Salud y derechos sexuales y reproductivos  
  • Clima y bosques 

En el nuevo año se anunciarán más detalles. 

Anuncio de nuevos conjuntos de datos para idiomas africanos 

Premios 2020 de Procesamiento de Lenguaje Natural (PLN)

Nos complace anunciar nuestros conjuntos de datos recientemente publicados en el dominio de los idiomas.  Estos conjuntos de datos fomentarán la igualdad de oportunidades, la inclusión, la participación en la toma de decisiones y la accesibilidad. En conjunto, abarcan más de 22 lenguas africanas, como Bambara, Dholuo, Fon, Akan y Wolof. Agradecemos a estos equipos por su trabajo para crear estas fuentes de datos inclusivas y abiertas al público, que permitirán que los recursos de inteligencia artificial sean más fácilmente accesibles y estén disponibles en el continente africano.

El equipo Masakhane y afiliados han creado tres conjuntos de datos para varios idiomas africanos. Los conjuntos de datos se enfocan en el reconocimiento de entidades con nombre y el etiquetado de partes del discurso.  

  • MasakhaNER 2.0: Conjuntos de datos de reconocimiento de entidades con nombre para 20 idiomas africanos  
  • MAFAND-MT: Corpus de noticias anglo y francoafricanas de Masakhane para la traducción automática 
  • MasakhaPOS: Conjuntos de datos de etiquetado de partes del discurso para 20 idiomas africanos 

La Universidad Ashesi y Nokwary Technologies han creado un conjunto de datos de discursos para la inclusión financiera para los idiomas ghaneses akan (Akuapem Twi, Asante Twi, Fante) y ga.  

  • Conjunto de datos de discursos para la inclusión financiera para algunos idiomas ghaneses 

La Universidad de Ibadán y la Universidad Afe-Babalola han creado el primer corpus oral de conjuntos de datos etiquetados y no etiquetados para tareas de Procesamiento de Lenguaje Natural (PLN) en igbo.  

  • IgboSynCorp: Conjunto de datos para tareas de Procesamiento de Lenguaje Natural en igbo  

También agradecemos a nuestros copatrocinadores, cuyo apoyo hizo posible estos conjuntos de datos: The Rockefeller Foundation, Google.org, Canada’s International Development Research Centre, y el programa FAIR Forward de la GIZ en nombre del Ministerio Federal Alemán de Cooperación Económica y Desarrollo (BMZ).    

A continuación, encontrará enlaces a estos conjuntos de datos e información sobre los equipos que los crearon y los posibles casos de uso. 

 

Conjuntos de datos de reconocimiento de entidades con nombre y partes del discurso para idiomas africanos  

CONTACTO: DAVID IFEOLUWA ADELANI, D.ADELANI@UCL.AC.UK 

MasakhaNER 2.0: Conjuntos de datos de reconocimiento de entidades con nombre para 20 idiomas africanos  

MasakhaNER 2.0 es el mayor conjunto de datos de reconocimiento de entidades con nombre comentado por humanos para 20 idiomas africanos. Cada idioma tiene entre 4800 y 11 000 oraciones paralelas para capacitación o evaluación. Los idiomas cubiertos abarcan África Occidental, Central, Oriental y Meridional, e incluyen el bambara, el ghomala, el ewe, el fon, el hausa, el igbo, el kinyarwanda, el luganda, el dholuo, el mossi, el chichewa, el pidgin nigeriano, el chiShona, el setswana, el swahili, el twi, el wolof, el isiXhosa, el yorùbá y el isiZulu. Puede encontrar más información sobre los datos en su artículo de la Conferencia sobre Métodos Empíricos en el Procesamiento del Lenguaje Natural (Empirical Methods in Natural Language Processing, EMNLP) aquí.   

AFILIACIONES Y AUTORES:  

Masakhane 

David Ifeoluwa Adelani | Michael Beukman | Shamsuddeen H. Muhammad | Peter Nabende | Bonaventure F. P. Dossou | Blessing Sibanda | Happy Buzaaba | Jonathan Mukiibi | Godson Kalipe | Derguene Mbaye | Fatoumata Kabore | Chris Chinenye Emezue | Anuoluwapo Aremu | Perez Ogayo | Catherine Gitau | Edwin Munkoh-Buabeng | Victoire M. Koagne | Allahsera Auguste Tapo |  
Tebogo Macucwa | Vukosi Marivate | Elvis Mboning | Tajuddeen Gwadabe | Tosin Adewumi | Orevaoghene Ahia | Joyce Nakatumba-Nabende | Neo L. Mokono | Ignatius Ezeani | Chiamaka Chukwuneke | Mofetoluwa Adeyemi | Gilles Q. Hacheme | Idris Abdulmumin | Odunayo Ogundepo | Oreen Yousuf | Tatiana Moteu Ngoli  

Universidad de Saarland, Alemania 

David Ifeoluwa Adelani | Jesujoba O. Alabi | Dietrich Klakow  

Universidad Carnegie Mellon (CMU), Estados Unidos  

Graham Neubig | Shruti Rijhwani | Perez Ogayo  

Google Research  

Sebastian Ruder  

Universidad de Witwatersrand, Sudáfrica  

Michael Beukman  

Universidad Brandeis, Estados Unidos  

Chester Palen-Michel | Constantine Lignos  

Laboratorio de Inteligencia Artificial y Apoyo a la Decisión (LIAAD) del Instituto de Ingeniería, Tecnología y Ciencias de Sistemas e Informáticas (INESC TEC), Portugal  

Shamsuddeen H. Muhammad  

Universidad de Makerere  

Peter Nabende | Jonathan Mukiibi | Joyce Nakatumba-Nabende

Universidad de Bergen, Noruega  

Cheikh M. Bamba Dione  

Centro Sudafricano de Recursos Lingüísticos Digitales (SaDiLaR)  

Andiswa Bukula | Rooweither Mabuya  

MILA, Canadá 

Bonaventure F. P. Dossou

RIKEN, Japón  

Happy Buzaaba

Baamtu, Senegal  

Derguene Mbaye 

Universidad de Ciencias Empresariales y Aplicadas de Malaui  

Amelia Taylor  

Universidad de Uppsala, Suecia  

Fatoumata Kabore  

Universidad Técnica de Múnich, Alemania  

Chris Chinenye Emezue  

Universidad Técnica de Clausthal, Alemania  

Edwin Munkoh-Buabeng  

Instituto de Tecnología de Rochester (RIT), Estados Unidos  

Allahsera Auguste Tapo  

Universidad de Pretoria, Sudáfrica  

Tebogo Macucwa | Vukosi Marivate | Neo L. Mokono  

Universidad Tecnológica de Luleå, Suecia  

Tosin Adewumi  

Universidad de Washington, Estados Unidos  

Orevaoghene Ahia  

Universidad de Lancaster, Reino Unido  

Ignatius Ezeani | Chiamaka Chukwuneke  

Universidad de Waterloo, Canadá  

Mofetoluwa Adeyemi | Odunayo Ogundepo  

Universidad Ahmadu Bello, Nigeria  

Idris Abdulmumin  

 

MAFAND-MT: Corpus de noticias anglo y francoafricanas de Masakhane para la traducción automática 

El conjunto de datos MAFAND-MT está formado por miles de oraciones paralelas de alta calidad y traducidas por humanos para 16 idiomas africanos en el dominio de las noticias. Cada idioma tiene entre 1466 y 7838 oraciones paralelas para capacitación o evaluación. Los idiomas cubiertos abarcan África Occidental, Central, Oriental y Meridional, e incluyen el bambara, el ghomala, el ewe, el fon, el hausa, el kinyarwanda, el luganda, el dholuo, el mossi, el chichewa, el pidgin nigeriano, el chiShona, el setswana, el wolof y el isiXhosa. Puede encontrar más detalles sobre este conjunto de datos en el artículo del equipo para la Conferencia Anual de la Sección Norteamericana de la Asociación de Lingüística Computacional 2022 (Annual Conference of the North American Chapter of the Association for Computational Linguistics, NAACL): https://arxiv.org/abs/2205.02022 

AFILIACIONES Y AUTORES:  

 Masakhane 

David Ifeoluwa Adelani | Jesujoba O. Alabi | Michael Beukman | Shamsuddeen H. Muhammad | Peter Nabende | Bonaventure F. P. Dossou | Blessing Sibanda | Happy Buzaaba | Jonathan Mukiibi | Godson Kalipe | Derguene Mbaye | Fatoumata Ouoba Kabore | Chris Chinenye Emezue | Anuoluwapo Aremu | Perez Ogayo | Edwin Munkoh-Buabeng | Victoire Memdjokam Koagne | Allahsera Auguste Tapo  Tajuddeen Gwadabe | Gilles Q. Hacheme | Idris Abdulmumin | Oreen Yousuf  Freshia Sackey | Colin Leong | Guyo Jarso | Andre Niyongabo Rubungo | Eric Peter Wairagala | Muhammad Umair Nasir | Benjamin Ajibade | Tunde Ajayi | Yvonne Gitau | Jade Abbott | Mohamed Ahmed | Millicent Ochieng | Valencia Wagner | Ayodele Awokoya  

Inria 

Jesujoba O. Alabi  

Meta AI  

Angela Fan  

Amazon Alexa AI   

Xiaoyu Shen  

Universidad de Tokio  

Machel Reid  

Universidad Jacobs  

Bonaventure F. P. Dossou  

Universidad de Saarland, Alemania 

David Ifeoluwa Adelani | Dietrich Klakow | Dana Ruiter | Ernie Chang  

Google Research  

Julia Kreutzer  

Universidad de Makerere  

Peter Nabende | Jonathan Mukiibi | Eric Peter Wairagala  

Universidad Técnica de Múnich, Alemania  

Chris Chinenye Emezue  

Universidad de Dayton  

Colin Leong 

Universidad de Witwatersrand, Sudáfrica  

Michael Beukman  

Universidad Politécnica de Cataluña  

Andre Niyongabo Rubungo  

Microsoft  

Mohamed Ahmed | Millicent Ochieng  

Universidad Carnegie Mellon (CMU), Estados Unidos  

Perez Ogayo  

Universidad de Uppsala, Suecia  

Fatoumata Ouoba Kabore  

Baamtu, Senegal  

Derguene Mbaye  

Instituto de Tecnología de Rochester, Estados Unidos  

Allahsera Auguste Tapo  

Universidad Ahmadu Bello, Nigeria  

Idris Abdulmumin  

Universidad de Ibadán  

Ayodele Awokoya  

Universidad de Malaui  

Sam Manthalu  

Laboratorio de Inteligencia Artificial y Apoyo a la Decisión (LIAAD) del Instituto de Ingeniería, Tecnología y Ciencias de Sistemas e Informáticas (INESC TEC), Portugal  

Shamsuddeen H. Muhammad  

RIKEN, Japón  

Happy Buzaaba  

Centro Sudafricano de Recursos Lingüísticos Digitales (SaDiLaR)  

Andiswa Bukula 

MasakhaPOS: Conjuntos de datos de etiquetado de partes del discurso para 20 idiomas africanos 

MasakhaPOS es el mayor conjunto de datos de etiquetado de partes del discurso comentado por humanos para 20 idiomas africanos. Cada idioma tiene entre 1200 y 1500 oraciones para capacitación o evaluación. Los idiomas cubiertos abarcan África Occidental, Central, Oriental y Meridional, e incluyen el bambara, el ghomala, el ewe, el fon, el hausa, el igbo, el kinyarwanda, el luganda, el dholuo, el mossi, el chichewa, el pidgin nigeriano, el chiShona, el setswana, el swahili, el twi, el wolof, el isiXhosa, el yorùbá y el isiZulu. 

AFILIACIONES Y AUTORES:  

Masakhane 

David Ifeoluwa Adelani | Shamsuddeen H. Muhammad | Peter Nabende | Bonaventure F. P. Dossou | Blessing Sibanda | Happy Buzaaba | Jonathan Mukiibi | Godson Kalipe | Derguene Mbaye | Fatoumata Kabore | Chris Chinenye Emezue | Anuoluwapo Aremu | Perez Ogayo | Catherine Gitau | Edwin Munkoh-Buabeng | Victoire M. Koagne | Allahsera Auguste Tapo | Tebogo Macucwa | Vukosi Marivate | Elvis Mboning | Tajuddeen Gwadabe | Cheikh M. Bamba Dione  

Universidad de Saarland, Alemania 

David Ifeoluwa Adelani | Jesujoba O. Alabi | Dietrich Klakow  

Universidad Carnegie Mellon (CMU), Estados Unidos  

Perez Ogayo 

Laboratorio de Inteligencia Artificial y Apoyo a la Decisión (LIAAD) del Instituto de Ingeniería, Tecnología y Ciencias de Sistemas e Informáticas (INESC TEC), Portugal  

Shamsuddeen H. Muhammad  

Universidad de Makerere  

Peter Nabende | Jonathan Mukiibi  

Universidad de Bergen, Noruega  

Cheikh M. Bamba Dione 

Centro Sudafricano de Recursos Lingüísticos Digitales (SaDiLaR)  

Andiswa Bukula | Rooweither Mabuya  

MILA, Canadá  

Bonaventure F. P. Dossou

RIKEN, Japón  

Happy Buzaaba

Baamtu, Senegal  

Derguene Mbaye

Universidad de Ciencias Empresariales y Aplicadas de Malaui  

Amelia Taylor  

Universidad de Uppsala, Suecia  

Fatoumata Kabore  

Universidad Técnica de Múnich, Alemania  

Chris Chinenye Emezue  

Universidad Técnica de Clausthal, Alemania  

Edwin Munkoh-Buabeng  

Instituto de Tecnología de Rochester (RIT), Estados Unidos  

Allahsera Auguste Tapo  

Universidad de Pretoria, Sudáfrica  

Tebogo Macucwa | Vukosi Marivate   

Universidad de Buea, Camerún  

Gratien Atindogbe  

 

Conjunto de datos de discursos para la inclusión financiera para algunos idiomas ghaneses 

CONTACTO: DENNIS ASAMOAH OWUSU (DOWUSU@ASHESI.EDU.GH)  

Este conjunto de datos del discurso de los idiomas ghaneses akan (akuapem twi, asante twi, fante) y ga incluye 104 000 enunciados (discurso) de los cuatro dialectos/idiomas con aproximadamente 200 hablantes por dialecto/idioma. Esto supone unas 148 horas de discurso en total. El conjunto de datos se creó para apoyar el desarrollo de aplicaciones financieras en los idiomas nativos de Ghana, con el fin de que las personas analfabetas y semianalfabetas puedan beneficiarse plenamente de los servicios financieros digitales. En segundo lugar, pretende responder a cuestiones de investigación relacionadas con el desarrollo de conjuntos de datos específicos de un dominio frente a los de uso general, los dialectos y el desarrollo de sistemas de NLP en entornos con pocos recursos.  

Lea más acerca del conjunto de datos y el enfoque del equipo aquí:  
https://ashesi-org.github.io/dataset/nlp/ai/ghana/africa/speech/2022/05/16/release-of-financial-inclusion-dataset-ghanaian-languages.html  

AFILIACIONES Y AUTORES: 

Universidad Ashesi 

Dennis Asamoah Owusu  

Ayorkor Korsah  

David Sampah  

David Adjepon-Yamoah  

Stephane Nwolley Jnr.

Nokwary Technologies 

Dennis Asamoah Owusu  

Benedict Quartey  

David Sampah  

Lily Omane Boateng

 

IgboSynCorp: Conjunto de datos para tareas de Procesamiento de Lenguaje Natural en igbo  

CONTACTOS: GERALD NWEYA (GERALDNWEYA@GMAIL.COM) Y EMEKA ONWUEGBUZIA (EONWUEGBUZIA@GMAIL.COM)  

Este conjunto de datos es el primer corpus oral de conjuntos de datos etiquetados y no etiquetados para tareas de Procesamiento de Lenguaje Natural (PLN) en igbo. Consta de aproximadamente 40 horas de discurso igbo producido de forma natural y representativa de todos los dialectos del igbo. El conjunto de datos sienta las bases para tareas de NLP en igbo, como la traducción automática, el Tree Bank, la conversión de voz a texto, el etiquetado automático de las partes del discurso, el diccionario digital y el corrector ortográfico automático. 

AFILIACIONES Y AUTORES: 

Universidad de Ibadán, Ibadán, Nigeria 

Gerald Okey Nweya 

Amarachi Akudo Osuagwu 

Emeka Felix. Onwuegbuzia 

Samuel Obinna Ejinwa 

Anita Ifeoma Adiboshi 

Daniel Success Nwokwo 

Peter Ugochukwu Ihunna 

Universidad Afe-Babalola, Ado-Ekiti, Nigeria 

Oluwole Solomon Akinola

 

Obtenga más información sobre estos y otros conjuntos de datos publicados financiados por Lacuna en nuestra página de conjuntos de datos. 

Compartimos conjuntos de datos trimestralmente en nuestro sitio web y plataformas de redes sociales. Suscríbase al boletín de Lacuna Fund y síganos en las redes sociales para mantenerse actualizado sobre estos anuncios. 

El Meridian Institute funciona como secretariado de Lacuna Fund.