Anuncio de nuevos conjuntos de datos para idiomas africanos — Premios 2020 de Procesamiento del Lenguaje Natural (PLN)

20 December 2022

Próximas convocatorias para propuestas

Lacuna Fund publicará dos nuevas convocatorias de propuestas para crear conjuntos de datos de aprendizaje automático más equitativos y accesibles en 2023. Invitamos a presentar propuestas para desarrollar conjuntos de datos en dos ámbitos:

Salud y derechos sexuales y reproductivos
Clima y bosques

En el nuevo año se anunciarán más detalles.

Anuncio de nuevos conjuntos de datos para idiomas africanos

Premios 2020 de Procesamiento de Lenguaje Natural (PLN)

Nos complace anunciar nuestros conjuntos de datos recientemente publicados en el dominio de los idiomas. Estos conjuntos de datos fomentarán la igualdad de oportunidades, la inclusión, la participación en la toma de decisiones y la accesibilidad. En conjunto, abarcan más de 22 lenguas africanas, como Bambara, Dholuo, Fon, Akan y Wolof. Agradecemos a estos equipos por su trabajo para crear estas fuentes de datos inclusivas y abiertas al público, que permitirán que los recursos de inteligencia artificial sean más fácilmente accesibles y estén disponibles en el continente africano.

El equipo Masakhane y afiliados han creado tres conjuntos de datos para varios idiomas africanos. Los conjuntos de datos se enfocan en el reconocimiento de entidades con nombre y el etiquetado de partes del discurso.

MasakhaNER 2.0: Conjuntos de datos de reconocimiento de entidades con nombre para 20 idiomas africanos

MAFAND-MT: Corpus de noticias anglo y francoafricanas de Masakhane para la traducción automática
MasakhaPOS: Conjuntos de datos de etiquetado de partes del discurso para 20 idiomas africanos

La Universidad Ashesi y Nokwary Technologies han creado un conjunto de datos de discursos para la inclusión financiera para los idiomas ghaneses akan (Akuapem Twi, Asante Twi, Fante) y ga.

Conjunto de datos de discursos para la inclusión financiera para algunos idiomas ghaneses

La Universidad de Ibadán y la Universidad Afe-Babalola han creado el primer corpus oral de conjuntos de datos etiquetados y no etiquetados para tareas de Procesamiento de Lenguaje Natural (PLN) en igbo.

IgboSynCorp: Conjunto de datos para tareas de Procesamiento de Lenguaje Natural en igbo

También agradecemos a nuestros copatrocinadores, cuyo apoyo hizo posible estos conjuntos de datos: The Rockefeller Foundation, Google.org, Canada’s International Development Research Centre, y el programa FAIR Forward de la GIZ en nombre del Ministerio Federal Alemán de Cooperación Económica y Desarrollo (BMZ).   

A continuación, encontrará enlaces a estos conjuntos de datos e información sobre los equipos que los crearon y los posibles casos de uso.

Conjuntos de datos de reconocimiento de entidades con nombre y partes del discurso para idiomas africanos 

CONTACTO: DAVID IFEOLUWA ADELANI, D.ADELANI@UCL.AC.UK 

MasakhaNER 2.0: Conjuntos de datos de reconocimiento de entidades con nombre para 20 idiomas africanos 

MasakhaNER 2.0 es el mayor conjunto de datos de reconocimiento de entidades con nombre comentado por humanos para 20 idiomas africanos. Cada idioma tiene entre 4800 y 11 000 oraciones paralelas para capacitación o evaluación. Los idiomas cubiertos abarcan África Occidental, Central, Oriental y Meridional, e incluyen el bambara, el ghomala, el ewe, el fon, el hausa, el igbo, el kinyarwanda, el luganda, el dholuo, el mossi, el chichewa, el pidgin nigeriano, el chiShona, el setswana, el swahili, el twi, el wolof, el isiXhosa, el yorùbá y el isiZulu. Puede encontrar más información sobre los datos en su artículo de la Conferencia sobre Métodos Empíricos en el Procesamiento del Lenguaje Natural (Empirical Methods in Natural Language Processing, EMNLP) aquí.  

AFILIACIONES Y AUTORES: 

Masakhane 

Universidad de Saarland, Alemania 

David Ifeoluwa Adelani | Jesujoba O. Alabi | Dietrich Klakow 

Universidad Carnegie Mellon (CMU), Estados Unidos 

Graham Neubig | Shruti Rijhwani | Perez Ogayo 

Google Research 

Sebastian Ruder 

Universidad de Witwatersrand, Sudáfrica 

Michael Beukman 

Universidad Brandeis, Estados Unidos 

Chester Palen-Michel | Constantine Lignos 

Laboratorio de Inteligencia Artificial y Apoyo a la Decisión (LIAAD) del Instituto de Ingeniería, Tecnología y Ciencias de Sistemas e Informáticas (INESC TEC), Portugal 

Shamsuddeen H. Muhammad 

Universidad de Makerere 

Peter Nabende | Jonathan Mukiibi | Joyce Nakatumba-Nabende

Universidad de Bergen, Noruega 

Cheikh M. Bamba Dione 

Centro Sudafricano de Recursos Lingüísticos Digitales (SaDiLaR) 

Andiswa Bukula | Rooweither Mabuya

MILA, Canadá 

Bonaventure F. P. Dossou

RIKEN, Japón 

Happy Buzaaba

Baamtu, Senegal 

Derguene Mbaye 

Universidad de Ciencias Empresariales y Aplicadas de Malaui 

Amelia Taylor 

Universidad de Uppsala, Suecia 

Fatoumata Kabore 

Universidad Técnica de Múnich, Alemania 

Chris Chinenye Emezue 

Universidad Técnica de Clausthal, Alemania 

Edwin Munkoh-Buabeng 

Instituto de Tecnología de Rochester (RIT), Estados Unidos 

Allahsera Auguste Tapo 

Universidad de Pretoria, Sudáfrica 

Tebogo Macucwa | Vukosi Marivate | Neo L. Mokono 

Universidad Tecnológica de Luleå, Suecia 

Tosin Adewumi 

Universidad de Washington, Estados Unidos 

Orevaoghene Ahia 

Universidad de Lancaster, Reino Unido 

Ignatius Ezeani | Chiamaka Chukwuneke 

Universidad de Waterloo, Canadá 

Mofetoluwa Adeyemi | Odunayo Ogundepo 

Universidad Ahmadu Bello, Nigeria 

Idris Abdulmumin 

MAFAND-MT: Corpus de noticias anglo y francoafricanas de Masakhane para la traducción automática

El conjunto de datos MAFAND-MT está formado por miles de oraciones paralelas de alta calidad y traducidas por humanos para 16 idiomas africanos en el dominio de las noticias. Cada idioma tiene entre 1466 y 7838 oraciones paralelas para capacitación o evaluación. Los idiomas cubiertos abarcan África Occidental, Central, Oriental y Meridional, e incluyen el bambara, el ghomala, el ewe, el fon, el hausa, el kinyarwanda, el luganda, el dholuo, el mossi, el chichewa, el pidgin nigeriano, el chiShona, el setswana, el wolof y el isiXhosa. Puede encontrar más detalles sobre este conjunto de datos en el artículo del equipo para la Conferencia Anual de la Sección Norteamericana de la Asociación de Lingüística Computacional 2022 (Annual Conference of the North American Chapter of the Association for Computational Linguistics, NAACL): https://arxiv.org/abs/2205.02022

AFILIACIONES Y AUTORES: 

Masakhane 

Inria 

Jesujoba O. Alabi 

Meta AI 

Angela Fan 

Amazon Alexa AI  

Xiaoyu Shen 

Universidad de Tokio 

Machel Reid 

Universidad Jacobs 

Bonaventure F. P. Dossou 

Universidad de Saarland, Alemania 

David Ifeoluwa Adelani | Dietrich Klakow | Dana Ruiter | Ernie Chang 

Google Research 

Julia Kreutzer 

Universidad de Makerere 

Peter Nabende | Jonathan Mukiibi | Eric Peter Wairagala 

Universidad Técnica de Múnich, Alemania 

Chris Chinenye Emezue 

Universidad de Dayton 

Colin Leong 

Universidad de Witwatersrand, Sudáfrica 

Michael Beukman 

Universidad Politécnica de Cataluña 

Andre Niyongabo Rubungo 

Microsoft 

Mohamed Ahmed | Millicent Ochieng 

Universidad Carnegie Mellon (CMU), Estados Unidos 

Perez Ogayo 

Universidad de Uppsala, Suecia 

Fatoumata Ouoba Kabore 

Baamtu, Senegal 

Derguene Mbaye 

Instituto de Tecnología de Rochester, Estados Unidos 

Allahsera Auguste Tapo 

Universidad Ahmadu Bello, Nigeria 

Idris Abdulmumin 

Universidad de Ibadán 

Ayodele Awokoya 

Universidad de Malaui 

Sam Manthalu 

Laboratorio de Inteligencia Artificial y Apoyo a la Decisión (LIAAD) del Instituto de Ingeniería, Tecnología y Ciencias de Sistemas e Informáticas (INESC TEC), Portugal 

Shamsuddeen H. Muhammad 

RIKEN, Japón 

Happy Buzaaba 

Centro Sudafricano de Recursos Lingüísticos Digitales (SaDiLaR) 

Andiswa Bukula

MasakhaPOS: Conjuntos de datos de etiquetado de partes del discurso para 20 idiomas africanos

MasakhaPOS es el mayor conjunto de datos de etiquetado de partes del discurso comentado por humanos para 20 idiomas africanos. Cada idioma tiene entre 1200 y 1500 oraciones para capacitación o evaluación. Los idiomas cubiertos abarcan África Occidental, Central, Oriental y Meridional, e incluyen el bambara, el ghomala, el ewe, el fon, el hausa, el igbo, el kinyarwanda, el luganda, el dholuo, el mossi, el chichewa, el pidgin nigeriano, el chiShona, el setswana, el swahili, el twi, el wolof, el isiXhosa, el yorùbá y el isiZulu.

AFILIACIONES Y AUTORES: 

Masakhane 

Universidad de Saarland, Alemania 

David Ifeoluwa Adelani | Jesujoba O. Alabi | Dietrich Klakow 

Universidad Carnegie Mellon (CMU), Estados Unidos 

Perez Ogayo

Laboratorio de Inteligencia Artificial y Apoyo a la Decisión (LIAAD) del Instituto de Ingeniería, Tecnología y Ciencias de Sistemas e Informáticas (INESC TEC), Portugal 

Shamsuddeen H. Muhammad 

Universidad de Makerere 

Peter Nabende | Jonathan Mukiibi 

Universidad de Bergen, Noruega 

Cheikh M. Bamba Dione

Centro Sudafricano de Recursos Lingüísticos Digitales (SaDiLaR) 

Andiswa Bukula | Rooweither Mabuya 

MILA, Canadá 

Bonaventure F. P. Dossou

RIKEN, Japón 

Happy Buzaaba

 Baamtu, Senegal 

Derguene Mbaye

Universidad de Ciencias Empresariales y Aplicadas de Malaui 

Amelia Taylor 

Universidad de Uppsala, Suecia 

Fatoumata Kabore 

Universidad Técnica de Múnich, Alemania 

Chris Chinenye Emezue 

Universidad Técnica de Clausthal, Alemania 

Edwin Munkoh-Buabeng 

Instituto de Tecnología de Rochester (RIT), Estados Unidos 

Allahsera Auguste Tapo 

Universidad de Pretoria, Sudáfrica 

Tebogo Macucwa | Vukosi Marivate  

Universidad de Buea, Camerún 

Gratien Atindogbe 

Conjunto de datos de discursos para la inclusión financiera para algunos idiomas ghaneses

CONTACTO: DENNIS ASAMOAH OWUSU (DOWUSU@ASHESI.EDU.GH) 

Este conjunto de datos del discurso de los idiomas ghaneses akan (akuapem twi, asante twi, fante) y ga incluye 104 000 enunciados (discurso) de los cuatro dialectos/idiomas con aproximadamente 200 hablantes por dialecto/idioma. Esto supone unas 148 horas de discurso en total. El conjunto de datos se creó para apoyar el desarrollo de aplicaciones financieras en los idiomas nativos de Ghana, con el fin de que las personas analfabetas y semianalfabetas puedan beneficiarse plenamente de los servicios financieros digitales. En segundo lugar, pretende responder a cuestiones de investigación relacionadas con el desarrollo de conjuntos de datos específicos de un dominio frente a los de uso general, los dialectos y el desarrollo de sistemas de NLP en entornos con pocos recursos. 

Lea más acerca del conjunto de datos y el enfoque del equipo aquí:  
https://ashesi-org.github.io/dataset/nlp/ai/ghana/africa/speech/2022/05/16/release-of-financial-inclusion-dataset-ghanaian-languages.html 

AFILIACIONES Y AUTORES:

Universidad Ashesi 

Dennis Asamoah Owusu 

Ayorkor Korsah 

David Sampah 

David Adjepon-Yamoah 

Stephane Nwolley Jnr.

Nokwary Technologies 

Dennis Asamoah Owusu 

Benedict Quartey 

David Sampah 

Lily Omane Boateng

IgboSynCorp: Conjunto de datos para tareas de Procesamiento de Lenguaje Natural en igbo 

CONTACTOS: GERALD NWEYA (GERALDNWEYA@GMAIL.COM) Y EMEKA ONWUEGBUZIA (EONWUEGBUZIA@GMAIL.COM) 

Este conjunto de datos es el primer corpus oral de conjuntos de datos etiquetados y no etiquetados para tareas de Procesamiento de Lenguaje Natural (PLN) en igbo. Consta de aproximadamente 40 horas de discurso igbo producido de forma natural y representativa de todos los dialectos del igbo. El conjunto de datos sienta las bases para tareas de NLP en igbo, como la traducción automática, el Tree Bank, la conversión de voz a texto, el etiquetado automático de las partes del discurso, el diccionario digital y el corrector ortográfico automático. 

AFILIACIONES Y AUTORES:

Universidad de Ibadán, Ibadán, Nigeria 

Gerald Okey Nweya 

Amarachi Akudo Osuagwu 

Emeka Felix. Onwuegbuzia 

Samuel Obinna Ejinwa 

Anita Ifeoma Adiboshi 

Daniel Success Nwokwo 

Peter Ugochukwu Ihunna 

Universidad Afe-Babalola, Ado-Ekiti, Nigeria 

Oluwole Solomon Akinola

Obtenga más información sobre estos y otros conjuntos de datos publicados financiados por Lacuna en nuestra página de conjuntos de datos. 

Compartimos conjuntos de datos trimestralmente en nuestro sitio web y plataformas de redes sociales. Suscríbase al boletín de Lacuna Fund y síganos en las redes sociales para mantenerse actualizado sobre estos anuncios. 

El Meridian Institute funciona como secretariado de Lacuna Fund.