Anuncio de nuevos conjuntos de datos para idiomas africanos — Premios 2020 de Procesamiento del Lenguaje Natural (PLN)
20 December 2022Próximas convocatorias para propuestas
Lacuna Fund publicará dos nuevas convocatorias de propuestas para crear conjuntos de datos de aprendizaje automático más equitativos y accesibles en 2023. Invitamos a presentar propuestas para desarrollar conjuntos de datos en dos ámbitos:
- Salud y derechos sexuales y reproductivos
- Clima y bosques
En el nuevo año se anunciarán más detalles.
Anuncio de nuevos conjuntos de datos para idiomas africanos
Premios 2020 de Procesamiento de Lenguaje Natural (PLN)
Nos complace anunciar nuestros conjuntos de datos recientemente publicados en el dominio de los idiomas. Estos conjuntos de datos fomentarán la igualdad de oportunidades, la inclusión, la participación en la toma de decisiones y la accesibilidad. En conjunto, abarcan más de 22 lenguas africanas, como Bambara, Dholuo, Fon, Akan y Wolof. Agradecemos a estos equipos por su trabajo para crear estas fuentes de datos inclusivas y abiertas al público, que permitirán que los recursos de inteligencia artificial sean más fácilmente accesibles y estén disponibles en el continente africano.
El equipo Masakhane y afiliados han creado tres conjuntos de datos para varios idiomas africanos. Los conjuntos de datos se enfocan en el reconocimiento de entidades con nombre y el etiquetado de partes del discurso.
- MasakhaNER 2.0: Conjuntos de datos de reconocimiento de entidades con nombre para 20 idiomas africanos
- MAFAND-MT: Corpus de noticias anglo y francoafricanas de Masakhane para la traducción automática
- MasakhaPOS: Conjuntos de datos de etiquetado de partes del discurso para 20 idiomas africanos
La Universidad Ashesi y Nokwary Technologies han creado un conjunto de datos de discursos para la inclusión financiera para los idiomas ghaneses akan (Akuapem Twi, Asante Twi, Fante) y ga.
- Conjunto de datos de discursos para la inclusión financiera para algunos idiomas ghaneses
La Universidad de Ibadán y la Universidad Afe-Babalola han creado el primer corpus oral de conjuntos de datos etiquetados y no etiquetados para tareas de Procesamiento de Lenguaje Natural (PLN) en igbo.
- IgboSynCorp: Conjunto de datos para tareas de Procesamiento de Lenguaje Natural en igbo
También agradecemos a nuestros copatrocinadores, cuyo apoyo hizo posible estos conjuntos de datos: The Rockefeller Foundation, Google.org, Canada’s International Development Research Centre, y el programa FAIR Forward de la GIZ en nombre del Ministerio Federal Alemán de Cooperación Económica y Desarrollo (BMZ).
A continuación, encontrará enlaces a estos conjuntos de datos e información sobre los equipos que los crearon y los posibles casos de uso.
Conjuntos de datos de reconocimiento de entidades con nombre y partes del discurso para idiomas africanos
CONTACTO: DAVID IFEOLUWA ADELANI, D.ADELANI@UCL.AC.UK
MasakhaNER 2.0: Conjuntos de datos de reconocimiento de entidades con nombre para 20 idiomas africanos
MasakhaNER 2.0 es el mayor conjunto de datos de reconocimiento de entidades con nombre comentado por humanos para 20 idiomas africanos. Cada idioma tiene entre 4800 y 11 000 oraciones paralelas para capacitación o evaluación. Los idiomas cubiertos abarcan África Occidental, Central, Oriental y Meridional, e incluyen el bambara, el ghomala, el ewe, el fon, el hausa, el igbo, el kinyarwanda, el luganda, el dholuo, el mossi, el chichewa, el pidgin nigeriano, el chiShona, el setswana, el swahili, el twi, el wolof, el isiXhosa, el yorùbá y el isiZulu. Puede encontrar más información sobre los datos en su artículo de la Conferencia sobre Métodos Empíricos en el Procesamiento del Lenguaje Natural (Empirical Methods in Natural Language Processing, EMNLP) aquí.
AFILIACIONES Y AUTORES:
Masakhane
David Ifeoluwa Adelani | Michael Beukman | Shamsuddeen H. Muhammad | Peter Nabende | Bonaventure F. P. Dossou | Blessing Sibanda | Happy Buzaaba | Jonathan Mukiibi | Godson Kalipe | Derguene Mbaye | Fatoumata Kabore | Chris Chinenye Emezue | Anuoluwapo Aremu | Perez Ogayo | Catherine Gitau | Edwin Munkoh-Buabeng | Victoire M. Koagne | Allahsera Auguste Tapo | Universidad de Saarland, Alemania David Ifeoluwa Adelani | Jesujoba O. Alabi | Dietrich Klakow Universidad Carnegie Mellon (CMU), Estados Unidos Graham Neubig | Shruti Rijhwani | Perez Ogayo Google Research Sebastian Ruder Universidad de Witwatersrand, Sudáfrica Michael Beukman Universidad Brandeis, Estados Unidos Chester Palen-Michel | Constantine Lignos Laboratorio de Inteligencia Artificial y Apoyo a la Decisión (LIAAD) del Instituto de Ingeniería, Tecnología y Ciencias de Sistemas e Informáticas (INESC TEC), Portugal Shamsuddeen H. Muhammad Universidad de Makerere Peter Nabende | Jonathan Mukiibi | Joyce Nakatumba-Nabende Universidad de Bergen, Noruega Cheikh M. Bamba Dione Centro Sudafricano de Recursos Lingüísticos Digitales (SaDiLaR) Andiswa Bukula | Rooweither Mabuya MILA, Canadá Bonaventure F. P. Dossou |
RIKEN, Japón
Happy Buzaaba Baamtu, Senegal Derguene Mbaye Universidad de Ciencias Empresariales y Aplicadas de Malaui Amelia Taylor Universidad de Uppsala, Suecia Fatoumata Kabore Universidad Técnica de Múnich, Alemania Chris Chinenye Emezue Universidad Técnica de Clausthal, Alemania Edwin Munkoh-Buabeng Instituto de Tecnología de Rochester (RIT), Estados Unidos Allahsera Auguste Tapo Universidad de Pretoria, Sudáfrica Tebogo Macucwa | Vukosi Marivate | Neo L. Mokono Universidad Tecnológica de Luleå, Suecia Tosin Adewumi Universidad de Washington, Estados Unidos Orevaoghene Ahia Universidad de Lancaster, Reino Unido Ignatius Ezeani | Chiamaka Chukwuneke Universidad de Waterloo, Canadá Mofetoluwa Adeyemi | Odunayo Ogundepo Universidad Ahmadu Bello, Nigeria Idris Abdulmumin |
MAFAND-MT: Corpus de noticias anglo y francoafricanas de Masakhane para la traducción automática
El conjunto de datos MAFAND-MT está formado por miles de oraciones paralelas de alta calidad y traducidas por humanos para 16 idiomas africanos en el dominio de las noticias. Cada idioma tiene entre 1466 y 7838 oraciones paralelas para capacitación o evaluación. Los idiomas cubiertos abarcan África Occidental, Central, Oriental y Meridional, e incluyen el bambara, el ghomala, el ewe, el fon, el hausa, el kinyarwanda, el luganda, el dholuo, el mossi, el chichewa, el pidgin nigeriano, el chiShona, el setswana, el wolof y el isiXhosa. Puede encontrar más detalles sobre este conjunto de datos en el artículo del equipo para la Conferencia Anual de la Sección Norteamericana de la Asociación de Lingüística Computacional 2022 (Annual Conference of the North American Chapter of the Association for Computational Linguistics, NAACL): https://arxiv.org/abs/2205.02022
AFILIACIONES Y AUTORES:
Masakhane
David Ifeoluwa Adelani | Jesujoba O. Alabi | Michael Beukman | Shamsuddeen H. Muhammad | Peter Nabende | Bonaventure F. P. Dossou | Blessing Sibanda | Happy Buzaaba | Jonathan Mukiibi | Godson Kalipe | Derguene Mbaye | Fatoumata Ouoba Kabore | Chris Chinenye Emezue | Anuoluwapo Aremu | Perez Ogayo | Edwin Munkoh-Buabeng | Victoire Memdjokam Koagne | Allahsera Auguste Tapo Tajuddeen Gwadabe | Gilles Q. Hacheme | Idris Abdulmumin | Oreen Yousuf Freshia Sackey | Colin Leong | Guyo Jarso | Andre Niyongabo Rubungo | Eric Peter Wairagala | Muhammad Umair Nasir | Benjamin Ajibade | Tunde Ajayi | Yvonne Gitau | Jade Abbott | Mohamed Ahmed | Millicent Ochieng | Valencia Wagner | Ayodele Awokoya Inria Jesujoba O. Alabi Meta AI Angela Fan Amazon Alexa AI Xiaoyu Shen Universidad de Tokio Machel Reid Universidad Jacobs Bonaventure F. P. Dossou Universidad de Saarland, Alemania David Ifeoluwa Adelani | Dietrich Klakow | Dana Ruiter | Ernie Chang Google Research Julia Kreutzer Universidad de Makerere Peter Nabende | Jonathan Mukiibi | Eric Peter Wairagala Universidad Técnica de Múnich, Alemania Chris Chinenye Emezue Universidad de Dayton Colin Leong |
Universidad de Witwatersrand, Sudáfrica
Michael Beukman Universidad Politécnica de Cataluña Andre Niyongabo Rubungo Microsoft Mohamed Ahmed | Millicent Ochieng Universidad Carnegie Mellon (CMU), Estados Unidos Perez Ogayo Universidad de Uppsala, Suecia Fatoumata Ouoba Kabore Baamtu, Senegal Derguene Mbaye Instituto de Tecnología de Rochester, Estados Unidos Allahsera Auguste Tapo Universidad Ahmadu Bello, Nigeria Idris Abdulmumin Universidad de Ibadán Ayodele Awokoya Universidad de Malaui Sam Manthalu Laboratorio de Inteligencia Artificial y Apoyo a la Decisión (LIAAD) del Instituto de Ingeniería, Tecnología y Ciencias de Sistemas e Informáticas (INESC TEC), Portugal Shamsuddeen H. Muhammad RIKEN, Japón Happy Buzaaba Centro Sudafricano de Recursos Lingüísticos Digitales (SaDiLaR) Andiswa Bukula |
MasakhaPOS: Conjuntos de datos de etiquetado de partes del discurso para 20 idiomas africanos
MasakhaPOS es el mayor conjunto de datos de etiquetado de partes del discurso comentado por humanos para 20 idiomas africanos. Cada idioma tiene entre 1200 y 1500 oraciones para capacitación o evaluación. Los idiomas cubiertos abarcan África Occidental, Central, Oriental y Meridional, e incluyen el bambara, el ghomala, el ewe, el fon, el hausa, el igbo, el kinyarwanda, el luganda, el dholuo, el mossi, el chichewa, el pidgin nigeriano, el chiShona, el setswana, el swahili, el twi, el wolof, el isiXhosa, el yorùbá y el isiZulu.
AFILIACIONES Y AUTORES:
Masakhane
David Ifeoluwa Adelani | Shamsuddeen H. Muhammad | Peter Nabende | Bonaventure F. P. Dossou | Blessing Sibanda | Happy Buzaaba | Jonathan Mukiibi | Godson Kalipe | Derguene Mbaye | Fatoumata Kabore | Chris Chinenye Emezue | Anuoluwapo Aremu | Perez Ogayo | Catherine Gitau | Edwin Munkoh-Buabeng | Victoire M. Koagne | Allahsera Auguste Tapo | Tebogo Macucwa | Vukosi Marivate | Elvis Mboning | Tajuddeen Gwadabe | Cheikh M. Bamba Dione Universidad de Saarland, Alemania David Ifeoluwa Adelani | Jesujoba O. Alabi | Dietrich Klakow Universidad Carnegie Mellon (CMU), Estados Unidos Perez Ogayo Laboratorio de Inteligencia Artificial y Apoyo a la Decisión (LIAAD) del Instituto de Ingeniería, Tecnología y Ciencias de Sistemas e Informáticas (INESC TEC), Portugal Shamsuddeen H. Muhammad Universidad de Makerere Peter Nabende | Jonathan Mukiibi Universidad de Bergen, Noruega Cheikh M. Bamba Dione Centro Sudafricano de Recursos Lingüísticos Digitales (SaDiLaR) Andiswa Bukula | Rooweither Mabuya MILA, Canadá Bonaventure F. P. Dossou RIKEN, Japón Happy Buzaaba |
Baamtu, Senegal
Derguene Mbaye Universidad de Ciencias Empresariales y Aplicadas de Malaui Amelia Taylor Universidad de Uppsala, Suecia Fatoumata Kabore Universidad Técnica de Múnich, Alemania Chris Chinenye Emezue Universidad Técnica de Clausthal, Alemania Edwin Munkoh-Buabeng Instituto de Tecnología de Rochester (RIT), Estados Unidos Allahsera Auguste Tapo Universidad de Pretoria, Sudáfrica Tebogo Macucwa | Vukosi Marivate Universidad de Buea, Camerún Gratien Atindogbe |
Conjunto de datos de discursos para la inclusión financiera para algunos idiomas ghaneses
CONTACTO: DENNIS ASAMOAH OWUSU (DOWUSU@ASHESI.EDU.GH)
Este conjunto de datos del discurso de los idiomas ghaneses akan (akuapem twi, asante twi, fante) y ga incluye 104 000 enunciados (discurso) de los cuatro dialectos/idiomas con aproximadamente 200 hablantes por dialecto/idioma. Esto supone unas 148 horas de discurso en total. El conjunto de datos se creó para apoyar el desarrollo de aplicaciones financieras en los idiomas nativos de Ghana, con el fin de que las personas analfabetas y semianalfabetas puedan beneficiarse plenamente de los servicios financieros digitales. En segundo lugar, pretende responder a cuestiones de investigación relacionadas con el desarrollo de conjuntos de datos específicos de un dominio frente a los de uso general, los dialectos y el desarrollo de sistemas de NLP en entornos con pocos recursos.
Lea más acerca del conjunto de datos y el enfoque del equipo aquí:
https://ashesi-org.github.io/dataset/nlp/ai/ghana/africa/speech/2022/05/16/release-of-financial-inclusion-dataset-ghanaian-languages.html
AFILIACIONES Y AUTORES:
Universidad Ashesi
Dennis Asamoah Owusu
Ayorkor Korsah
David Sampah
David Adjepon-Yamoah
Stephane Nwolley Jnr.
Nokwary Technologies
Dennis Asamoah Owusu
Benedict Quartey
David Sampah
Lily Omane Boateng
IgboSynCorp: Conjunto de datos para tareas de Procesamiento de Lenguaje Natural en igbo
CONTACTOS: GERALD NWEYA (GERALDNWEYA@GMAIL.COM) Y EMEKA ONWUEGBUZIA (EONWUEGBUZIA@GMAIL.COM)
Este conjunto de datos es el primer corpus oral de conjuntos de datos etiquetados y no etiquetados para tareas de Procesamiento de Lenguaje Natural (PLN) en igbo. Consta de aproximadamente 40 horas de discurso igbo producido de forma natural y representativa de todos los dialectos del igbo. El conjunto de datos sienta las bases para tareas de NLP en igbo, como la traducción automática, el Tree Bank, la conversión de voz a texto, el etiquetado automático de las partes del discurso, el diccionario digital y el corrector ortográfico automático.
AFILIACIONES Y AUTORES:
Universidad de Ibadán, Ibadán, Nigeria
Gerald Okey Nweya
Amarachi Akudo Osuagwu
Emeka Felix. Onwuegbuzia
Samuel Obinna Ejinwa
Anita Ifeoma Adiboshi
Daniel Success Nwokwo
Peter Ugochukwu Ihunna
Universidad Afe-Babalola, Ado-Ekiti, Nigeria
Oluwole Solomon Akinola
Obtenga más información sobre estos y otros conjuntos de datos publicados financiados por Lacuna en nuestra página de conjuntos de datos.
Compartimos conjuntos de datos trimestralmente en nuestro sitio web y plataformas de redes sociales. Suscríbase al boletín de Lacuna Fund y síganos en las redes sociales para mantenerse actualizado sobre estos anuncios.
El Meridian Institute funciona como secretariado de Lacuna Fund.