Dos nuevos conjuntos de datos disponibles sobre agricultura e idiomas, encuentro de beneficiarios 2023

19 May 2023

Encuentro de beneficiarios de Lacuna Fund 2023

Todos los años, los adjudicatarios tienen la oportunidad de reunirse para ponerse en contacto, compartir sus proyectos, debatir sobre las lecciones aprendidas y participar en talleres. Vea este video de los adjudicatarios de Lacuna Fund en acción en el encuentro inaugural del año pasado en la capital de Túnez.

Dentro de dos semanas, se llevará a cabo el segundo encuentro anual de beneficiarios de Lacuna Fund. ¡Estamos muy emocionados! Los adjudicatarios en las áreas de la agricultura, el procesamiento del lenguaje natural, y la equidad y salud se reunirán en Kigali, Ruanda. Los equipos compartirán sus conjuntos de datos, participarán en talleres sobre la utilización y sostenibilidad de los conjuntos de datos y conversarán sobre las lecciones aprendidas. Los adjudicatarios también tendrán la oportunidad de asistir a la Conferencia AfricAI, organizada por el Centro de Investigación para el Desarrollo Internacional de Canadá (International Development Research Centre, IDCR) de Canadá, la Deutsche Gesellschaft für Internationale Zusammenarbeit (GIZ) y Niyel.

Los dos nuevos conjuntos de datos permiten el diagnóstico de plagas y enfermedades de los cultivos y la traducción automática para el idioma bambara

Hoy nos complace anunciar dos conjuntos de datos publicados recientemente para entrenar la inteligencia artificial en los ámbitos de la agricultura y el procesamiento del lenguaje natural (NLP). El primer conjunto de datos trabaja con cinco cultivos fundamentales para la seguridad alimentaria en el África subsahariana: yuca, maíz, frijoles, banana y cacao. El conjunto de datos consta de un extenso repositorio de imágenes y datos espectrales. Estos datos se pueden utilizar para identificar y diagnosticar plagas y enfermedades de los cultivos. El segundo conjunto de datos cuenta con un corpus de textos paralelos para los idiomas de Malí: el bambara y el francés. Esto amplía significativamente, además de limpiar y corregir, los pares bilingües disponibles dentro del conjunto de datos existente. Este corpus traducido mejoró la calidad y aumentó la cantidad de recursos del bambara y permite que las traducciones se utilicen para la traducción automática.

A continuación, encontrará los enlaces con más información sobre estos conjuntos de datos, los equipos que los crearon y los posibles usos.

Agradecemos a nuestros cofundadores, ya que sin ellos la creación de estos conjuntos de datos de aprendizaje automático inclusivos y abiertos no habría sido posible: The Rockefeller Foundation, Google.org, el Centro de Investigación para el Desarrollo Internacional de Canadá y el programa FAIR Foward de GIZ en nombre del Ministerio Federal de Cooperación y Desarrollo Económicos de Alemania (BMZ).

Conjuntos de datos de aprendizaje automático para el diagnóstico de plagas y enfermedades de cultivos: Imágenes de cultivos y datos de espectrometría

Contacto: Joyce Nakatumba-Nabende | joyce.nabende@mak.ac.ug

Los colaboradores del Laboratorio de Inteligencia Artificial de Makerere, del Instituto Africano de Ciencia y Tecnología Nelson Mandela, de la Fundación KaraAgro AI y de la Universidad de Ciencia y Tecnología de Namibia crearon un repositorio de conjuntos de datos de imágenes y espectrometría de cinco cultivos fundamentales para la seguridad alimentaria en el África subsahariana: yuca, maíz, frijoles, banana y cacao. Los conjuntos de datos se recopilaron y se trabajaron en colaboración con los expertos agrícolas del país y permiten una amplia gama de aplicaciones de aprendizaje automático, que incluyen la clasificación, la detección de objetos, la detección temprana de enfermedades en cultivos y el análisis espacial. El equipo recolectó y registró 127 046 imágenes y 39 300 puntos de datos espectrales.

Autores y afiliaciones:

Joyce Nakatumba-Nabende, Universidad de Makerere (Uganda)
Andrew Katumba, Universidad de Makerere (Uganda)
Claire Babirye, Laboratorio de Inteligencia Artificial de la Universidad de Makerere (Uganda)
Jeremy Francis Tusubira, Laboratorio de Inteligencia Artificial de la Universidad de Makerere (Uganda)
Godliver Owomugisha, Laboratorio de Inteligencia Artificial de la Universidad de Makerere (Uganda)
Neema Mduma, Instituto Africano de Ciencia y Tecnología Nelson Mandela (Tanzania)
Darlington Akogo, Fundación KaraAgro AI (Ghana)
Blessing Sibanda, Universidad de Ciencia y Tecnología de Namibia (Namibia)

Bayelemabaga alineó el corpus bambara francés para la traducción automática

Contacto: Christopher Homan | christopher.m.homan.phd@gmail.com

Los colaboradores del Instituto de Tecnología de Rochester, RobotsMali, INALCO, la Universidad George Mason y el Boston College crearon un corpus paralelo de bambara y francés que se utilizará para la traducción automática. Aproximadamente 15 millones de personas en África occidental hablan bambara, principalmente en Malí y también en Senegal, Níger, Mauritania, Gambia y Costa de Marfil. El conjunto de datos de Bayelemabaga consta de 46 976 pares de oraciones en paralelo en francés y bambara para la traducción automática, que se originan del corpus de referencia de bambara del laboratorio LLACAN de INALCO. Si bien existía una colección más pequeña de textos bilingües, no se habían traducido ni emparejado de manera adecuada para la traducción automática. Este conjunto de datos permitió que el bambara pase de ser un idioma con recursos insignificantes a uno con recursos moderados y de alta calidad.

Para crear estas 46 976 unidades de texto, se necesitó un total de 72 000 oraciones en francés y bambara, que se seleccionaron tras eliminar o corregir tanto las oraciones duplicadas como el texto que no era adecuado o estaba mal traducido. El texto del conjunto de datos se extrajo de 264 archivos de texto, que incluyen desde boletines, libros, cuentos y publicaciones de blogs, hasta partes de la Biblia y el Corán. El trabajo del equipo permitió expandir la sección bilingüe del corpus de referencia del bambara de 19 000 pares a aproximadamente 80 000.

Autores y afiliaciones:

Allahsera Auguste Tapo, Instituto de Tecnología de Rochester (EE. UU.)
Michael Leventhal, RobotsMali (Malí)
Valentin Vydrin, INALCO (Francia)
Sebastian Diarra, RobotsMali (Malí)
Marcos Zampieri, Universidad George Mason (EE. UU.)
Emily Prud’Hommeaux, Boston College (EE. UU.)
Jean Jacque Méric, INALCO (Francia)

Antecedentes:

¿Por qué necesitamos más conjuntos de datos abiertos en el área del procesamiento del lenguaje natural (NLP)?

El acceso oportuno y preciso a la información, ya sea hablada o escrita, en el propio idioma es fundamental para poder participar plenamente en el mundo digital. Las traducciones, la capacidad de comprender y sintetizar el habla, y muchas otras aplicaciones que permite la IA en el campo del procesamiento del lenguaje natural (NLP) requieren datos de entrenamiento y evaluación que no existen para muchos idiomas de bajos recursos, algunos de ellos hablados millones de personas en todo el mundo. Por lo tanto, Lacuna Fund financia la creación de conjuntos de datos abiertos de entrenamiento y evaluación para el NLP de idiomas desfavorecidos. Obtenga más información aquí.

¿Por qué necesitamos más conjuntos de datos abiertos en el área de la agricultura?

Los conjuntos de datos sobre agricultura de Lacuna Fund ponen a disposición el poder del aprendizaje automático para enfrentar los desafíos de la seguridad alimentaria, estimular las oportunidades económicas y brindar a los investigadores, agricultores, comunidades y legisladores acceso a conjuntos de datos agrícolas superiores. Obtenga más información aquí.