Cuatro nuevos conjuntos de datos de aprendizaje automático en los ámbitos de la agricultura, la salud y el lenguaje

27 March 2024

Cuatro nuevos conjuntos de datos de aprendizaje automático en los ámbitos de la agricultura, la salud y el lenguaje

Hoy nos complace anunciar cuatro conjuntos de datos publicados recientemente para entrenar la inteligencia artificial en los ámbitos de la a gricultura, el procesamiento del lenguaje natural (NLP) y la salud. Estos conjuntos de datos aprovechan el poder de la IA para abordar problemas sociales y económicos urgentes en varios países africanos.

Estos cuatro conjuntos de datos destacados incluyen lo siguiente:

Un sólido conjunto de datos para hacer un mapeo de los recursos comunales en las regiones de pastoreo del norte de Tanzania: este equipo ha recopilado una gran cantidad de datos sobre los principales recursos ganaderos y ha trazado mapas de los patrones de migración del ganado. Este conjunto de datos proporcionará información fundamental sobre las condiciones actuales de las comunidades de pastores y sus estrategias de adaptación. Estos conocimientos serán decisivos para formular intervenciones dirigidas a apoyar eficazmente a estas comunidades. Además, agilizará la elaboración de planes de uso de la tierra impulsados por las comunidades, lo que reducirá los conflictos entre pastores y agricultores derivados de la migración del ganado.

Conjuntos de datos de NLP de la Universidad de Makerere: el equipo de este proyecto ha creado conjuntos de datos de texto y voz para idiomas de África Oriental con pocos recursos (Uganda, Tanzania, Kenia). También ha incrementado los corpus monolingües o paralelos disponibles de swahili, luganda, runyankore-rukiga, luo/acholi y lumasaaba para construir aplicaciones de NLP.
Un conjunto de datos de aprendizaje automático para el diagnóstico de la rabia y la predicción de brotes: este conjunto de datos de diagnóstico puede ayudar a crear algoritmos de clasificación binaria de aprendizaje automático para predecir si un ser humano o un animal tiene rabia y puede proporcionar diagnósticos en tiempo real y a distancia en entornos con pocos recursos. El equipo utilizó datos de un sistema existente de control de la rabia (Gestión integrada de casos de mordedura) y ha publicado un conjunto de datos preparados para el aprendizaje automático con el fin de aplicar soluciones de IA al control de la rabia en África.
Mejora de los conjuntos de datos agrícolas para el seguimiento remoto de los cultivos con el fin de proporcionar acceso a servicios sociales y financieros fundamentales a los pequeños agricultores de Zimbabue: este equipo ha generado y mejorado conjuntos de datos etiquetados, de teledetección y de campo en Zimbabue durante las temporadas de cultivo y cosecha. Utilizaron modelos de aprendizaje automático para evaluar los riesgos y obtener información sobre el clima, las condiciones agroecológicas y el efecto de las prácticas agrícolas en el rendimiento y la productividad general. Su principal objetivo es facilitar a los agricultores africanos el acceso a servicios de seguro y crédito a precios justos y mejorar su resistencia ante un clima cada vez más volátil.

Agradecemos profundamente a nuestros financiadores, que hicieron posible la creación de estos conjuntos de datos:

El Centro de Investigación para el Desarrollo Internacional (IDRC): 2020 Agricultura, 2020 Lengua, 2021 Agricultura
Google.org: 2020 Agricultura, 2020 Lengua, 2021 Agricultura
The Rockefeller Foundation: 2020 Agricultura, 2020 Lengua, 2021 Agricultura
Wellcome Trust: 2021 Equidad y Salud

A continuación podrá acceder a estos conjuntos de datos y obtener más información sobre el contenido exacto de cada uno de ellos.

Una herramienta de apoyo para la toma de decisiones busca elaborar planes de uso de la tierra impulsados por las comunidades

Contacto: Gladness Mwanga | gladnessg@nm-aist.ac.tz y Divine Ekwem | divine.ekwem@glasgow.ac.uk

Descripción: Este conjunto de datos se centra en lugares con comunidades predominantemente pastoriles del norte de Tanzania con el fin de identificar los movimientos del ganado y los patrones de uso de la tierra a pequeña y gran escala, y comprender cómo se relacionan con los conflictos comunales. Se trata de un conjunto de datos de alta calidad, precisos y etiquetados (imagen, ubicación e indicadores de hora) que contiene información detallada sobre unos 2000 recursos comunales (p. ej., pastizales, puntos de acceso a agua y abrevaderos) y sus pautas de uso en más de 220 aldeas de cuatro grandes distritos del norte de Tanzania, representativos de los sistemas pastorales de producción ganadera de África Oriental. El conjunto de datos puede utilizarse para describir la gestión de los recursos forrajeros y ganaderos en ecosistemas administrados, como los pastizales comunitarios; identificar las principales rutas migratorias de los rebaños de pastoreo y la ubicación y el tipo de infraestructuras necesarias para apoyar la producción ganadera; y prever la localización de conflictos con los agricultores y determinar las mejores ubicaciones para establecer bancos de forraje e infraestructuras de apoyo a lo largo de las rutas migratorias del ganado.

Autores y afiliaciones: Dr. Divine Ekwem (Universidad de Glasgow); Gladness Mwanga (Instituto Africano de Ciencia y Tecnología Nelson Mandela), profesor Gabriel Shirima (Instituto Africano de Ciencia y Tecnología Nelson Mandela), profesor Mizech Chagunda (Universidad de Hohenheim).

Conjunto de datos: obtenga acceso aquí.

Conjuntos de datos de NLP de la Universidad de Makerere

Contacto: Andrew Katumba | andrew.katumba@mak.ac.ug

La Universidad de Makerere ha creado conjuntos de datos de texto y voz para idiomas de África Oriental con pocos recursos (Uganda, Tanzania, Kenia). Este conjunto de datos contiene 10 000 frases paralelas con etiquetas de emociones, 100 000 frases en kiswahili, 100 000 frases en luganda, 40 037 frases en acoli y 39 999 frases en lumasaaba. En Common Voice, el conjunto de datos de texto consta de 100 000 frases en luganda y 100 000 frases en swahili. Los conjuntos de datos de texto pueden utilizarse para crear modelos de traducción automática, predicción de palabras siguientes/completado automático, modelado y clasificación de temas, análisis de emociones y modelos lingüísticos. Los conjuntos de datos de voz en luganda y swahili pueden ayudar a los empresarios a innovar en torno a las carencias existentes en sus comunidades con el fin de crear sistemas para personas con discapacidad visual o física, tutores de lengua materna, herramientas de transcripción médica y mucho más. Los desarrolladores de aplicaciones interesados en motores de traducción, editores de texto y sistemas de ortografía textual y gramatical en las comunidades de África Oriental podrán sacar provecho de los conjuntos de datos.

Autores y afiliaciones:

Universidad de Makerere: Katumba Andrew, Nakatumba-Nabende Joyce, Babirye Claire, Mukiibi Jonathan, Tusubira Jeremy, Bateesa Tobias, Wairagala Eric Peter, Fridah Katushemererwe, Mutebi Chodrine, Nabende Peter, Sentanda Medadi, Ssenkungu Ivan
Wanzare Lilian (Universidad de Maseno)
Davis David (TYD Innovation Incubator)
Okidi George
Ayugi Carolyne
Muzaki Naomi

Conjuntos de datos:

Datos de texto: obtenga acceso aquí.
Datos de voz en luganda: obtenga acceso aquí.
Datos de voz en swahili: obtenga acceso aquí.

Conjunto de datos de aprendizaje automático para el diagnóstico de la rabia y la predicción de brotes

Contacto: Asa Emmanuel | asakalonga@gmail.com y Kennedy Lushasi | klushasi@ihi.or.tz

Este conjunto de datos ayudará al diagnóstico a distancia y en tiempo real de la enfermedad de la rabia en personas y animales en entornos con pocos recursos. Se puede aplicar un enfoque de series temporales al conjunto de datos sobre brotes para predecir el número de casos de rabia que es probable que se produzcan en una zona tras un intervalo de tiempo determinado. Este enfoque también puede ayudar con la movilización de recursos, por ejemplo, para determinar el número de vacunas necesarias en una zona específica en un momento dado. El número de observaciones de los dos conjuntos de datos es de 12 684. Existen tres conjuntos de datos para el diagnóstico de la rabia en animales y humanos, con 7081 y 4585 observaciones, respectivamente. En el conjunto de datos de predicción de brotes se contabilizaron 1018 observaciones.

Autores y afiliaciones: Asa Emmanuel, Rebecca Chaula, Deogratias Mzurikwao, Joel Changalucha, Kennedy Lushasi

Conjunto de datos: obtenga acceso aquí.

Conjuntos de datos agrícolas mejorados para el monitoreo remoto de cultivos destinados a brindar acceso a los servicios esenciales sociales y financieros a pequeños agricultores en Zimbabue

Contacto: Seth Odhiambo | sodhiambo@pula.io

El proyecto creó estimaciones de rendimiento etiquetadas a partir de 3000 agricultores, y se utilizaron para entrenar modelos de predicción del rendimiento en todo el país. Como consecuencia, se utilizó el conjunto de datos para generar capas protectoras de cultivos de alta resolución para las distintas cadenas de valor. Los modelos de predicción del rendimiento se mejoraron con otros conjuntos de datos biofísicos, como las propiedades del suelo y los indicadores relacionados con el clima. Los conjuntos de datos demostraron un concepto de capacitación escalable en modelos de aprendizaje automático, que pueden ser capaces de responder de forma más adecuada y rentable a los factores de estrés agrícola, lo que garantiza un impacto positivo en las prácticas agrícolas (p. ej., buenas prácticas agrícolas), los rendimientos (p. ej., calidad y cantidad de la cosecha) y el acceso de los agricultores a la financiación (p. ej., seguros de cosechas).

Autores y afiliaciones: Pula Advisors

Conjunto de datos: obtenga acceso aquí.

Antecedentes:

¿Por qué necesitamos más conjuntos de datos abiertos en el área del procesamiento del lenguaje natural (NLP)?

El acceso oportuno y preciso a la información, ya sea hablada o escrita, en el propio idioma es fundamental para poder participar plenamente en el mundo digital. Las traducciones, la capacidad de comprender y sintetizar el habla, y muchas otras aplicaciones que permite la IA en el campo del procesamiento del lenguaje natural (NLP) requieren datos de entrenamiento y evaluación que no existen para muchos idiomas de bajos recursos, algunos de ellos hablados millones de personas en todo el mundo. Por lo tanto, Lacuna Fund financia la creación de conjuntos de datos abiertos de entrenamiento y evaluación para el NLP de idiomas desfavorecidos. Obtenga más información aquí.

¿Por qué necesitamos más conjuntos de datos abiertos en el área de la agricultura?

Los conjuntos de datos sobre agricultura de Lacuna Fund ponen a disposición el poder del aprendizaje automático para enfrentar los desafíos de la seguridad alimentaria, estimular las oportunidades económicas y brindar a los investigadores, agricultores, comunidades y legisladores acceso a conjuntos de datos agrícolas superiores. Obtenga más información aquí.

¿Por qué necesitamos más conjuntos de datos abiertos en el área de la salud?

El objetivo de Lacuna Fund es cerrar la brecha de las disparidades en materia de salud mediante el fomento de colaboraciones interdisciplinarias que creen, amplíen o agreguen conjuntos de datos de formación y evaluación etiquetados. En última instancia, esta información pretende ayudar a proveedores y pacientes a tomar decisiones que conduzcan a resultados de atención médica más equitativos. Obtenga más información aquí.