Skip to content

Lacuna Fund publica 18 nuevos conjuntos de datos de inteligencia artificial (IA) que ayudan a las comunidades locales a abordar los desafíos de la agricultura, el clima, la salud y el idioma

12 March 2025

Publicación de 18 nuevos conjuntos de datos de IA en los ámbitos de la agricultura, el clima, la salud y el idioma

Hoy nos complace anunciar la reciente publicación de dieciocho conjuntos de datos para entrenar la inteligencia artificial (IA) en los ámbitos de la agricultura, el clima, la salud y el procesamiento del lenguaje natural (NLP). Estos conjuntos de datos aprovechan el poder de la IA para abordar problemas sociales y económicos urgentes en África y América Latina, así como en comunidades con bajos ingresos en los Estados Unidos.

A continuación, encontrará más información sobre estos conjuntos de datos y cómo acceder a ellos.

Lacuna Fund es una coalición de financiadores, científicos de datos y usuarios de datos con un compromiso en pos de cubrir las carencias de datos y hacer que el aprendizaje automático y la IA sean más equitativos, precisos y accesibles en todo el mundo.

Agradecemos enormemente a nuestros financiadores, entre ellos The Rockefeller Foundation, Google.org, el Centro Internacional de Investigaciones para el Desarrollo de Canadá, el Ministerio Federal de Cooperación Económica y Desarrollo (BMZ) de Alemania y su iniciativa FAIR Forward, Wellcome, Gordon and Betty Moore Foundation, Patrick J. McGovern Foundation y Robert Wood Johnson Foundation, que hacen posible la creación de estos conjuntos de datos.

Agricultura

Los conjuntos de datos sobre agricultura de Lacuna Fund ponen a disposición el poder del aprendizaje automático para enfrentar los desafíos de la seguridad alimentaria, estimular las oportunidades económicas y brindar a los investigadores, los agricultores, las comunidades y los legisladores acceso a conjuntos de datos agrícolas superiores.

CropHarvest: informar la toma de decisiones sobre desarrollo agrícola, sistemas de alerta temprana y comercio en África subsahariana

Países: Kenia, Mali, Togo, Ruanda, Uganda, Etiopía, Malaui, Zambia, Tanzania, Namibia, Sudán y Nigeria

Contacto: Catherine Nakalembe | cnakalem@umd.edu

CropHarvest aumenta la comprensión de los principales tipos de producción de alimentos en África subsahariana y puede ayudar a fundamentar la toma de decisiones en torno al desarrollo agrícola, los sistemas de alerta temprana y el comercio regional. Se trata de un conjunto de datos de detección remota global y de código abierto para la clasificación de cultivos en África subsahariana, concretamente en Kenia, Mali, Togo, Ruanda, Uganda, Etiopía, Malawi, Zambia, Tanzania, Namibia, Sudán y Nigeria.

El equipo amplió un conjunto de datos existente publicado en 2021 para incluir ahora lo siguiente: nuevos puntos de datos etiquetados mediante Collect Earth Online, datos sobre el terreno para el mapeo de los tipos de cultivos, imágenes a nivel de la calle, imágenes etiquetadas de fuentes populares y datos sobre precios. Además, los datos de Collect Earth Online se muestrearon aleatoriamente para cubrir todo el país, lo que permitió cerrar brechas de datos fundamentales sobre patrones de cultivo y rendimientos.

Autores y afiliaciones:

  • NASA Harvest: Tseng, G.
  • Universidad de Maryland, College Park: Zvonkov, I., Nakalembe, C.L. y Kerner, H.

Conjunto de datos: https://github.com/nasaharvest/cropharvest


Mejorar los medios de subsistencia en Ghana y Uganda: conjunto de datos agrícolas basados en drones para el cálculo del rendimiento de los cultivos de anacardo, cacao y café

Países: Ghana, Uganda

Contacto: Darlington Akogo | darlington@gudra-studio.com

Este conjunto de datos permite calcular el rendimiento, detectar y clasificar el tipo de cultivo, detectar y contar la fruta, y detectar el estado de madurez de la fruta (inmadura, madura y estropeada) de tres productos que son importantes fuentes de sustento para millones de hogares de África subsahariana.

Contiene 14.870 imágenes de árboles de anacardo, cacao y café tomadas por drones y con anotaciones en cuadros delimitadores en varias granjas de Ghana y Uganda. Los métodos convencionales para calcular el rendimiento son costosos, requieren mucho trabajo y tiempo, y son propensos a errores debido a observaciones incompletas del terreno. Esto da lugar a cálculos erróneos del rendimiento de las cosechas y dificulta la capacidad de los agricultores para planificar y gestionar adecuadamente sus campos y canales de producción. Este conjunto de datos ayudará a transformar la agricultura africana en una agroindustria al permitir el desarrollo de soluciones de cálculo del rendimiento que permitan a los agricultores tomar buenas decisiones comerciales. Contar con detalles clave sobre la producción agrícola a los que se pueda acceder fácilmente permite cosechar a tiempo, lo que ayuda a los agricultores a garantizar productos saludables y frescos, además de mejores ventas.

Autores y afiliaciones:

  • KaraAgro AI: Darlington Akogo, Cyril Akafia, Harriet Fiagbor, Stephen Torkpo, Christian Kusi
  • Makerere AI Lab: Joyce Nakatumba-Nabende

Conjunto de datos: https://huggingface.co/datasets/KaraAgroAI/Drone-based-Agricultural-Dataset-for-Crop-Yield-Estimation


Salud    

Los conjuntos de datos de salud de Lacuna Fund cierran la brecha de las disparidades sanitarias proporcionando conjuntos de datos de aprendizaje automático precisos y sólidos que ayudan a proveedores y pacientes a tomar decisiones que conducen a resultados sanitarios más equitativos.  

Conjunto de datos de anestesia intraoperatoria y resultados: mejorar los resultados de los pacientes mediante la predicción del riesgo de mortalidad y recuperación posoperatoria

Región: África subsahariana

Contacto: Bhiken Naik | bin4n@uvahealth.org

Este conjunto de datos puede utilizarse para identificar patrones de práctica de anestesia intraoperatoria y predecir la duración de la estancia posoperatoria y el riesgo de mortalidad en función de variables intraoperatorias. Incluye 2.066 registros de anestesia intraoperatoria de dos centros académicos de África subsahariana. El equipo fotografió registros de anestesia intraoperatoria completos con un teléfono inteligente, desidentificó las imágenes y las cargó de forma segura en un servidor que cumple con la Ley de Portabilidad y Responsabilidad de Seguros de Salud en Estados Unidos (HIPAA). Mediante una combinación de IA de visión por computadora y técnicas de extracción manual, el equipo recopiló los siguientes datos intraoperatorios integrales: datos demográficos, datos sobre medicamentos, datos hemodinámicos, datos fisiológicos, tipo de anestesia, tipo de cirugía, duración de la estancia posoperatoria y mortalidad posoperatoria durante 30 días.

Los datos de anestesia intraoperatoria abarcan una amplia variedad de información esencial para el cuidado del paciente durante los procedimientos quirúrgicos. Sin embargo, la obtención de este tipo de información es especialmente difícil en los países de ingresos bajos y medios (LMIC), donde los conjuntos de datos electrónicos actuales sobre anestesia intraoperatoria suelen tener un alcance limitado. Como resultado, una cantidad significativa de datos clave, que podrían ser vitales para la toma de decisiones clínicas y la investigación, están ausentes o no están disponibles. Esta limitación obstaculiza la capacidad de comprender plenamente y mejorar los resultados de los pacientes en los LMIC, por lo que este conjunto de datos cubre una brecha crítica mediante el desarrollo de un método para incluir todos los elementos de datos de los registros de anestesia intraoperatoria.

Autores y afiliaciones:

  • Universidad de Virginia:Bhiken Naik
  • Facultad de Medicina y Farmacia, Universidad de Ruanda y King Faisal Hospital, Universidad Africana de Ciencias de la Salud:Paulin Banguti
  • Safe Surgery South Africa:Hyla Kluyts
  • Universidad de Virginia: Ryan Folks

Conjunto de datos: https://portal.ithriv.org/#/public_commons/project/d9fc062c-64c9-4481-80e7-3db4aba17e00


Conjunto de datos de segmentación de tumores cerebrales en África (BraTS-Africa)

País: Nigeria

Contacto: Udunna Anazodo | udunna.anazodo@mcgill.ca

El conjunto de datos de BraTS-Africa es una combinación de imágenes por resonancia magnética (MRI) de seis centros en Nigeria que tiene como objetivo proporcionar un conjunto de datos públicos para el desarrollo de soluciones de aprendizaje automático en pos del manejo de tumores cerebrales en pacientes africanos. Este conjunto de datos sirve como marco inicial para una expansión futura en otras regiones de África. El equipo procesó y anotó un total de 584 imágenes de 146 imágenes de pacientes. Se presume que 95 de estas imágenes presentan glioma difuso, y 51 de ellas tienen otros tipos de neoplasias del sistema nervioso central (SNC). Radiólogos expertos anotaron tres subregiones tumorales diferentes para definir las subregiones del tumor en aumento (ET), el núcleo necrótico (NCR) y el edema peritumoral/tejido infiltrado (ED).

Antes de este estudio, no había ningún conjunto de datos de imágenes cerebrales anotadas integrales disponible al pública de África. El estudio cerró esa brecha para garantizar que las soluciones de aprendizaje automático para el manejo de las enfermedades neurológicas, como los tumores cerebrales, puedan resolver las necesidades clínicas no satisfechas en África subsahariana.

Autores y afiliaciones:

  • Medical Artificial Intelligence (MAI) Lab (Lagos, Nigeria): Maruf Adewole, Abiodun Fatade, Oluyemisi Toyobo, Farouk, Dako, Udunna Anazodo
  • The National Hospital (Abuja, Nigeria): Feyisayo Daji, Chinasa Kalaiwo
  • Lagos University Teaching Hospital: Olubukola Omidiji
  • Lagos State University Teaching Hospital: Rachel Akinola
  • NSIA-Kano Diagnostic Center: Mohammad Abba Suwaid
  • Federal Medical Centre (Umuahia, Nigeria): Kenneth Aguh
  • Lily Hospital (Benín, Nigeria): Mayomi Onuwaje
  • Universidad de Pensilvania (Filadelfia, EE. UU.): Farouk Dako
  • Universidad de Indiana (Indianápolis, EE. UU.): Spyridon Bakas
  • Scripps Clinic Medical Group (San Diego, EE. UU.): Jeffery Rudie
  • Universidad McGill (Montreal, Canadá): Udunna Anazodo

Conjunto de datos: https://www.cancerimagingarchive.net


Microscopía de teléfonos inteligentes asistida por IA para la detección de parásitos que causan diarrea

País: Nepal

Contacto: Bishesh Khanal | bishesh.khanal@naamii.org.np

Este conjunto de datos ayuda a detectar parásitos que causan diarrea en zonas rurales con recursos limitados, sobre todo en el sur global, donde el acceso a herramientas de diagnóstico costosas es limitado. Contiene aproximadamente 400.000 imágenes de diapositivas microscópicas de muestras de agua, vegetales y heces de cuatro provincias diferentes de Nepal, lo que lo convierte en uno de los conjuntos de datos más grandes de su tipo. El equipo recolectó muestras de agua de diferentes fuentes (es decir, agua del grifo, agua embotellada, lago, río, estanque, arroyo, agua de manantial, humedal, agua de pozo y de pozo perforado) y utilizó siete tipos diferentes de vegetales. Mediante el uso del conjunto de datos y las anotaciones disponibles, el equipo entrenó diferentes modelos de aprendizaje profundo para detectar parásitos de forma automática, específicamente quistes de Giardia y Cryptosporidium.

Las imágenes de las muestras se capturaron con teléfonos inteligentes y microscopios de campo claro antes de cargarse en una plataforma en línea de recopilación y anotación de datos. Esta plataforma permite a varios usuarios cargar imágenes de muestras con funciones basadas en permisos para el control de calidad. Los usuarios autorizados pueden revisar las imágenes cargadas, aprobarlas o rechazarlas, añadir comentarios sobre imágenes individuales y filtrar la vista de muestras en función de un determinado intervalo de fechas o provincia. Como primer paso, este conjunto de datos se centró en Nepal, pero está diseñado para aplicarse en regiones similares de todo el mundo.

Autores y afiliaciones:

  • Instituto de Investigación en Matemáticas Aplicadas e Informática de Nepal (NAAMII): Bishesh Khanal, Udit Chandra Aryal, Safal Thapaliya
  • Instituto de Ciencias Aplicadas de Katmandú (KIAS): Basant Giri, Dr. Susma Giri, Dr. Bhanu Neupane, Asmita Adhikari, Asmita Karki, Ramdeep Shrestha, Aayusha Upreti, Pramikshya Bagale, Deepa Prajapati, Prashamsa Shrestha, Celeus Baral
  • Nyaya Health Nepal, Bayalpata: Mandeep Pathak, Ekendra Kunwar, Khadak Chaudhary, Sunil Buda, Tapendra Kunwar, Ramesh Badahit, Nim Prakash Sharma
  • Provincial Public Health Laboratory (PPHL), Janakpur: Shravan Kumar Mishra, Santosh Kumar Yadav, Jitendra Kumar Sah, Amrendra Kumar Mishra, Sarwajit Yadav, Ashish Jha
  • Instituto de Salud Infantil de Katmandú (KIOCH), Damak: Dr. Bhagawan Koirala, Dr. Sandeepa Karki, Dr. Jayamani Shrestha

Conjunto de datos: https://zenodo.org/records/13913469

Para ver todos los conjuntos de datos de salud de Lacuna Fund, visite: https://lacunafund.org/datasets/health/


Clima    

Desde la comprensión de los efectos del cambio climático en los resultados de salud hasta el fortalecimiento de la planificación de la electrificación, los conjuntos de datos climáticos de Lacuna Fund permiten a las comunidades de todo el mundo mitigar mejor el cambio climático y adaptarse a él.

Proyecto Cambio climático, salud e inteligencia artificial (CCHAIN): datos de salud pública para Filipinas

País: Filipinas

Contacto: Thinking Machines Data Science | data-for-development@thinkingmachin.es

El conjunto de datos del Proyecto CCHAIN es un conjunto de datos abierto, vinculado y listo para el análisis de variables sanitarias, climáticas, medioambientales y socioeconómicas validadas recopiladas a nivel de aldea (“barangay”) en 12 ciudades filipinas durante 20 años (2003-2022). Este conjunto de datos incluye observaciones de unas 17 enfermedades recopiladas mediante visitas de campo al Departamento de Salud de Filipinas (DOH) y a la Autoridad Estadística de Filipinas (PSA). Otro componente de este conjunto de datos es “Open Buildings”, que también funciona como un conjunto de datos independiente que el equipo creó y que contiene 12.000 contornos de edificios que muestran densidades de vecindarios, terrenos y niveles de urbanización, así como zonas aún no cartografiadas en OpenStreetMap. Cada contorno se trazó mediante una combinación de inspección visual de imágenes satelitales, conocimiento local y validación a partir de datos de encuestas de hogares para abarcar todos los edificios presentes en la zona.

En Filipinas, los investigadores y otros usuarios finales que necesiten datos de salud pública de centros rurales de atención médica, incluidos programas de nivel nacional, pueden solicitar esta información del Departamento de Salud de Filipinas (DOH), donde un comité de revisión toma las decisiones de aprobación finales. Sin embargo, este proceso aún no se ajusta a la definición de datos verdaderamente abiertos, que deben facilitarse al público de forma proactiva para fomentar la transparencia, la innovación y la colaboración sin necesidad de solicitudes o permisos.

Los problemas de privacidad y seguridad siguen siendo obstáculos de importancia para el acceso a los datos, ya que los organismos intentan equilibrar los beneficios públicos con los riesgos de confidencialidad. Otro obstáculo para la accesibilidad y disponibilidad es la escasez de datos digitalizados a nivel comunitario debido a la falta de capacitación del personal y a las limitaciones presupuestarias. Al crear el Proyecto CCHAIN, un conjunto de datos abierto y listo para el análisis, aliviamos la carga de los usuarios, que de otro modo tendrían que gestionar una importante logística de datos y conocimientos multidisciplinarios para recopilar y procesar datos de diversas fuentes, formatos y especificaciones geográficas. Enfocarse en la aldea o “barangay”, la unidad administrativa más pequeña en Filipinas, también ayuda a clasificar los riesgos de salud para las comunidades vulnerables, particularmente aquellas en asentamientos informales, y brinda información viable para los gobiernos locales.

Autores y afiliaciones:

  • Thinking Machines Data Science, Inc.: Patricia Anne Faustino, JC Albert Peralta, Veronica Marie Araneta, Dafrose Camille Bajaro, Abigail Moreno
  • Epimetrics, Inc.:John Q. Wong, Anne Kathlyn Baladad, Luis Antonio Desquitado, Matthew Limlengco, Carlos Miguel Resurreccion
  • Observatorio de Manila: Faye Abigail Cruz, Dra. Julie Mae Dado, Leia Pauline Tonga
  • Philippine Action for Community-led Shelter Initiatives, Inc.: Ericka Lynne Nava

Conjunto de datos: https://thinkingmachines.github.io/project-cchain/


Conjunto de datos sobre la calidad del aire en los mataderos del sur de Nigeria

País: Nigeria

Contacto: Emmanuel Chukwuma | emmanuel.chukwuma@apse-ngo.org

Este conjunto de datos sobre la calidad del aire es el primero de este tipo en el país procedente de los mataderos. El conjunto de datos localizado es clave en el control y la predicción de la calidad del aire, así como en el modelado preciso del índice de calidad del aire para las señales de alerta temprana y el modelado del riesgo para la salud. Los datos se obtuvieron de mataderos del sur de Nigeria. El equipo recopiló datos de muestras representativas de varios estados (Anambra, Enugu, Abia, Imo, Ebonyi y Delta) dentro del área de investigación. El equipo visitó 27 estaciones y realizó investigaciones in situ, recopilando más de 200.000 valores numéricos de concentraciones de partículas (PM) mediante 10 sensores de calidad del aire para PM1, PM2.5 y PM10. Además, se capturaron imágenes aéreas con un dron a distintas alturas (10 m, 20 m, 30 m) durante las horas de funcionamiento; las imágenes se entrenarán con imágenes satelitales para la predicción de los valores de PM.

Una encuesta preliminar indica que los mataderos en países en desarrollo dependen en gran medida de la madera y, a veces, de los neumáticos de descarte para el procesamiento de la carne. El uso de estos elementos para el procesamiento de la carne libera una cantidad significativa de gases contaminantes. En horas de la mañana, se observa un humo espeso en las cercanías de estos mataderos mientras se procesa la carne. El humo de la combustión de madera, junto con un movimiento mínimo del aire debido al viento, puede provocar concentraciones elevadas de partículas en los mataderos. La exposición a las partículas y al carbono negro liberados en los mataderos tiene consecuencias perjudiciales para la salud, con una elevada morbilidad y mortalidad, como demuestran estudios anteriores. Este proyecto fue llevado a cabo por la Alliance for Progressive and Sustainable Environment (APSE), una organización local sin fines de lucro centrada en la sostenibilidad medioambiental (vea más detalles aquí: www.apse-ngo.org).

Autores y afiliaciones:

  • Alliance for Progressive and Sustainable Environment: Emmanuel Chukwuma, Uche Okonkwo, Chukwuemeka Umeobi, Jervis Okafor, Sixtus Ezenwankwo, Shadrach Ugwu, Awonge Precious, Cynthia Egdede, Esther Eyo

Conjunto de datos: https://drive.google.com/drive/folders/1BRrVgYN-O6s7EsnEgAUCGqINvvfiXZC8?usp=drive_link


Conjunto de datos sobre irradiancia horizontal global para Mauricio, Rodrigues y Agaléga

País: Mauricio, Rodrigues y Agaléga

Este conjunto de datos incluye 146.025 líneas de datos de irradiancia solar en tiempo real procedentes de distintos lugares de Mauricio, Rodrigues y Agaléga. Los datos de irradiancia solar (GHI en W/m2) abarcan de 2017 a 2021, con un intervalo de una hora, y cubren las horas de 07:00 a 18:00 cada día. Este conjunto de datos permite visualizar en tiempo real el perfil de irradiancia solar en los lugares especificados, lo que ayuda a evaluar y planificar mejor la energía generada por el sol. El equipo ahora está recopilando datos (a partir de 2023) con un intervalo de 15 minutos y tiene previsto actualizar este repositorio de datos para reflejarlo en el futuro.

El beneficiario de este proyecto es el gobierno de Mauricio, que tiene el objetivo de generar el 60 % de la electricidad a partir de fuentes de energía renovables para el año 2030. Asimismo, la Agencia de Energía Renovable de Mauricio, cuya tarea es garantizar que la demanda energética del país se cubra principalmente con energía renovable y se respeten los compromisos internacionales, puede utilizar estos datos sobre irradiancia solar y mecanismos de previsión para gestionar mejor las plantas de energía de servicios públicos, reducir las emisiones de carbono, garantizar que no haya pérdida de carga (apagones) y permitir una mayor presencia de proyectos fotovoltaicos (PV) en el país. Con mapas solares en línea gratuitos y datos sobre energía solar de precisión mejorada, los operarios de plantas de PV locales también tendrán información precisa para la evaluación del rendimiento de PV. Además, el público en general se puede beneficiar de una plataforma de energía solar en línea y gratuita que puede mejorar la aceptación de la tecnología PV solar y aumentar la presencia de las tecnologías limpias en el país para reducir aún más las emisiones de gases de efecto invernadero. Por último, los modelos de aprendizaje automático pueden entrenarse para predicciones intradiarias, diarias e incluso semanales de los perfiles de irradiancia solar.

Autores y afiliaciones:

  • Universidad de Mauricio: Yogesh Beeharry, Ravish Gokool, Yatindra Kumar Ramgolam, Aatish Chiniah

Conjunto de datos: https://www.scidb.cn/en/detail?dataSetId=2b499b91a4464fffa9f60fc8b51da03e&version=V2


Datos de paneles solares abiertos etiquetados para medir la adopción de la energía solar en Madagascar

País: Madagascar

Contacto: Fabienne Rafidiharinirina | f.rafidiharinirina@association-maidi.mg o assomaidi@gmail.com

Este equipo anotó 2.125 imágenes satelitales de Google Earth y 9.202 imágenes de drones, y formó una combinación de vistas de paneles solares de baja y alta definición en Madagascar. El equipo de Madagascar Initiatives for Digital Innovation (MAIDI) realizó verificaciones de campo de hasta el 25 % de las imágenes satelitales y, en total, anotó 22.488 polígonos.

Este conjunto de datos ayudará a los científicos de datos y a los usuarios a desarrollar un algoritmo de detección de paneles solares para medir la adopción de la energía solar en todo Madagascar. En particular, este proyecto representó a todas las regiones del país; en lugar de centrarse solo en las grandes ciudades, también abarcó pueblos de tamaño promedio y pequeños, así como costas y montañas.

Autores y afiliaciones: Fabienne Rafidiharinirina (Madagascar Initiatives for Digital Innovation)

Conjunto de datos: https://openstat-madagascar.com/bdd/energie-et-environnement/131-donnees-sur-l-energie-solaire-et-labellisation-d-images-de-panneaux-photovoltaiques-a-madagascar


Conjunto de datos sobre energía climática para infraestructuras eléctricas aisladas

País: Pakistán

Contacto: Dr. Zeeshan Shafiq | zeeshanshafiq@uetpeshawar.edu.pk

Este conjunto de datos comprende mediciones eléctricas en tiempo real de una zona climática específica de Pakistán, la región de Kalam, que muestran la generación y la demanda de energía dentro de una infraestructura eléctrica sin conexión a la red. Puede utilizarse para la investigación en el análisis de sistemas energéticos, estudios sobre el cambio climático, ingeniería eléctrica y aplicaciones de inteligencia artificial. Incluye tensiones, corrientes y factores de potencia para sistemas trifásicos y monofásicos en las etapas de generación, distribución y consumo. Además, el conjunto de datos incorpora siete parámetros climáticos diferentes del conjunto de datos ERA5 (proporcionado por el Servicio de Cambio Climático de Copernicus), generando un total de 85.596 puntos de datos en áreas como temperatura, punto de rocío, componentes del viento, precipitaciones, nevadas y cubierta de nieve.

Recopilado cada cinco minutos desde el 3 de junio de 2023 hasta el 24 de octubre de 2024, incluye más de 45 millones de instancias que abarcan datos de cuatro microgeneradores hidroeléctricos, 26 transformadores (además de cuatro sistemas de adquisición de datos instalados en microcentrales hidroeléctricas [MHP]) y 585 usuarios finales. Con el apoyo local, el equipo seguirá supervisando los datos hasta junio de 2025.

Autores y afiliaciones:

  • CISNR UET Peshawar: Zeeshan Shafiq, Prof. Dr. Gul Muhammad Khan, Ing. Sarmad Rafique, Ing. Muhammad Bilal Khan, Ing. Umer Khan, Ing. Mansoor Khan, Ing. Niaz Khan, Ing. Musa Khan, Ing. Abdul Moiz

Conjunto de datos: https://zenodo.org/records/14195731


Procesamiento del lenguaje natural

Los conjuntos de datos de idiomas de Lacuna Fund crean recursos de texto y voz de libre acceso que alimentan las tecnologías de procesamiento del lenguaje natural en diversos idiomas en contextos de ingresos bajos y medios de todo el mundo.

NaijaVoices: nuestro idioma es nuestra fuerza

Idiomas: hausa, igbo y yoruba

Contacto: Para asociaciones, colaboraciones o preguntas, póngase en contacto con info@naijavoices.com.

El proyecto NaijaVoices ha seleccionado 1.867 horas de datos de voz y texto que representan a más de 5.000 hablantes de los tres principales idiomas nigerianos: hausa, igbo y yoruba. Desde su lanzamiento, es el conjunto de datos de voz de múltiples hablantes africanos más grande. El conjunto de datos consta de unas 1.917.686 instancias; cada instancia está compuesta por audio, una transcripción, el idioma de la transcripción, la identificación del hablante, el género y el rango de edad. El conjunto de datos permite realizar tareas de NLP basadas en audio, como el reconocimiento automático del habla (ASR) y la conversión de texto a voz (TTS). Además, las oraciones auténticas del conjunto de datos pueden mejorar las tareas de procesamiento del lenguaje natural (NLP) basadas en textos, como el modelado del lenguaje, el etiquetado de partes del discurso y el reconocimiento de entidades con nombre.

Las aplicaciones lingüísticas de este conjunto de datos incluyen la comprensión de los perfiles sociolingüísticos, el análisis de las variaciones de pronunciación, el estudio de las diferencias fonéticas y fonémicas, y el avance de las capacidades de procesamiento del lenguaje natural (NLP) para los tres idiomas nigerianos. El método NaijaVoices incorporó intencionadamente discursos sobre poblaciones marginadas, como las mujeres, los niños y las personas con discapacidad, así como sobre áreas temáticas infrarrepresentadas, como los sistemas de recuento tradicionales y la agricultura. El conjunto de datos también representa voces diversas, con más de 5.000 participantes con patrones de habla y dialectos únicos.

Autores y afiliaciones: Comunidad NaijaVoices (https://naijavoices.com/)

Conjunto de datos: https://naijavoices.com/dataset


AFRIDOC-MT: corpus de traducción automática de documentos en idiomas africanos

Idiomas: amhárico, hausa, swahili, yoruba y zulú

Contacto: Jesujoba O. Alabi | jalabi@lsv.uni-saarland.de

AFRIDOC-MT es un conjunto de datos de traducción multidireccional y a nivel del documento del inglés a cinco idiomas africanos: amhárico, hausa, swahili, yoruba y zulú. El conjunto de datos comprende 334 documentos de noticias sobre salud y 271 sobre tecnologías de la información, todos ellos traducidos del inglés a estos idiomas por seres humanos. Cada dominio tiene al menos 10.000 oraciones paralelas por par de idiomas y admite la traducción multidireccional, lo que permite traducir no solo entre el inglés y los idiomas africanos, sino también entre los propios idiomas africanos.

Este conjunto de datos se puede utilizar para evaluar la capacidad de los modelos de traducción automática neuronal (NMT) y los modelos extensos de lenguaje (LLM) existentes para traducir a nivel del documento y para entrenar dichos modelos. Recientemente, se ha despertado el interés por la traducción a nivel del documento con múltiples oraciones, en la que las oraciones se traducen con su contexto y no de forma aislada. En el pasado, los esfuerzos se centraban en los idiomas de altos recursos, donde se dispone fácilmente de conjuntos de datos a nivel del documento, y no en los idiomas africanos de bajos recursos. Además, puede utilizarse para la traducción a nivel de la oración y un par de tareas lingüísticas más si se anota adecuadamente.

Autores y afiliaciones:

  • Universidad de Saarland: Jesujoba O. Alabi, Israel Abebe, Miaoran Zhang, Dawei Zhu, Dietrich Klakow
  • Centro Alemán de Investigación para la Inteligencia Artificial (DFKI): Cristina España-Bonet
  • INRIA: Rachel Bawden
  • Universidad McGill y Mila: David Adelani
  • Universidad de Ibadán: Clement Oyeleke Odoje, Idris Akinade
  • Instituto Nacional de Informática (NII): Iffat Maab
  • Selcom: Davis David
  • Imperial College, Londres: Shamsuddeen Hassan
  • Universidad de KwaZulu-Natal: Nokwanda Putini
  • Universidad de Loughborough, Reino Unido: David Oluwajoju Ademuyiwa
  • Universidad de Cambridge: Andrew Caines

Conjunto de datos: https://github.com/masakhane-io/afridoc-mt


NLU de MasaKhane: IA conversacional y conjuntos de datos de referencia para idiomas africanos

Idiomas: amhárico, ewe, hausa, igbo, lingala, luganda, oromo, kinyarwanda, shona, sesotho, swahili, twi, wolof, xhosa, yoruba y zulú

Contacto: David Adelani | david.adelani@mila.quebec

Este equipo ha desarrollado cinco conjuntos de datos de IA conversacional y de referencia para 16 idiomas de todo el continente africano: amhárico, ewe, hausa, igbo, lingala, luganda, oromo, kinyarwanda, shona, sesotho, swahili, twi, wolof, xhosa, yoruba y zulú. El primer conjunto de datos, AfriXNLI, es un conjunto de datos de inferencia en lenguaje natural utilizado para determinar la relación lingüística (vinculación, neutra y contradicción) entre dos oraciones; cuenta con 1.050 pares de oraciones por idioma. El segundo conjunto de datos, AfriMMLU, es un conjunto de datos de preguntas y respuestas de opción múltiple basado en el conocimiento que abarca cinco asignaturas: matemáticas elementales, geografía de escuela secundaria, derecho internacional, hechos globales y microeconomía de escuela secundaria. El equipo recopiló 608 pares de preguntas y respuestas por idioma. El tercer conjunto de datos, AfriMGSM, se desarrolló como un conjunto de datos de forma libre de preguntas y respuestas de matemáticas de primaria, que se formó con 258 pares de preguntas y respuestas. AfriIntent, que implica la recopilación de 3.200 oraciones por idioma, es un conjunto de datos de clasificación intencionada que abarca numerosos dominios, como banca (p. ej., “pagar factura”), hogar (p. ej., “reproducir música”), cocina y cena (p. ej., “confirmar reserva”), viajes (p. ej., “tipo de tomacorriente”) y servicios (p. ej., “hacer una llamada”). Por último, utilizando 3.200 oraciones por idioma, el equipo desarrolló AfriSlot para la clasificación por secciones en categorías como productos alimenticios, nombres de idiomas, etc.

Estos cinco conjuntos de datos de solo texto son útiles para chatbots conversacionales en aplicaciones de la vida real, como banca, restaurantes, agencias de viajes y más. El equipo ha creado puntos de referencia sólidos para evaluar el rendimiento de modelos extensos de lenguaje como GPT-4o en idiomas africanos.

Autores y afiliaciones:

  • Universidad McGill y Mila: David Ifeoluwa Adelani, Hao Yu
  • SADiLaR: Andiswa Bukula, Mmasibidi Setaka, Rooweither Mabuya
  • Universidad OntarioTech: En-Shiun Annie Lee
  • Universidad de Saarland: Israel Abebe Azime, Jesujoba O. Alabi
  • Universidad de Toronto: Jian Yun Zhuang
  • Universidad de Princeton: Happy Buzaaba
  • Masakhane: Blessing Sibanda, Godson Kalipe, Jonathan Mukiibi, Salomon Kabongo, Lolwethu Ndolela, Nkiruka Odu, Salomey Osei, Sokhar Samb, Tadesse Kebede Guge, Juliet Murage
  • Imperial College: Shamsuddeen Hassan Muhammad

Conjunto de datos: https://github.com/masakhane-io/masakhane-nlu


Conjunto de datos multilingües de PII de Lacuna

Idiomas: luganda, lumasaba, hausa y kanuri

Contacto:

  • Andrew Katumba|katumba@mak.ac.ug
  • Milena Haykowska|milena.haykowska@clearglobal.org
  • Peter Nabende|nabende@gmail.com

Este conjunto de datos contiene oraciones anotadas con información de identificación personal (PII) en luganda, lumasaba, hausa y kanuri. Estos cuatro idiomas abarcan Uganda central y oriental, Nigeria, Ghana y el norte de Camerún. El equipo recopiló 3.000 oraciones tanto para kanuri como para hausa, 5.000 para lumasaba y 4.000 para luganda. Entre los posibles usos de estos conjuntos de datos se encuentran el reconocimiento de entidades con nombre (NER), la clasificación de textos, el análisis y la investigación de datos para preservar la privacidad, el modelado del lenguaje, la traducción automática y la investigación lingüística.

El objetivo del equipo era recopilar un conjunto de datos que incluyera la perspectiva de género, y su trabajo puso de manifiesto la necesidad de disponer de directrices estandarizadas para la anotación de idiomas de bajos recursos. Disponer de estas directrices ayudaría a evitar los errores más comunes a la hora de etiquetar datos de texto en estos idiomas de bajos recursos.

Autores y afiliaciones:

  • Laboratorio de Investigación e Innovaciones Marconi, Universidad de Makerere: Andrew Katumba, Jenifer Winfred Namuyanja, Nakakande Bridget Cecile
  • Laboratorio de Inteligencia Artificial de Makerere: Joyce Nakatumba-Nabende, Ann Lisa Nabiryo, Peter Nabende, Eric Peter Wairagala
  • Clear Global: Milena Haykowska, Andrew Bredenkamp, Mariam Mohanna, Alp Öktem, Etienne de Crecy

Conjunto de datos: https://doi.org/10.7910/DVN/CGHWZE


Conjunto de datos sobre la detección de discurso ofensivo y de odio para idiomas africanos

Idiomas: hausa, yoruba, igbo, pidgin nigeriano, árabe argelino, árabe marroquí, swahili, isiXhosa, isiZulu, kinyarwanda, twi, amhárico, oromo, somalí, tigriña

Contacto:

AfriHate es un corpus de discursos ofensivos y de odio para 15 idiomas africanos: hausa, yoruba, igbo, pidgin nigeriano, árabe argelino, árabe marroquí, swahili, isiXhosa, isiZulu, kinyarwanda, twi, amhárico, oromo, somalí, tigriña. El conjunto de datos AfriHate anotó tuits utilizando clases “ofensivas”, “odiosas” y “normales”, con clases objetivo específicas (temas) como política, etnia, género, religión y discapacidad. Dentro de este proyecto, el equipo creó otro conjunto de datos, AfriEmotion, un nuevo corpus para la detección de emociones, incluida la intensidad de emociones como la alegría, la tristeza, el miedo, la ira, la sorpresa y el asco. En total, el equipo recopiló y anotó 10.000 casos de cada uno para la detección de expresiones de odio y ofensivas y de emociones por idioma, lo que supone un total de 150.000 observaciones anotadas.

Este proyecto es el primero en desarrollar y poner a disposición del público un conjunto de datos para la detección de discursos de odio y ofensivos y de emociones en los idiomas de destino. Para garantizar un conjunto de datos representativo, los idiomas de destino abarcan todas las regiones de África. Asimismo, para cada idioma, el equipo recopiló textos utilizando un conjunto diverso de estrategias para garantizar una representación homogénea en el corpus y recurrió a anotadores de procedencia diversa en cuanto a género, estatus y nivel educativo.

El conjunto de datos AfriHate admite diversas tareas y aplicaciones de procesamiento del lenguaje natural (NLP) para los idiomas africanos, como la detección de discursos de odio, la identificación de lenguaje abusivo, el análisis contextual y el modelado lingüístico. Sirve para varios casos de uso, como la investigación psicológica, la elaboración de políticas y la moderación de contenidos. El conjunto de datos ayuda a detectar eficazmente los discursos de odio en entornos lingüísticos de bajos recursos, identificar patrones lingüísticos de discursos de odio, comprender las influencias contextuales y mejorar las herramientas de NLP para la moderación matizada de contenidos en idiomas africanos.

Del mismo modo, el conjunto de datos AfriEmotion facilita diversas tareas y aplicaciones de NLP para idiomas africanos, como la detección, el análisis y la síntesis de emociones. Sus casos de uso incluyen el seguimiento de las redes sociales para comprender el sentimiento y las emociones del público, el apoyo a la salud mental con detección temprana de la angustia, herramientas educativas que promuevan la inteligencia emocional, el análisis literario a través de una mirada emocional y perspectivas políticas para una toma de decisiones informada. El conjunto de datos aborda cuestiones como las influencias lingüísticas y culturales en la expresión emocional, las similitudes y diferencias entre idiomas y culturas, la adaptación de modelos de NLP para los idiomas de bajos recursos, y los desafíos y las oportunidades del procesamiento multilingüe de emociones en contextos africanos.

Autores y afiliaciones:

  • ICT4D, Universidad de Bahir Dar: Esubalew Alemneh Jalew, Abinew Ali Ayele
  • Universidad Bayero de Kano, Departamento de Informática: Shamsudeen Hassan Muhammad, Ibrahim Said Ahmad
  • Imperial College de Londres: Shamsuddeen Hassan Muhammad
  • Idris Abdulmumin (Universidad Ahmadu Bello, Departamento de Informática).
  • Seid Muhie Yimam (Universidad de Hamburgo, Grupo de Tecnología Lingüística, Departamento de Informática)

Conjunto de datos:


Ethio Speech Corpora

Idiomas: amhárico, tigriña, oromo, somalí, afar, sidama

Contacto: Solomon Teferra Abate | solomon.teferra@aau.edu.et

Ethio Speech Corpora está compuesto por más de 391 horas de audio grabado en seis idiomas etíopes diferentes: amhárico (68 horas), tigriña (62 horas), oromo (70 horas), somalí (56 horas), afar (68 horas) y sidama (68 horas). Este proyecto será un recurso valioso para el desarrollo de sistemas de reconocimiento automático del habla (ASR) de buen rendimiento para estos seis idiomas (en una configuración monolingüe) y para otros idiomas relacionados (en una configuración multilingüe) que son útiles en numerosos aspectos de la vida diaria.

Los casos de uso de los sistemas de reconocimiento del habla que utilizan este conjunto de datos incluyen sistemas de dictado, sistemas de transcripción, tecnologías de asistencia, sistemas de diálogo hablado, traducción del habla y otras tecnologías del habla similares. Para que el conjunto de datos fuera representativo, el equipo seleccionó seis idiomas de trabajo que se utilizan en todos los estados regionales de Etiopía, manteniendo al mismo tiempo el equilibrio de género y edad de los lectores.

Autores y afiliaciones:

  • Facultad de Ciencias de la Información de la Universidad de Addis Abeba: Solomon Teferra Abate (PhD), Martha Yifiru Tachbelie (PhD), Michael Melese Woldeyohannes (PhD), Hafte Abera, Bantegize Addis Alemayehu, Wondwossen Mulugeta (PhD)

Sitio web: https://ethiospeech.com/

Conjunto de datos: https://github.com/EthioSpeech y https/:/huggingface.co/EthioSpeech


Crear un corpus en paralelo para las lenguas indígenas de Kenia y kiswahili

Idiomas: kidaw’ida, kalenjin y dholuo, kiswahili

Contacto: Audrey Mbogho | ambogho@usiu.ac.ke

Este equipo recopiló corpus de texto en paralelo para tres lenguas indígenas de Kenia, kidaw’ida, kalenjin y dholuo, junto con kiswahili, lo que condujo a cerca de 90.000 pares de oraciones en total. Tras la recopilación, el equipo separó las oraciones en kidaw’ida, kalenjin y dholuo y las utilizó como conjuntos de datos monolingües para datos de habla de participación colectiva, lo que fue posible gracias a la carga de las oraciones en Mozilla Common Voice. Se reclutó a un total de 109 miembros de las tres comunidades lingüísticas para que leyeran y grabaran oraciones de sus respectivos idiomas nativos. Hacer hincapié en el equilibrio de género e incluir distintas edades y variantes regionales ayudó a que los conjuntos de datos fueran más representativos. Los conjuntos de datos de voz ofrecen una cantidad considerable de datos de habla: 56 horas de kidaw’ida, 92 horas de kalenjin y 120 horas de dholuo, lo que supone un total de 268 horas.

Los casos de uso para estos corpus en paralelo incluyen el entrenamiento de modelos para traducir entre kiswahili y kidaw’ida, Kalenjin y dholuo. Los datos de voz de Mozilla Common Voice, junto con sus datos de texto asociados, se utilizarán para el desarrollo de aplicaciones de reconocimiento de voz. Los idiomas que componen este conjunto de datos son de bajos recursos, especialmente el kidaw’ida, que solo cuenta con unos 400.000 hablantes y se enfrenta a un riesgo de pérdida más inmediato. Al recopilar los datos de texto y voz, este equipo contribuyó a la conservación de estas lenguas. Esperan que, una vez recopilados suficientes datos para entrenar modelos precisos y crear aplicaciones de NLP para estas tres lenguas, estas adquieran mayor relevancia en la era digital moderna, mitigando así el riesgo de pérdida.

Autores y afiliaciones:

  • USIU-Africa: Audrey Mbogho, Quin Awuor
  • Universidad de Maseno: Lilian Wanzare, Vivian Oloo
  • Andrew Kipkebut (Universidad de Kabarak)
  • Rose Lugano (Universidad de Florida)

Conjunto de datos:


Ampliar un corpus en paralelo en portugués y el idioma bantú emakhuwa

Idiomas: emakhuwa, portugués

Contacto: Felermino D. M. A. Ali | felermino.ali@unilurio.ac.mz o felerminoali@gmail.com

Este conjunto de datos incluye la traducción de 1.897 artículos de noticias con 660.242 palabras del portugués al emakhuwa, una lengua indígena de Mozambique. Cada artículo incluye el titular de la noticia, el contenido y una etiqueta para la clasificación temática. Para la clasificación temática de las noticias, los artículos se dividieron en tres áreas principales: capacitación (1.337 artículos), desarrollo (185 artículos) y pruebas (375 artículos). Luego, los artículos se clasificaron por tema: política, economía, cultura, deportes, salud, sociedad y noticias del mundo.

Los casos de uso para este conjunto de datos incluyen la clasificación de temas, la traducción y el reconocimiento de extranjerismos. Para garantizar que el conjunto de datos fuera representativo, el equipo tradujo diferentes categorías de artículos de noticias y priorizó aquellos relacionados con Mozambique, lo que contribuyó a la diversidad del léxico. Los conjuntos de datos han mostrado resultados prometedores a la hora de perfeccionar modelos multilingües como ByT5, M2M100 y NLLB200. El trabajo del equipo ya ha generado mejoras en la calidad de traducción al utilizar información de extranjerismos como datos adicionales. Tienen previsto seguir perfeccionando los modelos y garantizar resultados de alta calidad para todos los casos de uso.

Autores y afiliaciones:

  • Felermino Dário Mário António Ali: Universidad Lurio, Facultad de Ingeniería; Laboratorio de Inteligencia Artificial e Informática (LIACC); Centro de Lingüística (CLUP) de la Universidad de Porto
  • Henrique Lopes Cardoso: Facultad de Ingeniería de la Universidad de Porto (FEUP), Laboratorio de Inteligencia Artificial e Informática (LIACC)
  • Rui Sousa Silva: Facultad de Letras y Humanidades, Centro de Lingüística (CLUP) de la Universidad de Porto

Conjunto de datos: https://huggingface.co/collections/LIACC/makhuwa-nlp-66a93ea22df7f4b31e96a5ab

Documentos:

 

Para ver todos los conjuntos de datos de idiomas de Lacuna Fund, visite: https://lacunafund.org/datasets/language/