Cinco nuevos conjuntos de datos de aprendizaje automático en los ámbitos de la agricultura, la salud y el lenguaje
28 August 2024Cinco nuevos conjuntos de datos de aprendizaje automático en los ámbitos de la agricultura, la salud y el lenguaje
Hoy nos complace anunciar cinco conjuntos de datos publicados recientemente para entrenar la inteligencia artificial en los ámbitos de la agricultura, la salud y el procesamiento del lenguaje natural (NLP). Estos conjuntos de datos aprovechan el poder de la IA para abordar problemas sociales y económicos urgentes en África y América Latina.
A continuación, encontrará más información sobre estos conjuntos de datos y cómo acceder a ellos.
Lacuna Fund es una coalición de financiadores, científicos de datos y usuarios de datos, como The Rockefeller Foundation, Google.org, el Centro Internacional de Investigaciones para el Desarrollo de Canadá, el Ministerio Federal de Cooperación Económica y Desarrollo (BMZ) de Alemania, Wellcome, Gordon and Betty Moore Foundation, Patrick J. McGovern Foundation y Robert Wood Johnson Foundation, con un compromiso en pos de cubrir las carencias de datos y hacer que el aprendizaje automático y la IA sean más equitativos, precisos y accesibles en todo el mundo.
Agradecemos enormemente a nuestros financiadores, que hacen posible la creación de estos conjuntos de datos.
Agricultura
Un conjunto de etiquetas de límites de campos de cultivo para toda la región y por varios años en África.
Contactos:
- Mary Dziedzorm Afenyo | Farmerline | mary@farmerline.co
- Lyndon Estes | Universidad Clark | lestes@clarku.edu
- Primož Kovačič | Spatial Collective | primoz@spatialcollective.com
Este conjunto de datos proporciona etiquetas de campos de cultivo para África, lo que mejora la disponibilidad y el uso de los mapas de límites de campos de cultivo (parcelas). Contiene 42 403 polígonos geoespaciales anotados que indican los límites de los campos de cultivo individuales que abarcan los años 2017-2023. Estas anotaciones, realizadas por el equipo del proyecto, se crearon en combinación con las imágenes por satélite existentes para 33 746 lugares únicos de los límites del campo. Los lugares se definieron como ubicaciones espaciales únicas de aproximadamente 550 metros por 550 metros, superpuestas en las imágenes de satélite.
Los resultados de este proyecto incluyen archivos de límites de campo GeoParquet; un archivo CSV con ID, nombre, coordenadas, fecha y métricas de calidad; chips de imágenes planetarias digitalizadas para cada sitio; un cuaderno Jupyter para filtrar el catálogo de métricas de calidad y crear etiquetas rasterizadas; un archivo CSV con un catálogo filtrado de ejemplo del cuaderno; y un conjunto de etiquetas rasterizadas de ejemplo del cuaderno. Esto puede utilizarse para etiquetar campos y entrenar modelos para cartografiar campos agrícolas en grandes áreas y múltiples años.
Este conjunto de datos puede utilizarse de diversas formas para entrenar y evaluar modelos de aprendizaje automático para aplicaciones agrícolas. Los modelos podrían aprender a distinguir entre los límites y el interior de los campos con una segmentación semántica con conciencia de los límites. También puede utilizarse para crear etiquetas binarias de cultivo y no cultivo. Por último, el catálogo completo puede utilizarse para comprobar el impacto de la calidad de las etiquetas en el rendimiento general del modelo.
Autores y afiliaciones:
- Autores: Wussah, A., Afenyo, M., Osei , A.K., Gathigi, M., Kovačič, P., Muhando, J., Addai, F., Akakpo, E.S., Allotey, M., Amkoya, P., Amponsem, E., Dadon, K.D., Gyan, V., Harrison X.G., Heltzel, E., Juma, C., Mdawida, R., Miroyo, A., Mucha, J., Mugami, J., Mwawaza, F., Nyarko, D., Oduor, P., Ohemeng, K., Segbefia, S.I.D., Tumbula, T., Wambua, F., Yeboah, F., Estes, L.D., 2024.
Conjunto de datos:
- Zenodo: https://zenodo.org/records/11060871
- Github: https://github.com/agroimpacts/lacunalabels
- AWS Open Data Registry: https://registry.opendata.aws/africa-field-boundary-labels/
Salud
Desnutrición infantil en Chile
Contacto: Maria Paz Hermosilla | goblab@uai.cl
Este repositorio de datos evaluará los factores que contribuyen a la desnutrición infantil en Chile y el estado nutricional de los niños, así como los costos asociados. En esta fase, la atención se centra en estimar los costes sanitarios asociados a la desnutrición infantil e identificar los determinantes biopsicosociales que la provocan. Antes del inicio de este proyecto, no existía en Chile un repositorio integrado para informar las políticas en torno a este tema.
En total hay más de 1400 millones de registros en este repositorio, clasificados por fuente de datos y por período específico. La base de datos longitudinal de niños menores de 18 años contiene información sobre salud, familia, escuela, factores sociales y culturales, gastos relacionados con la salud y otros datos relacionados, como información sobre los miembros de la familia que puede ser relevante para futuros estudios. La mayoría de los datos corresponden al período 2015-2022, aunque algunas de las bases de datos incluyen datos más antiguos (por ejemplo, nacimientos de 1992 a 2022; altas hospitalarias de 2001 a 2022).
Autores y afiliaciones:
- Ministerio de Salud, Chile
- GobLab, Escuela de Gobierno, Universidad Adolfo Ibáñez, Chile
- FONASA (Agencia Pública de Seguros de Salud)
- Superintendencia de Salud, JUNAEB (Junta Nacional de Auxilio Escolar y Becas).
Conjunto de datos: Dado el carácter sensible de los datos contenidos en este repositorio, los interesados pueden visitar aquí el sitio web del proyecto para acceder de forma controlada a los proyectos de investigación pertinentes que hayan sido galardonados: https://goblab.uai.cl/proyecto-reduccion-de-la-malnutricion-infantil-en-chile/.
Conjuntos de datos sobre el paludismo de Lacuna
Contacto: Rose Nakasi | g.nakasi.rose@gmail.com o rose.nakasi@mak.ac.ug
Este conjunto de datos contribuirá con el diagnóstico de la malaria. El conjunto de datos contiene imágenes anotadas de muestras de sangre recogidas en Uganda y Ghana con objetos de interés, incluidos parásitos y glóbulos blancos. Aumenta significativamente el número de imágenes de microscopía disponibles (incluidos los metadatos) en 6000 portaobjetos de sangre gruesa y 2000 de sangre fina para su uso en la investigación de detección de objetos y otras áreas de investigación.
Este trabajo es fruto de la colaboración entre el Laboratorio de Inteligencia Artificial de Makerere y minoHealth. El equipo de la Universidad de Makerere recopiló 4000 imágenes, entre ellas 1000 preparaciones de sangre fina (100 % anotadas) y 3000 preparaciones de sangre gruesa (82 % anotadas). El equipo de minoHealth recogió otros 1000 portaobjetos de sangre fina y 3000 de sangre gruesa. Las anotaciones incluyen cuadros delimitadores que muestran los parásitos del paludismo y los glóbulos blancos para las imágenes de frotis de sangre gruesa y los parásitos del paludismo, el tipo de parásito (trofozoíto o gametocito) y las células parasitadas para las imágenes de frotis de sangre fina. Algunas imágenes también incluyen datos sobre el portaobjetos físico desde el que se capturó la imagen, como las lecturas micrométricas de la etapa del microscopio y los ajustes del objetivo del microscopio utilizados para capturar la imagen.
Autores y afiliaciones:
- Laboratorio de Inteligencia Artificial de Makerere
- minoHealth
Conjunto de datos: https://doi.org/10.7910/DVN/VEADSE
Lenguaje
BIG-C: Un conjunto de datos multimodal y polivalente para Bemba
Contacto: Claytone Sikasote | claytonsikasote@gmail.com
El conjunto de datos BIG-C (Bemba Image Grounded Conversations) se compone de diálogos de varios turnos entre hablantes de bemba basados en imágenes, transcritos y traducidos al inglés. En concreto, hay más de 92 000 frases, lo que equivale a más de 180 horas de datos de habla con sus correspondientes transcripciones en bemba y traducciones al inglés. El bemba es la lengua más hablada en Zambia, pero la falta de recursos de datos lingüísticos ha limitado los avances y las aplicaciones de las tecnologías del lenguaje y la investigación sobre su tratamiento. Gracias a este proyecto, se desarrolló el primer conjunto de datos multimodales a gran escala de Bemba que se utilizará para el reconocimiento del habla, la traducción automática, la traducción del habla, el modelado lingüístico, los sistemas de traducción multimodal y el aprendizaje fundamentado basado en imágenes. Es un recurso clave para la investigación y el desarrollo de tecnologías lingüísticas para las lenguas bemba.
Al poner el conjunto de datos a disposición del público y de la comunidad investigadora, este proyecto impulsará la investigación y fomentará la colaboración entre las comunidades del lenguaje, el habla y la visión, especialmente en el caso de las lenguas que, tradicionalmente, carecen de recursos.
Autores y afiliaciones:
- Claytone Sikasote, Universidad de Zambia, Zambia
- Eunice Mukonde – Mulenga, Universidad de Zambia, Zambia
- Md Mahfuz Ibn Alam, Universidad George Mason, EE. UU.
- Antonios Anastasopoulos, Universidad George Mason, EE. UU.
Conjunto de datos: https://github.com/csikasote/bigc
Publicación: https://aclanthology.org/2023.acl-long.115
KALLAAMA
Contacto: Aminata Ndiaye | amina.ndiaye@jokalante.com y Elodie Gauthier | elodie.gauthier@orange.com
Este conjunto de datos reforzará los recursos de procesamiento del lenguaje natural para el wólof, el fula y el serer, las tres lenguas más habladas en Senegal.
Aunque existen conjuntos de datos en wólof, faltan datos para el fula y el serer. Este proyecto ha desempeñado un papel crucial para cubrir esta carencia. El repositorio de habla transcrita de este conjunto de datos incluye más de 55 horas (12 archivos) de habla transcrita en wólof, 38 horas (105 archivos) en serer y 31 horas (83 archivos) en fula. El repositorio también incluye más de 12 horas de grabaciones verificadas en cada lengua, datos textuales que contienen más de 947 000 palabras en wólof y 593 000 palabras en fula. También incluye un léxico de pronunciación con más de 54 000 entradas fonetizadas en wólof.
Este conjunto de datos puede utilizarse para resolver tareas como la conversión de voz a texto, la respuesta a preguntas y el aprendizaje de idiomas, y afinar modelos multilingües. Los datos también pueden utilizarse para desarrollar modelos de voz, modelos de respuesta automática, reconocimiento de voz en el idioma local, sistemas de transcripción y asistentes personales capaces de responder a preguntas relacionadas con consejos agrícolas para pequeños agricultores.
Autores y afiliaciones:
- Líder de proyecto: Aminata Ndiaye Diallo (Jokalante, Dakar, Senegal)
- Partes interesadas: Elodie Gauthier (Orange Innovation, Lannion, Francia), Abdoulaye Guissé (Ecole Polytechnique de Thiès, Senegal)
- Pasantes: Boubacar Diallo (Universidad Assane Seck , Ziguinchor, Senegal) – Recopilación de datos textuales
- Becarios: Maimouna Diallo (Universidad Cheikh Anta Diop , Dakar, Senegal) – transcripción de wólof, Houleye Amadou Kane (Universidad Cheikh Anta Diop , Dakar, Senegal) – transcripción de fula, Fatou Diouf (Universidad Cheikh Anta Diop, Dakar, Senegal): – Transcripción de serer
Conjunto de datos:
- Github: https://github.com/gauthelo/kallaama-speech-dataset
- OpenSLR: https://www.openslr.org/151/
- Zenodo : https://zenodo.org/records/10892569