Cinq nouveaux ensembles de données d’apprentissage machine dans les domaines de l’agriculture, de la santé et des langues

28 August 2024

Cinq nouveaux ensembles de données d’apprentissage machine dans les domaines de l’agriculture, de la santé et des langues 

Aujourd’hui, nous sommes heureux d’annoncer cinq ensembles de données récemment publiés pour entraîner l’intelligence artificielle dans les domaines de l’agriculture, de la santé et du traitement automatique du langage naturel (TALN). Ces ensembles de données exploitent le potentiel de l’IA pour résoudre des problèmes sociaux et économiques urgents en Afrique et en Amérique latine.  

Pour en savoir plus sur ces ensembles de données et sur la manière d’y accéder, voir ci-dessous !

Le Lacuna Fund est une coalition de bailleurs de fonds, de scientifiques et d’utilisateurs de données, dont la Fondation Rockefeller, Google.org, le Centre de recherche pour le développement international du Canada, le ministère fédéral allemand de la Coopération et du Développement économiques (BMZ), Wellcome, la Fondation Gordon et Betty Moore, la Fondation Patrick J. McGovern et la Fondation Robert Wood Johnson, qui s’engagent à combler les lacunes en matière de données et à rendre l’apprentissage machine et l’IA plus équitables, plus précis et plus accessibles dans le monde entier.

Nous tenons à exprimer notre profonde gratitude à nos bailleurs de fonds qui rendent possible la création de ces ensembles de données.

Agriculture

Ensemble régional et pluriannuel d’étiquettes de délimitation des champs de culture pour l’Afrique

Contacts :

Mary Dziedzorm Afenyo | Farmerline | mary@farmerline.co
Lyndon Estes | Université Clark | lestes@clarku.edu
Primož Kovačič | Spatial Collective | primoz@spatialcollective.com

Cet ensemble de données fournit des étiquettes pour les champs de culture à l’échelle du continent africain, améliorant ainsi la disponibilité et l’utilisation des cartes de délimitation des champs de culture (parcelles). Il contient 42 403 polygones géospatiaux annotés indiquant les délimitations de champs de culture individuels pour les années 2017 à 2023. Ces annotations, réalisées par l’équipe du projet, ont été créées en utilisant l’imagerie satellite existante pour 33 746 sites uniques de culture délimités. Les sites ont été définis comme étant des zones spatiales uniques d’environ 550 mètres sur 550 mètres, recoupés avec les images satellite.

Les résultats de ce projet comprennent des fichiers GeoParquet des limites des champs, un fichier CSV avec l’ID, le nom, les coordonnées, la date et les métriques de qualité, des fragments d’images numérisées pour chaque site, un carnet Jupyter pour filtrer le catalogue de métriques de qualité et créer des étiquettes rastérisées, un fichier CSV contenant un exemple de catalogue filtré à partir du carnet et un ensemble d’exemples d’étiquettes rastérisées tirées du carnet. Ce système peut être utilisé pour étiqueter les champs, en entraînant des modèles à cartographier les champs agricoles sur de vastes zones et sur plusieurs années.

Cet ensemble de données peut être utilisé de diverses manières pour entraîner et évaluer des modèles d’apprentissage machine destinés à des applications agricoles. Les modèles pourraient apprendre à distinguer les limites et l’espace intérieur des champs grâce à une segmentation sémantique tenant compte des délimitations. L’ensemble de données peut également être utilisé pour créer des étiquettes binaires de terres cultivées et non cultivées. Enfin, le catalogue complet peut être utilisé pour tester l’impact de la qualité des étiquettes sur les performances globales du modèle.

Auteurs et affiliations

Auteurs : Wussah, A., Afenyo, M., Osei , A.K., Gathigi, M., Kovačič, P., Muhando, J., Addai, F., Akakpo, E.S., Allotey, M., Amkoya, P., Amponsem, E., Dadon, K.D., Gyan, V., Harrison X.G., Heltzel, E., Juma, C., Mdawida, R., Miroyo, A., Mucha, J., Mugami, J., Mwawaza, F., Nyarko, D., Oduor, P., Ohemeng, K., Segbefia, S.I.D., Tumbula, T., Wambua, F., Yeboah, F., Estes, L.D., 2024.

Ensemble de données

Zenodo : https://zenodo.org/records/11060871
Github : https://github.com/agroimpacts/lacunalabels
Registre des données ouvertes sur AWS : https://registry.opendata.aws/africa-field-boundary-labels/

Santé

Malnutrition infantile au Chili

Contact : Maria Paz Hermosilla | goblab @uai.cl

Ce référentiel de données permettra d’évaluer les facteurs contribuant à la malnutrition infantile au Chili, l’état nutritionnel des enfants, ainsi que les coûts associés. À ce stade, l’accent est mis sur l’estimation des coûts de santé associés à la malnutrition infantile et sur la mise en évidence des déterminants biopsychosociaux qui y contribuent. Avant le début de ce projet, il n’existait pas de référentiel intégré pour éclairer les politiques portant sur cette problématique au Chili.

Ce référentiel contient au total plus de 1,4 milliard d’enregistrements, classés par source de données et par période spécifique. La base de données longitudinale des enfants de moins de 18 ans contient des informations sur la santé, la famille, la scolarité, les facteurs sociaux et culturels, les dépenses de santé et d’autres données connexes, telles que des informations sur les membres de la famille, qui pourraient être utiles pour des études futures. La plupart des données proviennent de la période 2015-2022, bien que certaines bases de données contiennent des données plus anciennes (par exemple, les naissances de 1992 à 2022 ou les sorties d’hôpital de 2001 à 2022).

Auteurs et affiliations

Ministère de la Santé, Chili
GobLab, École d’administration publique, Université Adolfo Ibañez, Chili
FONASA (Agence publique d’assurance maladie)
Surintendance de la santé, JUNAEB (Office national d’aide et de bourses scolaires).

Ensemble de données : compte tenu de la nature sensible des données contenues dans ce référentiel, les personnes intéressées peuvent consulter le site web du projet via ce lien pour un accès contrôlé aux projets de recherche subventionnés pertinents : https://goblab.uai.cl/proyecto-reduccion-de-la-malnutricion-infantil-en-chile/

Ensembles de données du Lacuna Fund sur le paludisme

Contact : Rose Nakasi | g.nakasi.rose@gmail.com ou rose.nakasi@mak.ac.ug

Cet ensemble de données facilitera le diagnostic du paludisme. L’ensemble de données contient des images annotées d’échantillons de sang collectés en Ouganda et au Ghana présentant des objets d’intérêt, notamment des parasites et des globules blancs. Il vient considérablement étoffer le nombre d’images microscopiques disponibles – y compris les métadonnées – de 6 000 frottis sanguins épais et de 2 000 frottis sanguins fins pour une utilisation dans la recherche sur la détection d’objets et d’autres domaines d’investigation.

Ce travail est le fruit d’une collaboration entre le Makerere Artificial Intelligence Lab et minoHealth. L’équipe de l’université de Makerere a recueilli 4 000 images, dont 1 000 frottis sanguins fins (100 % annotés) et 3 000 frottis sanguins épais (82 % annotés). L’équipe de minoHealth a collecté 1 000 frottis sanguins fins et 3 000 frottis sanguins épais supplémentaires. Les annotations comprennent des boîtes englobantes montrant les parasites du paludisme et les globules blancs pour les images de frottis sanguin épais, et les parasites du paludisme, le type de parasite (trophozoïte ou gamétocyte) et les cellules parasitées pour les images de frottis sanguin fin. Certaines images contiennent également des données sur la lame physique utilisée pour capturer l’image, telles que les lectures micrométriques de la platine du microscope et les réglages de l’objectif du microscope utilisés pour capturer l’image.

Auteurs et affiliations

Makerere Artificial Intelligence Lab
minoHealth

Ensemble de données : https://doi.org/10.7910/DVN/VEADSE

Langues

BIG-C : un ensemble de données multimodales et polyvalentes pour le bemba

Contact : Claytone Sikasote | claytonsikasote@gmail.com

L’ensemble de données BIG-C (Bemba Image Grounded Conversations) est composé de dialogues multi-tours entre locuteurs bemba basés sur des images, qui ont été transcrits puis traduits en anglais. L’on dénombre plus précisément 92 000 phrases, soit plus de 180 heures de données vocales avec les transcriptions en bemba et les traductions en anglais correspondantes. Le bemba est la langue la plus parlée en Zambie, mais le manque de données linguistiques a limité les progrès et les applications dans le domaine des technologies du langage et de la recherche sur le traitement du langage. Ce projet a permis de créer le tout premier ensemble de données multimodales à grande échelle pour le bemba, qui sera utilisé pour la reconnaissance vocale, la traduction automatique, la traduction vocale, la modélisation linguistique, les systèmes de traduction multimodale et l’apprentissage fondé sur les images. Il s’agit d’une ressource essentielle pour la recherche et le développement de technologies du langage pour le bemba.

En mettant l’ensemble de données à la disposition du public et de la communauté des chercheurs, ce projet stimulera la recherche et encouragera la collaboration entre les communautés du langage, de la parole et de la vision, en particulier pour les langues à faibles ressources.

Auteurs et affiliations

Claytone Sikasote, Université de Zambie, Zambie
Eunice Mukonde-Mulenga, Université de Zambie, Zambie
Md Mahfuz Ibn Alam, Université George Mason, États-Unis
Antonios Anastasopoulos, Université George Mason, États-Unis

Ensemble de données : https://github.com/csikasote/bigc

Publication : https://aclanthology.org/2023.acl-long.115

KALLAAMA

Contact : Aminata Ndiaye | amina.ndiaye@jokalante.com et Elodie Gauthier | elodie.gauthier@orange.com

Cet ensemble de données viendra étoffer les ressources de traitement automatique du langage naturel pour le wolof, le pulaar et le sérère, les trois langues les plus parlées au Sénégal.

Si des ensembles de données existent en wolof, les données se font plus rares pour le pulaar et le sérère. Ce projet a joué un rôle crucial pour combler cette lacune. La base de données de cet ensemble de données comprend plus de 55 heures (12 fichiers) de discours transcrit en wolof, 38 heures (105 fichiers) en sérère et 31 heures (83 fichiers) en pulaar. La base de données comprend également plus de 12 heures d’enregistrements vérifiés dans chaque langue, des données textuelles contenant plus de 947 000 mots en wolof et 593 000 en pulaar. Elle comprend également un lexique de prononciation de plus de 54 000 entrées phonétisées en wolof.

Cet ensemble de données peut être utilisé pour réaliser des tâches telles que la conversion audio en texte, la réponse à des questions et l’apprentissage des langues, et peut aider à affiner les modèles multilingues. Les données peuvent également être utilisées au service de la modélisation de la parole, de la modélisation de la réponse automatique, de la reconnaissance de la parole en langue locale, des systèmes de transcription et des assistants personnels capables de répondre aux questions relatives aux conseils agricoles pour les petits exploitants.

Auteurs et affiliations

Chef de projet : Aminata Ndiaye Diallo (Jokalante, Dakar, Sénégal)
Parties prenantes : Elodie Gauthier (Orange Innovation, Lannion, France), Abdoulaye Guissé (École Polytechnique de Thiès, Sénégal)
Interne : Boubacar Diallo (Université Assane Seck, Ziguinchor, Sénégal) – collecte de données textuelles
Stagiaires : Maimouna Diallo (Université Cheikh Anta Diop, Dakar, Sénégal) – transcription en wolof ; Houleye Amadou Kane (Université Cheikh Anta Diop, Dakar, Sénégal) – transcription en pulaar ; Fatou Diouf (Université Cheikh Anta Diop, Dakar, Sénégal) – transcription en sérère

Ensemble de données

Github : https://github.com/gauthelo/kallaama-speech-dataset
OpenSLR : https://www.openslr.org/151/
Zenodo : https://zenodo.org/records/10892569

Cinq nouveaux ensembles de données d’apprentissage machine dans les domaines de l’agriculture, de la santé et des langues