Skip to content

Quatre nouveaux ensembles de données d’apprentissage machine dans les domaines de l’agriculture, de la santé et des langues

27 March 2024

Quatre nouveaux ensembles de données d’apprentissage machine dans les domaines de l’agriculture, de la santé et des langues 

Aujourd’hui, nous sommes heureux d’annoncer quatre ensembles de données récemment publiés pour entraîner l’intelligence artificielle dans les domaines de l’agriculture, du traitement automatique du langage naturel (TALN) et de la santé. Ces ensembles de données exploitent le potentiel de l’IA pour résoudre des problèmes sociaux et économiques urgents dans plusieurs pays africains. 

Ces quatre ensembles de données comprennent :  

  • un ensemble de données fiable cartographiant les ressources collectives dans les régions pastorales du nord de la Tanzanie : cette équipe a recueilli de nombreuses données sur les principales ressources en bétail et a cartographié les modèles migratoires du bétail. Cet ensemble de données fournira des informations précieuses, mettant en lumière les conditions actuelles des communautés pastorales et leurs stratégies d’adaptation. Ces informations seront utiles pour concevoir des interventions ciblées afin de soutenir efficacement ces communautés. En outre, il rationalisera l’élaboration de plans d’occupation des sols pilotés par les communautés, réduisant ainsi les conflits entre éleveurs et agriculteurs engendrés par les migrations de bétail ; 
  • des ensembles de données TALN de l’université Makerere : cette équipe de projet a créé des ensembles de données textuelles et vocales pour des langues est-africaines à faibles ressources (Ouganda, Tanzanie, Kenya). Il a également augmenté la disponibilité de corpus monolingues ou parallèles pour le swahili, le luganda, le runyankore-rukiga, le luo/acholi et le lumasaaba pour le développement d’applications de TALN ; 
  • un ensemble de données d’apprentissage machine pour le diagnostic de la rage et la prévision des épidémies : cet ensemble de données de diagnostic peut aider à créer des algorithmes de classification binaire d’apprentissage machine pour prédire si un homme ou un animal est atteint de la rage et peut fournir des diagnostics en temps réel et à distance dans des environnements à faibles ressources. L’équipe a utilisé les données d’un système de surveillance de la rage existant (Integrated Bite Case Management) et a publié un ensemble de données prêt pour l’apprentissage machine afin d’appliquer des solutions d’IA à la lutte contre la rage en Afrique ; 
  • l’amélioration des ensembles de données agricoles pour la surveillance à distance des cultures afin de permettre aux petits exploitants agricoles du Zimbabwe d’accéder à des services sociaux et financiers essentiels : cette équipe a généré et amélioré des ensembles de données étiquetées, de télédétection et de terrain au Zimbabwe pendant les saisons de croissance et de récolte. Ils ont utilisé des modèles d’apprentissage machine pour évaluer les risques et obtenir des informations sur les conditions météorologiques et agroécologiques, ainsi que sur l’effet des pratiques agricoles sur le rendement et la productivité globale. Leur objectif principal est de permettre aux agriculteurs africains d’accéder à des services d’assurance et de crédit à des prix raisonnables et d’améliorer leur capacité d’adaptation à un climat de plus en plus instable. 

Nous tenons à exprimer notre profonde gratitude à nos bailleurs de fonds qui ont rendu possible la création de ces ensembles de données :  

Voir ci-dessous pour accéder à ces ensembles de données et en savoir plus sur le contenu exact de chacun d’entre eux ! 


Un outil d’aide à la décision pour l’élaboration de plans d’occupation des sols pilotés par la communauté 

Contact : Gladness Mwanga|gladnessg@nm-aist.ac.tz et Divine Ekwem |divine.ekwem@glasgow.ac.uk 

Description : cet ensemble de données est axé sur des lieux où vivent principalement des communautés pastorales du nord de la Tanzanie, afin de recenser les mouvements de bétail et de cerner les modèles d’occupation des sols à petite et à grande échelle, et de comprendre comment ils sont liés aux conflits communautaires. Il s’agit d’un ensemble de données de grande qualité, précises et étiquetées (image, localisation et horodatage) contenant des informations détaillées sur environ 2 000 ressources communautaires (par exemple, les parcours, les points d’eau et les bassins) et leurs modes d’utilisation pour plus de 220 villages à travers quatre grands districts du nord de la Tanzanie, représentatifs des systèmes pastoraux de production de bétail en Afrique de l’Est. L’ensemble de données peut être utilisé pour décrire la gestion des ressources de fourrage et de bétail dans les écosystèmes gérés tels que les pâturages communautaires ; recenser les principaux itinéraires de migration des troupeaux des éleveurs et l’emplacement et le type d’infrastructure nécessaires pour soutenir la production de bétail ; anticiper la localisation des conflits avec les agriculteurs et déterminer les meilleurs sites pour installer des banques de fourrage et des infrastructures de soutien le long des itinéraires de migration du bétail. 

Auteurs et affiliations : Dr Divine Ekwem (université de Glasgow), Gladness Mwanga (Institut africain Nelson Mandela des sciences et de la technologie), Professeur Gabriel Shirima (Institut africain Nelson Mandela des sciences et de la technologie), Professeur Mizech Chagunda (université de Hohenheim) 

Ensemble de données : accessible via ce lien.  


Ensembles de données TALN de l’université Makerere 

Contact : Andrew Katumba | andrew.katumba@mak.ac.ug 

Description : l’université Makerere a créé des ensembles de données textuelles et vocales pour des langues est-africaines à faibles ressources en Ouganda, en Tanzanie et au Kenya. Ces ensembles de données contiennent 10 000 phrases parallèles étiquetées pour une analyse des sentiments, 100 000 phrases en kiswahili, 100 000 phrases en luganda, 40 037 phrases en acoli et 39 999 phrases en lumasaaba. Sur Common Voice, l’ensemble de données textuelles comprend 100 000 phrases en luganda et 100 000 phrases en swahili. Les ensembles de données textuelles peuvent être utilisés pour la traduction automatique, la prédiction du mot suivant/l’autocomplétion, la modélisation et la classification des sujets, l’analyse des sentiments et les modèles linguistiques. Les ensembles de données vocales en luganda et en swahili peuvent permettre aux entrepreneurs d’innover en comblant les lacunes existantes dans leurs communautés pour créer des systèmes destinés aux personnes malvoyantes ou souffrant d’un handicap physique, aux tuteurs en langue maternelle, aux outils de transcription médicale, et bien d’autres choses encore. Ces ensembles de données seront utiles aux développeurs d’applications intéressés par les moteurs de traduction, les éditeurs de texte et les systèmes d’orthographe textuelle et grammaticale dans la communauté d’Afrique de l’Est. 

Auteurs et affiliations :  

  • Université Makerere : Katumba Andrew, Nakatumba-Nabende Joyce, Babirye Claire, Mukiibi Jonathan, Tusubira Jeremy, Bateesa Tobias, Wairagala Eric Peter, Fridah Katushemererwe, Mutebi Chodrine, Nabende Peter, Sentanda Medadi, Ssenkungu Ivan 
  • Wanzare Lilian (université de Maseno)  
  • Davis David (TYD Innovation Incubator) 
  • Okidi George 
  • Ayugi Carolyne 
  • Muzaki Naomi 

Ensembles de données :  


Ensemble de données d’apprentissage machine pour le diagnostic de la rage et la prévision des épidémies 

Contact : Asa Emmanuel | asakalonga@gmail.com et Kennedy Lushasi | klushasi@ihi.or.tz 

Description : cet ensemble de données contribuera au diagnostic en temps réel et à distance de la rage chez l’homme et l’animal dans des environnements à faibles ressources. Une approche par séries chronologiques ou temporelles peut être appliquée à l’ensemble de données sur les foyers épidémiques pour prédire le nombre de cas de rage susceptibles de se produire dans une zone après un intervalle de temps donné. Cette approche peut également contribuer à la mobilisation des ressources, par exemple en déterminant le nombre de vaccins nécessaires dans une zone spécifique à un moment donné. Le nombre d’observations pour les deux ensembles de données est de 12 684. Il existe trois ensembles de données pour le diagnostic de la rage chez les animaux et les humains, avec respectivement 7 081 et 4 585 observations. Dans l’ensemble de données de prévision des épidémies, 1 018 observations ont été prises en compte. 

Auteurs et affiliations : Asa Emmanuel, Rebecca Chaula, Deogratias Mzurikwao, Joel Changalucha, Kennedy Lushasi 

Ensemble de données : accessible via ce lien


Amélioration des ensembles de données agricoles pour le suivi à distance des cultures afin de permettre aux petits exploitants agricoles du Zimbabwe d’accéder à des services sociaux et financiers essentiels 

Contact : Seth Odhiambo | sodhiambo@pula.io 

Description : le projet a permis de créer des estimations de rendement étiquetées pour 3 000 agriculteurs, et a été utilisé pour former des modèles de prédiction de rendement dans tout le pays, en utilisant ensuite l’ensemble de données pour générer des couches de masques de culture en haute résolution pour les différentes chaînes de valeur. Les modèles de prévision du rendement ont été enrichis par d’autres ensembles de données biophysiques allant des propriétés du sol aux indicateurs liés au climat. Les ensembles de données ont démontré la faisabilité de l’entraînement de modèles d’apprentissage machine évolutifs, qui peuvent être en mesure de répondre de manière plus appropriée et efficace aux facteurs de stress agricoles, garantissant ainsi un impact positif sur les pratiques agricoles (par exemple, les bonnes pratiques agricoles), les rendements (par exemple, la qualité et la quantité des récoltes) et l’accès des agriculteurs au financement (par exemple, l’assurance-récolte).

Auteurs et affiliations : Pula Advisors 

Ensemble de données : accessible via ce lien 


Contexte : 

Pourquoi avons-nous besoin de plus d’ensembles de données ouverts dans le domaine du traitement automatique du langage naturel (TALN) ? 

Un accès rapide et précis à l’information – orale ou écrite – dans sa propre langue est essentiel pour pouvoir participer pleinement au monde numérique. Les traductions, la capacité à comprendre et à synthétiser la parole et de nombreuses autres applications basées sur l’IA dans le domaine du traitement automatique du langage naturel (TALN) nécessitent des données d’entraînement et d’évaluation qui font malheureusement défaut pour de nombreuses langues à faibles ressources, dont certaines sont parlées par des millions de personnes dans le monde.  Pour cette raison, le Lacuna Fund soutient la création d’ensembles de données d’entraînement et d’évaluation ouverts pour le TALN dans les langues à faibles ressources. Un complément d’information est disponible via ce lien. 

Pourquoi avons-nous besoin de plus d’ensembles de données ouverts dans le domaine de l’agriculture ? 

Les ensembles de données agricoles du Lacuna Fund permettent d’exploiter la puissance de l’apprentissage machine pour atténuer les problèmes de sécurité alimentaire, stimuler les débouchés économiques et donner aux chercheurs, aux agriculteurs, aux communautés et aux décideurs politiques l’accès à des ensembles de données agricoles de qualité supérieure. Un complément d’information est disponible via ce lien. 

Pourquoi avons-nous besoin de plus d’ensembles de données ouverts dans le domaine de la santé ? 

Le Lacuna Fund a pour mission de combler le fossé des disparités en matière de santé en encourageant les collaborations interdisciplinaires qui créent, élargissent ou regroupent des ensembles de données étiquetés d’entraînement et d’évaluation. Ces informations ont pour but d’aider les prestataires et les patients à prendre des décisions menant à des résultats plus équitables en matière de soins de santé. Un complément d’information est disponible via ce lien.