Deux nouveaux ensembles de données disponibles sur l’agriculture et les langues, Réunion des bénéficiaires de subventions 2023

19 May 2023

Réunion des bénéficiaires de subventions du Lacuna Fund 2023

Chaque année, les bénéficiaires de subventions ont l’occasion de se réunir pour nouer des contacts, partager leurs projets, échanger sur les enseignements tirés et participer à des ateliers. Découvrez cette vidéo des bénéficiaires du Lacuna Fund en action lors de la réunion inaugurale de l’année dernière à Tunis, en Tunisie !

La deuxième réunion annuelle des bénéficiaires de subventions du Lacuna Fund a lieu dans deux semaines, et nous nous en réjouissons ! Les bénéficiaires de subventions dans les domaines de l’agriculture, du traitement automatique du langage naturel et de l’équité et de la santé se réuniront à Kigali, au Rwanda. Les équipes partageront leurs ensembles de données, participeront à des ateliers sur l’utilisation et la pérennité des ensembles de données et discuteront des enseignements tirés. Les bénéficiaires de subventions auront également la possibilité de participer à la conférence AfricAI, organisée par le Centre de recherches pour le développement international (CRDI) du Canada, la Deutsche Gesellschaft für Internationale Zusammenarbeit (GIZ) et Niyel.

Deux nouveaux ensembles de données permettent le diagnostic des maladies et des ravageurs des cultures et la traduction automatique en langue bambara

Aujourd’hui, nous sommes heureux d’annoncer deux ensembles de données récemment publiés pour former l’intelligence artificielle dans les domaines de l’agriculture et du traitement automatique du langage naturel (TALN). Le premier ensemble de données porte sur cinq cultures clés pour la sécurité alimentaire en Afrique subsaharienne : le manioc, le maïs, les haricots, les bananes et le cacao. L’ensemble de données contient un grand nombre d’images et de données spectrales. Elles peuvent être utilisées pour identifier et diagnostiquer les ravageurs et les maladies des cultures. Le deuxième ensemble de données contient un corpus de textes parallèles pour la langue malienne bambara et le français, qui permet d’élargir considérablement – ainsi que de nettoyer et de corriger – les paires bilingues disponibles au sein d’un ensemble de données existant. Ce corpus de traduction a permis d’accroître la qualité et la quantité des ressources en langue bambara et de rendre les traductions utilisables à des fins de traduction automatique.

Découvrez ci-dessous les liens vers ces ensembles de données, ainsi que davantage d’informations sur les équipes qui les ont créés et les cas d’utilisation potentiels.

Nous sommes particulièrement reconnaissants envers nos cofondateurs, sans lesquels la création de ces ensembles de données d’apprentissage automatique ouverts et inclusifs n’aurait pas été possible : la Fondation Rockefeller, Google.org, le Centre de recherches pour le développement international du Canada, et le programme FAIR Forward de la GIZ pour le compte du ministère fédéral allemand de la Coopération (BMZ).

Ensembles de données d’apprentissage machine pour le diagnostic des ravageurs et des maladies des cultures : données d’imagerie et de spectrométrie des cultures

Contact : Joyce Nakatumba-Nabende | joyce.nabende@mak.ac.ug

Des collaborateurs du laboratoire d’intelligence artificielle de Makerere, de l’Institut africain des sciences et technologies Nelson Mandela, de la Fondation KaraAgro AI et de l’université des sciences et technologies de Namibie ont créé un répertoire d’ensembles de données d’images et spectrométriques concernant cinq cultures importantes pour la sécurité alimentaire en Afrique subsaharienne : le manioc, le maïs, les haricots, les bananes et le cacao. Recueillis et préparés en collaboration avec les experts agricoles du pays, les ensembles de données permettent un large éventail d’applications d’apprentissage machine, notamment la classification, la détection d’objets, la détection précoce des maladies des cultures et l’analyse spatiale. L’équipe a recueilli et annoté 127 046 images et 39 300 points de données spectrales.

Auteurs et affiliations :

Joyce Nakatumba-Nabende, Université de Makerere (Ouganda)
Andrew Katumba, Université de Makerere (Ouganda)
Claire Babirye, Laboratoire d’intelligence artificielle de l’Université de Makerere (Ouganda)
Jeremy Francis Tusubira, Laboratoire d’intelligence artificielle de l’Université de Makerere (Ouganda)
Godliver Owomugisha, Laboratoire d’intelligence artificielle de l’Université de Makerere (Ouganda)
Neema Mduma, Institut africain Nelson Mandela des sciences et de la technologie (Tanzanie)
Darlington Akogo, KaraAgro AI Foundation (Ghana)
Blessing Sibanda, Université des sciences et des technologies de Namibie (Namibie)

Corpus aligné Bayelemabaga bambara-français pour la traduction automatique

Contact : Christopher Homan | christopher.m.homan.phd@gmail.com

Des collaborateurs du Rochester Institute of Technology, de RobotsMali, de l’INALCO, de l’université George Mason et du Boston College ont créé un corpus parallèle bambara-français qui sera utilisé pour la traduction automatique. Le bambara est parlé par environ 15 millions de personnes en Afrique de l’Ouest, principalement au Mali, ainsi qu’au Sénégal, au Niger, en Mauritanie, en Gambie et en Côte d’Ivoire. L’ensemble de données Bayelemabaga est constitué de 46 976 paires de phrases parallèles bambara-français prêtes à être traduites, provenant du corpus de référence bambara du laboratoire LLACAN de l’INALCO.. Malgré l’existence d’une petite collection de textes bilingues, ceux-ci n’avaient pas été traduits ou appariés de manière à pouvoir être utilisés pour la traduction automatique. Cet ensemble de données a permis au bambara de passer du statut de langue aux ressources insignifiantes à celui de langue aux ressources moyennes et de qualité.

La création de ces 46 976 unités de texte a nécessité un total de 72 000 phrases en français et en bambara, qui ont été triées en éliminant ou en corrigeant les doublons et les textes inadaptés ou mal traduits. Le texte de l’ensemble de données est extrait de 264 fichiers texte, comprenant des revues, des livres, des nouvelles, des articles de blog, ainsi que des sections de la Bible et du Coran. Les efforts de l’équipe ont permis de grossir la section bilingue du corpus de référence bambara de 19 000 paires à environ 80 000 paires.

Auteurs et affiliations :

Allahsera Auguste Tapo, Rochester Institute of Technology (États-Unis)
Michael Leventhal, RobotsMali (Mali)
Valentin Vydrin, INALCO (France)
Sebastian Diarra, RobotsMali (Mali)
Marcos Zampieri, George Mason University (États-Unis)
Emily Prud’Hommeaux, Boston College (États-Unis)
Jean Jacque Méric, INALCO (France)

Contexte :

Pourquoi avons-nous besoin de plus d’ensembles de données ouverts dans le domaine du traitement automatique du langage naturel (TALN) ?

Un accès rapide et précis à l’information – orale ou écrite – dans sa propre langue est essentiel pour pouvoir participer pleinement au monde numérique. Les traductions, la capacité de comprendre et de synthétiser la parole et de nombreuses autres applications basées sur l’IA dans le domaine du traitement automatique du langage naturel (TALN) nécessitent des données de formation et d’évaluation qui font malheureusement défaut pour de nombreuses langues à faibles ressources, dont certaines sont parlées par des millions de personnes dans le monde. C’est pourquoi le Lacuna Fund soutient la création d’ensembles de données de formation et d’évaluation ouverts pour le TALN dans les langues mal desservies. Pour en savoir plus, cliquez ici.

Pourquoi avons-nous besoin de plus d’ensembles de données ouverts dans le domaine de l’agriculture ?

Les ensembles de données sur l’agriculture du Lacuna Fund débrident le potentiel de l’apprentissage machine pour atténuer les problèmes de sécurité alimentaire, encourager les opportunités économiques et donner aux chercheurs, aux agriculteurs, aux communautés et aux décideurs politiques l’accès à des ensembles de données agricoles de qualité supérieure. Pour en savoir plus, cliquez ici.