Langue

Accéder de façon rapide et précise à l’information (parlée ou écrite) dans sa propre langue est indispensable pour permettre une participation pleine et entière au monde numérique. Les traductions, la capacité à comprendre et à synthétiser la parole et de nombreuses autres applications basées sur l’IA dans le domaine du traitement automatique du langage naturel (TALN) nécessitent des données de formation étiquetées qui n’existent pas pour de nombreuses langues, dont certaines sont parlées par des millions de personnes à travers le monde.

Le besoin

Dans le domaine du TALN pour le bien social, les progrès rapides de la traduction automatique (TA) diminuent la quantité de données parallèles et monolingues nécessaires pour entraîner les modèles.

Pourtant, alors que les principales langues du monde, y compris plusieurs langues africaines, ont au moins une certaine couverture de données, un nombre étonnant de langues parlées hors d’Europe et d’Amérique du Nord sont dépourvues de données textuelles ou vocales, de données pour des tâches fondamentales telles que l’étiquetage morpho-syntaxique, ou des tâches confondantes fréquentes du TALN telles que la TA et la reconnaissance automatique de la parole (RAP).

Des initiatives bénévoles (comme Masakhane) et philanthropiques (comme Gamayun et Common Voice) tentent de remédier, grâce à des données et des méthodes ouvertes, à l’absence de traduction automatique et de reconnaissance vocale pour les langues mal desservies. Lors de l’ICLR 2020, l’Africa NLP Challenge et l’Africa NLP Workshop ont également permis de constituer une communauté de pratiques autour du TALN africain.

Financement Lacuna

Pour compléter et élargir ces efforts, le Lacuna Fund espère financer la création, l’expansion et la maintenance de données étiquetées. Les types d’ensembles de données que nous aimerions soutenir sont repris ci-dessous, mais l’appel à projets est ouvert à dessein afin d’encourager les idées neuves et innovantes que nous n’aurions pas identifiées.

  • Créer des ensembles de données de référence pour permettre d’autres tâches de TALN dans les langues défavorisées.
  • Créer des données neuves ou ouvrir des données existantes pour faciliter l’inclusion des langues mal desservies dans les modèles multilingues.
  • Les ensembles de données doivent permettre de faire progresser les tâches de TALN pour le texte ou la parole à commutation de code (parole alternant entre plusieurs langues, dialectes ou registres).
  • Des ensembles de données mono- ou multilingues plus réduits optimisés pour des cas d’utilisation spécifiques (par exemple, ensembles de données RAP de chiffres ou de noms de lieux, ou extraction de TA ou de métadonnées pour les dossiers juridiques ou médicaux).
  • Autres idées : voir notre philosophie en matière d’octroi de subventions.

 

Pour plus d’informations sur la procédure de candidature et sur les appels à projets en cours et passés, cliquez ici.

Bailleurs de fonds

L’appel à propositions 2020 dans le domaine des langues mal desservies bénéficiera du soutien de la Fondation Rockefeller, de Google.org, du Centre de recherches pour le développement international du Canada et de l’agence de coopération internationale allemande pour le développement (GIZ) pour le compte du ministère allemand de la Coopération et du Développement économique (BMZ).