La capacidad de comunicarse y ser entendido en el propio idioma es un requisito previo para la inclusión social y digital. Las técnicas de NLP han permitido el uso de aplicaciones críticas para lograr esto: la mejora en la educación, la inclusión financiera, la atención médica, la agricultura, la comunicación y la respuesta a desastres, entre muchas otras áreas.
Sin embargo, una brecha en los conjuntos de datos de acceso abierto fuera del inglés y otros idiomas indoeuropeos ha impedido avances basados en tecnologías de NLP. Los corpus de voz y datos etiquetados siguen siendo un elemento clave de esta brecha, así como la disponibilidad de corpus que se pueden utilizar en el aprendizaje por transferencia o en enfoques semisupervisados.
Financiación de Lacuna
Los esfuerzos de Lacuna Fund en NLP se basan en una reciente oleada de impulso para crear herramientas de NLP mejores y más abiertas en idiomas desatendidos de los miembros de la comunidad de ML, incluidos talleres académicos recientes, colaboraciones de voluntarios, programas académicos innovadores y otros esfuerzos de la misma índole.
Para complementar y apoyar estos esfuerzos, Lacuna Fund respalda conjuntos de datos de evaluación y capacitación abiertos para NLP en idiomas desatendidos. Nuestro TAP, que es responsable de identificar las brechas de datos, desarrollar la RFP y revisar y seleccionar propuestas, ha identificado las necesidades de conjuntos de datos etiquetados en las siguientes áreas. Sin embargo, las RFP de Lacuna Fund están abiertas intencionalmente para fomentar ideas nuevas e innovadoras que quizás no hayamos identificado.
El TAP ve la necesidad de conjuntos de datos que permitan una mejor ejecución de las tareas básicas de NLP en idiomas africanos, que incluyen, entre otros, los siguientes:
- Los corpus de voz, en particular que habiliten el reconocimiento de voz automatizado que permite que grupos de personas analfabetas o desfavorecidas accedan a información o servicios;
- Corpus de texto etiquetados y sin etiquetar para usar como datos de capacitación;
- Corpus paralelos para traducción automática;
- Corpus para respaldar tareas fundamentales de NLP, como el NER, el etiquetado de partes del habla, las incrustaciones, etc.;
- Conjuntos de datos para tareas clave de NLP posteriores, como respuestas a preguntas e inteligencia artificial conversacional, conjuntos de datos de análisis de sentimientos o tecnología para la educación de idiomas;
- Conjuntos de datos para mejorar el rendimiento de las tareas de NLP en texto o voz con cambio de código.
En términos más generales, también existe la necesidad de lo siguiente:
- Aumento de los conjuntos de datos existentes en todas las áreas para disminuir el sesgo (como el sesgo de género u otros tipos de sesgo o discriminación) o aumentar la usabilidad de la tecnología de NLP en contextos de ingresos bajos y medios;
- Más datos de referencia para tareas de NLP en idiomas desatendidos o para informar modelos multilingües;
- Conjuntos de datos innovadores, como subtítulos de video o audio u otras interacciones de imagen y texto;
- Creación o aumento de conjuntos de datos de texto y voz específicos del dominio, como conjuntos de datos de dígitos, nombres de lugares o pares de palabras u oraciones específicos, que habilitan aplicaciones con un impacto social considerable.
RFP abiertas
Consulte la información sobre cómo postularse aquí.
Patrocinadores
La solicitud de propuestas de 2020 sobre idiomas desatendidos contará con el respaldo de The Rockefeller Foundation, Google.org, el Centro de Investigación para el Desarrollo Internacional de Canadá y la agencia de desarrollo alemana GIZ en nombre del Ministerio Federal de Cooperación y Desarrollo Económicos (Federal Ministry for Economic Cooperation and Development, BMZ).