Introduction

Motiver les études de langues.

1h20 cours d’introduction

Pourquoi étudier les langues?


Kate Jefferey est professeur de neurosciences à UCL, Londres, et responsable scientifique chez Extinction Rebellion. Dans son discours inspirant sur la psychologie de l’inaction climatique, le langage, en tant que moyen de communiquer les uns avec les autres et de collaborer, joue un rôle clé jouer dans la façon dont nous comprenons le passé, envisageons l’avenir et gérons le présent. Avec le langage, nous sommes allés plus loin que n’importe quelle espèce sur Terre, nous sommes allés sur la Lune. Et si nous commencions tous à apprendre une langue avec empathie et utilisions le langage pour résoudre certains de nos plus gros défis?

Le langage joue un rôle fondamental dans la compréhension des forces cachées qui façonnent nos décisions. Nous devons embrasser le langage et notre irrationalité pour imaginer et co-créer un avenir meilleur.

La linguistique computationnelle est un domaine interdisciplinaire qui traite des langues, de la psychologie, des sciences sociales, des statistiques, de l’informatique, de l’intelligence artificielle, etc. Elle a gagné en popularité au cours de la dernière décennie avec la publication d’ensembles de données, de bibliothèques et de cours en accès libre. Les modèles se sont améliorés sur différents benchmarks (par exemple, la traduction). Cependant, cette augmentation des performances s’accompagne d’une augmentation drastique de la complexité et des ressources nécessaires (données, matériel, énergie). Un nouveau paradigme en IA et en linguistique computationnelle est nécessaire.

Pourquoi étudier l’innovation frugale?

Tous les modèles sont faux, certains sont utiles.

Les modèles en science des données ont considérablement augmenté en complexité au cours des 10 dernières années, à l’avantage des fournisseurs de cloud comme Google, Microsoft et Amazon 🌥️. D’abord en vision par ordinateur dans les années 2012, puis progressivement en linguistique depuis 2014 avec les vecteurs de mots, les plongements de documents et les modèles d’attention.

BERT, RoBERT, CamemBERT 🧀 sont des modèles avec une complexité quadratrique. Les conférences sur l’IA, comme NeurIPS, sont dominées par des acteurs qui exécutent ces modèles en tant que service. Pourquoi résoudre un problème en 5 minutes quand on peut facturer plus pendant des heures ? Ce conflit d’intérêts peut sembler naif mais c’est ainsi que le domaine est devenu toxique. 🤢

L’entraînement d’un seul modèle d’IA peut émettre autant de carbone que cinq voitures au cours de leur vie (…) Le modèle le plus coûteux, le BERT, a une empreinte carbone d’environ 1 400 livres d’équivalent en dioxyde de carbone, soit près d’un rond- voyage vol trans-Amérique pour une personne. Technology Review, 2019.

Décembre 2022, Elon Musk a publié un modèle avec 175 millions de paramètres, 60% de plus que BERT. C’est une question d’ego, qui a le plus grand réseau de neurones. BERT était un bazooka. OpenAI a sorti un tank.

Les systèmes de prise de décision manquent de diversité. Il n’existe pas de modèle de langage universel entrainé par des ingénieurs francais sur des données en anglais. Les conflits d’intérêts nous éloignent davantage de nos objectifs communs tels que la construction d’une société inclusive ou d’une économie à faibles émissions de carbone.

De plus, la façon dont l’IA est réalisée chez Google, Facebook, Microsoft ou Amazon n’est pas appropriée pour de nombreux entrepreneurs ou chercheurs, travaillant sur de nouveaux problèmes avec peu ou pas de données. L’exploitation de main-d’œuvre bon marché et de modérateurs pour superviser les modèles d’apprentissage automatique ne sont pas très éthiques.

Nous sommes à la croisée des chemins dans la manière dont l’IA, la PNL et la linguistique computationnelle sont enseignées. Alors que les grands acteurs continueront à construire des modèles plus complexes, nous nous concentrerons d’abord sur la construction de modèles simples, intelligibles et utiles et tenterons de démocratiser l’accès à la linguistique informatique pour responsabiliser les créateurs, les entrepreneurs et les chercheurs. Nous poserons les bases scientifiques de la linguistique computationnelle, et n’explorerons pas l’Intelligence Générale Artificielle ou les Grands Modèles de Langage. En inversant la tendance des grands acteurs, l’innovation frugale peut nous rapprocher de la construction d’une société inclusive et d’une économie bas carbone 🦓. Ce cours sur l’innovation frugale et la linguistique informatique est une alternative open source et interdisciplinaire pour les personnes intéressées à relever les défis sociétaux et environnementaux avec les praticiens de l’apprentissage et du développement des langues. Le cours explorera différents cas d’utilisation et modèles testés pour responsabiliser les créateurs à travers des exemples illustrés.

Applications

Voici quelques idées sur la façon dont vous pouvez appliquer ce que vous apprendrez dans ce cours

  • Aider les étudiants à apprendre des langues avec des applications ludiques comme Duolingo.
  • Soutenir les ONG de défense des droits de l’Homme en quantifiant et surveillant des indicateurs de diversité et d’inclusion.
  • Recommander des articles similaires ou points de vue différents, par exemple en santé ou jurisprudence.
  • Générer des recettes végétariennes de saison, de la musique et de l’art.
  • Lutter contre le blanchiment d’argent, l’esclavage moderne, les fausses nouvelles et les discours de haine.

Quiz

Combien de langues sont parlées dans le monde aujourd’hui?

Plus de 7000 langues sont parlées aujourd’hui, mais seulement 23 langues représentent plus de la moitié de la population mondiale. La recherche en science des données, en PNL et en IA se fait majoritairement en anglais, introduisant un biais dans notre approche de la linguistique computationnelle.

Vrai ou faux, le modèle BERT a une empreinte carbone proche d’un vol aller-retour trans-Amérique pour une personne?

Vrai, selon Technology Review, 2019.

Reference

Emma Strubell, Ganesh Ananya and Andrew McCallum. Energy and policy considerations for deep learning in NLP. arXiv preprint arXiv:1906.02243 (2019). Published in the 57th Annual Meeting of the Association for Computational Linguistics (ACL). Florence, Italy. July 2019.

Karen Hao. Training a single AI model can emit as much carbon as five cars in their lifetimes. MIT Technology Review. June 6, 2019.

Suivant