1 - Biais linguistiques

Utiliser le langage pour l’innovation sociale.

1h20 application pratique

Analyse de genre de 2 millions de voies en France et régressions sociales

nlp201-street-names-gender-analysis

Nouveau ! Télécharge notre jeu de mémoire en accès libre, basé sur les noms de voies de Montpellier.

Plus de 93% des boulevards en France et sur data.gouv.fr portent le nom d’un homme parmi les noms de célébrités (Victor Hugo, De Gaulle, Leclerc, Foch, etc). Par comparaison, 60% des jardins portent le nom d’une femme, dont certains correspondent aux noms d’arbres ou de fleurs comme Rose, Magnolia ou Capucine. Des études ont permis de quantifier le taux de représentativité des femmes, dans la dénomination de voies publiques, dans différentes villes ou secteurs, à différentes dates, par différentes méthodes. Nous proposons des indicateurs dérivés de la Base Adresse Nationale [5] pour estimer le taux de représentativité des femmes dans la dénomination des voies publiques, localement et à l’échelle de villes, départements et régions en France (plus de 2 millions de voies en Métropole et en Outre-Mer). Nous retrouvons un taux de féminisation des voies et espaces publics proche de 12% à Paris [6] et dans des villes comme Nantes et Montpellier. Nous analysons les corrélations avec certaines professions, filières, et comparons nos résultats avec des pages publiques Wikipedia. Notre analyse suggère que l’imaginaire associé à certaines professions (docteur, professeur, capitaine, colonel) et filières en France (mathématiques, médaille Fields, informatique, prix Turing) induit un biais de genre dans nos représentations sociales et cultive les stéréotypes, amplifiés par les modèles LLaMA d’intelligence artificielle de Facebook AI Research (FAIR) Paris [4], conduisant à des formes de régressions sociales. Nous mettons en accès libre notre implémentation pour suivre l’évolution de ces biais dans le temps.

Introduction

Les mots influencent nos représentations dès le plus jeune âge et façonnent notre imaginaire collectif. Hautement symbolique, la dénomination des rues et espaces publics est l’occasion de rendre hommage à des personnes célèbres, et notamment aux femmes. Depuis 2014, la proportion de voies parisiennes portant le nom d’une femme a doublé, atteignant 12% - Paris, 2021 [6].

La Base Adresse Nationale est l’une des neuf bases de données du service public des données de référence [5]. Elle est la seule base de données d’adresses officiellement reconnue par l’administration et à ce titre placée sous la responsabilité de la Première ministre. Sa construction est assurée en premier lieu par les communes. Elle est accessible sous forme de fichiers et d’API. Le jeu de données représente plus de $2$ millons voies en France, dont 10% contiennent un prénom genré de la liste de prénoms et genre de data.gouv.fr [18]. La Figure 1 montre localement les voies de Montpellier contenant un prénom genré. Dans la suite de cet article, nous proposons une méthode pour quantifier les biais de genre sur la Base Adresse Nationale [5]. Nous comparons nos résultats à des pages publiques Wikipédia et discutons en quoi les mathématiques, les statistiques, et le développement d’intelligences artificielles compétitives, fondamentales, à l’état de l’art, à Paris [4] peuvent conduire à des régressions sociales en France.

Données de la [Base Adresse Nationale](https://adresse.data.gouv.fr/) [5] à Montpellier. Chaque voie est représentée par un point bleu (nom masculin), rouge (nom féminin) ou gris (autre). Le taux de féminisation des voies publiques à Montpellier est compris entre 12 et 16%.
Données de la Base Adresse Nationale [5] à Montpellier. Chaque voie est représentée par un point bleu (nom masculin), rouge (nom féminin) ou gris (autre). Le taux de féminisation des voies publiques à Montpellier est compris entre 12 et 16%.

Méthodologie

Nous annotons les noms de voie de la Base Adresse Nationale [5] avec un label (‘F’, ‘H’ ou ‘autre’), à partir des prenoms identifiés du jeu de données de prénoms et genres de data.gouv.fr [18]. Nous préprocessons les noms de voie (lettres en miniscules, sans chiffres et ponctuation) avant d’itérer sur chaque mot constituant un nom de voie pour en extraire les prénoms et genre. Par exemple “rue Sainte Anne” contient le prénom “Anne”, nous l’annotons avec le label “F”. La voie “av. Paul Valéry” contient “Paul”, nous l’annotons avec le label “H”. Dans les autres cas, nous renvoyons le label ‘autre’. Le vocabulaire utilisé et le code Python sont en accès libre sur Framagit sous licence CC-BY à https://framagit.org/MichelDeudon/nlp201-street-names-gender-analysis.

Résultats

Remarque: L’ensemble des résultats sont calculés en mai 2023, ils sont susceptibles d’évoluer avec le temps.

Analyse spatiale

Noms de voie et genre aggrégé par communes en France métropole. Le label 1 en bleu (resp. 2 en rouge) correspond à 100% de voies portant des noms d'hommes (resp. de femmes). Le taux de féminisation des voies publiques à l'échelle nationale se situe entre 8 et 15%, ce qui correspond à un label entre 1.08 et 1.15.
Noms de voie et genre aggrégé par communes en France métropole. Le label 1 en bleu (resp. 2 en rouge) correspond à 100% de voies portant des noms d’hommes (resp. de femmes). Le taux de féminisation des voies publiques à l’échelle nationale se situe entre 8 et 15%, ce qui correspond à un label entre 1.08 et 1.15.

Les données aggrégées par communes en France métropolitaine sont illustrées dans la Figure 2. Pour chaque commune, nous calculons un label compris entre 1 et 2, et qui correspond au ratio de voies portant un prénom féminin/masculin. Nous reportons dans la Table en Annexe cet indicateur calculé à l’échelle nationale et pour les 10 plus grandes villes francaises, et comparons nos résultats à d’autres indicateurs comme la proportion de voies contenant le mot “Sainte” versus “Saint”, ou la proportion de prénoms féminins parmi les $k$ plus populaires. Nos résultats soulignent les disproportionalités entre dénominations d’espaces publics et genre, globalement et avec des disparités locales.

Analyse linguistique

Parmi les 50 prenoms les plus courants dans les noms de voies, 4 sont féminins: Marie, Blanche, Jeanne et Anne. La distribution des prénoms est biaisée vers une représentation masculine de l’histoire et de ses héros, comme illustrée dans la Figure 3.

Classement des 25 prénoms masculins et féminins les plus populaires dans la dénominations des voies en France. La distribution des prénoms suit la loi de Zipf [23]: une minorité de prénoms (ici à plus de 92\% masculins) apparaissent très fréquemment tandis que la majorité des prénoms (mixtes) sont rarement employés.
Classement des 25 prénoms masculins et féminins les plus populaires dans la dénominations des voies en France. La distribution des prénoms suit la loi de Zipf [23]: une minorité de prénoms (ici à plus de 92% masculins) apparaissent très fréquemment tandis que la majorité des prénoms (mixtes) sont rarement employés.

La représentation des femmes varie d’un type de voie à un autre. On observe que les jardins sont connotés à des divinités de la Nature, à des noms de fleurs et prénoms féminins, alors que les avenues et les boulevards sont à dominante masculine et connotés à des chefs de guerre et des chars ou armes de guerre. Les tunnels quant à eux sont exclusivement masculins. Nous reportons dans la Table 1 les taux de représentation F/H associées à quatres professions.

ProfessionN voies en FranceLabel HLabel FReprésentativité F/M (en %)
Docteur56421538593.7
Capitaine97121783.6
Professeur61624141.6
Colonel129846920.4

Représentativité F/H des noms de voies en France, pour différentes professions en 2023 (dernière colonne). Ces valeurs sont nettement inférieures à la moyenne nationale de 12%. Avec ces biais de genre et un modèle statistique naif, il faut générer plus de 25 prénoms de docteurs (Albert Tomey, Paul Pezet, Albert Schweitzer, Robert Koch…) pour obtenir un prénom féminin aléatoirement, en moyenne, et plus de 60 prénoms de professeurs pour obtenir un prénom féminin. Des exemples de ces biais peuvent être obtenus en écrivant “rue du docteur…” dans un moteur de recherche, sur Google Maps ou en se promenant, curieux, la tête levée.

De la Base Adresse Nationale à Wikipedia

Les dénominations des voies et espaces publics en France et sur data.gouv.fr quantifient des siècles de stéréotypes de genre, comme les représentations de mots apprises sur Wikipedia [13]. Facebook AI Research (FAIR) Paris a publié en 2023 des modèles statistiques entrainés sur Wikipédia, appelés LLaMA [4], financés en partie par le système CIFRE. Ces modèles ont été développés pendant l’hiver 2022/23 par 13 hommes sur 14 auteurs, dont 3 normaliens et 7 polytechniciens. Les modèles, dangereux (sexistes, racistes, générateur de fausses nouvelles) selon les auteurs, a été fuité entre le 24 février et le 7 mars 2023, dans un contexte de crise sanitaire, sociale et écologique [3].

À la question “Quelles sont les 5 personnes que vous aimeriez rencontrer?", les LLaMA de FAIR Paris répondent 5 personnalités masculines du monde occidental: Albert Einstein, Leonardo da Vinci, Socrates, William Shakespeare et Abraham Lincoln [4]. Ceci s’explique en partie par la loi de Zipf appliquée à Wikipedia [23] et les risques inhérents à l’entrainement de modèles d’IA sur Wikipedia et des médias sociaux, connus depuis 2009 [21], capturés par le célèbre exemple Le docteur est aux infirmières, ce que l’homme est à la femme [13]. Les biais viennent d’abord d’humains avant de venir d’algorithmes ou jeux de données. Wikipédia est gouverné par une bureaucracie de paires [20], une population non représentative, non inclusive [19]. Ces biais, d’origine humaine, proviennent d’un manque de diversité, d’équité, d’inclusion [12] et la privatisation de la recherche en IA [11] qui renforcent les inégalités sociales [15]. Ce manque de diversité peut conduire les algorithmes à reproduire des biais - Villani, 2018 [12].

En 2023, les mêmes modèles d’IA sont utilisés qu’en 2017 [14], avec plus de paramètres et d’énergie à un coût plus cher. En 5-6 ans, la complexité des modèles a été multipliée par 1000, de 65 millions de paramètres à 65 milliards, de 27 kWh par expérience [11] à 499 MWh [4]. Les mêmes problèmes sont là (sexisme, racisme, fake news) et s’empirent avec la complexité des modèles selon le principe d’overfitting ou de sur-apprentissage en statistiques [22]: On observe que la toxicité augmente avec la taille du modèle [4]. Les autheurs concluent pourtant nous prévoyons de publier des modèles plus grands, entrainés sur des corpus d’entrainements plus gros à l’avenir. Peut-on réellement parler d’innovation [16, 17] ? Des experts de l’IA appellent à de l’IA au secours de l’IA, à une IA de confiance (qui rappele les hommes de confiance ou v-mann [10]). Les biais d’origines humaines, les conflits d’intérêts et la désinformation dans les sphères du pouvoir [8] sont vraisemblablement plus des causes que des correlations des regressions sociales observées en France et en linguistique : la publication et fuite des modèles LLaMA précèdent l’explosion de la désinformation et banalisation des violences depuis mars 2023.

IndicateurReprésentativité F/M
CEO des GAFAM0/5
Prix Turing français0/2
Médaille Fields français0/13
Parrains du deep learning0/3
Auteurs des LLaMA de FAIR Paris1/13
Personnalités les LLaMA souhaiteraient rencontrer0/5

Biais de genre dans le développement d’artillerie lourde en IA (modèles avec des milliards de paramètres pour des milliards d’êtres humains).

Imaginaires et idéologies

Regression sociale et eugénisme

Si le terme de régression (statistique), omniprésent dans l’intelligence artificielle provient de la régression vers la moyenne du britannique Francis Galton en 1886 [24], Sir Galton est également le père fondateur de l’eugénisme, terme employé pour la première fois en 1883 dans le cadre de ses études sur la transmission de caractères héréditaires comme la taille d’individus, sans prendre en compte l’environnement, le mode de vie. L’eugénisme de Galton est né d’une erreur entre corrélation et causalité, et proposait de produire une race humaine supérieure par des sélections artificielles, conduisant au XXème siècle à une politique d’éradication de caractères jugés handicapants, la mise en place de programmes de stérilisation contrainte, un durcissement de l’encadrement juridique du mariage et des mesures de restriction d’immigration.

L’IA, un fantasme colonnial d’hommes blancs, d’Occident?

Dans les films de sciences fictions (2001 l’Odyssée de l’Espace, Her, etc), l’IA est représentée par un humanoide ou une voix, robotique ou feminine. Siri, Alexa, les assistants vocaux de smartphones ont en réalité des noms et voix d’assistantes, tandis que la page Wikipedia sur la beauté des mathématiques fait référence à 26 hommes, dont Mandelbrot, Russel, Erdos, Beethoven, Dirac, Euler, Harris, Leibniz, Pythagore, Gauss, Andrew Wiles, Robert Langl, Richard Borcherds, Alexandre Grothendieck, Claude Chevalley, Georges Théodule Guilbaud, Hermann Weyl, Bourbaki, Jean Dieudonné, Hermann Weyl, Platon, Aristote, Galilée, Alain Badiou, Kepler, Watson, aucune femme [7]. La page mentionne des résultats “profonds”, qui rappele l’apprentissage “profond” des trois prix Turing 2019 et parrains du deep learning. La page cite ce qui “fait bander”. La légende dit qu’il n’y a pas de prix Nobel en mathématiques et en informatique pour une raison. Sous/sur-échantilloner certains noms de voies ou pages Wikipedia peut permettre de débiaiser simplement des modèles de langages statistiques et de linguistique computationnelle, pour éviter les régréssions sociales sans recourir à de l’artillerie lourde. Il faut se méfier des experts, qui ne sont pas directement victimes des armes produites et dont les conflits d’intérêts peuvent pousser à omettre certaines vérités et détourner l’attention. Nous émettons l’hypothèse que des experts appellant à plus d’IA au secours de l’IA sont de bonne foi, mais cela remet en question la place des formations aux impacts sociales et écologiques du numérique dans les grandes écoles. Cela vient aussi questionner la place des régressions statistiques et des biais cognitifs pour contrer le recul de la culture scientifique dans nos écoles, au sein de l’état et dans nos politiques publiques [2]: de 2019 à aujourd’hui, le nombre d’élèves en terminale avec plus de 6h de mathématiques par semaine, est passé de 200.000, dont 96.000 filles, à 100.000, dont 33.000 filles. Finalement, le nom donné à la commission Bronner, les Lumières à l’ère du numérique [8] suffira peut-être pour certains de faire le lien entre les formes d’esclavages modernes, l’idéologie coloniale [9] et la désinformation qui caractérise les modèles d’IA sexistes et racistes de FAIR Paris [4], financés en partie par le ministère de l’enseignement supérieur et de la recherche, par le système de thèses CIFRE.

Écologie, féminisme et écolinguistique

Pour reprendre les mots de Christine Lagarde le 7 mars 2023, si les trois prix Turing 2019 étaient des marraines, plutôt que des parrains de l’IA, peut-être qu’il y aurait moins de crises? Maryam Mirzakhani, mathématicienne, première et seule femme à ce jour médaille Fields (2014), est née à Téhéran en Iran. La ville de Montpellier lui rend hommage depuis 2020 (voir Annexe B). Marie Curie, née à Varsowie en Pologne, est la seule personne à avoir obtenu un prix Nobel dans deux disciplines distinctes, en physique et en chimie. Comme le disait Paul Valéry, il y a deux visions possibles du monde: celle qui morcelle, celle qui unit. Alain Damasio dans un interview pour BLAST en mai 2023 explique comment sa vision de la science fiction a évolué avec le temps [1] et appelle à de nouveaux imaginaires - solidaires, sociales, écologiques - et des innovations frugales [17].

Conclusion

Les voies et espaces publiques en France, comme certaines pages publiques Wikipédia, présentent des biais de genre, d’origine humaine. Les modèles d’IA des GAFAM, entrainés sur Wikipedia, comme les LLaMA fondamentaux, à l’état de l’art de FAIR Paris, cultivent et amplifient ces stéréotypes, avec une énergie à un prix plus cher comme avantage compétitif tout en bénéficiant de financement public. Dans ce contexte, les voix et représentations des femmes dans les espaces publiques sont plus que symboliques. Parmi les directions de recherches futures, il pourrait être intéressant de quantifier et lutter contre d’autres formes de discriminations (religion, couleur, orientation sexuelle, age, nationalité, handicap, apparence physique, statut socio-economique), ou analyser d’autres pays et distributions. Des auteurs, chercheurs, scientifiques, artistes, proposent des alternatives, de nouveaux imaginaires, récits et représentations sociales pour lutter contre le patriarcat et le capitalisme de surveillance. Dans ces formes de résistance moderne, les médiathèques sont aux maquis, ce que les livres et la culture sont aux armes, un moyen pour s’évader.

Reference

  1. Blast. Comment vivre et lutter face au capitalisme de surveillance? 05/2023.
  2. Assemblee Nationale. Contrer le recul de la culture scientifique a l’école, au sein de l’état et dans nos politiques publiques. 2eme seance de debat. 04/2023.
  3. Mediapart. Écrans et Santé : Il est urgent d’agir! 03/2023.
  4. Touvron, H., Lavril, T. et al. LLaMA: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971. 02/2023.
  5. Data.gouv.fr. Base Adresse Nationale. 2022.
  6. Ville de Paris. Féminisons les noms des rues! 2021.
  7. Loose, F., Belghiti-Mahut, S., et Lafont A.L. ”L’informatique, c’est pas pour les filles!”: Impacts du stéréotype de genre sur celles qui choisissent des études dans ce secteur. 32ème Congrès de l’AGRH. 2021.
  8. Macron, E., Bronner, G. et al. Les Lumières a l’ère numérique. 2020.
  9. Pellerin, P. Les Lumières, l’esclavage et l’idéologie coloniale, XVIIIe-XXe siècles. Garnier, collection Rencontres XVIIIe siècle, Paris, 560 p. 2020.
  10. Grenard, F. La traque des Résistants. Éditions Tallandier. 2019.
  11. Strubell, E., Ganesh, A., & McCallum, A. Energy and Policy Considerations for Deep Learning in NLP. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019.
  12. Villani, C., Bonnet, Y. et al. Donner un sens a l’intelligence artificielle: pour une stratégie nationale et européenne. Conseil national du numérique. 2018.
  13. Garg, N., L. Schiebinger, L. et al. Word embeddings quantify 100 years of gender and ethnic stereotypes. Proceedings of the National Academy of Sciences. 2018.
  14. Vaswani, Ashish, et al. Attention is all you need. Advances in neural information processing systems 30. 2017.
  15. O’Neil, C. Weapons of Math Destruction. 2016.
  16. Belghiti-Mahut, S, et al. Gender gap in innovation: a confused link? Journal of Innovation Economics & Management 1: 159-177. 2016.
  17. Belghiti-Mahut, S., et al. Genre et innovateur frugal: 4 cas de femmes innovatrices. Innovations 3: 69-93. 2016.
  18. Data.gouv.fr. Liste de prénoms et genres. 2014.
  19. Eckert, S., & Steiner, L. (Re) triggering backlash: Responses to news about Wikipedia’s gender gap. Journal of Communication Inquiry. 2013.
  20. Aaltonen, A., & Lanzara, G. F. Unpacking Wikipedia governance: the emergence of a bureaucracy of peers. In 3rd Latin American and European Meeting on Organization Studies (LAEMOS). 2010.
  21. Carstensen, T. Gender. Trouble in Web 2.0. Gender perspectives on social network sites, wikis and weblogs. International Journal of Gender, Science and Technology. 2009.
  22. Bellman, R. Curse of dimensionality. Adaptive control processes: a guided tour. Princeton, NJ 3.2. 1961.
  23. Zipf, G.K. Human Behaviour and the Principle of Least Effort: An Introduction to Human Ecology. AW. 1949.
  24. Galton, F. Regression towards mediocrity in hereditary stature. The Journal of the Anthropological Institute of Great Britain and Ireland, 15, 246-263. 1886.

Annexes

Annexe A. Taux de féminisation des voies et espaces publiques

Annexe B. Héroines locales, en Occitanie

Hommage a MontpellierNaissanceImaginaire
Agnès Mac LarenEdimbourg, 1837Première femme diplômée de la fac de Médecine.
Albertine SarrazinAlger, 1937Écrivaine française, morte a 29 ans a Montpellier.
Anne BraganceCasablanca, 1945Écrivaine française, prix Alice-Louis-Barthou en 1978.
Anne Marie de BackerContres, 1908Poétesse et traductrice, morte a Montpellier en 1987.
Catherine BoothMumford, 1829A co-fondé l’Armée du Salut.
Clara d’AnduzaGard, 1200Trobairitz de langue occitane.
Clara HaskilBucarest, 1895Pianiste roumaine et suisse.
Chantal MauduitParis, 1964Alpiniste.
Clara ZetkiWiederau, 1857Enseignante, journaliste, figure du féminisme socialiste.
Dora MaarParis, 1907Photographe et artiste.
Elena BonnerMary, 1923Pédiatre, militante pour la défense des droits de l’homme.
Elyse DerocheParis, 1882Actrice et aviatrice.
Frances de CezelliMontpellier, 1558Héroine pendant la guerre de religion.
Frida KalhoCoyoacan, 1907Peintre mexicaine.
Gabriela MistralVicuna, 1889Poétesse chilienne.
Germaine BousquetCastres, 1920Doyenne de Rieumes.
Helene de SavoieCetinje, 1873Morte a Montpellier en 1952.
Janine TeissonToulon, 1948Romancière.
Jeanne DemessieuxMontpellier, 1921Organiste, pianiste, improvisatrice, pédagogue et compositrice.
Jeanne DieulafoyToulouse, 1851Archéologue.
Jeanne GalzyMontpellier, 1833Professeure agrégée, écrivaine et prix fémina-vie heureuse.
Joelle WintrebertToulon, 1949Écrivaine.
Judith RestnickAkron, 1949Astronaute américaine.
Juliette GrecoMontpellier, 1927Chanteuse et actrice.
Juliette CauquilSuc-et-Sentenac, 1914Résistante.
Louise GuiraudMontpellier, 1860Historienne.
Lucie Février PascalHérault, 1911Héroine, reconnue ”Justes parmi les Nations”.
Madeleine RochMureaux, 1883Comédienne et tragédienne française.
Malika MokeddemKénadsa, 1949Érivaine.
Marcelle HucMontady, 1901Institutrice, militante syndicale et politique.
Maria BlanchardSantander, 1881Artiste et peintre.
Maria CasarèsLa Corogne, 1922Actrice et tragédienne.
Marie Agnès PéronCalais, XXNavigatrice disparue en mer en 1991.
Marie CaizerguesXX, 1797Bienfaitrice.
Marie Reynès MontlaurMontpellier, 1866Écrivaine, première femme a l’académie de Montpellier.
Marie SagnieSaint-Pons-de-M, 1898Professeure de mathématiques et physique-chimie.
Marie Thérèse BarbéLimoges, 1913Écrivaine.
Maryam MirzakhaniTéhéran, 1977Mathématicienne, professeure et Médaille Fields.
Paulette HauchardFécamp, 1932Présidente de l’Amicale laïque.
Régine DetambeSaint-Avold, 1963Écrivaine.
Rosa LuxemburgZamosc, 1871Militante communiste et réolutionnaire allemande.
Ruth Bader GinsburgNew York, 1933Avocate, juriste, universitaire et juge améicaine.
Suzanne BallivetParis, 1904Peintre et illustratrice.
Suzanne BernardTroyes, 1893Aviatrice.
Sylvie et Josephine FabreGrenoble, 1951Écrivaine et poetesse, prix Louise-Labé.
Yvonne le RouxToulon, 1882Résistante.
Yvette LlereAmélie-les-Bains, 1939Écrivaine.
Yvonne MolinierGrand-Combe, 1924A dédié sa vie a la cause des enfants.

Hommages a XX femmes a Montpellier, en Occitanie.

Voir aussi la page Portraits de femmes de Montpellier.

Précédent
Suivant