Cartographie de l’écart entre les sexes et la diversité et l’inclusion en matière d’emploi dans la science des données et l’intelligence artificielle dans l’industrie et le milieu universitaire français
RÉSUMÉ DU PROJET
Alors que l’IA et la science des données (SD) deviennent presque omniprésentes aujourd’hui, il est important de combler les écarts entre les sexes et les écarts de diversité et inclusion (D&I) dans la force de travail de ces disciplines. L’IA et la SD évoluent particulièrement vite et la pandémie de COVID-19 a favorisé un impact disproportionné sur les femmes et les minorités exposant et augmentant les inégalités. Le projet JOWDIDSeAI permettra de cartographier la participation des femmes et des autres minorités à la SD et à l’IA dans l’industrie et le milieu universitaire en France.
Consortium
- LIRIS – Laboratoire d’InfoRmatique en Image et Systèmes d’information (UMR 5205)
- ERIC – Unité de Recherche des Universités Lyon 2 et Lyon 1
Objectif
Construire un nouvel ensemble de données, analysé en explorant l’utilisation de nouvelles méthodes de science des données, pour étudier en détail les dynamiques de genre et de D&I des carrières en science des données et en IA.
Enoncé du problème : les problèmes transdisciplinaires en sciences sociales et humaines (SHS) et en information et technologie (IT) abordés par ce projet sont doubles :
- Définir les stratégies de collecte, d’intégration, d’archivage et de conservation des données numériques et éventuellement non numériques, pas toujours directement disponibles, concernant la main-d’œuvre, les postes et les opportunités en matière d’IA et de DS [25,26,27]. Quelles variables seront prises en compte, notamment en ce qui concerne le genre et la diversité (ethnicité, socio-économique, sexe, orientation sexuelle) [42] ?
- Définir une expérience quantitative d’analyse de données qui puisse exploiter la collecte de données intersectionnelles et générer des données démographiques sur l’IA et le DS, puis sur le genre et l’écart D&I.
Résultats attendus
Scientifique
D1.1 : Vers une collecte de données intersectorielle :
(i) Proposer une liste des collections de données disponibles avec des données sur la main-d’œuvre de l’IA et des DS partagées par les fournisseurs industriels, universitaires et gouvernementaux.
(ii) Spécification d’une stratégie pour construire (intégrer) une collection de données intersectionnelles incluant la main d’œuvre mondiale de l’IA, ventilée par âge, race, géographie, (dis)capacité, orientation sexuelle (quand c’est possible), statut socio-économique ainsi que par sexe en respectant la vie privée et le RGPD.
D1.2 : Participation aux plateformes en ligne :
Une étude statistique sur la participation des scientifiques (français) par sexe, race et ethnicité dans LinkedIn, ORCID, Google Scholar, Kaggle, StackOverflow et Github.
D1.3 : Mesurer l’écart de parcours professionnel (données et statistiques) :
(i) Comment les qualifications et les compétences sont-elles auto-déclarées par les différentes communautés sur LinkedIn.
(ii) Profiler les trajectoires de carrière en fonction du statut du poste et des activités liées aux tâches de DS et d’IA (préparation des données, exploration, analyse vs. ingénierie et conception/application d’algorithmes).
(iii) Mesurer les taux de rotation des emplois et d’attrition dans les différentes communautés sous-représentées.
Actions de coordination
- (CA1) 2 ateliers sur l’écart entre les sexes et l’égalité des chances dans la main-d’œuvre de l’IA et de la DS.
- (CA2) Site/portail partageant des données ouvertes et des rapports sur les résultats en cours.
- (CA3) Agenda sur le genre et l’écart D&I en IA et DS dans le monde universitaire et industriel français (livre blanc)
- (CA4) 2 stages de master de 6 mois (co-encadrés par des membres du consortium)
- (CA5) Proposition d’un projet scientifique (appel ANR 2022)