Culture et compétences de la donnée et de l’intelligence artificielle
10 nouveaux parcours “PIX Données“
10 parcours inédits “Pix+ Données” » conçus pour tous les professionnels des secteurs public et privé qui produisent, diffusent ou réutilisent des données
https://pix.fr/donnees
Ces parcours visent à sensibiliser, évaluer et accompagner le développement des compétences numériques relatives à l’utilisation des données dans le monde professionnel.
Ces 10 parcours « Pix+ Données », d’une durée moyenne de 30 minutes, couvrent trois grands domaines de compétences numériques professionnelles
- Rechercher et produire des données de qualité : Chercher dans des catalogues spécialisés, évaluer la qualité intrinsèque et/ou contextuelle des données…
- Ouvrir, protéger, partager, encourager la réutilisation des données : Comprendre l’impact environnemental de l’ouverture des données et les bonnes pratiques pour le limiter, partager ou protéger les données en respectant les exceptions à l’open data…
- Utiliser et réutiliser les données dans les politiques publiques ou de l’entreprise : Produire une datavisualisation, connaître des outils de préparation de données, prendre une décision en fonction des données…
Ces parcours « Pix+ Données » sont conçus pour être accessibles à tous les niveaux, de débutant à expert, grâce à un algorithme adaptatif qui ajuste les questions au niveau de chaque participant, réponse après réponse.
Test de 7 questions, ne nécessitant ni compte ni licence PIX , qui permet d’avoir un premier aperçu des épreuves : https://app.pix.fr/courses/course1uOzQroNkVlMMH
Chaque parcours « Pix+ Données » propose des mises en situation réelles et des exercices concrets, complétés par des tutoriels et des ressources pédagogiques et formatives qui permettent à chaque participant d’approfondir ses connaissances. À titre d’exemples, ces parcours donnent accès à des ressources variées telles que les plateformes régionales de données, les guides d’Etalab pour l’ouverture et le partage des données, les systèmes d’information géographique et bien plus encore.
« Pix+ Données » se compose d’un parcours de découverte et de 9 parcours thématiques :
- Recherche des données
- Production des données
- Qualité des données
- Ouverture des données
- Protection des données
- Réutilisation des données
- Préparation des données
- Visualisation des données
- Innovation via les données
Par exemple pour le parcours “Innovation via les données“, les thématiques traitées sont :
- Connaître les différents métiers de la donnée en lien avec la sphère publique
- Connaître le vocabulaire des enjeux de l’utilisation des données dans les politiques publiques
- Interpréter et calculer des indicateurs pour prendre une décision ou l’évaluer
- Connaître des généralités sur l’intelligence artificielle et l’apprentissage automatique
Le référentiel PIX+ Données complet (compétences sur les données numériques) : https://cloud.pix.fr/s/3H5Q35sQ7yCPTaQ
Deux exemples d’épreuves du PIX+ Données :
Le lancement officiel de ces parcours, assorti d’une campagne de communication, a eu lieu le 11 juin 2024 lors de la journée de la donnée du ministère de la transition écologique.
Le communiqué de presse pour le lancement de PIX+ Données : https://www.ecologie.gouv.fr/lancement-10-parcours-pix-donnees
L’article d’Acteurs Publics sur le lancement de PIX+ Données : https://acteurspublics.fr/articles/letat-met-en-place-un-parcours-dacculturation-a-la-donnee-pour-les-agents-publics
Ces parcours sont-ils accessibles aux agents du ministère de la transition écologique ?
Les parcours “Pix+ Données” sont la 8ème thématique mise à disposition des agents du MTECT.
Sept parcours construits avec PIX sont d’ores et déjà proposés aux agents (administration centrale et régionale) du MTECT depuis la mi-2023 :
- Internet et ses usages ;
- Bureautique tableur
- Bureautique traitement de texte et diaporama
- Pratiques sûres et responsables
- Matériel, fichiers, données
- Cybersécurité
- Résoudre des problèmes techniques
Pourquoi ce projet ?
Dans le référentiel PIX général, il existe quelques questions liées à la donnée, mais on n’y trouve pas une bonne partie des thématiques liées à l’usage de la donnée dans la sphère publique : ouverture de la donnée publique (obligations et exceptions, licences, API…), partage de la donnée entre administrations (FranceConnect…), secret statistique, rôle des DINUM/Etalab et administrateurs ministériels des données, archives, plateformes régionales de données géographiques, etc.
En outre des notions importantes méritent d’y être approfondies : qualité de la donnée, protection de la donnée personnelle, systèmes de gestion des bases de données, etc.
Le projet a donc consisté à établir une liste de compétences nécessaires sur les données dans la sphère publique, puis à créer les questions correspondantes. Les ingénieurs pédagogiques du GIP Pix et un groupe d’experts inter-fonctions publiques et associatifs ont travaillé depuis l’été 2022 à cet ouvrage, qu’ils en soient vivement remerciés.
Le projet a été lancé par l’Ecolab du Commissariat général au développement durable, en sa qualité d’administrateur ministériel des données délégué.
L’agence nationale de la cohésion des territoires (ANCT) s’est associée à son portage.
Dès son origine, le futur référentiel d’auto-évaluation a été voulu interministériel et inter-fonctions publiques, mais aussi largement ouvert au secteur privé.
On parle de la donnée au sein du ministère parce que :
– Notre pôle ministériel, vu sa taille et ses missions, génère et utilise (et doit ouvrir et protéger) une grande masse de données très utiles au fonctionnement quotidien de la Nation comme à la réussite de la transition écologique et énergétique (NB : lutter aussi contre les contre-vérités). C’est aussi le cas des collectivités, avec lesquelles notre pôle ministériel, et notamment les services déconcentrés, est en relation pour gérer le territoire. La planification écologique du projet France Nation Verte va avoir besoin de s’appuyer sur ces données existantes et à créer, notamment au niveau territorial
– Il existe des dispositifs juridiques spécifiques sur le droit de toute personne d’accéder aux informations relatives à l’environnement. Il existe aussi des dispositifs juridiques spécifiques imposant la production et le partage des données des transports, de l’énergie, des valeurs foncières, …
– Certains opérateurs ont pour mission de produire et diffuser de la donnée : Météo France, Institut national de l’information géographique et forestière (IGN), Office français de la biodiversité (OFB), notamment
– Le pôle ministériel compte en son sein un important réseau scientifique et technique qui crée et publie des données de recherche
– Le pôle ministériel doit former à la donnée dans ses écoles (ENTE, ENTPE, ENPC, ENSG, ENSM, ENSAM, ENAC, INSTN)
Plusieurs grandes politiques du pôle ministériel s’appuient sur des délégataires de service public, dont les données peuvent être qualifiés d’intérêt général
– La directive du 14 mars 2007 établissant une infrastructure d’information géographique européenne (« Inspire ») a eu une très grande importance au sein de nos services pour structurer et ouvrir les jeux de données géographiques et environnementales. Dans les 228 données de références au sens d’Inspire, au moins 220 sont issues du pôle ministériel. Ceci explique que les géomaticiens fassent partie de facto du champ des métiers de la donnée (même si une montée en compétences est demandée)
– Une grande partie des « Données de forte valeur » qui devront être partagées au niveau européen au 9 juin 2024 émanent aussi de nos politiques publiques ministérielles : géospatiales ; observation de la Terre et environnement ; météorologiques ; mobilité (+ statistiques sur les entreprises et la population)
– Plusieurs entreprises appartenant aux secteurs économiques régulés par le pôle ministériel font partie des « opérateurs de service essentiels » et des futurs « secteurs hautement critiques » des directives européennes sur la cybersécurité de 2016 et 2022 : transports, énergie, eaux potables et usées
– Le pôle ministériel a en charge des enjeux de régulation d’usages experts de la donnée : drones, véhicules autonomes, ville « intelligente » (smart city), …
– Le pôle ministériel abrite le secrétariat du conseil national de l’information géolocalisée (CNIG) qui appuie le déploiement d’une donnée territorialisée de qualité
Le pôle ministériel est fortement présent sur des nouveaux types et usages de données : satellitaires, lidar 3D, jumeaux numériques, …
– Le saviez-vous ?
•L’agence nationale de la cohésion des territoires (ANCT), opérateur de notre pôle ministériel depuis juillet 2022, porte les politiques d’accès des territoires et des personnes au numérique et donc à de multiples usages de la donnée
•Météo France, opérateur de notre pôle ministériel, possède deux des plus gros supercalculateurs français pour faire tourner ses modèles : Belenos et Taranis
•L’IGN cartographie l’anthropocène par des cartes thématiques sur un nombre limité d’enjeux écologiques majeurs qui rendent compte des changements rapides du territoire et des conséquences sur l’environnement
Une série de webinaires sur la culture de la donnée pour les agents du ministère de la transition écologique
Pour revoir les séminaires du cycle sur la culture de la donnée proposés par l’Ecolab avec l’appui du CMVRH
Séminaire n°1 du 26 janvier 2023
Pourquoi parle-t-on de la donnée au sein du pôle ministériel ?
Les supports de présentation :
- Les-donnees-pourquoi-en-parle-t-on-HBegon-26-janvier-2023-Premiere-partie.pdf
- Les-donnees-pourquoi-en-parle-t-on-INRAE-26-janvier-2023-Deuxieme-partie.pdf
Séminaire n°2 du 14 avril 2023
Explorer des jeux de données du pôle ministériel
Les supports de présentation :
- Explorer-des-jeux-de-donnees-HBegon-14-avril-2023-Support-remis-aux-participants.pdf
- Presentation-Geo2france-14-avril-2023-Patrice-Sauvage-Support-remis-aux-participants.pdf
- Presentation-Georisques-14-avril-2023-Nicolas-Bonnin-Support-remis-aux-participants.pdf
- Presentation-transportsData-14-avril-2023-Benoit-Queyron-Support-remis-aux-participants.pdf
Séminaire n°3 du 9 juin 2023
L’intelligence artificielle et le pôle ministériel
Les supports de présentation :
- Presentation-HBegon-LIA-et-le-pole-ministeriel-9-juin-2023.pdf
- Presentation-Caroline-Chopineau-IA-Benefices-et-Risques-Hub-France-IA-9-juin-2023.pdf
- Présentation INERIS Outil IA Polluants 9 juin 2023
- Presentation-Bruno-Lenzi-liriae-9-juin-2023.pdf
- Presentation-DDTM-34-Outil-IA-Aigle-cabanisation-9-juin-2023.pdf
- Presentation-Anthea-Serafin-Enjeux-Ethiques-et-IA-Webinaire-09-juin-2023.pdf
Séminaire n°4 du 29 août 2023
Les supports de présentation :
- 1-afn-dataviz-generalites-light.pdf
- 2-afn-dataviz-ressources.pdf
- 3-afn-dataviz-traversees.pdf
- dataviz-29-aout-2023-elements-complementaires-hbegon.pdf
Bonus :
Master class sur la datavisualisation lors de la journée ministérielle de la donnée le 9 juin 2023
JDD_29-06-23_Master-Class.pdf
Séminaire n°5 du 6 octobre 2023
« Que font concrètement les collègues qui travaillent sur la donnée ? »
Les supports de présentation :
- Webinaire-Collegues-specialistes-donnees-6-octobre-2023-Intro-generale-par-HBegon.pdf
- Webinaire-Collegues-specialistes-donnees-6-octobre-2023-Le-cycle-technique-de-la-donnee-Olivier-Rousseau.pdf
- Webinaire-Collegues-specialistes-donnees-6-octobre-2023-Le-SIG-Thomas-Grandjean.pdf
- Webinaire-Collegues-specialistes-donnees-6-octobre-2023-Loutil-SIGNE-Nordine-Frikha.pdf
Séminaire n°6 du 15 mars 2024
Que signifie coder quand on parle de données
Les supports de présentation :
- Webinaire-Collegues-specialistes-donnees-15-mars-2024-Intro-generale-par-HBegon-VDEF.pdf
- Webinaire-cycle-sur-la-culture-de-la-donnee-15-mars-2024_-AYeferni-et-NArias.pdf
- Webinaire-cycle-sur-la-culture-de-la-donnee-15-mars-2024_-Presentation-de-R-par-Olivier-Chantrel-15-mars-2024.pdf
- Webinaire-cycle-sur-la-culture-de-la-donnee-15-mars-2024_-Presentation-du-pole-ACTER-Pays-de-la-Loire.pdf
Petit glossaire de la donnée
-La donnée est l’élément de base de la connaissance. On parle de jeu de données ou de collection de données pour un recueil de données.
-On parle de données brutes pour caractériser des données tout juste acquises (via des appareils de mesure par exemple). On peut croiser des données, les enrichir, les agréger, les dégrader, …
-Une base de données est un recueil structuré de données.
-On structure une base de données à l’aide d’une modélisation conceptuelle de données ou d’un schéma de données : pour cela il faut collaborer entre experts de la donnée et experts métiers. Les schémas de données permettent de décrire des modèles de données : quels sont les différents champs, comment sont représentées les données, quelles sont les valeurs possibles etc.
-Un standard de données est un schéma de données associé à des règles de gouvernance, l’ensemble étant consensuel et partagé par une communauté ou un écosystème
-Quand on connait le schéma de données, on peut émettre des requêtes sur la base de données pour n’obtenir que les données qui obéissent à nos critères. Les API (Application programming interface) sont des applications informatiques qui permettent à d’autres programmes d’obtenir des données selon des requêtes.
-On peut croiser des bases de données si on dispose d’une information identique et discriminante dans chaque base, c’est la jointure.
-Les informations qui décrivent les données ou les bases de données s’appellent les métadonnées (titre, date d’acquisition, date de mise en ligne, propriétaire, licence, informations sur la qualité, URL de téléchargement, …)
-Les métadonnées permettent de constituer des catalogues de données : les données y sont exposées. Ainsi un bureau d’études va consulter les catalogues pour connaître l’état des connaissances sur un domaine qu’il va analyser. Il pourra alors consommer les données dont il a besoin. On dit que les données circulent, elles sont partagées.
-Certaines données sont ouvertes (on parle d’opendata), d’autres qui portent des informations sensibles ne peuvent être consommées que par des utilisateurs habilités : le partage, ce n’est pas que de l’opendata.
-Les catalogues peuvent communiquer entre eux automatiquement et se mettre à jour des dernières évolutions d’autres catalogue, c’est le moissonnage.
Les données sont hébergées au sein d’infrastructures de données (portails, systèmes d’information, …).
Formations d’OpenClassRooms sur la donnée et l’intelligence artificielle
L’Ecolab invite tout agent s’intéressant aux problématiques – notamment techniques – de la donnée à suivre les cours de la plateforme en ligne OpenClassRooms.
On y trouve plus de 60 cours dédiés à la donnée (non compris les cours généraux sur le langage Python).
Objectif IA : initiez-vous à l’intelligence artificielle | Sécurisez vos données avec la cryptographie | Maîtrisez les bases de données NoSQL |
Explorez vos données avec des algorithmes non supervisés | Réalisez des calculs distribués sur des données massives | Modélisez vos données avec les méthodes ensemblistes |
Classez et segmentez des données visuelles | Analysez vos données textuelles | Initiez-vous au Deep Learning |
Réalisez une analyse exploratoire de données | Découvrez le fonctionnement des algorithmes | Découvrez le monde des Systèmes d’Information |
Utilisez Spring Data MongoDB pour interagir avec des bases de données NoSQL | Implémentez vos bases de données relationnelles avec SQL | Initiez-vous au langage R pour analyser vos données |
Concevez des architectures Big Data | Initiez-vous à la statistique inférentielle | Initiez-vous au Machine Learning |
Manipuler l’information | Comprendre le Web | Découvrez l’univers de la cybersécurité |
Créez votre Data Lake | Récupérez et affichez des données distantes | Initiez-vous au Design Thinking |
Appropriez-vous la démarche UX en pratique | Réalisez un dashboard avec Tableau | Maîtrisez les bases des probabilités |
Analysez et modélisez des séries temporelles | Maîtrisez les fondamentaux d’Excel | Perfectionnez-vous sur Excel |
Mettez en place un système de veille informationnelle | Découvrez le métier de chef de projet SI | UX design : découvrez les fondamentaux ! |
Evaluez les performances d’un modèle de machine learning | Mettez en place un plan de gouvernance de votre SI | Initiez-vous aux traitements de base des images numériques |
Maîtrisez les risques juridiques liés au numérique | Entraînez un modèle prédictif linéaire | Utilisez des modèles supervisés non linéaires |
Réalisez des dashboards avec Power BI | Modélisez vos bases de données | Initiez-vous à Python pour l’analyse de données |
Gérez vos données localement pour avoir une application 100 % hors-ligne | Découvrez les librairies Python pour la Data Science | Comprendre le big data à travers les films de cinéma |
Développez votre culture des données | Initiez-vous à la gouvernance des données | Nettoyez et analysez votre jeu de données |
Requêtez une base de données avec SQL | Protégez les données personnelles | Gérez des flux de données temps réel |
Réalisez des modélisations de données performantes | Réalisez des rapports statistiques clairs et impactants | Appliquez l’apprentissage statistique aux objets connectés |
Analysez des données pour prendre des décisions de design | Utilisez ChatGPT pour améliorer votre productivité | Implémentez votre base de données relationnelle avec ASP.NET Core |
Utilisez ChatGPT pour améliorer votre productivité | Trouvez votre premier emploi en data | Découvrez les fondamentaux VBA |
Analysez vos données avec VBA |
Travaux avec OpenDataFrance sur les compétences clés de la donnée
L’Ecolab a participé aux travaux de l’association OpenDataFrance “Culture D” visant à élaborer
- Une ressourcerie sur la donnée
- Un référentiel de compétences sur la donnée
- Un parcours data agents métiers des collectivités territoriales
Voici les livrables du projet (décembre 2023) : https://opendatafrance.fr/decouvrez-les-livrables-du-projet-culture-d/
DATAcculturation
Les vidéos de DATAcculturation sur Youtube : https://www.datagrandest.fr/portail/fr/ressources/metiers-data-roles-et-missions-magiciens-donnee
DATAcculturation vise à sensibiliser les agents, de toutes fonctions publiques, catégories et métiers confondus, à la donnée et à l’open data à travers des supports accessibles et pédagogiques.
DATAcculturation est un projet piloté par la Préfecture de région Auvergne-Rhône-Alpes (Secrétariat général pour les affaires régionales), accompagné par le laboratoire d’innovation publique @RCHIPEL et lauréat du Fonds d’innovation RH 2022.
DataGrandEst: Les métiers de la data, rôles et missions des magiciens de la donnée
Lien vers le webinaire du 13 janvier 2023 : https://www.datagrandest.fr/portail/fr/ressources/metiers-data-roles-et-missions-magiciens-donnee
Vidéo pédagogique : introduction générale à la donnée
La direction de la Recherche, des Études, de l’Évaluation et des Statistiques (Drees) des ministères sanitaires et sociaux organisait, le 4 avril 2023, une première journée de la donnée. A cette occasion elle a diffusé une ressource vidéo qui explique très simplement ce qu’est la donnée, avec des exemples liés au secteur de la santé.