2026-04-13 : feuille de route 2026 - avril¶
site web : sdpython.github.io
Apprendre la programmation avec Python
Journée 1 (13/4) - Data Analyse¶
L’Objectif de la journée : créer une base de données avec le résultat des élections municipales.
raccourci : https://github.com/sdpython/teachdata/tree/main/municipales
quelques mots sur ChatGPT, Gemini, Claude, et la notion de vibe-coding
on code moins, on lit plus, mais il faut toujours comprendre le code
Quelques modules :
Exercices numpy
Exercices pandas
filter, groupby, jointure, pivot
Quelques exercices pour plus d’agilité
que vaut
1/2? et1//2?retourner une liste (obtenir une liste dans l’autre sens)
calculer le nombre d’occurences des éléments d’une liste (histogrammes)
modifier un élément d’un tuple
retourner un dictionnaire : que fait-on des doublons ?
trouver le minimum dans un tableau
trier un tableau
transformer une liste en un dictionnaire et réciproquement
comment multiplier une chaîne de caractère ?
écrire une boucle
foret la même avec une bouclewhileécrire un test
écrire une fonction qui vérifie si une chaîne de caractères est symétrique
écrire une fonction qui retourne une chaîne de caractères sans ses voyelles
fonctions
fonction, paramètre par défaut
arguments positionnels, arguments nommés
écrire une fonction récursive
écrire une fonction qui calcule la suite de Fibonacci ?
écriture
*args,**kwargs?comment espionner une autre fonction ?
graphes
comment représenter un graphe de type facebook à l’aide dictionnaires ?
compter le nombre d’amis en commun ?
compter le nombre moyen de connexions ?
comment obtenir la liste des membres du graphes ?
Exercices plus longs
Exercices plus costauds
from pypdf import PdfReader, PdfWriter
from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter
# ...
Journée 2 (14/4)¶
Partie 1
pickle, fichiers pickle (voir Sérialisation)récupération des fichiers préparés pour la formation avec pandas
utilisation de skrub
première jointure
Partie 2
introduction de scikit-learn
valeurs manquantes, remplacement simple (moyenne), corrélations (
sklearn.impute.KNNImputer), prédictions (sklearn.impute.IterativeImputer), (voir sklearn.impute)premières impressions
exemples classique pour traiter, enrichir un jeux de données : skrub tutorial, voir aussi AggJoiner on a credit fraud dataset
sklearn.pipeline.Pipeline,sklearn.compose.ColumnTransformer,sklearn.pipeline.FeatureUnionDates, Catégories : category_encoders, skrub, Prétraitement des catégories
Son : librosa, voir Prétraitement du son
Image : scikit-image, voir Prétraitement d’une image
Texte : Prétraitement du texte
Journée 3 (15/4)¶
programmation Avancé
notion de test unitaires
création de ses propres classes (estimateur scikit-learn)
Journée 4 (16/4)¶
Communes et villes de France en CSV, Excel, Json, Parquet et Feather
Résultats du contrôle sanitaire de l’eau distribuée commune par commune
Partie 1
retour sur les graphes matplotlib, seaborn, plotly, skrub
jointure avec les meta données
tracer l’évolution temporelle d’une série agrégées
tracer des cartes avec le jeux de données proposés, on veut tracer une carte par an
carte avec folium
Partie 2
lecture itérative d’un jeux de données
utilisation de polars
manipulation complexes avec pandas, cubes de données avec pandas, passer un indice à droite (colonnes), à gauche (index), Cube de données et pandas
Journée 5 (26/5)¶
Retour sur les prétraitements.
Les prétraitements servent à numériser les données, quel qu’en soit le type. Cela dépend du modèle qui est appliqué derrière.
Le modèle s’apprend-il dans un espace vectoriel ?
Est-ce que le modèle a un gradient ou est-ce une méthode ensembliste ?
Supporte-t-il les grandes dimensions ?
A-t-il besoin de données équilibrées ?
Le modèle Supporte-t-il les valeurs manquantes ?
Le modèle doit-il être interprété ?
La numérisation des données dépend de ce qui les produit.
Est-ce numérique ?
Est-ce du texte ? Des Catégories ? Des catégories mal orthographiées ?
Est-ce des images, des vidéos, autre ?
Le problème a résoudre est-il ?
Classification, Régression, Ranking ?
Une série temporelle ?
Un problème de recommandation ?
Un problème de détection d’anomalies ?
Analyse de survie ?
Autre ?
Peut-on aider le modèle ?
Qu’est ce qui est important pour le modèle ? De connaître le modèle de voiture ou le taux d’accident ?
Deux catégories sont liées ? L’une ne peut apparaître que si une autre est présente ?
Transfer Learning
LLM
Et avec scikit-learn ?
Prédire la note d’un vin ?