2025-11-05 : données massives, spark …¶
Spark
Spark est une solution logicielle qui permet de manipuler de très grands jeux de données de façon distribuée.
problème pour lesquels spark est adapté : gestion de logs, apprentissage de modèles de machine learning
map/reduce et notion d’itérateurs, illustration avec python, map, filter, combiner (join)
distribution, hash
HDFS: système de fichier distributés
duplication
spark en local : RDD, Dataframe, collect
multiplication de matrice avec spark : Multiplication de matrices
quelques problèmes sympatiques : Reservoir Sampling distribué, jointure déséquilibrée : Skewed dataset
spark sur un cluster kubernetes
Distribution et Hash
Algorithmes de streaming
algorithmes de streaming: régression linéaire, random forest
réseaux de neurones ?
random forests ?
Donnéees en local
ChatGPT, LeChat, …
Ces outils fonctionnent très bien sur le code. Ils ont absorbé la plupart des tutoriels existants. Ils fournissent de très bons exemples pour démarrer.
Le livre cité lors du cours Six degrés de liberté. Peut-on disparaître numériquement ?