2025-11-05 : données massives, spark …¶

Spark

Spark est une solution logicielle qui permet de manipuler de très grands jeux de données de façon distribuée.

problème pour lesquels spark est adapté : gestion de logs, apprentissage de modèles de machine learning
map/reduce et notion d’itérateurs, illustration avec python, map, filter, combiner (join)
distribution, hash
HDFS: système de fichier distributés
duplication
spark en local : RDD, Dataframe, collect
multiplication de matrice avec spark : Multiplication de matrices
sparkmllib : Spark et MLlib
quelques problèmes sympatiques : Reservoir Sampling distribué, jointure déséquilibrée : Skewed dataset
spark sur un cluster kubernetes
spark sur SSPCloud, Spark Kubernetes Cluster

Distribution et Hash

Hash et distribution

Algorithmes de streaming

algorithmes de streaming: régression linéaire, random forest
réseaux de neurones ?
Reservoir Sample
BJKST
random forests ?

Donnéees en local

SQL en local

ChatGPT, LeChat, …

Ces outils fonctionnent très bien sur le code. Ils ont absorbé la plupart des tutoriels existants. Ils fournissent de très bons exemples pour démarrer.

Le livre cité lors du cours Six degrés de liberté. Peut-on disparaître numériquement ?