_l-feuille-route-2023:
2023-11-31 : rappel feuille de route 2023¶
Séance 4 : spark¶
Spark est une solution logicielle qui permet de manipuler de très grands jeux de données de façon distribuée.
problème pour lesquels spark est adapté : gestion de logs, apprentissage de modèles de machine learning
map/reduce et notion d’itérateurs, illustration avec python, map, filter, combiner (join)
distribution, hash
HDFS: système de fichier distributés
duplication
spark en local : RDD, Dataframe, collect
multiplication de matrice avec spark : Multiplication de matrices
quelques problèmes sympatiques : Reservoir Sampling distribué, jointure déséquilibrée : Skewed dataset
spark sur un cluster kubernetes