Notebooks sur Spark# Map Reduce Reducers récursifs Stream Mapper Coût du premier élément Reducer Reducer et tri Un autre map Combiner ou join Reducers récursifs Reservoir Sampling distribué - énoncé Reservoir Sampling Reservoir Sampling Distribué exercice 1 : combinaison exercice 2 : script PIG, Spark Petit problème théorique Reservoir Sampling pondéré Reduce skew data Données antipathiques (skewed), Appariement (correction) Description du problème Exercice 1 : combien de voisins faut-il considérer ? Exercice 2 : nombre de distances ? Exercice 3 : distribuer les calculs Exercice 4 : données antipathiques Exercice 5 : comment distribuer malgré tout ? Données antipathiques (skewed), Appariement - énoncé Description du problème Exercice 1 : combien de voisins faut-il considérer ? Exercice 2 : nombre de distances ? Exercice 3 : distribuer les calculs Exercice 4 : données antipathiques Exercice 5 : comment distribuer malgré tout ? Mapper, Reducers customisés avec SQL Représentation Données trop grosses pour tenir en mémoire : SQLite Cas 1 : filtrer pour créer un échantillon aléatoire Pseudo Map/Reduce avec SQLite Cas 2 : reducer customisé avec SQL Notion d’index Spark Matrices en 3 colonnes Session spark with no cluster Création d’une matrice aléatoire Conversion d’une matrice au format Spark Produit matriciel Même algorithme avec les Spark DataFrame