# Cube de données et pandas

[pandas](https://pandas.pydata.org/)

In [1]:
%matplotlib inline

## Un cube

Les données sont disposées sous forme de table, il y a N colonnes de coordonnées et une colonne numérique. Avec ``N=4``, cela équivaut à une fonction $f(x_1,x_2,x_3,x_4)=y$.

In [3]:
import pandas

data = [
    {"X1": "A1", "X2": "B1", "X3": "C1", "X4": "D1", "Y": 3},
    {"X1": "A1", "X2": "B1", "X3": "C1", "X4": "D2", "Y": 4},
    {"X1": "A1", "X2": "B1", "X3": "C2", "X4": "D1", "Y": 5},
    {"X1": "A1", "X2": "B1", "X3": "C2", "X4": "D2", "Y": 6},
    {"X1": "A1", "X2": "B2", "X3": "C1", "X4": "D1", "Y": 7},
    {"X1": "A1", "X2": "B2", "X3": "C1", "X4": "D2", "Y": 8},
    {"X1": "A1", "X2": "B2", "X3": "C2", "X4": "D1", "Y": 9},
    {"X1": "A1", "X2": "B2", "X3": "C2", "X4": "D2", "Y": 2},
    {"X1": "A2", "X2": "B2", "X3": "C2", "X4": "D2", "Y": 1},
]
df = pandas.DataFrame(data)
df

Unnamed: 0,X1,X2,X3,X4,Y
0,A1,B1,C1,D1,3
1,A1,B1,C1,D2,4
2,A1,B1,C2,D1,5
3,A1,B1,C2,D2,6
4,A1,B2,C1,D1,7
5,A1,B2,C1,D2,8
6,A1,B2,C2,D1,9
7,A1,B2,C2,D2,2
8,A2,B2,C2,D2,1


## Pivot

Le pivot consiste à choisir des colonnes pour les indices des lignes, et d'autres pour les colonnes. Le pivot fonctionne si chaque valeur numérique peut être identifiée de manière unique.

In [4]:
df.pivot(index=["X1", "X2"], columns=["X3", "X4"], values="Y")

Unnamed: 0_level_0,X3,C1,C1,C2,C2
Unnamed: 0_level_1,X4,D1,D2,D1,D2
X1,X2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
A1,B1,3.0,4.0,5.0,6.0
A1,B2,7.0,8.0,9.0,2.0
A2,B2,,,,1.0


In [5]:
df.pivot(index=["X1"], columns=["X2", "X3", "X4"], values="Y")

X2,B1,B1,B1,B1,B2,B2,B2,B2
X3,C1,C1,C2,C2,C1,C1,C2,C2
X4,D1,D2,D1,D2,D1,D2,D1,D2
X1,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
A1,3.0,4.0,5.0,6.0,7.0,8.0,9.0,2.0
A2,,,,,,,,1.0


## Index et MultiIndex

A quoi correspondent les index ?

In [6]:
piv = df.pivot(index=["X1"], columns=["X2", "X3", "X4"], values="Y")
piv.columns

MultiIndex([('B1', 'C1', 'D1'),
            ('B1', 'C1', 'D2'),
            ('B1', 'C2', 'D1'),
            ('B1', 'C2', 'D2'),
            ('B2', 'C1', 'D1'),
            ('B2', 'C1', 'D2'),
            ('B2', 'C2', 'D1'),
            ('B2', 'C2', 'D2')],
           names=['X2', 'X3', 'X4'])

In [12]:
piv.index

Index(['A1', 'A2'], dtype='object', name='X1')

In [14]:
piv = df.pivot(index=["X1", "X2"], columns=["X3", "X4"], values="Y")
piv.columns

MultiIndex([('C1', 'D1'),
            ('C1', 'D2'),
            ('C2', 'D1'),
            ('C2', 'D2')],
           names=['X3', 'X4'])

In [15]:
piv.index

MultiIndex([('A1', 'B1'),
            ('A1', 'B2'),
            ('A2', 'B2')],
           names=['X1', 'X2'])

Les [Index](https://pandas.pydata.org/docs/reference/api/pandas.Index.html) indexent les valeurs et sont équivalents à des colonnes, les [MultiIndex](https://pandas.pydata.org/docs/reference/api/pandas.MultiIndex.html) indexent les valeurs et sont équivalents à plusieurs colonnes. On récupère le nom des colonnes avec la propriété [names](https://pandas.pydata.org/docs/reference/api/pandas.MultiIndex.names.html#pandas.MultiIndex.names).

In [16]:
piv.columns.names

FrozenList(['X3', 'X4'])

In [17]:
piv.index.names

FrozenList(['X1', 'X2'])

On récupère le nombre de colonnes avec [nlevels](https://pandas.pydata.org/docs/reference/api/pandas.MultiIndex.nlevels.html#pandas.MultiIndex.nlevels).

In [20]:
piv.columns.nlevels, piv.index.nlevels

(2, 2)

Ou encore [levels](https://pandas.pydata.org/docs/reference/api/pandas.MultiIndex.nlevels.html#pandas.MultiIndex.levels).

In [19]:
piv.columns.levels, piv.index.levels

(FrozenList([['C1', 'C2'], ['D1', 'D2']]),
 FrozenList([['A1', 'A2'], ['B1', 'B2']]))

On veut accéder à un élément.

In [21]:
piv.loc["A1"]

X3,C1,C1,C2,C2
X4,D1,D2,D1,D2
X2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
B1,3.0,4.0,5.0,6.0
B2,7.0,8.0,9.0,2.0


In [24]:
piv.loc["A1", "B1"]

X3  X4
C1  D1    3.0
    D2    4.0
C2  D1    5.0
    D2    6.0
Name: (A1, B1), dtype: float64

In [25]:
piv["C1"]

Unnamed: 0_level_0,X4,D1,D2
X1,X2,Unnamed: 2_level_1,Unnamed: 3_level_1
A1,B1,3.0,4.0
A1,B2,7.0,8.0
A2,B2,,


In [26]:
piv["C1", "D1"]

X1  X2
A1  B1    3.0
    B2    7.0
A2  B2    NaN
Name: (C1, D1), dtype: float64

## Passer de l'un à l'autre

Peut-on retrouver les données originales à partir du pivot?

In [27]:
piv

Unnamed: 0_level_0,X3,C1,C1,C2,C2
Unnamed: 0_level_1,X4,D1,D2,D1,D2
X1,X2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
A1,B1,3.0,4.0,5.0,6.0
A1,B2,7.0,8.0,9.0,2.0
A2,B2,,,,1.0


Ce qui ne marche pas [reset_index](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.reset_index.html).

In [28]:
piv.reset_index(drop=False)

X3,X1,X2,C1,C1,C2,C2
X4,Unnamed: 1_level_1,Unnamed: 2_level_1,D1,D2,D1,D2
0,A1,B1,3.0,4.0,5.0,6.0
1,A1,B2,7.0,8.0,9.0,2.0
2,A2,B2,,,,1.0


Ce qui marche...

* [stack](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.stack.html) : fait passer une coordonnée des colonnes aux lignes
* [unstack](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.unstack.html) : fait passer une coordonnée des lignes aux colonnes

In [31]:
piv.stack(0, future_stack=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,X4,D1,D2
X1,X2,X3,Unnamed: 3_level_1,Unnamed: 4_level_1
A1,B1,C1,3.0,4.0
A1,B1,C2,5.0,6.0
A1,B2,C1,7.0,8.0
A1,B2,C2,9.0,2.0
A2,B2,C1,,
A2,B2,C2,,1.0


In [32]:
piv.stack([0, 1], future_stack=True)

X1  X2  X3  X4
A1  B1  C1  D1    3.0
            D2    4.0
        C2  D1    5.0
            D2    6.0
    B2  C1  D1    7.0
            D2    8.0
        C2  D1    9.0
            D2    2.0
A2  B2  C1  D1    NaN
            D2    NaN
        C2  D1    NaN
            D2    1.0
dtype: float64

In [33]:
piv.stack("X4", future_stack=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,X3,C1,C2
X1,X2,X4,Unnamed: 3_level_1,Unnamed: 4_level_1
A1,B1,D1,3.0,5.0
A1,B1,D2,4.0,6.0
A1,B2,D1,7.0,9.0
A1,B2,D2,8.0,2.0
A2,B2,D1,,
A2,B2,D2,,1.0


In [34]:
piv.unstack("X1")

X3,C1,C1,C1,C1,C2,C2,C2,C2
X4,D1,D1,D2,D2,D1,D1,D2,D2
X1,A1,A2,A1,A2,A1,A2,A1,A2
X2,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
B1,3.0,,4.0,,5.0,,6.0,
B2,7.0,,8.0,,9.0,,2.0,1.0


On peut changer l'ordre des index.

In [41]:
view = piv.unstack("X1")
new_index = view.columns.reorder_levels(["X1", "X3", "X4"])
new_index

MultiIndex([('A1', 'C1', 'D1'),
            ('A2', 'C1', 'D1'),
            ('A1', 'C1', 'D2'),
            ('A2', 'C1', 'D2'),
            ('A1', 'C2', 'D1'),
            ('A2', 'C2', 'D1'),
            ('A1', 'C2', 'D2'),
            ('A2', 'C2', 'D2')],
           names=['X1', 'X3', 'X4'])

In [43]:
view.columns = new_index
view

X1,A1,A2,A1,A2,A1,A2,A1,A2
X3,C1,C1,C1,C1,C2,C2,C2,C2
X4,D1,D1,D2,D2,D1,D1,D2,D2
X2,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
B1,3.0,,4.0,,5.0,,6.0,
B2,7.0,,8.0,,9.0,,2.0,1.0


## Un pivot aggrégé

La fonction pivot suppose que la transformation conserve chaque valeur sans les aggréger ce qui permet de restaurer les données sous leurs forme initiale. Mais ce n'est pas toujours ce qu'on souhaite faire.

In [44]:
df

Unnamed: 0,X1,X2,X3,X4,Y
0,A1,B1,C1,D1,3
1,A1,B1,C1,D2,4
2,A1,B1,C2,D1,5
3,A1,B1,C2,D2,6
4,A1,B2,C1,D1,7
5,A1,B2,C1,D2,8
6,A1,B2,C2,D1,9
7,A1,B2,C2,D2,2
8,A2,B2,C2,D2,1


In [46]:
try:
    df.pivot(index=["X2"], columns=["X3", "X4"], values="Y")
except Exception as e:
    print("Le pivot ne conserve pas les données.")
    print(e)

Le pivot ne conserve pas les données.
Index contains duplicate entries, cannot reshape


On utlise alors [pivot_table](https://pandas.pydata.org/docs/reference/api/pandas.pivot_table.html).

In [48]:
df.pivot_table(index=["X2"], columns=["X3", "X4"], values="Y", aggfunc="count")

X3,C1,C1,C2,C2
X4,D1,D2,D1,D2
X2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
B1,1,1,1,1
B2,1,1,1,2


In [49]:
df.pivot_table(index=["X2"], columns=["X3", "X4"], values="Y", aggfunc="sum")

X3,C1,C1,C2,C2
X4,D1,D2,D1,D2
X2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
B1,3,4,5,6
B2,7,8,9,3


## XArray

Le package [XArray](https://docs.xarray.dev/en/stable/index.html) représente des cubes de données de façon plus efficace mais parfois moins intuitive.

In [64]:
import xarray as xr

cube = xr.Dataset.from_dataframe(df.set_index(["X1", "X2", "X3", "X4"]))
cube

Modifier une valeur existante.

In [65]:
cube["Y"].loc[{"X1": "A1", "X2": "B2", "X3": "C2", "X4": "D1"}] = 100
cube

In [66]:
cube.mean(dim=("X2", "X3"))

In [67]:
cube.to_dataframe()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Y
X1,X2,X3,X4,Unnamed: 4_level_1
A1,B1,C1,D1,3.0
A1,B1,C1,D2,4.0
A1,B1,C2,D1,5.0
A1,B1,C2,D2,6.0
A1,B2,C1,D1,7.0
A1,B2,C1,D2,8.0
A1,B2,C2,D1,100.0
A1,B2,C2,D2,2.0
A2,B1,C1,D1,
A2,B1,C1,D2,
