# Prétraitement des catégories ou des dates

Comment convertir des catégories ou des dates en features ? That is the question.


## TableReport

Le module [skrub](https://skrub-data.org/sable/) propose des outils assez pratiques pour prendre vite la mesure d'un jeu de données.

In [2]:
from skrub import TableReport
from teachpyx.datasets import load_wines_dataset

df = load_wines_dataset()
TableReport(df)

Processing column  13 / 13


Unnamed: 0_level_0,fixed_acidity,volatile_acidity,citric_acid,residual_sugar,chlorides,free_sulfur_dioxide,total_sulfur_dioxide,density,pH,sulphates,alcohol,quality,color
Unnamed: 0_level_1,fixed_acidity,volatile_acidity,citric_acid,residual_sugar,chlorides,free_sulfur_dioxide,total_sulfur_dioxide,density,pH,sulphates,alcohol,quality,color
0.0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5.0,red
1.0,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5.0,red
2.0,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5.0,red
3.0,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6.0,red
4.0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5.0,red
,,,,,,,,,,,,,
6492.0,6.2,0.21,0.29,1.6,0.039,24.0,92.0,0.99114,3.27,0.5,11.2,6.0,white
6493.0,6.6,0.32,0.36,8.0,0.047,57.0,168.0,0.9949,3.15,0.46,9.6,5.0,white
6494.0,6.5,0.24,0.19,1.2,0.0409999999999999,30.0,111.0,0.99254,2.99,0.46,9.4,6.0,white
6495.0,5.5,0.29,0.3,1.1,0.022,20.0,110.0,0.98869,3.34,0.38,12.8,7.0,white

Column,Column name,dtype,Null values,Unique values,Mean,Std,Min,Median,Max
0,fixed_acidity,Float64DType,0 (0.0%),106 (1.6%),7.22,1.3,3.8,7.0,15.9
1,volatile_acidity,Float64DType,0 (0.0%),187 (2.9%),0.34,0.165,0.08,0.29,1.58
2,citric_acid,Float64DType,0 (0.0%),89 (1.4%),0.319,0.145,0.0,0.31,1.66
3,residual_sugar,Float64DType,0 (0.0%),316 (4.9%),5.44,4.76,0.6,3.0,65.8
4,chlorides,Float64DType,0 (0.0%),214 (3.3%),0.056,0.035,0.009,0.047,0.611
5,free_sulfur_dioxide,Float64DType,0 (0.0%),135 (2.1%),30.5,17.7,1.0,29.0,289.0
6,total_sulfur_dioxide,Float64DType,0 (0.0%),276 (4.2%),116.0,56.5,6.0,118.0,440.0
7,density,Float64DType,0 (0.0%),998 (15.4%),0.995,0.003,0.987,0.995,1.04
8,pH,Float64DType,0 (0.0%),108 (1.7%),3.22,0.161,2.72,3.21,4.01
9,sulphates,Float64DType,0 (0.0%),111 (1.7%),0.531,0.149,0.22,0.51,2.0

Column 1,Column 2,Cramér's V
total_sulfur_dioxide,color,0.8
volatile_acidity,color,0.693
residual_sugar,density,0.672
chlorides,color,0.611
free_sulfur_dioxide,color,0.535
fixed_acidity,color,0.51
sulphates,color,0.46
citric_acid,color,0.431
free_sulfur_dioxide,total_sulfur_dioxide,0.391
chlorides,sulphates,0.376


## Catégories

Les catégories sont assez simples à transformer en variable numériques. La plus populaire des transformations est celle ou une catégorie est diluée sur plusieurs colonnes, une par catégorie : [OneHotEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html).

In [4]:
import pandas
from sklearn.preprocessing import OneHotEncoder

data = pandas.DataFrame([{"A": "cat1"}, {"A": "cat2"}, {"A": "cat3"}, {"A": "cat1"}])
ohe = OneHotEncoder()
ohe.fit(data)
ohe.transform(data)

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 4 stored elements and shape (4, 3)>

[Sparse](https://fr.wikipedia.org/wiki/Matrice_creuse) avez-vous dit ?

In [5]:
ohe.transform(data).todense()

matrix([[1., 0., 0.],
        [0., 1., 0.],
        [0., 0., 1.],
        [1., 0., 0.]])

Cette approche fonctionne bien excepté que si il y a beaucoup de catégories ou beaucoup de colonnes catégorielles, le nombre de colonnes explose. Pour y remédier, on peut soit compresser le nombre de colonnes en prenant un hash, la représentation binaire, en éliminant les catégories sous représentées, en les regroupant, en la remplaçant par une valeur numérique [TargetEncoder](https://contrib.scikit-learn.org/category_encoders/targetencoder.html). On peut faire aussi une ACP... Il n'y a pas de bonne ou mauvaise solution dans le cas général. Il faut essayer.

## Catégories mal orthographiées

Quand elles sont mal orthographiées, les catégories se multiplient. Dans ce cas, on peut soit chercher à corriger manuellement les erreurs soit faire avec, comme par exemple à [SimilarityEncoder](https://skrub-data.org/stable/reference/generated/skrub.SimilarityEncoder.html). Cet estimateur s'appuie sur la proximité des mots ou des caractères.

In [9]:
import pandas
from skrub import SimilarityEncoder

data = pandas.DataFrame(
    [
        {"A": "data scientist"},
        {"A": "data scientiste"},
        {"A": "datascientist"},
        {"A": "alpiniste"},
    ]
)
sim = SimilarityEncoder()
sim.fit(data)
sim.transform(data)

array([[0.04545455, 1.        , 0.8125    , 0.6875    ],
       [0.14285714, 0.8125    , 1.        , 0.55555556],
       [0.04761905, 0.6875    , 0.55555556, 1.        ],
       [1.        , 0.04545455, 0.14285714, 0.04761905]])

D'autres options.

In [11]:
import pandas
from skrub import StringEncoder

data = pandas.DataFrame(
    [
        {"A": "data scientist"},
        {"A": "data scientiste"},
        {"A": "datascientist"},
        {"A": "alpiniste"},
    ]
)
sim = StringEncoder(2)
sim.fit(data.A)
sim.transform(data.A)

Unnamed: 0,A_0,A_1
0,0.943822,-0.12352
1,0.907826,0.113797
2,0.824866,-0.170536
3,0.157073,0.980073


## Dates

Les dates sont toujours à prendre avec des pincettes. Si les données sont corrélées avec le temps, cela montre qu'il y a une tendance mais il y a toujours un risque que le modèle apprennent un comportement attaché à une époque précise, altérant ses performances dans le futur. Il faut donc distinguer ce qui est une tendance et ce qui est lié à la saisonnalité, le jour de la semaine, le mois de l'année. La saisonnalité est une information qui se répète. Aucune année passé ne revient donc l'année est une information qui ne devrait pas faire partie des bases d'apprentissage. L'objet [DatetimeEncoder](https://skrub-data.org/stable/reference/generated/skrub.DatetimeEncoder.html) automatise cela mais le plus simple est sans doute d'utiliser le module [datetime](https://docs.python.org/3/library/datetime.html).

In [14]:
import pandas
from skrub import DatetimeEncoder

login = pandas.to_datetime(
    pandas.Series(["2024-05-13T12:05:36", None, "2024-05-15T13:46:02"], name="login")
)
dt = DatetimeEncoder(add_weekday=True)
dt.fit(login)
dt.transform(login)

Unnamed: 0,login_year,login_month,login_day,login_hour,login_total_seconds,login_weekday
0,2024.0,5.0,13.0,12.0,1715602000.0,1.0
1,,,,,,
2,2024.0,5.0,15.0,13.0,1715781000.0,3.0
