La régression¶

Le bruit blanc est une variable aléatoire couramment utilisé pour désigner le hasard ou la part qui ne peut être modélisée dans une régression ou tout autre problème d’apprentissage. On suppose parfois que ce bruit suive une loi normale.

Définition D1 : bruit blanc

Une suite de variables aléatoires réelles $\pa{\epsilon_i}_{1 \leqslant i \leqslant N}$ est un bruit blanc :

$\exists \sigma > 0$ , $\forall i \in \intervalle{1}{N}, \; \epsilon_i \sim \loinormale{0}{\sigma}$
$\forall \pa{i,j} \in \intervalle{1}{N}^2, \; i \neq j \Longrightarrow \epsilon_i \independant \epsilon_j$

Une régression consiste à résoudre le problème suivant :

Problème P1 : Régression

Soient deux variables aléatoires $X$ et $Y$ , l’objectif est d’approximer la fonction $\esp\pa{Y | X} = f\pa{X}$ . Les données du problème sont un échantillon de points $\acc{ \pa{ X_{i},Y_{i} } | 1 \leqslant i \leqslant N }$ et un modèle paramétré avec :math:theta` :

$\forall i \in \intervalle{1}{N}, \; Y_{i} = f \pa{\theta,X_{i}} + \epsilon_{i}$

avec $n \in \N$ , $\pa{\epsilon_{i}}_{1 \leqslant i \leqslant N}$ bruit blanc, $f$ est une fonction de paramètre $\theta$ .

La fonction $f$ peut être une fonction linéaire, un polynôme, un réseau de neurones… Lorsque le bruit blanc est normal, la théorie de l’estimateur de vraisemblance (voir [Saporta1990]) permet d’affirmer que le meilleur paramètre $\hat{\theta}$ minimisant l’erreur de prédiction est :

$\hat{\theta} = \underset {\theta \in \mathbb{R}^p}{\arg \min} \; \esp \pa {\theta} = \underset {\theta \in \mathbb{R}^p}{\arg \min} \cro{ \sum_{i=1}^{N} \cro{Y_{i}-f \pa{\theta,X_{i}}}^{2}}$

Le lien entre les variables $X$ et $Y$ dépend des hypothèses faites sur $f$ . Généralement, cette fonction n’est supposée non linéaire que lorsqu’une régression linéaire donne de mauvais résultats. Cette hypothèse est toujours testée car la résolution du problème dans ce cas-là est déterministe et aboutit à la résolution d’un système linéaire avec autant d’équations que d’inconnues. Voici ce que ce la donne avec un nuage de points $(X_i, Y_i)$ défini par $Y_i = \frac{3}{2} X_i^{2} - X_i + \frac{1}{4} + \epsilon_i$ .

Une fonction non linéaire permet de s’approcher un peu plus de la véritable fonction. Premier cas : $f$ est un réseau avec un neurone sur la couche cachée.

Second cas : $f$ est un réseau avec deux neurones sur la couche cachée.

Troisième cas : $f$ est un réseau avec 100 neurones sur la couche cachée.

L’erreur de prédiction de ce réseau de neurones est très inférieure à celle des modèles précédent, ce modèle a appris par coe ur le nuage de points $\pa{X_i,Y_i}$ sans vraiment « comprendre » ce qu’il apprenait. Dans le cas d’une régression à cent neurones, le nombre de coefficients du réseau de neurones (301) est largement supérieur au nombre de points (50). Il en résulte que contrairement aux trois précédents cas, la « richesse » du modèle choisi lui permet d’apprendre le « hasard ». Lorsque ce cas de figure se présente, on dit que le réseau de neurones a appris coeur, son pouvoir de généralisation est mauvais ou il fait de l”overfitting (voir aussi Generalization Error). L’erreur minime estimée sur ce nuage de points (ou base d’apprentissage) sera considérablement accrue sur un autre nuage de points ou base de test suivant la même loi. Cet exemple montre que le choix du réseau de neurones le mieux adapté au problème n’est pas évident. Il existe des méthodes permettant d’approcher l’architecture optimale mais elles sont généralement coûteuses en calcul.