15 Régression
En régression, l’étiquette y\in\mathcal{Y} peut prendre une infinité de valeurs, en général à l’intérieur d’un intervalle de \mathbb{R}.
L’erreur d’un modèle de régression sur un exemple est (en général) mesurée par la fonction de perte quadratique : \ell(f,\boldsymbol{x},y) = (y - f(\boldsymbol{x}))^2 qui est bien positive, et nulle lorsque f(\boldsymbol{x})=y. Le risque de régression est donc l’erreur quadratique moyenne R(f) = \mathbb{E}(Y-f(\boldsymbol{X}))^2
15.1 Modèle optimal : la fonction de régression
La fonction de régression retourne, pour tout \boldsymbol{x}, l’espérance conditionnelle de Y sachant \boldsymbol{X} au point \boldsymbol{X}=\boldsymbol{x} : f_{reg}(\boldsymbol{x}) = \mathbb{E}[ Y | \boldsymbol{X}=\boldsymbol{x} ] Cette fonction est le meilleur modèle de régression possible dans le sens où elle minimise le risque : R(f_{reg}) = \min_{f:\mathcal{X}\to\mathcal{Y}} R(f) Elle reste cependant théorique, car pour pouvoir la calculer, il faut soit connaître la loi de probabilité de (\boldsymbol{X},Y) supposée inconnue, soit avoir accès à une infinité de tirages de Y pour chaque \boldsymbol{x}.
Nous allons chercher le modèle optimal f^* = \arg\min_{f :\mathcal{X}\to\mathcal{Y}} \mathbb{E}( Y-f(\boldsymbol{x}))^2 Chercher une fonction revient, de manière équivalente, à trouver sa valeur f^*(\boldsymbol{x}) pour tout \boldsymbol{x}\in\mathcal{X}. De plus, le modèle optimal n’est pas contraint à une forme particulière et toutes ses valeurs f^*(\boldsymbol{x}) peuvent donc être déterminées indépendamment les unes des autres.
Par ailleurs, le théorème de l’espérance totale permet de réécrire le risque comme la moyenne par rapport à \boldsymbol{X} de la moyenne par rapport à Y à \boldsymbol{X} fixé : R(f) = \mathbb{E}(Y - f(\boldsymbol{X}) )^2 = \mathbb{E}\mathbb{E}[(Y-f(X))^2 | \boldsymbol{X}] = \int_{\mathcal{X}} \mathbb{E}[(Y-f(X))^2 | \boldsymbol{X}=\boldsymbol{x}] p(\boldsymbol{x}) d\boldsymbol{x} Pour minimiser cette somme de termes indépendants, il suffit donc de trouver la valeur y = f^*(\boldsymbol{x}) qui minimise \mathbb{E}[(Y-f(\boldsymbol{X}))^2 | \boldsymbol{X}=\boldsymbol{x}] pour chaque \boldsymbol{x} : \begin{align*} \forall \boldsymbol{x}\in\mathcal{X},\ f^*(\boldsymbol{x}) &= \arg\min_{y\in\mathbb{R}}\mathbb{E}[(Y-y)^2 | \boldsymbol{X}=\boldsymbol{x}] \\ &= \arg\min_{y\in\mathbb{R}}\mathbb{E}\left[Y^2 - 2yY + y^2 \ |\ \boldsymbol{X}=\boldsymbol{x}\right]\\ &= \arg\min_{y\in\mathbb{R}}\mathbb{E}[Y^2 | \boldsymbol{X}=\boldsymbol{x}] - 2y \mathbb{E}[Y |\boldsymbol{X}=\boldsymbol{x}] + y^2\\ &= \arg\min_{y\in\mathbb{R}} \underbrace{- 2y \mathbb{E}[Y |\boldsymbol{X}=\boldsymbol{x}] + y^2}_{J(y)} \end{align*} où les termes constants par rapport à la variable d’optimisation y peuvent être négligés.
La fonction J(y) est quadratique et convexe. Elle peut donc être aisément optimisée et son minimum se trouve au point où la dérivée (ou gradient) est nulle :
\frac{\text{d} J(y)}{\text{d} dy} = - 2 \mathbb{E}[Y | \boldsymbol{X}=\boldsymbol{x}] + 2y = 0 \quad \Rightarrow\quad y = \mathbb{E}[Y | \boldsymbol{X}=\boldsymbol{x}]
Ainsi la fonction de régression f_{reg} est bien le modèle optimal f^*.
15.2 Régression linéaire
En régression linéaire avec \mathcal{X}\subset\mathbb{R}^d, le modèle prend la forme f(\boldsymbol{x}) = \boldsymbol{w}^T\boldsymbol{x} avec un vecteur de paramètres \boldsymbol{w}\in\mathbb{R}^d.
Il est aussi possible de considérer un modèle affine f(\boldsymbol{x}) = \boldsymbol{w}^T \boldsymbol{x} + b, mais celui-ci est équivalent à un modèle linéaire opérant sur des données étendues \tilde{\boldsymbol{x}}=\begin{bmatrix}\boldsymbol{x}\\1\end{bmatrix} en dimension d+1 avec la dernière composante de \tilde{\boldsymbol{w}} égale à b.
L’apprentissage d’un modèle linéaire peut se faire par la méthode des moindres carrés.