5 Bases de l’apprentissage supervisé

L’apprentissage supervisé se place dans le contexte où les données disponibles sont étiquetées, c’est-à-dire que pour chaque donnée d’entrée, la sortie attendue (la bonne réponse) est connue.

À partir de telles données, il s’agit d’apprendre un modèle de prédiction capable de généraliser, c’est-à-dire de répondre correctement à des questions qu’il n’a pas rencontrer pendant son apprentissage, et dont il n’a pas pu retenir la réponse par cœur.

5.1 Données disponibles

Les entrées d’un système d’apprentissage correspondent à une représentation numérique des objets sur lesquels on se pose des questions, que ce soit des images, des sons, des textes, ou plus simplement des tableaux de nombres. De manière générale, toutes ces données peuvent être représentées par des vecteurs d’une certaine dimension d : \boldsymbol{x} \in\mathcal{X}\subset \mathbb{R}^d

Le choix des composantes de \boldsymbol{x} (les descripteurs) est très lié à l’application visée. Il est aussi possible d’utilier des techniques de sélection de variables ou de réduction de dimension pour construire des représentations \boldsymbol{x} plus efficaces.

Les étiquettes y\in\mathcal{Y} correspondent aux réponses attendues pour chaque entrée \boldsymbol{x}. Ainsi un exemple pour l’apprentissage supervisé est un couple entrée-sortie (\boldsymbol{x}, y). Les étiquettes peuvent prendre différentes formes qui définissent le type de problème considéré (et donc la famille d’algorithmes à utiliser).

Si les étiquettes sont discrètes (par ex. \mathcal{Y}= \{1, 2, 3\}), il s’agit d’un problème de classification ;
Si les étiquettes sont continues, \mathcal{Y}\subset\mathbb{R}, alors il s’agit d’un problème de régression.

En apprentissage supervisé, la base d’apprentissage contient des données étiquetées, c’est-à-dire des exemples d’entrées \boldsymbol{x}\in\mathcal{X} et de sorties y\in\mathcal{Y} associées : S = \{(\boldsymbol{x}_1, y_1), \dots, (\boldsymbol{x}_m, y_m)\} Ici, m représente la taille de la base d’apprentissage, ou encore, nombre d’exemples disponibles. En apprentissage, la base d’apprentissage S contient (souvent) les seules informations disponibles pour résoudre le problème.

5.2 Modèle de prédiction

À partir de ces données, un algorithme d’apprentissage construit un modèle de prédiction f : \mathcal{X}\to \mathcal{Y} qui est une fonction capable de prédire une valeur de y pour tout x\in\mathcal{X}. En réalité, l’algorithme se contente de choisir un modèle f parmi un ensemble de modèles possibles \mathcal{F}, avec comme objectif principal de choisir un modèle capable de généraliser, c’est-à-dire tel que \forall\ \boldsymbol{x}\in \mathcal{X},\quad f(\boldsymbol{x}) \overset{?}{=} y . Pour vérifier cette capacité, il est nécessaire de tester le modèle sur des données indépendantes de celles utilisées pour l’apprentissage.

5.3 Modélisation probabiliste de l’apprentissage

Pour développer des algorithmes et comprendre les phénomènes en jeu dans l’apprentissage, nous avons besoin d’une modélisation. Celle-ci sera probabiliste, car un objet central de l’étude est la généralisation des modèles, c’est-à-dire leur capacité à prédire correctement les étiquettes inconnues et il nous est donc impossible d’affirmer quoi que ce soit avec certitude. Cependant, les probabilités nous permettrons d’être assez confiant dans les résultats.

Pour commencer, nous considérons que tous les exemples (\boldsymbol{x},y), aussi bien ceux de la base d’apprentissage que ceux que nous ne rencontrerons que dans le futur, sont issus de tirages indépendants d’un couple de variables aléatoires (\boldsymbol{X},Y) \in \mathcal{X}\times \mathcal{Y}.

Cette hypothèse simple implique deux choses :

les données sont indépendantes, et donc la probabilité de voir un nouvel exemple d’une certaine forme ne dépend pas des exemples déjà observés (cette hypothèse permet de garantir que chaque nouvel exemple apporte un maximum d’information) ;
les données sont toutes issues de la même loi de probabilité, et donc ce qui définit intrinséquement le problème et les liens entre \boldsymbol{x} et y ne change pas au cours du temps ou d’un exemple à l’autre.

La seconde hypothèse permet de garantir que les exemples de la base d’apprentissage contiennent de l’information utile pour fournir des prédictions correctes sur les exemples futurs. Cela signifie aussi que l’apprentissage ne permettra pas de prédire l’imprévisible, ce qui est plutôt rassurant.

Enfin, il faut noter qu’en apprentisage, la loi de probabilité du couple (\boldsymbol{X},Y) est supposée inconnue. En effet, la connaissance de cette loi implique la connaissance des liens qui existent entre \boldsymbol{X} et Y il n’y aurait plus rien à apprendre.

5.4 Fonction de perte et risque

La capacité du modèle à généraliser est mesurée par son risque, aussi appelé erreur de généralisation et défini par R(f) = \mathbb{E}\ell(f, \boldsymbol{X}, Y) où \ell est la fonction de perte qui mesure l’erreur de prédiction commise par f sur un exemple (\boldsymbol{X},Y).

Ce risque, défini par une espérance, représente l’erreur moyenne sur l’ensemble de toutes les données possibles, pondérées par leur probabilité d’occurrence. Ainsi, un modèle commettant beaucoup d’erreurs sur des données très rares n’aura pas nécessairement un risque important.

La fonction de perte choisie dépend du problème considéré mais doit respecter les propriétés suivantes :

être positive : \ell(f, \boldsymbol{x}, y) \geq 0 pour tout f, \boldsymbol{x}, y ;
retourner une erreur nulle en cas de prédiction parfaite : f(\boldsymbol{x})=y \Rightarrow \ell(f,\boldsymbol{x}, y) = 0.

5.5 Objectif de l’apprentissage et risque empirique

L’objectif principal de l’apprentissage est donc de trouver une fonction \hat{f}\in\mathcal{F} qui minimise le risque R(f). Cependant, le risque ne peut pas être calculé sans la connaissance de la loi de probabilité du couple (\boldsymbol{X},Y) supposée inconnue.

La plupart des algorithmes d’apprentissage se contentent donc de minimiser une estimation du risque au lieu de R(f). À partir des données observées S=\left((\boldsymbol{x}_i, y_i)\right)_{1\leq i\leq m}, nous pouvons définir le risque empirique (aussi appelé erreur d’apprentissage), R_{emp}(f) = \frac{1}{m}\sum_{i=1}^m \ell(f,\boldsymbol{x}_i,y_i), et l’algorithme ERM (pour Minimisation du Risque Empirique en anglais) : \hat{f} = \arg\min_{f\in \mathcal{F}} R_{emp}(f) qui retient le modèle \hat{f} qui, parmi tous les modèles possibles de \mathcal{F}, donne la plus petite erreur moyenne sur la base d’apprentissage.

5.6 Paramètres et hyperparamètres

Les familles de modèles \mathcal{F} sont souvent (mais pas toujours) paramétriques, c’est-à-dire que chaque modèle f\in\mathcal{F} est défini par un nombre prédéfini de paramètres. Par exemple, l’ensemble des modèles linéaires ou affines de x\in\mathbb{R} est défini avec 2 paramètres libres : \mathcal{F}= \{ f : \ f(x) = wx + b, \ w\in\mathbb{R},\ b\in\mathbb{R}\} Choisir (w,b)\in\mathbb{R}^2 revient à choisir une fonction f\in\mathcal{F} et inversement. Les valeurs de ces paramètres sont donc déterminées par l’algorithme d’apprentissage.

À l’inverse, les hyperparamètres sont des paramètres d’un plus haut niveau qui influencent le modèle retenu au final mais qui ne peuvent pas être déterminés par l’algorithme lui-même, comme par exemple :

les paramètres de fonctionnement interne de l’algorithme (comme le nombre maximum d’itérations autorisées) ;
les paramètres de la classe de fonctions \mathcal{F} elle-même, comme par exemple le degré D pour l’ensemble des polynômes \mathcal{F}_D = \left\{ f : f(x) = \sum_{k=0}^D w_k x^k \right\}