Annexe D — Calcul différentiel

Le calcul différentiel s’intéresse aux variations de la sortie d’une fonction relativement aux variations de ses entrées.

Remarque: toutes les définitions ci-dessous sont données sous réserve d’existence des limites et de dérivabilité des fonctions.

D.1 Dérivée d’une fonction d’une variable

Le dérivée d’une fonction f(x) pour x\in\mathbb{R} est donnée par f'(x) = \frac{\text{d} f(x)}{\text{d} x} = \lim_{\delta\to 0 \atop \delta\neq 0}\frac{f(x+\delta) - f(x)}{\delta} et représente la variation observée en sortie de la fonction lors d’une infime variation de son entrée. C’est aussi la pente de la tangente à la courbe de f au point x.

D.2 Dérivées partielles et gradient d’une fonction de plusieurs variables

Pour une fonction de plusieurs variables, f(\boldsymbol{x}) = f(x_1, \dots, x_n), les dérivées partielles \frac{\partial f(\boldsymbol{x})}{\partial x_k} = \lim_{\delta\to 0 \atop \delta\neq 0}\frac{f(x_1,\dots, x_k +\delta,\dots, x_n) - f(\boldsymbol{x})}{\delta} représentent les variatons de la fonction lors d’infimes variations de ses entrées x_k considérées indépendamment les unes des autres.

Le gradient de cette fonction est le vecteur concatenant toutes les dérivées partielles : \frac{\text{d} f(\boldsymbol{x})}{\text{d} \boldsymbol{x}} = \begin{bmatrix}\frac{\partial f(\boldsymbol{x})}{\partial x_1}\\\vdots\\\frac{\partial f(\boldsymbol{x})}{\partial x_n}\end{bmatrix} Il correspond à la direction de la plus grande pente de la fonction.

La direction de la plus grande pente correspond plus précisément à la direction dans laquelle l’approximation linéaire de f au point \boldsymbol{x} (l’hyperplan tangent à la courbe) possède la plus grande pente, mesurée par le rapport entre la variation de la sortie et la variation de l’entrée, elle-même considérée au travers de la norme euclidienne de la variation \|\boldsymbol{\delta}\|.

L’approximation linéaire de f en \boldsymbol{x}_0 est \hat{f}(\boldsymbol{x}) = \left.\frac{\text{d} f(\boldsymbol{x})}{\text{d} \boldsymbol{x}}\right|_{\boldsymbol{x}=\boldsymbol{x}_0}^\top \boldsymbol{x}. Ainsi, \hat{f}(\boldsymbol{x}_0 + \boldsymbol{\delta}) - \hat{f}(\boldsymbol{x}_0) = \left.\frac{\text{d} f(\boldsymbol{x})}{\text{d} \boldsymbol{x}}\right|_{\boldsymbol{x}=\boldsymbol{x}_0}^\top \boldsymbol{\delta} et la direction \boldsymbol{u} = \arg\max_{\boldsymbol{\delta}\in\mathbb{R}^d} \frac{|\hat{f}(\boldsymbol{x}_0 + \boldsymbol{\delta}) - \hat{f}(\boldsymbol{x}_0)| }{\|\boldsymbol{\delta}\|} = \arg\max_{\boldsymbol{\delta}\in\mathbb{R}^d} \frac{\left|\left.\frac{\text{d} f(\boldsymbol{x})}{\text{d} \boldsymbol{x}}\right|_{\boldsymbol{x}=\boldsymbol{x}_0}^\top \boldsymbol{\delta}\right| }{\|\boldsymbol{\delta}\|} est donnée par \boldsymbol{u} = \left.\frac{\text{d} f(\boldsymbol{x})}{\text{d} \boldsymbol{x}}\right|_{\boldsymbol{x}=\boldsymbol{x}_0} (cas d’égalité de l’inégalité de Cauchy-Schwarz).

D.3 Matrice jacobienne

Lorsque l’on dérive une fonction à valeur vectorielle \boldsymbol{f}(\boldsymbol{x}) = \begin{bmatrix}f_1(\boldsymbol{x}) \\\vdots\\f_m(\boldsymbol{x})\end{bmatrix}\in\mathbb{R}^m par rapport à un vecteur \boldsymbol{x}\in\mathbb{R}^n de n variables, il existe m\times n dérivées partielles \frac{\partial f_i(\boldsymbol{x})}{\partial x_j}, i=1,\dots, m,\ j=1,\dots,n que l’on peut organiser dans un tableau à double entrée, ou une matrice, que l’on appelle la matrice jacobienne de \boldsymbol{f} : \frac{\text{d} \boldsymbol{f}(\boldsymbol{x})}{\text{d} \boldsymbol{x}} = \begin{bmatrix}\left(\frac{\text{d} f_1(\boldsymbol{x})}{\text{d} \boldsymbol{x}}\right)^\top \\\vdots\\\left(\frac{\text{d} f_m(\boldsymbol{x})}{\text{d} \boldsymbol{x}}\right)^\top \end{bmatrix} = \begin{bmatrix}\frac{\partial f_1(\boldsymbol{x})}{\partial x_1} & \dots & \frac{\partial f_1(\boldsymbol{x})}{\partial x_m}\\\vdots & & \vdots\\\frac{\partial f_m(\boldsymbol{x})}{\partial x_1} & \dots & \frac{\partial f_m(\boldsymbol{x})}{\partial x_m}\end{bmatrix} On remarque que chaque ligne de cette matrice n’est autre que la transposée du gradient d’une composante de \boldsymbol{f}.

D.4 Quelques règles utiles

D.4.1 Dérivation en chaîne

Si f est définie comme la composition de deux fonctions g : \mathbb{R}^d\to\mathbb{R} et h : \mathbb{R}\to\mathbb{R}, f(\boldsymbol{x}) = h(g(\boldsymbol{x})) = h(u) , \quad u=g(\boldsymbol{x}), alors sa dérivée et le produit des dérivées des deux fonctions g et h : \frac{\text{d} f(\boldsymbol{x})}{\text{d} \boldsymbol{x}} = \frac{\text{d} h(u)}{\text{d} u} \frac{\text{d} g(\boldsymbol{x})}{\text{d} \boldsymbol{x}}

D.4.2 Gradient d’un produit scalaire

Soit la fonction linéaire f(\boldsymbol{x}) = \boldsymbol{w}^T \boldsymbol{x} = \sum_{k=1}^d w_k x_k définie par un produit scalaire pour \boldsymbol{x}\in\mathbb{R}^d. Alors, son gradient correspond au vecteur des coefficients : \frac{\partial f(\boldsymbol{x})}{\partial x_k} = w_k,\quad k=1,\dots, d,\quad \Rightarrow \quad \frac{\text{d} f(\boldsymbol{x})}{\text{d} \boldsymbol{x}} = \boldsymbol{w} .

D.4.3 Gradient d’une fonction quadratique

Soit la fonction quadratique f(\boldsymbol{x}) = \|\boldsymbol{x}\|^2 = \boldsymbol{x}^T \boldsymbol{x} = \sum_{k=1}^d x_k^2 définie pour \boldsymbol{x}\in\mathbb{R}^d. Alors, son gradient se calcule ainsi : \frac{\partial f(\boldsymbol{x})}{\partial x_k} = 2 x_k,\quad k=1,\dots, d,\quad \Rightarrow \quad \frac{\text{d} f(\boldsymbol{x})}{\text{d} \boldsymbol{x}} = 2 \boldsymbol{x} .

D.4.4 Matrice jacobienne d’un produit matrice-vecteur

La dérivée de la fonction linéaire à valeur vectorielle
\boldsymbol{f}(\boldsymbol{x}) = \boldsymbol{A} \boldsymbol{x} = \begin{bmatrix}\boldsymbol{a}_1^T\\\vdots\\\boldsymbol{a}_n^T\end{bmatrix} \boldsymbol{x} = \begin{bmatrix}\boldsymbol{a}_1^T\boldsymbol{x}\\\vdots\\\boldsymbol{a}_n^T\boldsymbol{x}\end{bmatrix} = \begin{bmatrix}f_1(\boldsymbol{x})\\\vdots\\f_n(\boldsymbol{x})\end{bmatrix}, ou plutôt sa matrice jacobienne, est \boldsymbol{A} car \frac{\text{d} f_i(\boldsymbol{x})}{\text{d} \boldsymbol{x}} = \boldsymbol{a}_i d’après la règle de dérivation des produits scalaires.