Annexe B — Probabilités
Pour parler de probabilités, il faut une expérience aléatoire à partir de laquelle on définit un espace probabilisé.
B.1 Espace probabilisé
C’est un triplet (\Omega, \mathcal{A}, P) muni de
un univers \Omega : l’ensemble de tous les résutlats d’expérience possibles
une tribu (\sigma-algèbre) \mathcal{A} de \Omega : l’ensemble de tous les sous-ensembles « raisonnables » de \Omega
tel que i) \Omega\in \mathcal{A}, ii) A\in \mathcal{A} \Rightarrow \overline{A} = (\Omega\setminus A) \in\mathcal{A}, iii) A, B \in \mathcal{A} \Rightarrow A\cup B \in \mathcal{A}, iv) si A_i\in \mathcal{A} pour tout i\in\mathbb{N} alors \cup_{i\in\mathbb{N}} A_i \in \mathcal{A}une mesure de probabilité P : fonction associant une probabilité entre 0 et 1 à un événement
P : \mathcal{A} \rightarrow [0,1] telle que- P(\Omega) = 1 et P(\emptyset) = 0
- Pour un nombre fini d’événements A_i disjoints : P(\bigcup_i A_i) = \sum_i P(A_i)
Propriétés de base :
- P(\overline{A}) = 1 - P(A) avec \overline{A} = \Omega \setminus A
- P(A\cup B) = P(A) + P(B) - P(A\cap B)
- Si A et B disjoints : P(A\cup B) = P(A) + P(B)
On a aussi la borne de l’union P(A\cup B) \leq P(A) + P(B) \tag{B.1} car P(A\cap B)\geq 0.
B.2 Variables aléatoires (v.a.)
Une variable aléatoire réelle X est une fonction associant une valeur numérique au résultat d’une expérience
X : \Omega \rightarrow \mathbb{R} Pour A \subseteq \mathbb{R}, l’ensemble des résultats d’expérience conduisant à une valeur de la v.a. dans A est un événement : \{\omega\in\Omega\ |\ X(\omega) \in A\} \in \mathcal{A} Notations :
- On notera simplement X pour X(\omega) et \{X\in A\} pour \{\omega\in\Omega\ |\ X(\omega) \in A\}.
- Les v.a. sont toujours notées en majuscules et les minuscules représentent des valeurs prises par les variables aléatoires.
La loi d’une variable aléatoire est une mesure de probabilité P_X sur \mathbb{R} telle que P_X(A) = P(X\in A)
Par exemple, si \Omega est l’ensemble des étudiants dans une salle et que l’expérience consiste à tirer un étudian au hasard, alors on peut définir la variable aléatoire X qui mesure la taille de l’étudiant tiré en cm. Ainsi, la loi de X pour l’intervalle [170,180], P_X([170,180]) = P(X\in[170, 180]), correspond à la probabilité de tirer un étudiant qui mesure entre 170cm et 180cm.
Une v.a. discrète Y ne peut prendre qu’un nombre fini de valeurs distinctes : Y\in \mathcal{Y}= \{y_k\}_{1\leq k\leq n} La loi P_Y d’une v.a. discrète est donnée par la somme des probabilités de chacune des valeurs possibles : P_Y(A) = \sum_{y \in \mathcal{Y}\cap A} P(Y = y)
Une v.a. continue X prend ses valeurs dans \mathbb{R} et possède une densité de probabilité p : \mathbb{R}\rightarrow \mathbb{R}^+ telle que P_X(A) = P(X\in A) = \int_A p(x) dx Remarque : \text{pour } a\in\mathbb{R},\quad P_X(a) = P(X = a) = \int_a^a p(x) dx = 0
B.3 Espérance
L’espérance d’une v.a. correspond à la valeur qu’elle prend en moyenne sur une infinité de tirages. Elle peut être calculée :
- pour une v.a. discrète par \mathbb{E}[Y] = \sum_{y \in \mathcal{Y}} y\, P(Y=y)
- pour une v.a. continue par \mathbb{E}[X] = \int_{\mathbb{R}} x\,p(x)\,dx
On peut aussi calculer l’espérance d’une fonction de variables aléatoires : \mathbb{E}[f(Y)] = \sum_{y\in\mathcal{Y}} f(y)\, P(Y=y) \mathbb{E}[f(X)] = \int_{\mathbb{R}} f(x)\,p(x)\,dx
B.3.1 Propriétés
L’espérance est linéaire : \mathbb{E}[ aX ] = a\mathbb{E}[X]\quad et\quad \mathbb{E}[X + Y] = \mathbb{E}[X] + \mathbb{E}[Y]
Pour deux v.a. indépendantes : \mathbb{E}X Y = (\mathbb{E}X) (\mathbb{E}Y)
Pour des v.a. discrètes : \begin{align*} \mathbb{E}XY &= \sum_{(x,y) \in \mathcal{X}\times\mathcal{Y}} xy P(X=x,Y=y) \\ &=\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}} xy\ P(X=x)P(Y=y) \\ &= \sum_{x\in\mathcal{X}}x P(X=x) \sum_{y\in\mathcal{Y}} y P(Y=y) \\ &= \left(\sum_{x\in\mathcal{X}}x P(X=x)\right)\left( \sum_{y\in\mathcal{Y}} y P(Y=y) \right)\\ &= (\mathbb{E}X)(\mathbb{E}Y) \end{align*}
B.3.2 Inégalité de Jensen
Si la fonction \varphi : \mathbb{R}\to\mathbb{R} est convexe, alors \mathbb{E}\varphi(X) \geq \varphi(\mathbb{E}X) Inversement, si la fonction \varphi : \mathbb{R}\to\mathbb{R} est concave, alors \mathbb{E}\varphi(X) \leq \varphi(\mathbb{E}X)
B.4 Variance et covariance
La variance d’une variable aléatoire X mesure la dispertion de cette variable, au sens de l’écart moyen entre X et son espérance au carré : Var(X) = \mathbb{E}(X - \mathbb{E}X)^2
La covariance de deux v.a. X_1 et X_2 est Cov(X_1, X_2) = \mathbb{E}\left[ (X_1 - \mathbb{E}X_1) (X_2 - \mathbb{E}X_2) \right]
B.4.1 Propriétés
Var(X) = \mathbb{E}(X^2) - (\mathbb{E}X)^2
Notons que \mathbb{E}X est un nombre, et donc une constante du point de vue de l’espérance. Ainsi : \begin{align*} \mathbb{E}(X - \mathbb{E}X)^2 &= \mathbb{E}(X^2) - 2 \mathbb{E}[ X \mathbb{E}X] + \mathbb{E}[(\mathbb{E}X)^2] \\&= \mathbb{E}(X^2) -2 \mathbb{E}X\mathbb{E}X + (\mathbb{E}X)^2 \\&= \mathbb{E}(X^2) - (\mathbb{E}X)^2 \end{align*}
Pour deux v.a. indépendantes :
Cov(X, Y) = 0
\begin{align*} Cov(X_1,X_2) &= \mathbb{E}[(X_1-\mathbb{E}X_1) (X_2-\mathbb{E}X_2) ] \\&= \mathbb{E}[ X_1X_2 - X_1 \mathbb{E}X_2 - X_2 \mathbb{E}X_1 + \mathbb{E}X_1 \mathbb{E}X_2 ] \\& = \mathbb{E}[ X_1X_2 ] - \mathbb{E}X_1 \mathbb{E}X_2 - \mathbb{E}X_2 \mathbb{E}X_1 + \mathbb{E}X_1 \mathbb{E}X_2 \\&= \mathbb{E}[X_1 X_2] - \mathbb{E}X_1 \mathbb{E}X_2\\ &= 0 \end{align*} car, pour X_1 et X_2 indépendantes, \mathbb{E}X_1X_2 = \mathbb{E}X_1 \mathbb{E}X_2.
Pour deux v.a. indépendantes, on a aussi
Var(X_1 + X_2) = Var(X_1) + Var(X_2)
De manière générale :
Var(X_1 + X_2) = Var(X_1) + Var(X_2) + 2 Cov(X_1,X_2)
\begin{align*} Var(X_1+X_2) &= \mathbb{E}(X_1+X_2 - \mathbb{E}X_1 -\mathbb{E}X_2)^2 = \mathbb{E}[(X_1-\mathbb{E}X_1) + (X_2 - \mathbb{E}X_2)]^2\\ & = \mathbb{E}[ (X_1-\mathbb{E}X_1)^2 + (X_2-\mathbb{E}X_2)^2 + 2 (X_1-\mathbb{E}X_1) (X_2-\mathbb{E}X_2) ]\\ &= Var(X_1) + Var(X_2) + 2\mathbb{E}[(X_1-\mathbb{E}X_1) (X_2-\mathbb{E}X_2) ] \end{align*}
La variance d’une v.a. bornée est aussi bornée : pour X\in[a,b] : Var(X) \leq \frac{(b-a)^2}{4}
Premièrement, \forall x,\quad Var(X) \leq \mathbb{E}(X - x)^2 car f(x)=\mathbb{E}(X - x)^2= (\mathbb{E}X)^2 -2x\mathbb{E}X + x^2 est une fonction quadratique de x qui atteint son minimum au point où \frac{\text{d} f(x)}{\text{d} x} = 0, c’est-à-dire lorsque -2\mathbb{E}X + 2 x) = 0 et donc x=\mathbb{E}X et f(x)=Var(X).
Il suffit maintenant de choisir x=(b-a)/2 pour obtenir Var(X) \leq f(x)=\mathbb{E}(X-(b-a)/2))^2, où, avec X\in[a,b], |X-(b-a)/2| \leq (b-a)/2 et donc f(x)\leq (b-a)^2/4.
B.5 Indicatrice
La fonction indicatrice agit comme un test et retourne 0 ou 1 : \mathbf{1}(X \in A) = 1 si l’événement X\in A est observé, 0 sinon.
L’espérance de l’indicatrice d’un événement est la probabilité de l’événement : \mathbb{E}_Y [ \mathbf{1}(Y\in A)] = \sum_{y\in\mathcal{Y}} \mathbf{1}(Y\in A)P(Y=y) = \sum_{y\in \mathcal{Y}\cap A} P(Y=y) = P_Y(A) et en continu : \mathbb{E}_X [ \mathbf{1}(X\in A)] = \int_{\mathbb{R}} \mathbf{1}(X\in A)\,p(x)\,dx = \int_{A} 1\,p(x)\,dx + \int_{\overline{A}} 0\,p(x)\,dx = P_X(A)
B.6 Couples de variables aléatoires
Un couple de v.a. discrètes (X,Y) \in\mathcal{X}\times\mathcal{Y}, |\mathcal{X}|<\infty, |\mathcal{Y}|<\infty, a une loi de probabilité P_{X,Y} qu’on appelle loi jointe du couple et qui donne pour chaque ensemble de couples de valeurs A\subseteq \mathcal{X}\times \mathcal{Y}, la probabilité d’observer des couples (X,Y) dans cet ensemble :
P_{X,Y}(A) = P((X,Y)\in A) = \sum_{(x,y)\in A} P(X=x, Y=y)
(la virgule dans l’argument de la probabilité représente ici un ET entre deux conditions)
L’espérance par rapport à un couple se calcule de manière similaire au cas à une seule variable, simplement en moyennant sur des couples de valeurs : \mathbb{E}_{(X,Y)}[f(X,Y)] %\sum_{(x,y)\in \X\times\Y}\ f(x,y)\, P_{X,Y}(x,y) = \sum_{(x,y)\in \mathcal{X}\times\mathcal{Y}}\ f(x,y)\, P(X=x,Y=y)
Un couple de v.a. continues (X,Y) \in \mathcal{X}\times\mathcal{Y}\subseteq \mathbb{R}^2 possède une loi jointe de densité p_{X,Y}(x,y) qui est une fonction de deux variables, avec toujours la même relation à la loi de probabilité : pour A\subseteq \mathcal{X}\times \mathcal{Y}, P_{X,Y}(A) = P((X,Y)\in A) = \int_{A} p_{X,Y}(x,y)\, dx dy L’espérance se calcule comme une somme double selon les deux axes correspondant aux deux variables : \mathbb{E}_{(X,Y)}[f(X,Y)] = \iint_{\mathbb{R}^2}\ f(x,y)\, p_{X,Y}(x,y)\ dx dy
B.7 Probabilités conditionnelles
- Probabilité de A sachant B : P(A | B) = \frac{P(A, B)}{P(B)}
(si P(B)\neq 0) - Pour des v.a. discrètes : P(X=x | Y=y) = \frac{P(X=x, Y=y)}{P(Y=y)}
- Pour des v.a. continues : p_{X|Y}(x | y) = \frac{p_{X,Y}(x,y)}{p_Y(y)}
P(X=x | Y=y) est une loi de probabilité sur X dont la définition dépend de la valeur de y. Ainsi, pour y fixé, P(X=x | Y=y) respecte les mêmes propriétés qu’une probabilité classique. Par exemple, \sum_{x\in\mathcal{X}} P(X=x | Y=y) = 1.
B.8 Factorisation d’une loi jointe
Il est possible d’exprimer la loi jointe d’un couple à partir d’une probabilité conditionnelle. Cette « factorisation » s’obtient en faisant passer le dénominateur de l’autre côté dans la définition dans la probabilité conditionnelle :
- En discret : P(X=x, Y=y) = P(X=x | Y=y) P(Y=y) = P(Y=y | X=x) P(X=x)
- En continu : p_{X,Y}(x,y) = p_{X|Y}(x|y)\, p_Y(y) = p_{Y|X}(y|x)\, p_X(x)
B.9 Lois marginales
Les lois marginales correspondent aux lois des variables considérées seules (par ex. P(X=x) est une loi marginale pour le couple (X,Y)). Celles-ci peuvent être calculées à partir de la loi jointe grâce à la loi des probabiltés totales : P(X=x) = \sum_{y\in \mathcal{Y}} P(X=x, Y=y)
B.10 Règle de Bayes
En écrivant les définitions des deux probabilités conditionnelles P(X=x | Y=y) et P(Y=y| X=x), on retrouve la règle de Bayes qui permet d’exprimer l’une en fonction de l’autre : P( Y=y | X=x) = \frac{P(X=x, Y=y)}{P(X=x)} \Rightarrow \text{factorisation }P(X=x, Y=y) = P(Y=y | X=x) P(X=x) P(X=x | Y=y) = \frac{P(X=x, Y=y)}{P(Y=y)} et donc P(X=x | Y=y) = \frac{P(Y=y | X=x) P(X=x)}{P(Y=y)}
B.11 Indépendance
Deux v.a. X et Y sont indépendantes si et seulement si P(X=x, Y=y) = P(X=x)P(Y=y) Ainsi, pour deux variables indépendantes, connaître la valeur de l’une d’elles n’influence pas la probabilité de la seconde : P(X=x | Y=y) = \frac{P(X=x, Y=y)}{P(Y=y)} = \frac{P(X=x)P(Y=y)}{P(Y=y)} = P(X=x)
Les variables X et Y sont conditionnellement indépendantes sachant Z si et seulement si P(X=x, Y=y | Z=z) = P(X=x | Z=z) P( Y=y | Z=z)
L’indépendance conditionnelle n’implique pas forcément l’indépendance simple et vice versa. Nous verrons quelques exemples avec les réseaux bayésiens.
B.12 Espérance conditionnelle
L’espérance conditionnelle \mathbb{E}[ X | Y] est une variable aléatoire, fonction de la variable aléatoire Y. Elle correspond à une approximation de X contrainte à des valeurs constantes sur les sous-ensembles de \Omega où Y est constante.
La notation \mathbb{E}[ X | Y=y] fait référence à la valeur que prend cette fonction en Y=y.
Le théorème de l’espérance totale garantie que \mathbb{E}\mathbb{E}[X | Y] = \mathbb{E}X ou encore, que \mathbb{E}f(X,Y) = \mathbb{E}\mathbb{E}[ f(X,Y) | Y ]