Saisir un mot clé:
 
 

régression_linéaire

Ce site est un miroir du site http://fr.wikipedia.org/wiki/Accueil

google_ad_height = 15; google_ad_format = "728x15_0ads_al"; google_ad_channel =""; google_color_border = "f9f9f9"; google_color_bg = "FFFFFF"; google_color_link = "0000FF"; google_color_url = "008000"; google_color_text = "000000"; //-->

Un article de Wikipedia.y-project.com.


On a représenté dans un graphe, un ensemble de points (Mi(xi,yi))i = 1...n représentant des mesures d'une grandeur y en fonction d'une autre x, telles que la taille (yi) des enfants en fonction de leur âge (xi).

Les points <math>M_i </math> paraissent alignés. On peut alors tenter une régression linéaire, c'est-à-dire chercher la droite D dont l'équation est <math>y = a x + b</math> qui passe au plus près des points <math>M_i</math>.

Passer au plus près, selon la méthode des moindres carrés, c'est rendre minimale la somme :

<math>\sum_^n (y_i-ax_i-b)^2</math> des distances des points expérimentaux originaux à la droite calculées comme la meilleure. Cela revient donc à déterminer les valeurs des paramètres <math>a</math> et <math>b</math> (respectivement le coefficient directeur de la droite et son ordonnée à l'origine) qui minimisent la somme ci-dessus.

Sommaire

[] Formules à connaître

  • La moyenne des <math>x_i = \overline=\frac\sum_^n x_i</math>
  • La moyenne des <math>y_i = \overline=\frac\sum_^n y_i</math>
  • Le point moyen G a pour coordonnées <math>(\overline,\overline)</math>
  • La variance des <math>x_i = V(x) =\frac\sum_^n (x_i-\overline)^2 = \overline-}^2</math> <mnémonique : la moyenne des carrés moins le carré de la moyenne>
  • l'écart type des <math>x_i =\sigma_x= \sqrt</math>
  • La variance des <math>y_i = V(y) =\frac\sum_^n (y_i-\overline)^2 = \overline-}^2</math> <mnémonique : la moyenne des carrés moins le carré de la moyenne>
  • l'écart type des <math>y_i =\sigma_y= \sqrt</math>
  • La covariance des <math>x_i ,y_i= cov(x,y) =\frac\sum_^n (x_i-\overline)(y_i-\overline) = \overline-\overline.\overline</math> <mnémonique : la moyenne des produits moins le produit des moyennes>

[] Résultat de la régression

La droite rendant minimale la somme précédente passe par le point G et a pour coefficient directeur <math>\frac</math>. Son équation est donc:

<math>y=\frac(x-\overline)+\overline</math>

[] Coefficient de corrélation linéaire

On peut aussi chercher la droite D' : x=a'y + b' qui rende minimale la somme :

<math>\sum_^n (x_i-a'y_i-b')^2</math>

On trouve alors une droite qui passe aussi par le point moyen G et telle que a' = <math>\frac</math>. On souhaite évidemment tomber sur la même droite. Ce sera le cas si et seulement si a' = 1/a, c'est-à-dire si aa' = 1. Les droites sont confondues si et seulement si <math>\frac=1</math> c'est-à-dire si et seulement si <math>\frac =\pm 1</math>

On appelle cette quantité <math>\frac </math> le coefficient de corrélation linéaire entre x et y. On peut démontrer que ce nombre est toujours compris entre -1 et 1.

En pratique sa valeur absolue est rarement égale à 1, mais on estime généralement que l'ajustement est valide dès que ce coefficient a une valeur absolue supérieure à <math>\sqrt/2</math>

[] Démonstration des formules par étude d'un minimum

Pour tout réel a, on pose <math>f_a(b) = \sum_^n (y_i-ax_i-b)^2</math>. Il suffit de développer et ordonner ce polynôme du second degré en b. On obtient:

<math>f_a(b) = nb^2-2b\left(\sum_^n (y_i-ax_i)\right)+ \sum_^n (y_i-ax_i)^2</math>

Ce polynôme atteint son minimum en

<math>b = \frac\sum_^n (y_i-ax_i) = \overline - a\overline</math>

Ce qui signifie que la droite passe par le point moyen G

Il reste à remplacer dans la somme de départ, b par cette valeur.

Pour tout réel a, <math>S(a) = \sum_^n ((y_i-\overline) - a(x_i-\overline))^2</math>. Il suffit de développer et ordonner ce polynôme du second degré en a. On obtient

<math>S(a) = \left(\sum_^n (x_i-\overline)^2\right)a^2 - 2a\sum_^n (x_i-\overline)(y_i-\overline) + \sum_^n (y_i - \overline)^2 </math>
<math>S(a)= n\times V(x)\times a^2-2a\times n\times cov(x,y) + n\times V(y) </math>.

Ce polynôme atteint son minimum en

<math>a=\frac</math>

La droite de régression est bien la droite passant par G et de coefficient directeur <math>a=\frac</math>.

[] Démonstration des formules grâce aux espaces vectoriels de dimension n

Dans l'espace <math>\mathbb^n</math>, muni du produit scalaire canonique, on considère le vecteur X de coordonnées <math>(x_1,x_2,...,x_n)</math>, le vecteur Y de coordonnées <math>(y_1,y_2,...,y_n)</math>, le vecteur U de coordonnées (1, 1, ..., 1).

On peut remarquer que

  • <math>X.U = n\overline</math>
  • <math>Y.U = n\overline</math>
  • <math>||X-\overlineU||^2 = n.V(x)</math>
  • <math>||Y-\overlineU||^2 = n.V(y)</math>
  • <math>(Y-\overlineU).(X-\overlineU)=n.cov(x,y)</math>

On note alors <math>\overline</math> le vecteur <math>\overlineU</math> et <math>\overline</math> le vecteur <math>\overlineU</math>

Le vecteur Z de coordonnées <math>(ax_1+b, ax_2+b,...,ax_n+b)</math> appartient à l'espace vectoriel engendré par X et U.

La somme <math>\sum_^n (y_i-ax_i-b)^2</math> représente le carré de la norme du vecteur <math>Y-Z</math>.

Cette norme est minimale si et seulement si Z est le projeté orthogonal de Y dans l'espace vectoriel vect(X,U)

Z est le projeté de Y dans l'espace vectoriel vect(X,U) si et seulement si <math>(Z-Y).U=0</math> et <math>(Z-Y).(X - \overline)=0</math>.

Or <math>(Z-Y).U=aX.U+bU^2-Y.U=n(a\overline+b-\overline)</math> donc (Z-Y).U=0 signifie que <math>b= \overline - a\overline</math>.

En remplaçant dans <math>(Z-Y).(X - \overline)</math>, on obtient

<math>(a(X-\overline)-(Y-\overline)).(X - \overline) = naV(x) - ncov(x,y)</math> donc <math>(Z-Y).(X - \overline)=0</math> signifie que <math>a = \frac</math>

Enfin le coefficient de corrélation linéaire s'écrit alors <math>\frac).(Y-\overline)}||\times||Y-\overline||}</math>. Cette quantité représente le cosinus de l'angle formé par les vecteurs <math>X-\overline</math> et <math>Y-\overline</math>.

On retrouve alors les résultats suivants:

  • si le coefficient de corrélation linéaire est 1 ou -1, les vecteurs <math>X-\overline</math> et <math>Y-\overline</math> sont colinéaires de coefficient de colinéarité <math>a</math> et <math>Y = aX + \overline-a\overline</math>. L'ajustement linéaire est parfait.
  • si le coefficient de corrélation linéaire est en valeur absolue supérieur à <math>\sqrt/2</math> alors l'angle formé par les deux vecteurs est compris entre <math>-\pi/6</math> et <math>\pi/6</math> ou entre <math>5\pi/6</math> et <math>7\pi/6</math>.

[] Voir aussi

 
Le Texte ci-dessus est disponible sous GNU Free Documentation License.
La source est wikipedia http://fr.wikipedia.org/wiki/régression linéaire
Home

Données
A la une
Articles
Formatons en lignes
Téléchargement
Licence GNU
Encyclopedie
Portail logiciels libres

Partenaires

beyrouthsurseine.com
Sonnerie & Logos
Photos-Video
Ringtones-Sonnerie
Actualite.org
Terrain tennis

  
Décembre 2008
L
M
M
J
V
S
D
1234567
891011121314
15161718192021
22232425 262728
293031
     
Tous les Logos et Marques sont déposés, les commentaires sont sous la responsabilité de ceux qui les ont publiés, le reste © technicmania.com