Les transformations de Box-Cox sont généralement utilisées en régression linéaire pour tenter de corriger :
- la non-linéarité d'un régresseur
- l'hétéroskédasticité des résidus.
- corriger la normalité de la distribution d'une variable (ex: distribution log-normale d'une variable X dont il faut corriger la normalité qui donne une distribution Y qui elle est normale).
Plutôt que de mettre ce régresseur tel quel dans le modèle, on peut le mettre au carré ou prendre son logarithme. La transformation de Box-Cox est une méthode de généralisation de cette approche.
Elle est donnée par l'équation:
Ta(y)=[(y^a)-1]/a
pour a>0
On peut aisément montrer que pour la limite a=0, la transformation de Box-Cox revient à prendre le logarithme de y.
Rappel du calcul des dérivées:
Si y=a^x alors
log(y)=xlog(a)
On différencie les deux membres de l'égalité
dy/y=1*log(a)*dx
dy/dx=y*log(a)
avec y=a^x
dy/dx=a^x*(log(a))
Appliqué à la transformation de Box-Cox cela nous donne:
lim (a->0) [(y^a)-1]/a
On applique la règle de l'Hospital car il s'agit de la recherche de limite d'un quotient. Remarquez que l'on dérive par rapport à a.
par la démonstration précédente, au numérateur il reste : ((y^a)-1)'=(y^a*log(y)-0)
Au dénomiteur la dérivée de a par rapport à a vaut 1. Il reste:
lim (a->0) Ta(y)=y^a*logy=y^0logy=logy.
Le cas particulier d'un transformation de Box-Cox sur une variable avec un a=0 revient à prendre le logarithme de cette variable.
Inscription à :
Publier les commentaires (Atom)
La transformation proposée par George Box et David Cox est également appliquée lorsque l'on se propose de rendre gaussienne, une variable qui, au préalable n'était pas normalement distribuée. Ainsi, par exemple, si X n'est pas gaussienne, une transformation Box-Cox, permet d'obtenir une variable Y qui serait normalement distribuée.
RépondreSupprimerJean - Paul Tsasa V. Kimbambu /Univ. Prot. au Congo
Merci Jean-Paul, c'est tout à fait juste. Un cas archi connu est la distribution log normale qui appliquée à uen variable donne une distribution normale. Cette distributionn rejoins le cas particulier a=0.
RépondreSupprimerJe fais l'update dans le billet, merci de l'avoir souligné.