Les transformations de Box-Cox sont généralement utilisées en régression linéaire pour tenter de corriger :
- la non-linéarité d'un régresseur
- l'hétéroskédasticité des résidus.
- corriger la normalité de la distribution d'une variable (ex: distribution log-normale d'une variable X dont il faut corriger la normalité qui donne une distribution Y qui elle est normale).
Plutôt que de mettre ce régresseur tel quel dans le modèle, on peut le mettre au carré ou prendre son logarithme. La transformation de Box-Cox est une méthode de généralisation de cette approche.
Elle est donnée par l'équation:
T
a(y)=[(y^
a)-1]/
apour
a>0On peut aisément montrer que pour la limite
a=0, la transformation de Box-Cox revient à prendre le logarithme de y.
Rappel du calcul des dérivées:
Si y=a^x alors
log(y)=xlog(a)
On différencie les deux membres de l'égalité
dy/y=1*log(a)*dx
dy/dx=y*log(a)
avec y=a^x
dy/dx=a^x*(log(a))
Appliqué à la transformation de Box-Cox cela nous donne:
lim (
a->0) [(y^
a)-1]/
aOn applique la règle de l'Hospital car il s'agit de la recherche de limite d'un quotient. Remarquez que l'on dérive par rapport à
a.par la démonstration précédente, au numérateur il reste : ((y^
a)-1)'=(y^
a*log(y
)-0)
Au dénomiteur la dérivée de
a par rapport à
a vaut 1. Il reste:
lim (
a->0) T
a(y)=y^
a*logy=y^0logy=logy.
Le cas particulier d'un transformation de Box-Cox sur une variable avec un
a=0 revient à prendre le logarithme de cette variable.