vendredi 13 août 2010

Echantillonnage par méthode des quotas

Ou pourquoi les sondages journalistiques sont souvent faux :-)...

Il est admis par les statisticiens qu'une méthode fiable d'échantillonnage est la l'échantillonnage randomisé. (On prend un échantillon de manière aléatoire dans la population). Cette méthode dit d'échantillonnage probabiliste est plus coûteuse, plus complexe à mettre en place mais donne une très bonne précision en terme d'erreur puisqu'il est possible de calculer la probabilité d'inclusion de chaque unité dans l'échantillon.
Si l'échantillon pris est aléatoire il représentera d'ailleurs les caractéristiques de la population d'origine. Si ce n'est pas le cas c'est que l'on a un sérieux problème.

Il existe toutefois des méthodes d'échantillonnage dites non probabilistes, en particulier la méthode dites des quotas.
Cette méthode est très employée pour constituer les sondages lus dans les médias. L'idée consiste à créer un échantillon disposant des même propriétés que la population mère.
Cette méthode n'est pas aléatoire, il est impossible de calculer la probabilité d'inclusion d'une unité dans l'échantillon. Cela signifie qu'il est difficile d'établir une marge d'erreur.
On définit le % des critères choisis, ensuite on tire au hasard des individus selon la proportion définie dans l'échantillon.
Cette méthode repose sur l'hypothèse que l'information que l'on souhaite obtenir est corréléeé avec la population. (Ce qui n'est pas toujours vrai).

Autre petit détail, dans beaucoup de cas les sondages se font de manière téléphonique en général durant les heures de bureau. Cela aussi peut donner un biais non négligeable, si la sous population dans laquelle vous tiré les sujets est constituées uniquement de femmes au foyer, de personnes sans emplois ou de pensionnés, cela n'est pas forcément représentatif de toute la population. Donc risque de biais non négligeable.

Tout cela pour dire, mais ça vous le saviez déjà qu'il ne faut pas avoir une confiance aveugle dans les sondages effectués dans les journaux...

Sources:
Echantillonnage probabiliste
Echantillonnage par la méthode des quotas

mercredi 11 août 2010

Mensonges statistiques (I)

Dans un article de la libre d'aujourd'hui on nous annonce fièrement:

"L'important patrimoine des familles belges n'est pas tellement imputable aux placements à succès mais au comportement enthousiaste des Belges pour l'épargne. Une famille belge moyenne possède 156.000 euros d'épargne et de placements."

En moyenne une famille belge possède 156.000 euros.

Vraiment ?
Dans un tel cas de figure la moyenne est sans doute le plus mauvais indicateur car elle a tendance à être influencée par les valeurs extrêmes. Evidemment comme dans tout article se référant aux stats nous n'avons pas la distribution. D'où difficulté d'analyser, toutefois voyons cela via un exemple.

Quelqu'un décide d'entrer dans une entreprise de dix personnes et l'on clamme que le salaire moyen est de 3700 euros brut. Heureux notre nouvel employé travail avec zèle et lors de son premier salaire il touche 1000 euros, stuppeur et tremblements...
Notre jeune ami s'est retrouvé floué pour la simple raison que si la distribution des salaires est la suivante:
1000,1000,1000,1000,1000,1000,1000,10000,10000,10000.
Soit 7 employés gagnent 1000 euros
3 managers (CEO,PDG,actionnaire) gagnent 10000 euros soit dix fois plus que les autres.
Alors, la moyenne salariale est bien de 3700 euros, toutefois elle est fortement influencée par les 3 gros salaires des managers. Donc, son salaire sera assez éloigné de 3700 euros.

Dans un tel cas de figure pour être honnête il vaut mieux utiliser la médianne (valeur de l'effectif à la moitié de la distribution ordonnée) et là nous aurions bien trouvé 1000 euros. Notez quand dans le cas d'une distribution normale ça ne pose pas vraiment de problème puisque la moyenne est égale à la médiane.

Dans le cas de l'épargne ci dessus, ce sera semblable car je doute personnellement que la distribution soit normale. La moyenne sera probablement influencée par les gros épargnants qui sont loin de représenter la grosse majorité. Quelqu'un d'honnête aurait donc donné la médiane plus proche de l'épargne réelle plutôt qu'une épargne moyenne fantasmée et certainement surévaluée...

lundi 2 août 2010

SQL-Server Load-Unload

Il existe une commande "DOS" bien pratique pour décharger le contenu d'une table dans un fichier texte. Ce déchargement se fait à une vitesse assez incroyable:

c:\bcp <dbname>..<tablename> out <c:\file.unl> -n -S <server-ip> -U <user> -P <password>

Ex:
c:\bcp txsoct..tblAudit out c:\test.unl -n -S localhost -U toto -P keep_the_secret

L'opération réciproque existe également et permet de recharger une table à une vitesse relativement grande.

c:\bcp <dbname>..<tablename> in <c:\file.unl> -n -S <server-ip> -U <user> -P <password>
Ceci peut s'avérer quelquefois bien utile !