Échantillon biaisé

Un article de Wikipédia, l'encyclopédie libre.

En statistiques, le mot biais a un sens précis qui n'est pas tout à fait le sens habituel du mot.

Un échantillon biaisé est un ensemble d'individus d'une population, censé la représenter, mais dont la sélection des individus a introduit un biais qui ne permet alors plus de conclure directement pour l'ensemble de la population. Un échantillon biaisé n'est donc pas un échantillon de personnes biaisées (bien que ça puisse être le cas) mais avant tout un échantillon sélectionné de façon biaisée.

L'échantillon biaisé n'est pas toujours destiné à tromper : en 1936, dans les premières tentatives de sondages, le magazine américain Literary Digest a appelé deux millions de numéro de téléphone au hasard en questionnant les gens sur le résultat des élections. La prédiction fut incorrecte car, à cette époque, les possesseurs de téléphone n'étaient pas représentatifs de l'électorat, car réservés à une certaine partie de la population. En revanche, un échantillon de seulement 50 000 personnes sélectionnées par l'institut George Gallup a correctement prédit le résultat, accroissant ainsi la popularité de la méthode Gallup.

Cet exemple est en fait toujours d'actualité pour les sondages car les personnes ayant un téléphone et qui sont présentes à leur domicile à l'heure d'appel correspond à une certaine partie de la population qui n'est pas nécessairement représentative de l'ensemble de la population. Ces biais peuvent également s'introduire pour des sondages classiques au porte à porte car les personnes présentent à leur domicile à un certain horaire et qui veulent bien répondre au sondage correspond déjà à une partie de la population que l'on a implicitement sélectionnée. Ces résultats bruts doivent alors être redressés pour compenser ce biais.

[modifier] Exemples

Réaliser un sondage sur la popularité d'un parti à la sortie d'une réunion de ce parti ne peut que donner des résultats trompeurs.
Un instituteur qui demande si son cours est intéressant aux élèves du premier rang aura des résultats erronés car il n'aura l'avis que d'élèves travailleurs, sans prendre en compte les cancres du fond de la classe.
Estimer la qualité d'un produit ou d'une technologie en fonction de la promotion qui est faite autour d'où une popularité imméritée et temporaire.
Evaluer la popularité d'une cause en fonction du nombre de personnes qui assistent à un concert gratuit d'une vedette est également trompeur
Par définition, les hôpitaux et les médecins voient des gens malades, parmi lesquels, très probablement, plus de gens qui mangent trop, qui boivent, qui fument et qui ne font pas d'exercice, que dans la population en général.
Evaluer le revenu et plus généralement la qualité de vie des artistes (ou des sportifs, ou des patrons) par référence à celui des quelques stars médiatiques qui, par définition, ont connu le succès, ne peut conduire qu'à une surestimation et à des déconvenues (pour des jeunes qui cherchent leur voie).
De même, estimer le niveau de violences ou de danger d'un endroit (par exemple une banlieue) par référence à sa place dans les médias n'est pas exact.

Un cas commun d'un échantillon biaisé est l'éclairage fallacieux. Cette erreur repose sur l'attention portée par les médias, ou d'autres institutions, sur un groupe particulier d'individus, ce qui donne de facto l'illusion (volontaire ou non) que ce groupe représente la population. Or, les médias sont plutôt sensibles à l'exceptionnel (en bien ou en mal) qu'à l'ordinaire.

[modifier] Erreurs typiques

Les campagnes d'appels téléphoniques entrants sont particulièrement sensibles à cette erreur. Ce genre de campagnes consiste à demander aux gens d'appeler eux-mêmes sur une question particulière. Les personnes qui répondent se sont alors autosélectionnées. Au mieux, cela signifie que seuls ont répondu les gens qui prêtent attention à ce sujet et, au pire, il est possible que certaines organisations tentent de faire du bourrage d'urne en demandant à leur adhérents d'appeler sans cesse.