5 Exemples de distributions bimodales (dont aucune nest de taille humaine)
De toutes les choses étranges sur léducation statistique dans le Les États-Unis (et dautres pays pour autant que je sache) sont la façon dont nous enseignons aux enfants la distribution bimodale. Une distribution bimodale est un ensemble de données qui a deux pics (modes) qui sont au moins aussi éloignés que la somme des écarts types. Cela ressemble à ceci:
Cest une distribution importante à connaître, car si vos données ressemblent à ceci, vos calculs pour la moyenne seront totalement inutiles. Pour la distribution ci-dessus, par exemple, nous obtiendrions une moyenne de (environ) zéro, ce qui ne nous dirait presque rien sur les données elles-mêmes, et manquerait complètement les deux pics. Jusquici tout va bien. Cependant, lorsque cela est enseigné dans les classes de statistiques, lexemple du «monde réel» que la plupart des enfants reçoivent est la taille humaine… et la taille humaine nest pas bimodale. Dommage.
Étant donné que cest le début de lannée scolaire et tout, je pensais que ce serait le bon moment pour fournir aux enseignants de nouveaux exemples. Maintenant, en fonction de lensemble de données sous-jacent que vous pourriez utiliser, certains de ces exemples peuvent ne pas faire les « pics séparés par la longueur des écarts-types combinés ”Coupure non plus… .. mais au moins vous vous tromperez de manière nouvelle. Cela doit compter pour quelque chose, non?
- Salaire de départ des avocats En moyenne, les nouveaux avocats réussissent bien. En réalité, il y a de gros gagnants et des perdants dans tout le jeu «trouver un bon emploi après lobtention du diplôme», et cela se voit dans les distributions de salaire. Lisez la plainte Above The Law ici.
- Prix des livres Les prix des livres se regroupent autour différents niveaux de prix, selon que vous regardez des livres brochés ou des couvertures cartonnées, comme lexplique God Plays Dice. Si lécart entre les livres brochés et les couvertures cartonnées nest pas assez grand pour vous, imaginez que vous pourriez extraire des données de prix pour chaque livre disponible sur Amazon.com. Vous se retrouverait avec deux modes, un pour les livres normaux et un pour les manuels.
- Heures de pointe du restaurant Si vous tracez un histogramme indiquant le moment où chaque client est entré dans un restaurant un jour donné, vous vous retrouveriez avec une distribution bimodale autour de 2 points: déjeuner et dîner. Ce type dhistogramme a également tendance à apparaître lorsque vous cartographiez lutilisation de la route (heures de pointe du matin et de laprès-midi) et la consommation deau / électricité résidentielle (avant et après le travail).
- Limites de vitesse Celui-ci sur lequel je nai pas trouvé beaucoup de données, mais je suppose que si vous cartographiez toutes les limites de vitesse sur chaque kilomètre de route aux États-Unis (ou peut-être simplement dans votre état), votre distribution finirait par se regrouper autour de 30/35, puis à nouveau autour de 60/65. Fondamentalement, des autoroutes ou des routes régulières. Cette distribution aurait également la ride supplémentaire de biaiser différemment selon que nous avons utilisé des kilomètres de route ou le nombre de routes, mais cest une question entièrement différente.
- Modèles de maladie Il y a un article de blog en deux parties plutôt fascinant par Jules J Berman qui discute des modèles de cancer bimodaux ici et ici. Fondamentalement, ce sont des cancers qui semblent similaires mais qui ont tendance à toucher des groupes dâge assez différents. Par exemple, le sarcome de Karposi frappe les jeunes hommes atteints du SIDA et les hommes plus âgés qui ne sont pas atteints du SIDA, et Berman soutient que voir ces modèles devrait nous donner des indices importants sur les maladies elles-mêmes. Explications possibles du post de Berman: 1. Plusieurs causes environnementales ciblant différents âges 2. Plusieurs causes génétiques avec différentes latences 3. Plusieurs maladies classées sous un seul nom 4. Données erronées ou insuffisantes 5. Combinaisons de 1, 2, 3 et 4.
Les distributions bimodales sont également une bonne raison pour laquelle la règle numéro un de lanalyse des données est de TOUJOURS jeter un coup dœil rapide à un graphique de vos données avant de faire quoi que ce soit. Comme vous pouvez le voir dans les exemples ci-dessus, les pics contiennent presque toujours leurs propres ensembles dinformations importants et doivent être compris séparément et ensemble pour être compris du tout.
Alors, quel est votre non-humain préféré exemple de hauteur?