5 eksempler på bimodale fordelinger (ingen af dem er menneskelige højder)
Af alle de mærkelige ting ved statistikuddannelse i USA (og andre lande for alt hvad jeg ved) er den måde, vi lærer børn om bimodal distribution. En bimodal fordeling er et sæt data, der har to toppe (tilstande), der er mindst lige så langt fra hinanden som summen af standardafvigelserne. Det ser sådan ud:
Det er en vigtig distribution at vide om, for hvis dine data ser sådan ud, vil dine beregninger for gennemsnittet være totalt ubrugelige. For distributionen ovenfor, for eksempel, ville vi få et gennemsnit på (omkring) nul, hvilket ville fortælle os næsten intet om selve dataene og helt ville gå glip af begge toppe. Så langt så godt. Men når dette undervises i statistikklasser, er det eksempel på “den virkelige verden”, de fleste børn får, menneskelig højde … og menneskelig højde er ikke bimodal. Bummer.
I betragtning af at det er starten på skoleåret og alt sammen, jeg troede, det ville være et godt tidspunkt at give lærerne nogle nye eksempler. Afhængigt af det underliggende datasæt, du muligvis bruger, gør nogle af disse eksempler muligvis ikke “toppe adskilt af længden af de kombinerede standardafvigelser ”Cutoff enten … ..men i det mindste tager du fejl på nye måder. Der må tælles for noget, ikke?
- Startløn for advokater I gennemsnit klarer nye advokater sig godt. I virkeligheden er der store vindere og tabere i hele spillet “at få et godt job efter eksamen”, og det vises i lønfordelingerne. Læs klagen over loven her.
- Bogpriser Bogpriser klynger rundt forskellige prispoint, afhængigt af om du ser på paperbacks eller hardcovers, som God Plays Dice forklarer. Hvis kløften mellem paperback og hardcovers ikke er bred nok til dig, kan du forestille dig, at du kunne trække prisdata for hver bog, der er tilgængelig på Amazon.com. ender med to tilstande, en til almindelige bøger og en til lærebøger.
- Højeste restauranttimer Hvis du planlagde et histogram over, hvornår hver kunde kom ind i en restaurant på en given dag, ville du ende med en bimodal fordeling omkring 2 punkter: frokost og middag. Denne type histogram har også en tendens til at blive vist, når du kortlægger vejforbrug (morgen- og eftermiddagshastighed) og vand- / elforbrug i boliger (før og efter arbejde).
- Hastighedsgrænser Denne kunne jeg faktisk ikke finde meget data om, men jeg gætter på, at hvis du kortlagde alle hastighedsbegrænsninger på hver kilometervej i USA (eller måske bare din stat), ville din distribution ende med at klynges omkring 30/35 og derefter igen omkring 60/65. Dybest set motorveje eller almindelige veje. Denne distribution ville også have den ekstra rynke ved at skæve forskelligt baseret på, om vi brugte kilometervej eller antal veje, men det er en helt anden sag.
- Sygdomsmønstre Der er et ret fascinerende blogindlæg i to dele af Jules J Berman, der diskuterer bimodale kræftmønstre her og her. Dybest set er dette kræftformer, der ser ud til at være ens, men har en tendens til at ramme ret forskellige aldersgrupper. For eksempel rammer Karposis sarkom unge mænd med aids og ældre mænd, der ikke har aids, og Berman hævder, at det at se disse mønstre skal give os vigtige spor om selve sygdommene. Mulige forklaringer fra Bermans indlæg: 1. Flere miljømæssige årsager rettet mod forskellige aldre 2. Flere genetiske årsager med forskellige latenser 3. Flere sygdomme klassificeret under ét navn 4. Defekte eller utilstrækkelige data 5. Kombinationer af 1,2,3 og 4.
Bimodale fordelinger er også en god grund til, at den første regel for dataanalyse er at ALTID tage et hurtigt kig på en graf over dine data, før du gør noget. Som du kan se fra ovenstående eksempler, indeholder toppe næsten altid deres egne vigtige sæt information og skal forstås både separat og sammen for overhovedet at kunne forstås.
Så hvad er din yndlings ikke-menneskelige højdeeksempel?