5 eksempler på bimodale fordelinger (ingen av dem er menneskelige høyder)
Av alle de rare tingene med statistikkutdanning i USA (og andre land for alt jeg vet) er måten vi lærer barn om bimodal distribusjon. En bimodal fordeling er et datasett som har to topper (modi) som er minst like langt fra hverandre som summen av standardavvikene. Det ser slik ut:
Det er en viktig distribusjon å vite om, for hvis dataene dine ser slik ut, vil beregningene for gjennomsnittet være helt ubrukelige. For distribusjonen ovenfor, for eksempel, ville vi få et gjennomsnitt på (rundt) null, noe som ville fortelle oss nesten ingenting om selve dataene, og vil helt savne begge topper. Så langt så bra. Men når dette blir undervist i statistikklasser, er det «virkelige verden» -eksemplet de fleste barna får, menneskelig høyde … og menneskelig høyde er ikke bimodal. Bummer.
Gitt at det er begynnelsen på skoleåret. og alt, jeg trodde det ville være en god tid å gi lærerne noen nye eksempler. Avhengig av det underliggende datasettet du kan bruke, kan det hende at noen av disse eksemplene ikke gjør at «toppene skilles fra lengden på de kombinerte standardavvikene ”Cutoff enten … ..men i det minste tar du feil på nye måter. Det må telle for noe, ikke sant?
- Startlønn for advokater I gjennomsnitt klarer det seg nye advokater. I virkeligheten er det store vinnere og tapere i hele spillet «å få en god jobb etter endt utdanning», og det vises i lønnsfordelingen. Les klagen over loven her.
- Bokpriser Bokpriser klynger rundt forskjellige prispoeng, avhengig av om du ser på innbundet eller innbundet som God Plays Dice forklarer. Hvis gapet mellom innbundet og innbundet ikke er stort nok for deg, kan du forestille deg at du kan hente prisdata for hver bok som er tilgjengelig på Amazon.com. ender med to moduser, en for vanlige bøker og en for lærebøker.
- Topp restauranttider Hvis du tegnet et histogram over når hver kunde gikk inn i en restaurant på en gitt dag, ville du havnet med en bimodal fordeling rundt 2 poeng: lunsj og middag. Denne typen histogram har også en tendens til å dukke opp når du kartlegger veiforbruk (morgen- og ettermiddagsrushet) og vann / strømforbruk (før og etter jobb).
- Fartsgrenser Denne kunne jeg faktisk ikke finne mye data om, men jeg gjetter på at hvis du kartla alle fartsgrensene på hver kilometer vei i USA (eller kanskje bare staten din), vil distribusjonen din havne gruppert rundt 30/35 og deretter igjen rundt 60/65. I utgangspunktet motorveier eller vanlige veier. Denne distribusjonen vil også ha den ekstra rynken til å skje forskjellig, basert på om vi brukte kilometervei eller antall veier, men det er en helt annen sak.
- Sykdomsmønstre Det er et ganske fascinerende todelt blogginnlegg av Jules J Berman som diskuterer bimodale kreftmønstre her og her. I utgangspunktet er dette kreftformer som virker like, men har en tendens til å treffe ganske forskjellige aldersgrupper. For eksempel Karposis sarkom treffer unge menn med AIDS og eldre menn som ikke har AIDS, og Berman argumenterer for at det å se disse mønstrene burde gi oss viktige ledetråder om sykdommene selv. Mulige forklaringer fra Bermans innlegg: 1. Flere miljømessige årsaker rettet mot ulike aldre 2. Flere genetiske årsaker med forskjellige latenser 3. Flere sykdommer klassifisert under ett navn 4. Feil eller utilstrekkelig data 5. Kombinasjoner av 1,2,3 og 4.
Bimodale distribusjoner er også en god grunn til at den viktigste regelen for dataanalyse er å ALLTID ta en rask titt på en graf av dataene dine før du gjør noe. Som du kan se fra eksemplene ovenfor, inneholder toppene nesten alltid sine egne viktige sett med informasjon, og må forstås både hver for seg og sammen for i det hele tatt å bli forstått.
Så hva er din favoritt ikke-menneskelige høydeeksempel?