5 esimerkit bimodaalisista jakautumisista (mikään ei ole ihmisen korkeus)
Kaikista tilastokoulutuksen kummallisista asioista Yhdysvallat (ja kaikki muut maat tiedän) on tapa, jolla opetamme lapsille bimodaalista jakautumista. Bimodaalinen jakauma on joukko dataa, jolla on kaksi piikkiä (moodia), jotka ovat vähintään yhtä kaukana toisistaan kuin keskihajonnan summa. Näyttää tältä:
Se on tärkeä jakelu, josta tietää, koska jos tietosi näyttävät tältä, keskiarvolaskelmat ovat täysin hyödyttömiä. Esimerkiksi yllä olevasta jakaumasta saisimme keskimäärin (noin) nollan, mikä ei kerro meille melkein mitään itse tiedoista ja menettäisi kokonaan molemmat huipput. Toistaiseksi niin hyvä. Kuitenkin, kun tätä opetetaan tilastoluokissa, ”todellisessa maailmassa” esimerkki useimmista lapsista on ihmisen pituus … ja ihmisen korkeus ei ole kaksimuotoinen. Bummer.
Ottaen huomioon, että on kouluvuoden alku Ajattelin, että olisi hyvä aika antaa opettajille joitain uusia esimerkkejä. Nyt käytettävästä taustalla olevasta tietojoukosta riippuen jotkut näistä esimerkeistä eivät välttämättä tee ”piikkejä erotettuina yhdistettyjen keskihajontojen pituudella ”Katkaisu joko … .. mutta ainakin olet väärässä uusilla tavoilla. Sen täytyy laskea johonkin, eikö?
- Lakimiesten palkkojen aloittaminen Keskimäärin uudet lakimiehet pärjäävät hyvin. Todellisuudessa koko ”hyvän työpaikan valmistumisen jälkeen” -pelissä on suuria voittajia ja häviäjiä, ja se näkyy palkkajakoina. Lue täältä lain yläpuolella oleva valitus.
- Kirjan hinnat Kirjan hinnat keskittyvät ympäriinsä erilaisia hintapisteitä riippuen siitä, katsotko nidottuja vai kovakantisia, kuten Jumala soittaa noppaa selittää. Jos ero nidottujen ja kovakantisten kirjojen välillä ei ole tarpeeksi leveä sinulle, kuvittele, että voisit hankkia hintatiedot jokaisesta Amazon.com-sivustossa saatavilla olevasta kirjasta. Päätettäisiin kaksi tilaa, yksi tavallisille kirjoille ja toinen oppikirjoille.
- Ravintolan aukioloajat Jos piirtäisit histogrammin siitä, milloin jokainen asiakas tuli ravintolaan tiettynä päivänä, päädyit bimodaalinen jakauma noin 2 pistettä: lounas ja illallinen. Tämän tyyppinen histogrammi pyrkii myös näkyviin, kun kartoitetaan tien käyttöä (aamu- ja iltapäivän ruuhka-ajat) ja asuntojen veden / sähkön käyttöä (ennen ja jälkeen töitä).
- Nopeusrajoitukset Tätä en todellakaan löytänyt paljon tietoa, Mutta luulen, että jos kartoitat kaikki nopeusrajoitukset jokaisella maantiellä Yhdysvalloissa (tai ehkä vain osavaltiossasi), jakelusi päätyisi klusteriin noin 30/35 ja sitten taas noin 60/65. Pohjimmiltaan moottoritiet tai säännölliset tiet. Tällä jakaumalla olisi myös ylimääräinen rypistyä vinoutumisesta eri tavalla sen mukaan, käytimmekö maanteitä tai teiden lukumäärää, mutta se on täysin eri asia.
- Sairausmallit Jules on melko kiehtova kaksiosainen blogikirjoitus. J Berman, joka keskustelee bimodaalisista syöpämalleista täällä ja täällä. Pohjimmiltaan nämä ovat syöpiä, jotka näyttävät samanlaisilta, mutta yleensä osuvat melko erilaisiin ikäryhmiin. Esimerkiksi Karposin sarkooma osuu nuoria miehiä, joilla on aids, ja vanhempia miehiä, joilla ei ole aidsia, ja Bermanin mukaan näiden mallien näkemisen pitäisi antaa meille tärkeitä vihjeitä itse sairauksista. Mahdolliset selitykset Bermanin julkaisusta: 1. Useita ympäristösyitä eri ikäisille 2. Useita geneettisiä syitä, joilla on eri latenssit 3. Useita sairauksia, jotka on luokiteltu yhdelle nimelle 4. Viallisia tai riittämättömiä tietoja 5. Yhdistelmät 1,2,3 ja 4.
Bimodaalijakaumat ovat myös erinomainen syy siihen, miksi tietojen analysoinnin ykkössääntö on AINA tarkastella AINA nopeasti kaavio tiedoistasi ennen kuin teet mitään. Kuten yllä olevista esimerkeistä näet, huiput sisältävät melkein aina omat tärkeät tietojoukkonsa, ja ne on ymmärrettävä sekä erikseen että yhdessä, jotta ne ymmärrettäisiin lainkaan.
Mikä siis on suosikkisi ei-ihminen esimerkki korkeudesta?