5 Exempel på bimodala fördelningar (ingen av dem är mänskliga höjder)
Av alla konstiga saker om statistikutbildning i USA (och andra länder för allt jag vet) är det sätt vi lär barnen om bimodal distribution. En bimodal fördelning är en uppsättning data som har två toppar (lägen) som är minst lika långt ifrån varandra som summan av standardavvikelserna. Det ser ut så här:
Det är en viktig distribution att veta om, för om dina data ser ut så kommer dina beräkningar för genomsnittet att vara helt värdelösa. För distributionen ovan till exempel skulle vi få ett genomsnitt på (runt) noll, vilket skulle säga oss nästan ingenting om själva data och skulle helt sakna båda topparna. Än så länge är allt bra. Men när detta lärs ut i statistikklasser är det exempel på ”verkliga världen” som de flesta barn ges mänsklig höjd … och mänsklig höjd är inte bimodal. Bummer.
Med tanke på att det är början på läsåret och allt, jag trodde att det skulle vara en bra tid att ge lärarna några nya exempel. Nu, beroende på den underliggande datamängden du kan använda, kanske vissa av dessa exempel inte gör att ”topparna separeras av längden på de kombinerade standardavvikelserna ”Cutoff antingen … ..men åtminstone har du fel på nya sätt. Det måste räknas för något, eller hur?
- Startlön för advokater I genomsnitt går det bra med nya advokater. I verkligheten finns det stora vinnare och förlorare i hela spelet ”att få ett bra jobb efter examen”, och det visas i lönefördelningarna. Läs klagomålet Ovanför lagen här.
- Bokpriser Bokpriser kluster runt olika prispoäng, beroende på om du tittar på inbundna eller inbundna hår som Gud spelar tärningar förklarar. Om klyftan mellan inbunden och inbunden inte är tillräckligt stor för dig, kan du tänka dig att du kan dra prisuppgifter för varje bok som är tillgänglig på Amazon.com. slutade med två lägen, ett för vanliga böcker och ett för läroböcker.
- Högsta restaurangtider Om du ritade ett histogram över när varje kund kom in i en restaurang en viss dag, skulle du hamna med en bimodal fördelning runt 2 poäng: lunch och middag. Denna typ av histogram tenderar också att visas när du kartlägger väganvändning (morgon- och eftermiddagens rusningstid) och bostadsvatten / elanvändning (före och efter jobbet).
- Hastighetsgränser Den här kunde jag faktiskt inte hitta mycket information om, men jag antar att om du har kartlagt alla hastighetsbegränsningar på varje mil väg i USA (eller kanske bara din stat), skulle din distribution hamna kluster runt 30/35 och sedan igen runt 60/65. I grund och botten motorvägar eller vanliga vägar. Denna fördelning skulle också ha den extra skrynklan av att skeva på olika sätt beroende på om vi använde milsväg eller antal vägar, men det är helt annorlunda.
- Sjukdomsmönster Det finns ett ganska fascinerande blogginlägg i två delar av Jules J Berman som diskuterar bimodala cancermönster här och här. I grund och botten är detta cancerformer som liknar varandra men tenderar att drabba grupper i olika åldrar. Till exempel träffar Karposis sarkom unga män med aids och äldre män som inte har aids, och Berman argumenterar för att se dessa mönster bör ge oss viktiga ledtrådar om själva sjukdomarna. Möjliga förklaringar från Bermans inlägg: 1. Flera miljöorsaker inriktade på olika åldrar 2. Flera genetiska orsaker med olika latenser 3. Flera sjukdomar klassificerade under ett namn 4. Felaktiga eller otillräckliga data 5. Kombinationer av 1,2,3 och 4.
Bimodala fördelningar är också en bra anledning till att den främsta regeln för dataanalys är att ALLTID ta en snabb titt på ett diagram över dina data innan du gör någonting. Som du kan se från ovanstående exempel innehåller topparna nästan alltid sina egna viktiga uppsättningar information och måste förstås både separat och tillsammans för att alls kunna förstås.
Så vad är din favorit icke-mänskliga höjdexempel?