5 příkladů bimodálních distribucí (žádná z nich není lidská výška)
Ze všech podivných věcí ve výuce statistiky ve USA (a všechny ostatní země, o kterých vím) jsou způsoby, jak učíme děti o bimodální distribuci. Bimodální distribuce je sada dat, která má dva vrcholy (režimy), které jsou alespoň tak daleko od sebe jako součet směrodatných odchylek. Vypadá to takto:
Je důležité o tom vědět, protože pokud vaše data vypadají takto, budou vaše průměrné výpočty naprosto zbytečné. Například pro výše uvedenou distribuci bychom dostali průměr (kolem) nuly, což by nám o samotných datech neřeklo téměř nic, a zcela by nám chyběly oba vrcholy. Zatím je vše dobré. Když se to však vyučuje ve statistických třídách, příkladem „reálného světa“, který je většině dětí uveden, je lidská výška…. A lidská výška není bimodální. Bummer.
Vzhledem k tomu, že je to začátek školního roku a vše, myslel jsem si, že by bylo vhodné poskytnout učitelům několik nových příkladů. Nyní, v závislosti na základním souboru dat, který byste mohli použít, některé z těchto příkladů nemusí dělat „vrcholy oddělené délkou kombinovaných standardních odchylek „Cut-off buď… .. ale alespoň se budete mýlit novými způsoby. S tím se něco počítat, ne?
- Počáteční platy pro právníky Průměrně se novým právníkům daří dobře. Ve skutečnosti jsou v celé hře „získání dobré práce po maturitě“ velcí vítězové i poražení, což se projevuje i v rozdělení platů. Zde si přečtěte stížnost Nad zákon.
- Ceny knih Ceny knih se seskupují kolem různé cenové body, v závislosti na tom, zda se díváte na brožované nebo vázané knihy, jak vysvětluje God Plays Dice. Pokud pro vás rozdíl mezi brožovanou vazbou a pevnými vazbami není dostatečně velký, představte si, že můžete vytáhnout cenová data pro každou knihu dostupnou na Amazon.com. Skončily by dva režimy, jeden pro běžné knihy a druhý pro učebnice.
- Špičkové hodiny restaurace Pokud byste nakreslili histogram, kdy každý zákazník v daný den vstoupil do restaurace, skončili byste s bimodálním rozdělením kolem 2 bodů: oběd a večeře. Tento typ histogramu se také obvykle objevuje, když mapujete využití silnic (ranní a odpolední dopravní špičky) a spotřebu vody a elektřiny v domácnostech (před a po práci).
- Omezení rychlosti Na tomto jsem vlastně nenašel mnoho údajů, ale hádám, že pokud byste zmapovali všechna rychlostní omezení na každé míli silnice v USA (nebo možná jen ve vašem státě), vaše distribuce by skončila seskupená kolem 30/35 a pak znovu kolem 60/65. V zásadě dálnice nebo běžné silnice. Tato distribuce by také měla další vrásku zešikmení odlišně podle toho, zda jsme použili kilometry silnice nebo počet silnic, ale to je úplně jiná věc.
- Vzory nemocí Jules je docela fascinující dvoudílný blogový příspěvek J. Berman, který zde a tady pojednává o vzorcích bimodální rakoviny. V zásadě se jedná o rakoviny, které se zdají podobné, ale mají tendenci zasáhnout spíše různé věkové skupiny. Například Karposiho sarkom zasáhne mladé muže s AIDS a starší muže, kteří AIDS nemají, a Berman tvrdí, že vidět tyto vzorce by nám mělo poskytnout důležité informace o samotných onemocněních. Možná vysvětlení z Bermanova příspěvku: 1. Několik příčin prostředí zaměřených na různý věk 2. Několik genetických příčin s různou latencí 3. Několik nemocí klasifikovaných pod jedním jménem 4. Chybné nebo nedostatečné údaje 5. Kombinace 1,2,3 a 4.
Bimodální distribuce jsou také skvělým důvodem, proč je pravidlem číslo jedna v analýze dat VŽDY rychle prozkoumat graf vašich dat, než něco uděláte. Jak vidíte z výše uvedených příkladů, vrcholy téměř vždy obsahují své vlastní důležité soubory informací a je třeba je chápat samostatně i společně, aby bylo možné je vůbec pochopit.
Takže jaký je váš oblíbený člověk příklad výšky?