5 příkladů bimodálních distribucí (žádná z nich není lidská výška)

Ze všech podivných věcí ve výuce statistiky ve USA (a všechny ostatní země, o kterých vím) jsou způsoby, jak učíme děti o bimodální distribuci. Bimodální distribuce je sada dat, která má dva vrcholy (režimy), které jsou alespoň tak daleko od sebe jako součet směrodatných odchylek. Vypadá to takto:

Je důležité o tom vědět, protože pokud vaše data vypadají takto, budou vaše průměrné výpočty naprosto zbytečné. Například pro výše uvedenou distribuci bychom dostali průměr (kolem) nuly, což by nám o samotných datech neřeklo téměř nic, a zcela by nám chyběly oba vrcholy. Zatím je vše dobré. Když se to však vyučuje ve statistických třídách, příkladem „reálného světa“, který je většině dětí uveden, je lidská výška…. A lidská výška není bimodální. Bummer.

Vzhledem k tomu, že je to začátek školního roku a vše, myslel jsem si, že by bylo vhodné poskytnout učitelům několik nových příkladů. Nyní, v závislosti na základním souboru dat, který byste mohli použít, některé z těchto příkladů nemusí dělat „vrcholy oddělené délkou kombinovaných standardních odchylek „Cut-off buď… .. ale alespoň se budete mýlit novými způsoby. S tím se něco počítat, ne?

  1. Počáteční platy pro právníky Průměrně se novým právníkům daří dobře. Ve skutečnosti jsou v celé hře „získání dobré práce po maturitě“ velcí vítězové i poražení, což se projevuje i v rozdělení platů. Zde si přečtěte stížnost Nad zákon.
  2. Ceny knih Ceny knih se seskupují kolem různé cenové body, v závislosti na tom, zda se díváte na brožované nebo vázané knihy, jak vysvětluje God Plays Dice. Pokud pro vás rozdíl mezi brožovanou vazbou a pevnými vazbami není dostatečně velký, představte si, že můžete vytáhnout cenová data pro každou knihu dostupnou na Amazon.com. Skončily by dva režimy, jeden pro běžné knihy a druhý pro učebnice.
  3. Špičkové hodiny restaurace Pokud byste nakreslili histogram, kdy každý zákazník v daný den vstoupil do restaurace, skončili byste s bimodálním rozdělením kolem 2 bodů: oběd a večeře. Tento typ histogramu se také obvykle objevuje, když mapujete využití silnic (ranní a odpolední dopravní špičky) a spotřebu vody a elektřiny v domácnostech (před a po práci).
  4. Omezení rychlosti Na tomto jsem vlastně nenašel mnoho údajů, ale hádám, že pokud byste zmapovali všechna rychlostní omezení na každé míli silnice v USA (nebo možná jen ve vašem státě), vaše distribuce by skončila seskupená kolem 30/35 a pak znovu kolem 60/65. V zásadě dálnice nebo běžné silnice. Tato distribuce by také měla další vrásku zešikmení odlišně podle toho, zda jsme použili kilometry silnice nebo počet silnic, ale to je úplně jiná věc.
  5. Vzory nemocí Jules je docela fascinující dvoudílný blogový příspěvek J. Berman, který zde a tady pojednává o vzorcích bimodální rakoviny. V zásadě se jedná o rakoviny, které se zdají podobné, ale mají tendenci zasáhnout spíše různé věkové skupiny. Například Karposiho sarkom zasáhne mladé muže s AIDS a starší muže, kteří AIDS nemají, a Berman tvrdí, že vidět tyto vzorce by nám mělo poskytnout důležité informace o samotných onemocněních. Možná vysvětlení z Bermanova příspěvku: 1. Několik příčin prostředí zaměřených na různý věk 2. Několik genetických příčin s různou latencí 3. Několik nemocí klasifikovaných pod jedním jménem 4. Chybné nebo nedostatečné údaje 5. Kombinace 1,2,3 a 4.

Bimodální distribuce jsou také skvělým důvodem, proč je pravidlem číslo jedna v analýze dat VŽDY rychle prozkoumat graf vašich dat, než něco uděláte. Jak vidíte z výše uvedených příkladů, vrcholy téměř vždy obsahují své vlastní důležité soubory informací a je třeba je chápat samostatně i společně, aby bylo možné je vůbec pochopit.

Takže jaký je váš oblíbený člověk příklad výšky?

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *