Odpověď na problém narozenin ve statistice
Problém narozenin ve statistice se ptá, kolik lidí ve skupině potřebujete, abyste měli 50% šanci, že alespoň dva lidé budou sdílet narozeniny? Jděte do toho a chvíli o tom přemýšlejte. Odpověď překvapuje mnoho lidí. K tomu se brzy dostaneme.
V tomto příspěvku odpovím nejen na narozeninový paradox, ale ukážu vám také, jak vypočítat pravděpodobnosti pro libovolnou velikostní skupinu, spustit počítačovou simulaci a vysvětlete, proč je odpověď na Narozeninový problém tak překvapivá.
Výpočet pravděpodobností pro Narozeninový problém
Mnoho lidí odhaduje 183, protože to je polovina všech možných narozenin, což se zdá být intuitivní. Intuice bohužel při řešení tohoto problému nefunguje dobře. Pojďme tedy rovnou k výpočtu pravděpodobností pro lidi, kteří sdílejí narozeniny.
U těchto výpočtů uvedeme několik předpokladů. Nejprve přestupný rok ignorujeme. To zjednodušuje matematiku a výsledky to příliš nemění. Předpokládáme také, že všechny narozeniny mají stejnou pravděpodobnost výskytu.
Začněme jednou osobou a poté přidáme lidi po jedné, abychom ilustrovali, jak výpočty fungují. U těchto výpočtů je snazší vypočítat pravděpodobnost, že nikdo nesdílí narozeniny. Tuto pravděpodobnost potom vezmeme a od jedné odečteme, abychom odvodili pravděpodobnost, že alespoň dva lidé sdílejí narozeniny.
1 – Pravděpodobnost, že nebude shoda = Pravděpodobnost, že bude alespoň jedna shoda
Pro první osobu již nejsou zahrnuty žádné narozeniny, což znamená, že existuje šance 365/365, že neexistují sdílené narozeniny. To dává smysl. Máme jen jednu osobu.
Nyní přidejme druhou osobu. První osoba pokrývá jedno možné narozeniny, takže druhá osoba má šanci 364/365, že nebude sdílet stejný den. Musíme znásobit pravděpodobnosti prvních dvou lidí a odečíst od jednoho.
U třetí osoby jsou předchozí dva lidé pokrývají dvě rande. Třetí osoba má tedy pravděpodobnost 363/365, že nesdílí narozeniny.
Nyní vidíte vzor, jak vypočítat pravděpodobnost pro daný počet lidí. Tady je obecná podoba rovnice:
Související příspěvek: Základy pravděpodobnosti
Grafování problému k narozeninám Pravděpodobnosti
Pomocí aplikace Excel mohu vypočítat a vytvořit graf pravděpodobností pro libovolnou velikostní skupinu. Stáhněte si můj soubor Excel: BirthdayProblem.
Posouzením pravděpodobností je odpovědí na Narozeninový problém, že potřebujete skupinu 23 lidí, aby měli 50,73% šanci, že lidé budou mít narozeniny! Většina lidí neočekává, že skupina bude tak malá. Všimněte si také na grafu, že skupina 57 má pravděpodobnost 0,99. Je to prakticky zaručeno!
Nedělejte si starosti. Tento překvapivý výsledek brzy vysvětlím. Nejprve si ověříme odpověď na problém s narozením 23 jinou metodou.
Simulace narozeninového paradoxu
Pomocí výpočtů pravděpodobnosti očekáváme, že skupina 23 lidí bude mít odpovídající narozeniny 50,73% času. Dále použiji statistický simulační program k simulaci Narozeninového paradoxu a k určení, zda se skutečné pravděpodobnosti shodují s předpokládanými pravděpodobnostmi. Pro tuto simulaci používám Statistics101, což je dárkový program, i když ocení dary.
Program je dodáván s ukázkovým skriptem, který vydává pravděpodobnost pro skupinu 25. Upravil jsem jejich skript tak, aby shromáždil 100 000 skupin po 23 lidech a náhodně přidělil narozeniny každému člověku. Program určí, zda se narozeniny shodují v každé skupině 23, a poté vypočítá procento těch 100 000 skupin, které mají shodu. Na základě výpočtů pravděpodobnosti očekáváme, že přibližně 50% skupin bude mít shody. Také nechám program vytvořit histogram počtu shod v každé skupině. Stáhněte si můj skript: BirthdayProblem.
Simulační software zjistil, že 50 586% ze 100 000 skupin mělo shodné narozeniny. To je extrémně blízko k vypočítané pravděpodobnosti 50,73%. Tato simulace ověřuje výpočty pravděpodobnosti.
Níže uvedený graf ukazuje rozdělení počtu shod v těchto 23 skupinách.
Nejvzdálenější levý pruh ukazuje, že 49,41% skupin nemá shodu. Následující sloupce ukazují, že 37% má jeden zápas, 11,4% má dva, 1,9% má tři a 0,31% má více než tři zápasy.
Proč je velikost skupiny tak malá pro problém s narozeninami?
Stejně jako problém Monty Hall si většina lidí myslí, že odpověď na problém narozenin je překvapivá a trochu to bolí jejich mozek!Odpověď je však zcela správná a my jsme ji našli pomocí dvou různých metod – výpočtů pravděpodobnosti a počítačové simulace. Podívejme se, proč je odpověď neintuitivní.
Lidé si často pomyslí na své narozeniny a pravděpodobnost, že se někdo shoduje s konkrétním datem. Problém se však ptá na to, zda mají narozeniny všichni dva jednotlivci. To znamená, že musíte porovnat všechny možné páry jednotlivců. Posouzení všech párů způsobí rychlý nárůst počtu srovnání – a v tom spočívá zdroj záměny.
Vzorec pro počet srovnání mezi páry N lidí je: (N * (N-1)) / 2. Jak vidíte v tabulce níže, počet srovnává sněhové koule na 253 pouze pro 23 lidí!
Pro sdílení narozenin , každý pár má pevnou pravděpodobnost 0,0027 pro shodu. To je minimum pro jeden pár. Jak se však počet párů rychle zvyšuje, zvyšuje se i pravděpodobnost shody. S 23 lidmi musíte porovnat 253 párů. S tolika srovnáváním je obtížné vyrovnat se žádnému z narozeninových párů.
Když je 57 lidí, existuje 1596 párů k porovnání, a je prakticky zaručeno s pravděpodobností 0,99, že alespoň jeden pár bude odpovídat narozeninám.
Miluji takové problémy, kde vás intuice vyvede z omylu, ale matematika zachrání den!
Protože mluvíme o narozeninách, může statistik říci, že věk je jen číslo?