Răspunzând problemei zilei de naștere din statistici
Problema zilei de naștere din statistici întreabă, de câte persoane aveți nevoie într-un grup pentru a avea 50% șanse ca cel puțin două persoane să împărtășească ziua de naștere? Mergeți mai departe și gândiți-vă la asta pentru o clipă. Răspunsul surprinde mulți oameni. Vom ajunge la asta în scurt timp.
În această postare, nu numai că voi răspunde la paradoxul zilei de naștere, dar vă voi arăta și cum să calculați probabilitățile pentru orice grup de dimensiuni, să rulați o simulare pe computer și explicați de ce răspunsul la problema zilei de naștere este atât de surprinzător.
Calcularea probabilităților pentru problema zilei de naștere
Mulți oameni ghicesc 183, deoarece aceasta este jumătate din toate zilele de naștere posibile, ceea ce pare intuitiv. Din păcate, intuiția nu funcționează bine pentru rezolvarea acestei probleme. Așadar, să trecem direct la calcularea probabilităților pentru persoanele care împărtășesc zilele de naștere.
Pentru aceste calcule, vom face câteva ipoteze. În primul rând, vom ignora anul bisect. Acest lucru simplifică matematica și nu schimbă prea mult rezultatele. De asemenea, vom presupune că toate zilele de naștere au o probabilitate egală de a apărea.
Să începem cu o persoană și apoi să adăugăm oameni la rând pentru a ilustra modul în care funcționează calculele. Pentru aceste calcule, este mai ușor să calculați probabilitatea ca nimeni să nu împărtășească ziua de naștere. Apoi vom lua acea probabilitate și o vom scădea dacă dintr-una pentru a obține probabilitatea ca cel puțin două persoane să aibă ziua de naștere.
1 – Probabilitatea de a nu se potrivi = Probabilitatea de cel puțin o potrivire
Pentru prima persoană, nu există zile de naștere deja acoperite, ceea ce înseamnă că există șanse 365/365 să nu existe o zi de naștere comună. Are sens. Avem o singură persoană.
Acum, să adăugăm la a doua persoană. Prima persoană acoperă o posibilă zi de naștere, deci a doua persoană are șanse de 364/365 să nu împărtășească aceeași zi. Trebuie să înmulțim probabilitățile primelor două persoane și să scădem de la una.
Pentru a treia persoană, cele două precedente oamenii acoperă două întâlniri. Prin urmare, a treia persoană are o probabilitate de 363/365 pentru că nu are ziua de naștere.
Acum, vedeți modelul pentru modul de calculare a probabilității pentru un număr dat de persoane. Iată forma generală a ecuației:
Postare asociată: Fundamentele probabilității
Graficarea problemei zilei de naștere Probabilități
Folosind Excel, pot calcula și grafica probabilitățile pentru orice grup de dimensiuni. Descărcați fișierul meu Excel: BirthdayProblem.
Prin evaluarea probabilităților, răspunsul la problema zilei de naștere este că aveți nevoie de un grup din 23 de persoane să aibă 50,73% șanse ca oamenii să petreacă ziua de naștere! Majoritatea oamenilor nu se așteaptă ca grupul să fie atât de mic. De asemenea, observați pe grafic că un grup de 57 are o probabilitate de 0,99. Este practic garantat!
Nu vă faceți griji. Voi ajunge să explic în curând acest rezultat surprinzător. Să verificăm mai întâi răspunsul la problema zilei de naștere a 23 utilizând o altă metodă.
Simularea paradoxului zilei de naștere
Folosind calcule de probabilitate, ne așteptăm ca un grup de 23 de persoane să aibă zile de naștere potrivite 50,73% a timpului. Apoi, voi folosi un program de simulare statistică pentru a simula Paradoxul zilei de naștere și pentru a determina dacă probabilitățile reale se potrivesc cu probabilitățile prezise. Pentru această simulare, folosesc Statistics101, care este un program cadou, deși apreciază donațiile.
Programul vine cu un exemplu de script care afișează probabilitatea pentru un grup de 25. Am modificat script, astfel încât să adune 100.000 de grupuri de 23 de persoane și să aloce în mod aleatoriu o zi de naștere fiecărei persoane. Programul determină dacă zilele de naștere se potrivesc în cadrul fiecărui grup de 23 și apoi calculează procentul celor 100.000 de grupuri care au un meci. Pe baza calculelor de probabilitate, ne-am aștepta ca aproximativ 50% din grupuri să aibă meciuri. De asemenea, voi solicita programului să creeze o histogramă a numărului de meciuri din cadrul fiecărui grup. Descărcați scriptul meu: BirthdayProblem.
Software-ul de simulare a constatat că 50,586% din 100.000 de grupuri au avut zile de naștere potrivite. Aceasta este extrem de apropiată de probabilitatea calculată de 50,73%. Această simulare verifică calculele de probabilitate.
Graficul de mai jos arată distribuția numărului de potriviri din aceste grupuri de 23.
Cea mai îndepărtată bară din stânga indică faptul că 49,41% din grupuri nu au potriviri. Următoarele bare arată că 37% au o potrivire, 11,4% au două, 1,9% au trei și 0,31% au avut mai mult de trei potriviri.
De ce dimensiunea grupului este atât de mică pentru problema zilei de naștere?
La fel ca problema Monty Hall, majoritatea oamenilor consideră că răspunsul la problema zilei de naștere este surprinzător și le doare puțin creierul!Cu toate acestea, răspunsul este complet corect și l-am găsit folosind două metode diferite – calculele de probabilitate și simularea pe computer. Să examinăm de ce răspunsul este contraintuitiv.
Adesea, oamenii se vor gândi la ziua lor de naștere și la probabilitatea ca cineva să se potrivească cu acea dată specifică. Cu toate acestea, problema se întreabă despre oricare două persoane care își petrec ziua de naștere. Asta înseamnă că trebuie să comparați toate perechile posibile de indivizi. Evaluarea tuturor perechilor determină creșterea rapidă a numărului de comparații – și aici stă sursa confuziei.
Formula numărului de comparații între perechi de N oameni este: (N * (N-1)) / 2. După cum puteți vedea în tabelul de mai jos, numărul compară bulgări de zăpadă cu 253 pentru numai 23 de persoane!
Pentru a împărtăși o zi de naștere , fiecare pereche are o probabilitate fixă de 0,0027 pentru potrivire. Este scăzut pentru o singură pereche. Cu toate acestea, pe măsură ce numărul de perechi crește rapid, crește și probabilitatea unui meci. Cu 23 de persoane, trebuie să comparați 253 de perechi. Cu atâtea comparații, devine dificil ca niciuna dintre perechile de ziua de naștere să se potrivească.
Când sunt 57 de persoane, există 1.596 de perechi de comparat și este practic garantat cu o probabilitate de 0.99 că cel puțin o pereche se va potrivi cu zilele de naștere.
Îmi plac problemele de acest gen în care intuiția te rătăcește, dar matematica economisește ziua!
Deoarece vorbim despre zile de naștere, poate un statistician să spună că vârsta este doar un număr?