Odpowiedź na problem urodzin w statystykach
Problem z urodzinami w statystykach pyta, ilu osób potrzebujesz w grupie, aby mieć 50% szans, że co najmniej dwie osoby będą obchodzić urodziny? Śmiało i pomyśl o tym przez chwilę. Odpowiedź zaskakuje wielu ludzi. Niedługo do tego dojdziemy.
W tym poście nie tylko odpowiem na paradoks urodzinowy, ale także pokażę, jak obliczyć prawdopodobieństwa dla każdej grupy wielkości, przeprowadzić symulację komputerową i wyjaśnij, dlaczego odpowiedź na problem związany z urodzinami jest tak zaskakująca.
Obliczanie prawdopodobieństwa wystąpienia problemu urodzinowego
Wiele osób zgaduje 183, ponieważ to połowa wszystkich możliwych urodzin, co wydaje się intuicyjne. Niestety, intuicja nie działa dobrze, aby rozwiązać ten problem. Przejdźmy więc od razu do obliczania prawdopodobieństw osób, które mają te same urodziny.
Na potrzeby tych obliczeń zrobimy kilka założeń. Po pierwsze, pominiemy rok przestępny. To upraszcza matematykę i nie zmienia znacząco wyników. Zakładamy również, że wszystkie urodziny mają takie samo prawdopodobieństwo.
Zacznijmy od jednej osoby, a następnie dodawaj kolejne osoby, aby zilustrować, jak działają obliczenia. W przypadku tych obliczeń łatwiej jest obliczyć prawdopodobieństwo, że nikt nie ma wspólnych urodzin. Następnie weźmiemy to prawdopodobieństwo i odejmiemy, jeśli od jednego, aby uzyskać prawdopodobieństwo, że co najmniej dwie osoby mają urodziny.
1 – Prawdopodobieństwo braku dopasowania = Prawdopodobieństwo co najmniej jednego dopasowania
Dla pierwszej osoby nie ma już uwzględnionych urodzin, co oznacza, że istnieje 365/365 szans, że nie będzie wspólnych urodzin. To ma sens. Mamy tylko jedną osobę.
Teraz dodajmy drugą osobę. Pierwsza osoba obejmuje jedno możliwe urodziny, więc druga osoba ma 364/365 szanse nie dzielić tego samego dnia. Musimy pomnożyć prawdopodobieństwa pierwszych dwóch osób i odjąć od jednej.
W przypadku trzeciej osoby poprzednie dwie ludzie przyjeżdżają na dwie randki. Dlatego prawdopodobieństwo, że trzecia osoba nie poda daty urodzin wynosi 363/365.
Teraz widzisz wzorzec obliczania prawdopodobieństwa dla danej liczby osób. Oto ogólna postać równania:
Powiązany post: Podstawy prawdopodobieństwa
Tworzenie wykresu problemu urodzin Prawdopodobieństwa
Używając programu Excel, mogę obliczyć i wykreślić prawdopodobieństwa dla dowolnej grupy wielkości. Pobierz mój plik Excel: BirthdayProblem.
Oceniając prawdopodobieństwo, odpowiedzią na problem z urodzinami jest to, że potrzebujesz grupy 23 osób, aby mieć 50,73% szansy, że ludzie będą obchodzić urodziny! Większość ludzi nie oczekuje, że grupa będzie tak mała. Zwróć także uwagę na wykresie, że grupa 57 osób ma prawdopodobieństwo 0,99. To praktycznie gwarantowane!
Nie martw się. Wkrótce wyjaśnię ten zaskakujący wynik. Najpierw zweryfikujmy odpowiedź na 23 urodziny, używając innej metody.
Symulacja paradoksu urodzin
Korzystając z obliczeń prawdopodobieństwa, spodziewamy się, że grupa 23 osób będzie miała takie same urodziny 50,73% czasu. Następnie użyję programu do symulacji statystycznej, aby zasymulować Paradoks urodzinowy i określić, czy rzeczywiste prawdopodobieństwa odpowiadają przewidywanym prawdopodobieństwom. Do tej symulacji używam programu Statistics101, który jest programem upominkowym, chociaż doceniają darowizny.
Program zawiera przykładowy skrypt, który wyświetla prawdopodobieństwo dla grupy 25 osób. Zmodyfikowałem ich skryptu, aby zebrał 100 000 grup po 23 osoby i losowo przyporządkował urodziny każdej osobie. Program określa, czy daty urodzin pasują do każdej z 23-osobowych grup, a następnie oblicza procent tych 100 000 pasujących grup. Na podstawie obliczeń prawdopodobieństwa spodziewalibyśmy się, że około 50% grup będzie miało dopasowania. Poproszę też program, aby utworzył histogram liczby dopasowań w każdej grupie. Pobierz mój skrypt: BirthdayProblem.
Oprogramowanie symulacyjne wykazało, że 50,586% ze 100 000 grup miało takie same urodziny. To jest bardzo bliskie obliczonemu prawdopodobieństwu 50,73%. Ta symulacja weryfikuje obliczenia prawdopodobieństwa.
Poniższy wykres przedstawia rozkład liczby dopasowań w tych 23 grupach.
Najdalszy lewy słupek wskazuje, że 49,41% grup nie ma dopasowań. Kolejne słupki pokazują, że 37% ma jedno dopasowanie, 11,4% ma dwa, 1,9% trzy, a 0,31% więcej niż trzy dopasowania.
Dlaczego wielkość grupy jest tak mała jak na problem urodzinowy?
Podobnie jak w przypadku problemu Montyego Halla, większość ludzi uważa, że odpowiedź na problem urodzinowy jest zaskakująca i trochę boli ich mózg!Jednak odpowiedź jest całkowicie poprawna i znaleźliśmy ją przy użyciu dwóch różnych metod – obliczeń prawdopodobieństwa i symulacji komputerowej. Sprawdźmy, dlaczego odpowiedź jest sprzeczna z intuicją.
Często ludzie myślą o swoich urodzinach i prawdopodobieństwie, że ktoś będzie pasował do tej konkretnej daty. Jednak problem dotyczy dwóch dowolnych osób, które obchodzą urodziny. Oznacza to, że musisz porównać wszystkie możliwe pary osób. Ocena wszystkich par powoduje gwałtowny wzrost liczby porównań – i to właśnie jest źródłem nieporozumień.
Wzór na liczbę porównań między parami N osób to: (N * (N-1)) / 2. Jak widać w poniższej tabeli, liczby porównane śnieżkami do 253 dla zaledwie 23 osób!
Aby udostępnić urodziny , każda para ma stałe prawdopodobieństwo dopasowania wynoszące 0,0027. To mało jak na jedną parę. Jednak wraz ze wzrostem liczby par rośnie prawdopodobieństwo dopasowania. Z 23 osobami musisz porównać 253 pary. Przy tak wielu porównaniach trudno jest dopasować żadną z par urodzinowych.
Gdy jest 57 osób, istnieje 1596 par do porównania, a prawdopodobieństwo, że co najmniej jedna para wynosi 0,99, jest praktycznie gwarantowane. będzie pasować do urodzin.
Uwielbiam takie problemy, w których intuicja prowadzi Cię na manowce, ale matematyka ratuje dzień!
Ponieważ mówimy o urodzinach, czy statystyk może powiedzieć, że wiek to tylko liczbę?