Syntymäpäiväongelmaan vastaaminen tilastoissa
Tilastojen syntymäpäiväongelma kysyy, kuinka monta ihmistä tarvitset ryhmässä, jotta sinulla on 50% mahdollisuus, että vähintään kaksi ihmistä jakaa syntymäpäivän? Ajattele hetki. Vastaus yllättää monia ihmisiä. Pääset siihen pian.
Tässä viestissä vastaan paitsi syntymäpäivän paradoksiin, mutta näytän myös kuinka lasketaan minkä tahansa kokoryhmän todennäköisyydet, suoritetaan tietokonesimulaatio ja selitä, miksi vastaus syntymäpäiväongelmaan on niin yllättävää.
Syntymäongelman todennäköisyyksien laskeminen
Monet ihmiset arvaavat 183, koska se on puolet kaikista mahdollisista syntymäpäivistä, mikä vaikuttaa intuitiiviselta. Valitettavasti intuitio ei toimi hyvin ongelman ratkaisemisessa. Aloitetaan siis suoraan syntymäpäiviä jakavien ihmisten todennäköisyyksien laskeminen.
Näitä laskelmia varten tehdään muutama oletus. Ensinnäkin jätämme huomiotta karkausvuoden. Tämä yksinkertaistaa matematiikkaa, eikä se muuta tuloksia paljon. Oletetaan myös, että kaikilla syntymäpäivillä on yhtä suuri todennäköisyys esiintyä.
Aloitetaan yhdestä ihmisestä ja lisätään sitten ihmiset kerrallaan havainnollistamaan laskelmien toimintaa. Näitä laskelmia varten on helpompaa laskea todennäköisyys, että kukaan ei jaa syntymäpäivää. Sitten otamme tämän todennäköisyyden ja vähennämme jos yhdestä saadaksemme todennäköisyyden, että vähintään kahdella henkilöllä on yhteinen syntymäpäivä.
1 – Ottelun todennäköisyys ei ole = Ainakin yhden ottelun todennäköisyys
Ensimmäiselle henkilölle ei ole jo katettuja syntymäpäiviä, mikä tarkoittaa, että on olemassa 365/365 mahdollisuus, että ei ole jaettua syntymäpäivää. Tuossa on järkeä. Meillä on vain yksi henkilö.
Lisätään nyt toinen henkilö. Ensimmäisellä henkilöllä on yksi mahdollinen syntymäpäivä, joten toisella henkilöllä on 364/365 mahdollisuus olla jakamatta samaa päivää. Meidän on kerrottava kahden ensimmäisen ihmisen todennäköisyydet ja vähennettävä yhdestä.
Kolmannelle henkilölle kaksi edellistä ihmiset peittävät kaksi päivämäärää. Siksi kolmannella henkilöllä on todennäköisyys 363/365 olla jakamatta syntymäpäivää.
Nyt näet malli kuinka todennäköisyys lasketaan tietylle määrälle ihmisiä. Tässä on yhtälön yleinen muoto:
Aiheeseen liittyvä viesti: Todennäköisyyden perusteet
Syntymäpäiväongelman piirtäminen Todennäköisyydet
Excelin avulla voin laskea ja piirtää minkä tahansa kokoryhmän todennäköisyydet. Lataa Excel-tiedosto: BirthdayProblem.
Arvioimalla todennäköisyyksiä syntymäpäiväongelmaan on vastaus, että tarvitset ryhmän 23 ihmisestä on 50,73% mahdollisuus jakaa syntymäpäivä! Useimmat ihmiset eivät odota ryhmän olevan niin pieni. Huomaa myös kaaviosta, että ryhmän 57 kanssa todennäköisyys on 0,99. Se on käytännössä taattu!
Älä huoli. Selitän tämän yllättävän tuloksen pian. Tarkistetaan ensin 23: n syntymäpäiväongelma eri menetelmällä.
Syntymäpäiväparadoksin simulointi
Todennäköisyyslaskelmien avulla odotamme, että 23 ihmisen ryhmällä on vastaavat syntymäpäivät 50,73% ajasta. Seuraavaksi käytän tilastollista simulaatio-ohjelmaa simuloimaan syntymäpäiväparadoksi ja määrittämään, vastaavatko todelliset todennäköisyydet ennustettuja todennäköisyyksiä. Tässä simulaatiossa käytän Statistics101-ohjelmistoa, joka on lahjaohjelma, vaikka he arvostavatkin lahjoituksia.
Ohjelmassa on esimerkkikomentosarja, joka antaa todennäköisyyden 25 hengen ryhmälle. Olen muokannut heidän käsikirjoitus niin, että se kerää 100000 ryhmää 23 ihmisestä ja määrittää sattumanvaraisesti jokaiselle henkilölle. Ohjelma määrittää, vastaavatko syntymäpäivät kussakin 23 ryhmän ryhmässä, ja laskee sitten prosenttiosuuden niistä 100 000 ryhmästä, joilla on ottelu. Todennäköisyyslaskelmien perusteella odotamme, että noin 50 prosentilla ryhmistä on ottelut. Annan ohjelman myös luoda histogrammin kunkin ryhmän otteluiden määrästä. Lataa komentosarjani: BirthdayProblem.
Simulaatio-ohjelmisto havaitsi, että 50,586%: lla 100 000 ryhmästä oli vastaavat syntymäpäivät. Se on erittäin lähellä laskettua todennäköisyyttä 50,73%. Tämä simulaatio vahvistaa todennäköisyyslaskelmat.
Alla oleva kaavio näyttää osumien määrän jakauman näissä ryhmissä 23.
Pisin vasen palkki osoittaa, että 49,41%: lla ryhmistä ei ole vastaavuuksia. Seuraavat palkit osoittavat, että 37 prosentilla on yksi ottelu, 11,4 prosentilla kaksi, 1,9 prosentilla kolme ja 0,31 prosentilla yli kolme ottelua.
Miksi ryhmän koko on niin pieni syntymäpäiväongelmalle?
Kuten Monty Hall -ongelma, useimpien mielestä vastaus syntymäpäiväongelmaan on yllättävää ja se satuttaa heidän aivojaan!Vastaus on kuitenkin täysin oikea, ja löysimme sen käyttämällä kahta erilaista menetelmää – todennäköisyyslaskelmia ja tietokonesimulaatiota. Tutkitaan, miksi vastaus on vihamielinen.
Usein ihmiset ajattelevat syntymäpäiväänsä ja todennäköisyyttä, että joku vastaa kyseistä päivämäärää. Ongelma kuitenkin koskee kahta henkilöä, jotka jakavat syntymäpäivän. Tämä tarkoittaa, että sinun on vertailtava kaikkia mahdollisia yksilöpareja. Kaikkien parien arviointi saa vertailumäärän kasvamaan nopeasti – ja siinä on sekaannusten lähde.
Kaava N ihmisen parien välisten vertailujen määrälle on: (N * (N-1)) / 2. Kuten alla olevasta taulukosta näet, numero vertaa lumipalloja 253: een vain 23 henkilölle!
Syntymäpäivän jakamisesta , jokaisella parilla on kiinteä todennäköisyys 0,0027 yhteensopivuudelle. Se on matala vain yhdelle parille. Parien lukumäärän kasvaessa nopeasti myös ottelun todennäköisyys kasvaa. 23 ihmisen kanssa sinun on verrattava 253 paria. Tämän monen vertailun myötä kenenkään syntymäpäiväparin on vaikeaa sopia yhteen.
Kun on 57 ihmistä, vertailtavissa on 1596 paria, ja se on käytännössä taattu 0,99 todennäköisyydellä, että ainakin yksi pari sopii syntymäpäiviin.
Rakastan tällaisia ongelmia, joissa intuitio johtaa sinut harhaan, mutta matematiikka säästää päivän!
Koska puhumme syntymäpäivistä, voiko tilastotieteilijä sanoa ikä olevan vain numero?