Respondendo ao problema do aniversário nas estatísticas
O problema do aniversário nas estatísticas pergunta: quantas pessoas você precisa em um grupo para ter 50% de chance de que pelo menos duas pessoas façam aniversário? Vá em frente e pense nisso por um momento. A resposta surpreende muita gente. Chegaremos a isso em breve.
Neste post, não responderei apenas ao paradoxo do aniversário, mas também mostrarei como calcular as probabilidades para grupos de qualquer tamanho, execute uma simulação de computador dele e explicar por que a resposta para o problema do aniversário é tão surpreendente.
Calculando probabilidades para o problema do aniversário
Muitas pessoas acham que 183 porque essa é a metade de todos os aniversários possíveis, o que parece intuitivo. Infelizmente, a intuição não funciona bem para resolver esse problema. Então, vamos direto ao cálculo de probabilidades para pessoas que compartilham aniversários.
Para esses cálculos, faremos algumas suposições. Primeiro, vamos ignorar o ano bissexto. Isso simplifica a matemática e não altera muito os resultados. Também presumiremos que todos os aniversários têm a mesma probabilidade de ocorrer.
Vamos começar com uma pessoa e, em seguida, adicionar as pessoas uma de cada vez para ilustrar como os cálculos funcionam. Para esses cálculos, é mais fácil calcular a probabilidade de ninguém compartilhar um aniversário. Então, pegaremos essa probabilidade e subtrairemos se de um para derivar a probabilidade de que pelo menos duas pessoas façam aniversário.
1 – Probabilidade de não correspondência = Probabilidade de pelo menos uma correspondência
Para a primeira pessoa, não há aniversários já incluídos, o que significa que há uma chance 365/365 de que não haja um aniversário compartilhado. Isso faz sentido. Temos apenas uma pessoa.
Agora, vamos adicionar a segunda pessoa. A primeira pessoa cobre um aniversário possível, então a segunda pessoa tem 364/365 chance de não compartilhar o mesmo dia. Precisamos multiplicar as probabilidades das duas primeiras pessoas e subtrair de um.
Para a terceira pessoa, as duas anteriores as pessoas cobrem duas datas. Portanto, a terceira pessoa tem uma probabilidade de 363/365 por não compartilhar um aniversário.
Agora, você está vendo o padrão de como calcular a probabilidade para um determinado número de pessoas. Esta é a forma geral da equação:
Postagem relacionada: Fundamentos da probabilidade
Representando graficamente o problema do aniversário Probabilidades
Usando o Excel, posso calcular e representar graficamente as probabilidades para grupos de qualquer tamanho. Baixe meu arquivo Excel: BirthdayProblem.
Ao avaliar as probabilidades, a resposta para o problema do aniversário é que você precisa de um grupo de 23 pessoas para ter 50,73% de chance de pessoas compartilharem um aniversário! A maioria das pessoas não espera que o grupo seja tão pequeno. Além disso, observe no gráfico que um grupo de 57 tem uma probabilidade de 0,99. É virtualmente garantido!
Não se preocupe. Vou explicar esse resultado surpreendente em breve. Vamos primeiro verificar a resposta do problema do aniversário de 23 usando um método diferente.
Simulação do paradoxo do aniversário
Usando cálculos de probabilidade, esperamos que um grupo de 23 pessoas tenha aniversários correspondentes 50,73% do tempo. A seguir, usarei um programa de simulação estatística para simular o Paradoxo do Aniversário e determinar se as probabilidades reais correspondem às probabilidades previstas. Para esta simulação, estou usando o Statistics101, que é um programa de brindes, embora eles apreciem doações.
O programa vem com um script de exemplo que mostra a probabilidade de um grupo de 25. Modifiquei seus script para que reúna 100.000 grupos de 23 pessoas e atribua aleatoriamente um aniversário para cada pessoa. O programa determina se os aniversários coincidem em cada grupo de 23 e calcula a porcentagem desses 100.000 grupos que coincidem. Com base nos cálculos de probabilidade, esperamos que cerca de 50% dos grupos tenham correspondências. Também farei com que o programa crie um histograma do número de correspondências dentro de cada grupo. Baixe meu script: BirthdayProblem.
O software de simulação descobriu que 50,586% dos 100.000 grupos tinham datas de aniversário correspondentes. Isso é extremamente próximo da probabilidade calculada de 50,73%. Esta simulação verifica os cálculos de probabilidade.
O gráfico abaixo mostra a distribuição do número de correspondências nesses grupos de 23.
A barra mais à esquerda indica que 49,41% dos grupos não têm correspondências. As próximas barras mostram que 37% têm uma correspondência, 11,4% têm duas, 1,9% têm três e 0,31% têm mais de três correspondências.
Por que o tamanho do grupo é tão pequeno para o problema do aniversário?
Como o problema de Monty Hall, a maioria das pessoas acha que a resposta ao problema do aniversário é surpreendente e fere um pouco o cérebro!No entanto, a resposta está totalmente correta e descobrimos usando dois métodos diferentes – cálculos de probabilidade e simulação de computador. Vamos examinar por que a resposta não é intuitiva.
Freqüentemente, as pessoas pensam em seu aniversário e na probabilidade de alguém corresponder a essa data específica. No entanto, o problema é sobre quaisquer duas pessoas compartilhando um aniversário. Isso significa que você deve comparar todos os pares possíveis de indivíduos. Avaliar todos os pares faz com que o número de comparações aumente rapidamente – e aí está a fonte de confusão.
A fórmula para o número de comparações entre pares de N pessoas é: (N * (N-1)) / 2. Como você pode ver na tabela abaixo, o número compara bolas de neve a 253 para apenas 23 pessoas!
Para compartilhar um aniversário , cada par tem uma probabilidade fixa de 0,0027 de correspondência. Isso é baixo para apenas um par. No entanto, conforme o número de pares aumenta rapidamente, também aumenta a probabilidade de uma correspondência. Com 23 pessoas, você precisa comparar 253 pares. Com tantas comparações, fica difícil para nenhum dos pares de aniversário corresponder.
Quando há 57 pessoas, há 1.596 pares para comparar, e é virtualmente garantido com uma probabilidade de 0,99 de que pelo menos um par coincidirá com aniversários.
Adoro problemas como este em que a intuição leva você ao mau caminho, mas a matemática salva o dia!
Por estarmos falando de aniversários, um estatístico pode dizer que idade é apenas um número?