Fałszywa korelacja
Co to jest fałszywa korelacja
W statystykach fałszywa korelacja lub fałszywość odnosi się do związku między dwiema zmiennymi, który wydaje się być przyczynowy, ale nim nie jest. Fałszywe relacje często sprawiają wrażenie, że jedna zmienna wpływa na inną. Ta fałszywa korelacja jest często spowodowana trzecim czynnikiem, który nie jest widoczny w czasie badania, nazywany czasem czynnikiem zakłócającym.
Kluczowe wnioski
- Fałszywa korelacja lub fałszywość występuje, gdy dwa czynniki wydają się przypadkowo powiązane, ale nie są.
- Pojawienie się związku przyczynowego jest często spowodowane podobnym ruchem na wykresie co okazuje się być przypadkowe lub spowodowane trzecim „zagmatwanym” czynnikiem.
- Fałszywa korelacja może być często spowodowana małymi rozmiarami próbek lub arbitralnymi punktami końcowymi.
Jak działa korelacja fałszywa
Kiedy dwie zmienne losowe ściśle śledzą się nawzajem na wykresie, łatwo jest podejrzewać korelację lub związek między tymi dwoma czynnikami, gdzie zmiana wpływa na innych. Pomijając „przyczynowość”, inny temat, ta obserwacja może doprowadzić czytelnika wykresu do przekonania, że ruch zmiennej A jest powiązany z ruchem zmiennej B lub odwrotnie. ale czasami, po dokładniejszym zbadaniu statystycznym, wyrównane ruchy są przypadkowe lub spowodowane przez trzeci czynnik, który wpływa na pierwsze dwa. To jest fałszywa korelacja. Badania przeprowadzone na małych próbkach lub arbitralnych punktach końcowych są szczególnie podatne na fałszywe informacje.
Przykład fałszywych korelacji
Nie jest zbyt trudne odkrycie interesujących korelacji. Jednak wiele z nich okaże się fałszywych. W przypadku gatunku męskiego z Wall Street dwie popularne fałszywe korelacje dotyczą kobiet i sportu. Powstała w latach dwudziestych XX wieku teoria długości spódnic, zgodnie z którą długość spódnicy i kierunek rynku akcji są skorelowane. Jeśli spódnice są długie, oznacza to, że giełda spada; jeśli są krótkie, rynek rośnie. Pod koniec stycznia mówi się o tak zwanym wskaźniku Super Bowl, który sugeruje, że wygrana drużyny AFC prawdopodobnie oznacza, że giełda w nadchodzącym roku będzie spadać, a zwycięstwo zespołu NFC zapowiada wzrost rynek. Od 1966 r. Wskaźnik ma 80% dokładność. To zabawna rozmowa, ale prawdopodobnie nie jest to coś, co poważny doradca finansowy poleciłby jako strategia inwestycyjna dla klientów.
Oto kilka innych przykładów częstych fałszywych korelacji:
- Wraz ze wzrostem sprzedaży lodów rośnie liczba utonięć. Może się wydawać, że zwiększona sprzedaż lodów powoduje więcej utonięć, ale w rzeczywistości rosnący upał może sprawić, że więcej osób będzie pływać, a także kupować więcej lodów.
- Wskaźnik morderstw w USA w latach 2006-2011 spadł o taki sam współczynnik jak w przypadku przeglądarki Microsoft Internet Explorer.
- Kierownicy, którzy częściej mówią proszę i dziękuję, cieszą się lepszą wydajnością udostępniania.
- Osoby noszące sprzęt zespołu Oakland Raiders są bardziej skłonne do popełnienia przestępstw .
Jak wykryć fałszywe korelacje
Statystycy i inni naukowcy, którzy analizują dane, muszą cały czas szukać fałszywych zależności. Jest wiele metod, których używają, w tym:
- Zapewnienie odpowiedniej reprezentatywnej próbki.
- Uzyskanie odpowiedniej wielkości próby.
- Uważaj na arbitralne punkty końcowe.
- Kontrolowanie jak największej liczby zmiennych zewnętrznych.
- Korzystanie z hipotezy zerowej i sprawdzanie silnej wartości p.