Co to jest fałszywa korelacja
W statystyce fałszywa korelacja lub fałszywość odnosi się do związku między dwiema zmiennymi, który wydaje się przyczynowy, ale nie jest. Relacje pozorne często mają wygląd jednej zmiennej wpływającej na drugą. Ta fałszywa korelacja jest często powodowana przez trzeci czynnik, który nie jest widoczny w momencie badania, czasami nazywany czynnikiem mylącym.
Kluczowe dania na wynos
- Fałszywa korelacja, czyli fałszywość, występuje wtedy, gdy dwa czynniki wydają się przypadkowo powiązane, ale nie są. Pojawienie się związku przyczynowego jest często spowodowane podobnym ruchem na wykresie, który okazuje się przypadkowy lub spowodowany trzecim „zakłócającym” czynnikiem. często mogą być spowodowane małymi rozmiarami próbki lub dowolnymi punktami końcowymi.
Jak działa fałszywa korelacja
Gdy dwie zmienne losowe ściśle śledzą się na wykresie, łatwo jest podejrzewać korelację lub związek między tymi dwoma czynnikami, gdzie zmiana wpływa na drugi. Odkładając na bok „przyczynowość”, inny temat, obserwacja ta może doprowadzić czytelnika do przekonania, że ruch zmiennej A jest powiązany z ruchem w zmiennej B lub odwrotnie. ale czasami, po bliższym zbadaniu statystycznym, wyrównane ruchy są przypadkowe lub spowodowane przez trzeci czynnik, który wpływa na pierwsze dwa. To jest fałszywa korelacja. Badania przeprowadzone na małych próbkach lub dowolnych punktach końcowych są szczególnie podatne na fałszywość.
Przykład fałszywych korelacji
Odkrywanie interesujących korelacji nie jest zbyt trudne. Jednak wielu okaże się fałszywych. W przypadku gatunku męskiego na Wall Street dwie popularne fałszywe korelacje dotyczą kobiet i sportu. Powstała w latach dwudziestych XX wieku teoria długości spódnicy, która utrzymuje, że długości spódnic i kierunek giełdy są ze sobą skorelowane. Jeśli długości spódnic są długie, oznacza to, że rynek akcji spada; jeśli są krótkie, rynek rośnie. Mniej więcej pod koniec stycznia mówi się o tak zwanym wskaźniku Super Bowl, który sugeruje, że zwycięstwo zespołu AFC prawdopodobnie oznacza, że giełda spadnie w nadchodzącym roku, podczas gdy zwycięstwo zespołu NFC zapowiada wzrost rynek. Od 1966 roku wskaźnik miał wskaźnik dokładności 80%. To zabawna rozmowa, ale prawdopodobnie nie jest to coś, co poważny doradca finansowy poleciłby klientom jako strategię inwestycyjną.
Oto kilka przykładów typowych fałszywych korelacji:
- Utonięcia rosną wraz ze wzrostem sprzedaży lodów. Może się wydawać, że wzrost sprzedaży lodów powoduje utonięcie, ale w rzeczywistości rosnące upały mogą powodować, że więcej ludzi będzie pływać, a także kupi więcej lodów. Wskaźnik morderstw w USA w latach 2006-2011 spadł w takim samym tempie jak Microsoft Internet Explorer Kierownicy, którzy mówią, proszę i dziękują, częściej cieszą się lepszą wydajnością. Ludzie, którzy noszą sprzęt drużynowy Oakland Raiders, częściej popełniają przestępstwa.
Jak rozpoznać fałszywe korelacje
Statystycy i inni naukowcy analizujący dane muszą cały czas szukać fałszywych relacji. Korzystają z wielu metod, w tym:
- Zapewnienie odpowiedniej reprezentatywnej próbki. Uzyskanie odpowiedniej wielkości próby. Uważanie na arbitralne punkty końcowe. Kontrolowanie jak największej liczby zmiennych zewnętrznych. Stosowanie hipotezy zerowej i sprawdzanie silnej wartości p.
