a Pearson correlation is a number between -1 and +1 that indicates
do jakiego stopnia 2 variables are linearly related.Korelacja Pearsona jest również znana jako” współczynnik korelacji momentu produktu „(PMCC) lub po prostu „korelacja”.
korelacje Pearsona są odpowiednie tylko dla zmiennych ilościowych (w tym zmiennych dychotomicznych).
- dla zmiennych porządkowych użyj korelacji Spearmana lub tau Kendalla, a
- dla zmiennych nominalnych użyj V Craméra.,
współczynnik korelacji – przykład
poprosiliśmy 40 freelancerów o ich roczne dochody w latach 2010-2014. Część surowych danych przedstawiono poniżej.
dzisiejsze pytanie brzmi:czy istnieje jakiś związek między dochodami powyżej 2010 roku
a dochodami powyżej 2011 roku?Cóż, doskonałym sposobem na dowiedzenie się jest sprawdzenie rozrzutu dla tych dwóch zmiennych: każdy freelancer reprezentujemy kropką. Poziome i pionowe pozycje każdej kropki wskazują dochód freelancera w latach 2010 i 2011. Wynik pokazano poniżej.,
Nasz scatterplot pokazuje silną zależność między dochodami ponad 2010 i 2011: freelancerzy, którzy mieli niski dochód ponad 2010 (lewe kropki) zazwyczaj mieli niski dochód ponad 2011, jak również (niższe kropki) i vice versa. Ponadto relacja ta jest z grubsza liniowa; główny wzór w kropkach jest linią prostą.
zakres, w jakim nasze kropki leżą na linii prostej, wskazuje na siłę relacji. Korelacja Pearsona jest liczbą, która wskazuje dokładną siłę tej relacji.,
współczynniki korelacji i punkty rozproszone
współczynnik korelacji wskazuje, w jakim stopniu punkty w punkcie rozproszonym leżą na linii prostej. Oznacza to, że zwykle możemy oszacować korelacje dość dokładnie z niczego więcej niż scatterplots. Poniższy rysunek ładnie ilustruje ten punkt.
współczynnik korelacji – podstawy
niektóre podstawowe punkty dotyczące współczynników korelacji są ładnie zilustrowane na poprzednim rysunku. Przynajmniej powinieneś wiedzieć, że
- korelacje nigdy nie są niższe niż -1., Korelacja -1 wskazuje, że punkty danych na wykresie punktowym leżą dokładnie na prostej linii malejącej; dwie zmienne są całkowicie ujemnie powiązane liniowo.
- korelacja 0 oznacza, że dwie zmienne nie mają żadnej zależności liniowej. Jednak między tymi dwoma zmiennymi może istnieć pewna nieliniowa zależność.
- współczynniki korelacji nigdy nie są wyższe niż 1. Współczynnik korelacji 1 oznacza, że dwie zmienne są doskonale dodatnio powiązane liniowo; kropki na wykresie punktowym leżą dokładnie na prostej rosnącej linii.,
współczynnik korelacji – zastrzeżenia interpretacyjne
interpretując korelacje, należy pamiętać o pewnych rzeczach. Rozbudowana dyskusja zasługuje na osobny samouczek, ale krótko wspomnimy o dwóch głównych punktach.
- korelacje mogą, ale nie muszą, wskazywać na związek przyczynowy. Odwrotnie, relacje przyczynowe z jakiejś zmiennej do innej zmiennej może lub nie może prowadzić do korelacji między tymi dwoma zmiennymi.
- korelacje są bardzo wrażliwe na wartości odstające; pojedyncza niezwykła obserwacja może mieć ogromny wpływ na korelację., Takie odstające są łatwo wykrywane przez szybką inspekcję plotera rozpraszającego.
współczynnik korelacji – oprogramowanie
Większość edytorów arkuszy kalkulacyjnych, takich jak Excel, Arkusze Google i OpenOffice, może obliczyć korelacje dla Ciebie. Poniższa ilustracja pokazuje przykład w Googlesheets.
współczynnik korelacji – macierz korelacji
należy pamiętać, że korelacje dotyczą par zmiennych. Jeśli interesuje cię więcej niż 2 zmienne, prawdopodobnie będziesz chciał spojrzeć na korelacje między wszystkimi różnymi parami zmiennych., Korelacje te są zwykle pokazane w tabeli kwadratowej znanej jako macierz korelacji. Pakiety oprogramowania statystycznego, takie jak SPSS, tworzą macierze korelacji, zanim będziesz mógł mrugnąć oczami. Przykład przedstawiono poniżej.
zauważ, że elementy diagonalne (w kolorze czerwonym) są korelacjami między każdą zmienną a nią samą. Dlatego zawsze są 1.
zauważ również, że korelacje poniżej przekątnej (w kolorze szarym) są zbędne, ponieważ są identyczne z korelacjami powyżej przekątnej. Technicznie mówimy, że jest to macierz symetryczna.,
na koniec zauważ, że wzór korelacji ma sens: korelacje między dochodami rocznymi stają się niższe, o ile lata te leżą dalej od siebie.
korelacja Pearsona – wzór
korelacja – istotność statystyczna
dostępne dane są często-ale nie zawsze – małą próbką ze znacznie większej populacji. Jeśli tak, możemy znaleźć niezerową korelację w naszej próbie
, nawet jeśli jest to zero w populacji. Poniższy rysunek ilustruje, jak to się mogło stać.,
jeśli zignorujemy kolory na sekundę, wszystkie 1000 punktów w tym punkcie rozproszonym wizualizuje pewną populację. Korelacja populacji-oznaczona ρ-jest zerowa między testem 1 i testem 2.
Teraz możemy pobrać próbkę N = 20 z tej populacji, dla której korelacja r = 0,95.Odwrotnie, oznacza to, że przykładowa korelacja 0,95 nie dowodzi z całą pewnością, że istnieje niezerowa korelacja w całej populacji. Jednak znalezienie r = 0,95 z N = 20 jest bardzo mało prawdopodobne, jeśli ρ = 0. Ale jak mało prawdopodobne? A skąd wiemy?,
korelacja – Statystyka badania
Jeśli ρ-korelacja populacji – wynosi zero, to Prawdopodobieństwo dla danej korelacji próbki-jej znaczenie statystyczne – zależy od wielkości próby. Dlatego łączymy wielkość próbki i r w jedną liczbę, nasza statystyka badania t:$$T = R\sqrt{\frac {(n – 2)} {(1-R^2)}}$$
Teraz, T sam w sobie nie jest interesujący. Jednak potrzebujemy go do znalezienia poziomu istotności dla pewnej korelacji. T wynika z rozkładu t z ν = n – 2 stopni swobody, ale tylko wtedy, gdy spełnione są pewne założenia.,
Test korelacji – założenia
test istotności statystycznej dla korelacji Pearsona wymaga 3 założeń:
- niezależne obserwacje;
- korelacja populacji, ρ = 0;
- normalność: 2 zmienne zaangażowane są dwuwarstwowo normalnie rozłożone w populacji. Nie jest to jednak konieczne dla rozsądnej wielkości próby-powiedzmy, N ≥ 20 lub więcej.Powodem tego jest centralne twierdzenie graniczne.
korelacja Pearsona – rozkład próbkowania
w naszym przykładzie wielkość próby N wynosiła 20., Więc jeśli spełnimy nasze założenia, t następuje rozkład t z df = 18, Jak pokazano poniżej.
dzięki za przeczytanie!