Pearson korelační koeficient je číslo mezi -1 a +1, které udává,
, v jakém rozsahu 2 proměnné jsou lineárně související.Pearsonova korelace je také známá jako “ koeficient korelace momentu produktu „(PMCC) nebo jednoduše“korelace“.
Pearsonovy korelace jsou vhodné pouze pro kvantitativní proměnné (včetně dichotomních proměnných).
- pro pořadové proměnné použijte korelaci Spearman nebo Kendall ‚s tau a
- pro nominální proměnné použijte Cramér‘ s v.,
korelační koeficient-příklad
požádali jsme 40 nezávislých pracovníků o jejich roční příjmy za roky 2010 až 2014. Část surových dat je uvedena níže.
dnešní otázka zní: Existuje nějaký vztah mezi příjmem nad 2010
a příjmem nad 2011?No, skvělý způsob, jak zjistit, je kontrola a scatterplot pro tyto dvě proměnné: budeme představovat každý freelancer tečkou. Horizontální a vertikální pozice každé tečky označují příjmy nezávislého pracovníka za roky 2010 a 2011. Výsledek je uveden níže.,
náš scatterplot vykazuje silný vztah mezi příjmy nad 2010 a 2011: nezávislí, kteří měli nízký příjem nad 2010 (nejvíce vlevo tečky), měli obvykle nízký příjem nad 2011 a naopak. Kromě toho je tento vztah zhruba lineární; hlavní vzor V tečkách je přímka.
rozsah, v jakém naše tečky leží na přímce, označuje sílu vztahu. Pearsonova korelace je číslo, které označuje přesnou sílu tohoto vztahu.,
Korelační Koeficienty a Scatterplots
korelační koeficient udává, do jaké míry tečky v scatterplot leží na přímce. To znamená, že můžeme obvykle odhadnout korelace docela přesně z nic víc než scatterplots. Obrázek níže pěkně ilustruje tento bod.
Korelační Koeficient – Základy
Některé základní body týkající se korelační koeficienty jsou pěkně znázorněny na předchozím obrázku. Nejméně byste měli vědět, že korelace
- nejsou nikdy nižší než -1., Korelace -1 naznačuje, že datové body v rozptylovém grafu leží přesně na přímé sestupné čáře; obě proměnné jsou dokonale negativně lineárně příbuzné.
- korelace 0 znamená, že dvě proměnné nemají vůbec žádný lineární vztah. Mezi oběma proměnnými však může existovat nějaký nelineární vztah.
- korelační koeficienty nejsou nikdy vyšší než 1. Korelační koeficient 1 znamená, že dvě proměnné jsou dokonale pozitivní lineární vztah; tečky v scatter plot ležet přesně na přímé vzestupné linii.,
Korelační Koeficient – Výklad Výhradami
Při interpretaci korelace, měli byste mít některé věci na paměti. Propracovaná diskuse si zaslouží samostatný tutoriál, ale stručně zmíníme dva hlavní body.
- korelace mohou nebo nemusí naznačovat kauzální vztahy. Obráceně, kauzální vztahy z nějaké proměnné na jinou proměnnou mohou nebo nemusí mít za následek korelaci mezi oběma proměnnými.korelace
- jsou velmi citlivé na odlehlé hodnoty; jediné neobvyklé pozorování může mít obrovský dopad na korelaci., Takové odlehlé hodnoty jsou snadno detekovány rychlou inspekcí rozptylu.
korelační koeficient-Software
většina editorů tabulek, jako jsou Excel, Google sheets a OpenOffice, může pro vás vypočítat korelace. Na obrázku níže je uveden příklad v Googlesheets.
korelační koeficient – korelační matice
mějte na paměti, že korelace platí pro páry proměnných. Pokud máte zájem o více než 2 proměnné, pravděpodobně se budete chtít podívat na korelace mezi všemi různými proměnnými páry., Tyto korelace jsou obvykle uvedeny v čtvercové tabulce známé jako korelační matice. Statistické softwarové balíčky, jako je SPSS, vytvářejí matrice korelace, než budete moci blikat oči. Příklad je uveden níže.
Všimněte si, že diagonální prvky (červeně) jsou korelace mezi každou proměnnou a sám. Proto jsou vždy 1.
také si všimněte, že korelace pod úhlopříčkou (v šedé barvě) jsou nadbytečné, protože jsou totožné s korelacemi nad úhlopříčkou. Technicky říkáme, že se jedná o symetrickou matici.,
nakonec si všimněte, že vzorec korelací dává dokonalý smysl: korelace mezi ročními příjmy se snižují, pokud se tyto roky dále oddělují.
Pearsonova korelace-vzorec
korelace-statistická významnost
dostupné údaje jsou často – ale ne vždy-malým vzorkem z mnohem větší populace. Pokud ano, můžeme v našem vzorku najít nulovou korelaci
, i když je v populaci nulová. Níže uvedený obrázek ukazuje, jak by se to mohlo stát.,
Pokud budeme ignorovat barvy pro druhé, všech 1000 tečky v této scatterplot představit některé populace. Populační korelace-označená ρ-je nulová mezi testem 1 a testem 2.
nyní bychom mohli z této populace nakreslit vzorek N = 20, pro který je korelace r = 0, 95.Obráceně to znamená, že korelace vzorku 0.95 s jistotou neprokazuje, že v celé populaci existuje nulová korelace. Nalezení r = 0, 95 S N = 20 je však velmi nepravděpodobné, pokud ρ = 0. Ale přesně jak nepravděpodobné? A jak to víme?,
Korelace – Test Statistika
Pokud ρ -populační korelace – je nulová, pak pravděpodobnost pro daný vzorek srovnávací -statistické význam – závisí na velikosti vzorku. Proto kombinujeme velikost vzorku a r do jediného čísla, náš testovací statistika t:$$T = R\sqrt{\frac{(n – 2)}{(1 – R^2)}}$$
Nyní, T sám o sobě není zajímavé. Potřebujeme ji však pro nalezení úrovně významu pro určitou korelaci. T následuje rozdělení t s ν = n – 2 stupně volnosti, ale pouze pokud jsou splněny některé předpoklady.,
Srovnávací Test – Předpoklady
statistického testu významnosti pro Pearsonův korelační vyžaduje 3 předpoklady:
- nezávislé pozorování;
- populační korelace ρ = 0;
- normality: 2 proměnných jsou bivariately normální rozdělení v populaci. To však není nutné pro přiměřenou velikost vzorku-řekněme, n ≥ 20 nebo tak.Důvodem je centrální limitní věta.
Pearsonova korelace – vzorkovací distribuce
v našem příkladu byla velikost vzorku N 20., Takže pokud splníme naše předpoklady, t následuje t-rozdělení s df = 18, jak je uvedeno níže.
Díky za čtení!