Coeficientul de corelație Pearson-introducere rapidă

o corelație Pearson este un număr între -1 și +1 care indică
în ce măsură 2 variabile sunt legate liniar.Corelația Pearson este, de asemenea, cunoscută sub numele de „coeficientul de corelație a momentului produsului” (PMCC) sau pur și simplu „corelație”.
corelațiile Pearson sunt potrivite numai pentru variabilele cantitative (inclusiv variabilele dihotomice).

pentru variabilele ordinale, utilizați corelația Spearman sau tau al lui Kendall și
pentru variabilele nominale, utilizați V-ul lui Cramér.,

Coeficient de corelație-exemplu

am solicitat 40 de freelanceri pentru veniturile lor anuale în perioada 2010-2014. O parte din datele brute sunt prezentate mai jos.

întrebarea de astăzi este:există vreo legătură între veniturile din 2010
și veniturile din 2011?Ei bine, o modalitate splendidă de a afla este inspectarea unui scatterplot pentru aceste două variabile: vom reprezenta fiecare freelancer cu un punct. Pozițiile orizontale și verticale ale fiecărui punct indică venitul unui freelancer în 2010 și 2011. Rezultatul este prezentat mai jos.,

scatterplot-ul nostru arată o relație puternică între veniturile din 2010 și 2011: freelancerii care au avut un venit scăzut în 2010 (puncte din stânga) au avut de obicei un venit scăzut și în 2011 (puncte inferioare) și invers. Mai mult, această relație este aproximativ liniară; modelul principal în puncte este o linie dreaptă.
măsura în care punctele noastre se află pe o linie dreaptă indică puterea relației. Corelația Pearson este un număr care indică puterea exactă a acestei relații.,

coeficienți de corelație și Scatterplots

un coeficient de corelație indică măsura în care punctele dintr-un scatterplot se află pe o linie dreaptă. Acest lucru implică faptul că, de obicei, putem estima corelațiile destul de precis de la nimic mai mult decât scatterplots. Figura de mai jos ilustrează frumos acest punct.

Coeficient de corelație – bazele

unele puncte de bază privind coeficienții de corelație sunt frumos ilustrate de figura anterioară. Cel mai puțin trebuie să știți este că

corelațiile nu sunt niciodată mai mici decât -1., O corelație de -1 indică faptul că punctele de date într-un complot scatter se află exact pe o linie descendentă dreaptă; cele două variabile sunt perfect negativ liniar legate.
o corelație de 0 înseamnă că două variabile nu au nici un fel de relație liniară. Cu toate acestea, unele relații neliniare pot exista între cele două variabile.
coeficienții de corelație nu sunt niciodată mai mari decât 1. Un coeficient de corelație de 1 înseamnă că două variabile sunt perfect pozitiv liniar legate; punctele într-un complot scatter se află exact pe o linie ascendentă dreaptă.,

Coeficient de corelație – avertismente de interpretare

când interpretați corelațiile, trebuie să țineți cont de unele lucruri. O discuție elaborată merită un tutorial separat, dar vom menționa pe scurt două puncte principale.

corelațiile pot indica sau nu relații cauzale. Invers, relațiile cauzale de la o variabilă la o altă variabilă pot sau nu pot duce la o corelație între cele două variabile.
corelațiile sunt foarte sensibile la valori aberante; o singură observație neobișnuită poate avea un impact enorm asupra unei corelații., Astfel de valori sunt ușor de detectat printr-o inspecție rapidă un scatterplot.

Coeficient de corelație – Software

majoritatea editorilor de foi de calcul, cum ar fi Excel, Google sheets și OpenOffice, pot calcula corelații pentru dvs. Ilustrația de mai jos prezintă un exemplu în Googlesheets.

coeficientul de corelație – matricea de corelație

rețineți că corelațiile se aplică perechilor de variabile. Dacă sunteți interesat de mai mult de 2 variabile, probabil că veți dori să aruncați o privire la corelațiile dintre toate perechile de variabile diferite., Aceste corelații sunt de obicei prezentate într-un tabel pătrat cunoscut sub numele de matrice de corelație. Pachetele software statistice, cum ar fi SPSS, creează matrice de corelații înainte de a putea clipi ochii. Un exemplu este prezentat mai jos.

rețineți că elementele diagonale (în roșu) sunt corelațiile dintre fiecare variabilă și ea însăși. Acesta este motivul pentru care sunt întotdeauna 1.
De asemenea, rețineți că corelațiile de sub diagonală (în gri) sunt redundante, deoarece sunt identice cu corelațiile de deasupra diagonalei. Din punct de vedere tehnic, spunem că aceasta este o matrice simetrică.,
În cele din urmă, rețineți că modelul corelațiilor are sens perfect: corelațiile dintre veniturile anuale devin mai mici în măsura în care acești ani se află mai departe.

Pearson Correlation – Formula

corelație – semnificație statistică

datele pe care le avem disponibile sunt adesea-dar nu întotdeauna – un eșantion mic dintr-o populație mult mai mare. Dacă da, putem găsi o corelație non-zero în eșantionul nostru
chiar dacă este zero în populație. Figura de mai jos ilustrează modul în care s-ar putea întâmpla acest lucru.,

dacă ignorăm culorile pentru o secundă, toate cele 1.000 de puncte din acest scatterplot vizualizează o anumită populație. Corelația populației-notată cu ρ-este zero între testul 1 și testul 2.
acum, am putea trage un eșantion de N = 20 din această populație pentru care corelația r = 0.95.Invers, aceasta înseamnă că o corelație a eșantionului de 0,95 nu dovedește cu certitudine că există o corelație non zero în întreaga populație. Cu toate acestea, găsirea r = 0, 95 cu N = 20 este extrem de puțin probabilă dacă ρ = 0. Dar exact cât de puțin probabil? Și de unde știm?,

corelația-Statistica testului

Dacă ρ-o corelație a populației-este zero, atunci probabilitatea pentru o anumită corelație a eșantionului – semnificația sa statistică-depinde de mărimea eșantionului. Prin urmare, combinăm dimensiunea eșantionului și r într – un singur număr, statistica testului nostru t:$$T = R\sqrt{\frac{(n – 2)}{(1-R^2)}}$$
acum, T în sine nu este interesant. Cu toate acestea, avem nevoie de ea pentru a găsi nivelul de semnificație pentru o anumită corelație. T urmează o distribuție t cu ν = n – 2 grade de libertate, dar numai dacă sunt îndeplinite unele ipoteze.,

de Corelație Test – Ipoteze

semnificația statistică A testului pentru un corelație Pearson necesită 3 ipoteze:

observații independente;
populație corelație ρ = 0;
normalitatea: 2 variabile implicate sunt bivariately normal distribuite în populație. Cu toate acestea, acest lucru nu este necesar pentru o dimensiune rezonabilă a eșantionului-să zicem, n ≥ 20 sau cam asa ceva.Motivul pentru aceasta constă în teorema limitei centrale.

Pearson Corelation – Sampling Distribution

în exemplul nostru, dimensiunea eșantionului N a fost 20., Deci, dacă ne îndeplinim ipotezele, T urmează o distribuție t cu df = 18 așa cum se arată mai jos.

Vă mulțumim pentru lectură!

corelații Pearson-introducere rapidă