Pearson correlatie Coefficient-Quick Introduction

een Pearson correlatie is een getal tussen -1 en +1 dat aangeeft in welke mate 2 variabelen lineair gerelateerd zijn.De Pearson correlatie is ook bekend als de” product moment correlation coefficient “(Pmcc) of gewoon”correlatie”.
Pearson-correlaties zijn alleen geschikt voor kwantitatieve variabelen (inclusief dichotome variabelen).

voor ordinale variabelen, gebruik de Spearman correlatie of Kendall ’s tau en
voor nominale variabelen, gebruik Cramér’ s V.,

correlatiecoëfficiënt – voorbeeld

we vroegen 40 freelancers naar hun jaarlijkse inkomsten over 2010 tot en met 2014. Een deel van de ruwe gegevens worden hieronder weergegeven.

de vraag van vandaag is: is er een verband tussen inkomen over 2010
en inkomen over 2011?Nou, een prachtige manier om erachter te komen is het inspecteren van een scatterplot voor deze twee variabelen: we vertegenwoordigen elke freelancer met een punt. De horizontale en verticale posities van elke stip geven het inkomen van een freelancer over 2010 en 2011. Het resultaat wordt hieronder weergegeven.,

ons scatterplot toont een sterke relatie tussen inkomen over 2010 en 2011: freelancers die een laag inkomen hadden over 2010 (meest linkse punten) hadden meestal ook een laag inkomen over 2011 (lagere punten) en vice versa. Verder is deze relatie ruwweg lineair; het hoofdpatroon in de stippen is een rechte lijn.de mate waarin onze stippen op een rechte lijn liggen geeft de sterkte van de relatie aan. De Pearson correlatie is een getal dat de exacte sterkte van deze relatie aangeeft.,

correlatiecoëfficiënten en Scatterplots

een correlatiecoëfficiënt geeft aan in welke mate punten in een scatterplot op een rechte lijn liggen. Dit houdt in dat we meestal correlaties vrij nauwkeurig kunnen inschatten uit niets meer dan verstrooiingen. De onderstaande figuur illustreert dit punt mooi.

correlatiecoëfficiënt – basis

enkele basispunten met betrekking tot correlatiecoëfficiënten worden mooi geïllustreerd door het vorige cijfer. Het minste wat u moet weten is dat

correlaties nooit lager zijn dan -1., Een correlatie van -1 geeft aan dat de datapunten in een verstrooiingsgrafiek precies op een rechte dalende lijn liggen; de twee variabelen zijn volkomen negatief lineair gerelateerd.
een correlatie van 0 betekent dat twee variabelen geen enkele lineaire relatie hebben. Er kan echter een niet-lineaire relatie bestaan tussen de twee variabelen.
correlatiecoëfficiënten zijn nooit hoger dan 1. Een correlatiecoëfficiënt van 1 betekent dat twee variabelen perfect positief lineair gerelateerd zijn; de punten in een scatterplot liggen precies op een rechte oplopende lijn.,

Correlation Coefficient – Interpretation Caveats

bij het interpreteren van correlaties moet u een aantal dingen in gedachten houden. Een uitgebreide discussie verdient een aparte tutorial, maar we zullen kort twee belangrijke punten noemen.

correlaties kunnen al dan niet wijzen op causale relaties. Omgekeerd kunnen causale relaties van een variabele naar een andere variabele al dan niet resulteren in een correlatie tussen de twee variabelen.
correlaties zijn zeer gevoelig voor uitschieters; een enkele ongewone waarneming kan een enorme impact hebben op een correlatie., Dergelijke uitschieters worden gemakkelijk gedetecteerd door een snelle inspectie van een verstrooiingsplot.

correlatiecoëfficiënt-Software

De meeste spreadsheet editors zoals Excel, Google sheets en OpenOffice kunnen correlaties voor u berekenen. Onderstaande afbeelding toont een voorbeeld in Googlesheets.

correlatiecoëfficiënt – correlatiematrix

houd in gedachten dat correlaties van toepassing zijn op paren van variabelen. Als je geïnteresseerd bent in meer dan 2 variabelen, wil je waarschijnlijk eens kijken naar de correlaties tussen alle verschillende variabele paren., Deze correlaties worden meestal weergegeven in een vierkante tabel die bekend staat als een correlatiematrix. Statistische softwarepakketten zoals SPSS maken correlatiematrices voordat u met uw ogen kunt knipperen. Hieronder volgt een voorbeeld.

merk op dat de diagonale elementen (in rood) de correlaties zijn tussen elke variabele en zichzelf. Daarom zijn ze altijd 1.
merk ook op dat de correlaties onder de diagonaal (in grijs) overbodig zijn omdat ze identiek zijn aan de correlaties boven de diagonaal. Technisch zeggen we dat dit een symmetrische matrix is.,ten slotte, merk op dat het patroon van correlaties volkomen logisch is: correlaties tussen jaarinkomens worden lager voor zover deze jaren verder uit elkaar liggen.

Pearson correlatie-formule

correlatie-statistische significantie

de beschikbare gegevens zijn vaak-maar niet altijd – een kleine steekproef uit een veel grotere populatie. Als dat zo is, kunnen we een niet-nul correlatie vinden in onze steekproef
zelfs als het nul is in de populatie. Onderstaande figuur illustreert hoe dit zou kunnen gebeuren.,

als we de kleuren een seconde negeren, visualiseren alle 1.000 stippen in dit scatterplot een populatie. De populatiecorrelatie-aangeduid met ρ-is nul tussen test 1 en test 2.nu kunnen we een steekproef van n = 20 trekken uit deze populatie waarvoor de correlatie r = 0,95.Omgekeerd betekent dit dat een steekproefcorrelatie van 0,95 niet met zekerheid bewijst dat er een niet-nulcorrelatie is in de gehele populatie. Het vinden van r = 0,95 met N = 20 is echter uiterst onwaarschijnlijk als ρ = 0. Maar hoe onwaarschijnlijk? En hoe weten we dat?,

correlatie-teststatistiek

indien ρ – een populatiecorrelatie-nul is, dan is de waarschijnlijkheid voor een bepaalde steekproefcorrelatie-de statistische significantie – afhankelijk van de steekproefgrootte. We combineren daarom de steekproefgrootte en r in een enkel getal, onze teststatistiek t:$$T = R \ sqrt{\frac {(n-2)} {(1 – r^2)}}$$
nu is T zelf niet interessant. Echter, we hebben het nodig voor het vinden van de significantieniveau voor een aantal correlatie. T volgt een T-verdeling met ν = n-2 vrijheidsgraden, maar alleen als aan bepaalde veronderstellingen wordt voldaan.,

Correlatietest-aannames

de statistische significantietest voor een Pearson-correlatie vereist 3 aannames:

onafhankelijke waarnemingen;
de populatiecorrelatie, ρ = 0;
normaliteit: de twee betrokken variabelen zijn bivariately normaal verdeeld in de populatie. Dit is echter niet nodig voor een redelijke steekproefgrootte-zeg n ≥ 20 of zo.De reden hiervoor ligt in de centrale limietstelling.

Pearson correlatie – Sampling distributie

in ons voorbeeld was de steekproefgrootte N 20., Dus als we aan onze aannames voldoen, volgt T een T-verdeling met df = 18 Zoals hieronder getoond.

Bedankt voor het lezen!

Pearson correlaties-Quick Introduction