Pearson korrelationskoefficient-hurtig introduktion

en Pearson korrelation er et tal mellem -1 og +1, der angiver
i hvilket omfang 2 variabler er lineært relaterede.Pearson-korrelationen er også kendt som” product moment correlation coefficient “(pmcc) eller blot”correlation”.
Pearson-korrelationer er kun egnede til kvantitative variabler (inklusive dikotomiske variabler).

for ordinære variabler skal du bruge Spearman-korrelationen eller Kendalls tau og
for nominelle variabler skal du bruge Cramrrs V.,

korrelationskoefficient – eksempel

Vi spurgte 40 freelancere for deres årlige indkomster over 2010 til 2014. En del af de rå data er vist nedenfor.

dagens spørgsmål er:er der nogen relation mellem indkomst over 2010
og indkomst over 2011?Nå, en glimrende måde at finde ud af er at inspicere en scatterplot for disse to variabler: vi repræsenterer hver freelancer med en prik. De vandrette og lodrette positioner for hver prik angiver en freelancers indkomst over 2010 og 2011. Resultatet er vist nedenfor.,

vores scatterplot viser en stærk relation mellem indkomst over 2010 og 2011: freelancere, der havde en lav indkomst over 2010 (venstre prikker), havde typisk en lav indkomst over 2011 også (lavere prikker) og vice versa. Desuden er denne relation nogenlunde lineær; hovedmønsteret i prikkerne er en lige linje.
i hvilket omfang vores prikker ligger på en lige linje angiver styrken af forholdet. Pearson-korrelationen er et tal, der angiver den nøjagtige styrke af denne relation.,

korrelationskoefficienter og Scatterplots

en korrelationskoefficient angiver, i hvilket omfang prikker i en scatterplot ligger på en lige linje. Dette indebærer, at vi normalt kan estimere korrelationer temmelig nøjagtigt fra intet andet end scatterplots. Figuren nedenfor illustrerer pænt dette punkt.

korrelationskoefficient – grundlæggende

nogle grundlæggende punkter vedrørende korrelationskoefficienter illustreres pænt af det foregående tal. Det mindste du bør vide er, at

korrelationer aldrig er lavere end -1., En korrelation af -1 indikerer, at datapunkterne i et scatter plot ligger nøjagtigt på en lige nedadgående linje; de to variabler er perfekt negativt lineært relaterede.
en korrelation på 0 betyder, at to variabler ikke har nogen lineær relation overhovedet. Der kan dog være en vis ikke-lineær relation mellem de to variabler.
korrelationskoefficienter er aldrig højere end 1. En korrelationskoefficient på 1 betyder, at to variabler er helt positivt lineært relaterede; prikkerne i et scatter plot ligger nøjagtigt på en lige stigende linje.,

korrelationskoefficient – fortolkning advarsler

Når du fortolker korrelationer, skal du huske nogle ting. En detaljeret diskussion fortjener en separat tutorial, men vi vil kort nævne to hovedpunkter.

korrelationer kan eller måske ikke indikere årsagsforhold. Omvendt kan årsagsforhold fra en variabel til en anden variabel muligvis ikke resultere i en sammenhæng mellem de to variabler.
korrelationer er meget følsomme over for outliers; en enkelt usædvanlig observation kan have en enorm indflydelse på en korrelation., Sådanne outliers let opdages ved en hurtig inspektion en scatterplot.

korrelationskoefficient – Software

de Fleste regneark redaktører såsom Excel, Google ark og OpenOffice kan beregne korrelationer for dig. Illustrationen nedenfor viser et eksempel i Googlesheets.

korrelationskoefficient – Korrelationsmatri.

Husk, at korrelationer gælder for par af variabler. Hvis du er interesseret i mere end 2 variabler, vil du sandsynligvis gerne se på sammenhængen mellem alle forskellige variable par., Disse korrelationer er normalt vist i en firkantet tabel kendt som en korrelationsmatri.. Statistiske soft .arepakker såsom SPSS skabe korrelationer matricer, før du kan blinke dine øjne. Et eksempel er vist nedenfor.

Bemærk, at de diagonale elementer (i rødt) er korrelationerne mellem hver variabel og sig selv. Det er derfor, de er altid 1.
Bemærk også, at korrelationerne under diagonalen (i grå) er overflødige, fordi de er identiske med korrelationerne over diagonalen. Teknisk set siger vi, at dette er en symmetrisk Matri..,
Bemærk endelig, at mønsteret af korrelationer giver perfekt mening: korrelationer mellem årlige indkomster bliver lavere, for så vidt som disse år ligger længere fra hinanden.

Pearson Correlation – Formel

Korrelation – Statistisk Signifikans

De data, vi har til rådighed, er ofte -men ikke altid – en lille prøve fra en meget større befolkning. I så fald kan vi finde en ikke-nul korrelation i vores prøve
, selvom det er nul i befolkningen. Figuren nedenfor illustrerer, hvordan dette kunne ske.,

Hvis vi ignorerer farverne i et sekund, visualiserer alle 1.000 prikker i denne scatterplot en vis befolkning. Befolkningskorrelationen-betegnet med ρ-er nul mellem test 1 og test 2.
nu kunne vi tegne en prøve af N = 20 fra denne population, for hvilken korrelationen r = 0,95.Omvendt betyder det, at en prøvekorrelation på 0.95 ikke med sikkerhed viser, at der er en ikke-nul-korrelation i hele befolkningen. Men at finde r = 0,95 med N = 20 er yderst usandsynligt, hvis 0 = 0. Men præcis hvor usandsynligt? Hvordan ved vi det?,

korrelation – teststatistik

Hvis population-en populationskorrelation – er nul, afhænger sandsynligheden for en given prøvekorrelation-dens statistiske betydning – af prøvestørrelsen. Vi kombinerer derfor prøvestørrelsen og r i et enkelt tal, vores teststatistik T:$$T = R\S .rt{\frac{(n – 2)}{(1 – R^2)}}$$
nu er t i sig selv ikke interessant. Vi har dog brug for det for at finde signifikansniveauet for en vis sammenhæng. T følger en t-fordeling med ν = n – 2 frihedsgrader, men kun hvis nogle antagelser er opfyldt.,

Korrelation Test – Antagelser

Den statistiske signifikans test for en Pearson korrelation kræver 3 antagelser:

uafhængige observationer;
befolkningen korrelationen, ρ = 0;
normalitet: de 2 variabler, der er involveret bivariately normalt fordelt i befolkningen. Dette er dog ikke nødvendigt for en rimelig stikprøvestørrelse-siger N 20 20 eller deromkring.Årsagen til dette ligger i den centrale grænse sætning.

Pearson korrelation – Sampling Distribution

i vores eksempel var prøvestørrelsen N 20., Så hvis vi opfylder vores antagelser, følger T en t-distribution med DF = 18 som vist nedenfor.

tak for læsning!

Pearson korrelationer – hurtig introduktion