En Pearson-korrelasjon er et tall mellom -1 og +1, som indikerer
hvilken grad 2 variabler er lineært relatert.Pearson-korrelasjon er også kjent som «produkt-moment korrelasjon koeffisient» (PMCC) eller rett og slett «sammenheng».
Pearson korrelasjoner er bare egnet for kvantitative variabler (inkludert dichotomous variabler).
- For ordenstallet variabler, bruker Spearman korrelasjon eller Kendall ‘ s tau-og
- for nominelle størrelser, bruk Cramér s V.,
korrelasjonskoeffisient – Eksempel
Vi spurte 40 frilansere for sin årlige inntekter gjennom 2010 til 2014. En del av raw-data er vist nedenfor.
Dagens spørsmål er:er det noen sammenheng mellom inntekt over 2010
og inntekter 2011?Vel, en flott måte for å finne ut undersøker et scatterplot for disse to variablene: vi vil representere hver freelancer med et punkt. Den horisontale og vertikale posisjoner for hvert punkt angir en frilanser inntekt over 2010 og 2011. Resultatet er vist nedenfor.,
Vår scatterplot viser en sterk sammenheng mellom inntekt over 2010 og 2011: frilansere som hadde lav inntekt over 2010 (lengst til venstre prikker) som vanligvis hadde en lav inntekt over 2011 samt (lavere prikker) og vice versa. Videre er dette forhold er omtrent lineær; det viktigste mønster i punkter er en rett linje.
I hvilken grad vår punktene ligger på en rett linje angir styrken av sammenhengen. Pearson-korrelasjon er et tall som angir den nøyaktige styrke dette forholdet.,
Korrelasjon Koeffisienter og Scatterplots
En korrelasjonskoeffisienten angir i hvilken grad prikker i et scatterplot ligge på en rett linje. Dette innebærer at vi kan vanligvis beregne korrelasjoner ganske nøyaktig fra noe mer enn scatterplots. Figuren nedenfor pent illustrerer dette poenget.
korrelasjonskoeffisient – Grunnleggende
Noen grunnleggende punkter om korrelasjon koeffisientene er pent illustrert ved forrige figur. Minst du bør vite er at
- Sammenhenger er aldri lavere enn -1., En korrelasjon på -1 indikerer at data poeng i et punktplott ligge nøyaktig på en rett nedadgående linje; de to variablene er perfekt negativt lineært relatert.
- En korrelasjon på 0 betyr at to variabler som ikke har noen lineær sammenheng overhodet. Imidlertid, noen ikke-lineær relasjon eksisterer mellom de to variablene.
- Korrelasjon koeffisientene er aldri høyere enn 1. En korrelasjonskoeffisient på 1 betyr at to variabler er perfekt positivt lineært knyttet; prikkene i et punktplott ligge nøyaktig på en rett oppadstigende linje.,
korrelasjonskoeffisient – Tolkning Begrensninger
Når tolke sammenhenger, bør du holde noen ting i tankene. En utførlig diskusjon fortjener en egen opplæringen, men vi vil kort nevne to viktige poeng.
- Sammenhenger kan eller ikke kan tyde på årsakssammenhengene. Feil vei, årsakssammenhengene fra en variabel til en annen variabel som kan eller ikke kan resultere i at det er en sammenheng mellom de to variablene.
- Sammenhenger er svært følsom for ekstreme verdier; en enkelt uvanlig observasjon kan ha en stor innvirkning på en sammenheng., Slike ekstreme verdier er lett oppdages ved en rask inspeksjon et scatterplot.
korrelasjonskoeffisient – Programvare
de Fleste regneark redaktører som Excel, Google ark og OpenOffice kan beregne korrelasjoner for deg. Illustrasjonen nedenfor viser et eksempel på Googlesheets.
korrelasjonskoeffisient – Korrelasjon Matrix
husk at korrelasjoner gjelde for par av variabler. Hvis du er interessert i mer enn 2 variabler, vil du sannsynligvis ønske å ta en titt på sammenhenger mellom ulike variable par., Disse sammenhenger, vises vanligvis i en firkantet bord kjent som en korrelasjon matrise. Statistiske programpakker som SPSS lage korrelasjoner matriser før du kan blunke øynene. Et eksempel er vist nedenfor.
Merk at den diagonale elementer (i rødt) er sammenhenger mellom hver variabel og seg selv. Dette er grunnen til at de er alltid 1.
merk Også at korrelasjoner under diagonalen (i grått) er overflødige fordi de er identiske til korrelasjoner over diagonalen. Teknisk, sier vi at dette er en symmetrisk matrise.,
til Slutt, merk at mønsteret av sammenhenger gjør perfekt forstand: korrelasjoner mellom årlige inntektene blir lavere i den grad disse årene ligge lenger fra hverandre.
Pearson Korrelasjon – Formel
Korrelasjon – Statistisk Signifikans
De data vi har tilgjengelig er ofte-men ikke alltid – et lite eksempel fra en mye større befolkning. Hvis så,kan vi finne en ikke null korrelasjon i vårt eksempel
selv om det er null i befolkningen. Figuren nedenfor illustrerer hvordan dette kunne skje.,
Hvis vi ser bort farger for en andre, alle med 1000 punkter i denne scatterplot visualisere noen befolkningen. Befolkningen korrelasjon -merket med ρ – er null mellom test 1 og test 2.
Nå, vi kunne trekke et utvalg av N = 20 fra denne populasjonen som korrelasjonen r = 0.95.Feil vei, betyr dette at en prøve korrelasjon av 0.95 ikke påvise med sikkerhet at det er en ikke null korrelasjon i hele befolkningen. Men å finne r = 0.95 med N = 20 er ekstremt usannsynlig hvis ρ = 0. Men nøyaktig hvor usannsynlig? Og hvordan vet vi?,
Korrelasjon – Test Statistikk
Hvis ρ -en befolkning sammenheng – er null, så sannsynligheten for et gitt eksempel korrelasjon -sin statistisk signifikans – avhenger av utvalgsstørrelse. Vi vil derfor kombinere eksempel størrelse og r i et enkelt tall, vår test statistikk t:$$T = R\sqrt{\frac{(n – 2)}{(1 – R^2)}}$$
Nå, T i seg selv er ikke interessant. Men, vi trenger det for å finne betydningen nivå for noen korrelasjon. T følger en t-fordeling med ν = n – 2 frihetsgrader, men bare hvis noen forutsetninger er oppfylt.,
Korrelasjon Test – Forutsetninger
Den statistiske betydningen test for en Pearson-korrelasjon krever 3 forutsetninger:
- uavhengige observasjoner;
- befolkningen korrelasjon, ρ = 0;
- normalitet: 2 variabler involvert, er bivariately normalfordelt i befolkningen. Dette er imidlertid ikke nødvendig for en rimelig eksempel størrelse -si, N ≥ 20 eller så.Grunnen til dette ligger i den sentrale grensesetningen.
Pearson Korrelasjon – Sampling Distribusjon
I vårt eksempel, utvalgsstørrelse N var 20., Så hvis vi oppfyller våre forutsetninger, T følger en t-fordeling med df = 18, som vist nedenfor.
Takk for at du leser!