A Pearson korreláció egy -1 és +1 közötti szám, amely azt jelzi, hogy
milyen mértékben 2 változó lineárisan kapcsolódik egymáshoz.A Pearson-korrelációt “termék pillanatnyi korrelációs együtthatónak” (PMCC) vagy egyszerűen “korrelációnak”is nevezik.
A Pearson korrelációk csak kvantitatív változókra alkalmasak (beleértve a dichotóm változókat is).
- az ordinális változók esetében használja a Spearman korrelációt vagy a Kendall tau-t és
- a névleges változók esetében használja a Cramér V-jét.,
korrelációs együttható – példa
megkérdeztük 40 szabadúszók az éves jövedelmük felett 2010 keresztül 2014. A nyers adatok egy része az alábbiakban látható.
a mai kérdés az, hogy van-e összefüggés a 2010 feletti jövedelem és a 2011 feletti jövedelem között?Nos, egy nagyszerű módja annak, hogy megtudja, egy scatterplot vizsgálata e két változó számára: minden szabadúszót egy ponttal képviselünk. Az egyes pontok vízszintes és függőleges pozíciói a szabadúszók 2010-es és 2011-es jövedelmét jelzik. Az eredmény az alábbiakban látható.,
a scatterplot erős összefüggést mutat a 2010 és 2011 közötti jövedelem között: azok a szabadúszók, akiknek alacsony jövedelmük volt 2010 felett (bal szélső pontok), jellemzően alacsony jövedelműek voltak 2011-ben is (Alsó pontok), és fordítva. Ezenkívül ez a kapcsolat nagyjából lineáris; a pontok fő mintája egyenes vonal.
az, hogy pontjaink egyenes vonalban fekszenek, jelzi a kapcsolat erősségét. A Pearson-korreláció egy olyan szám, amely jelzi ennek a kapcsolatnak a pontos erősségét.,
korrelációs együtthatók és Scatterplotok
korrelációs együttható jelzi, hogy a scatterplot pontjai milyen mértékben fekszenek egyenes vonalban. Ez azt jelenti, hogy általában a korrelációkat elég pontosan tudjuk becsülni a szórólapokon kívül. Az alábbi ábra szépen illusztrálja ezt a pontot.
korrelációs együttható – alapok
a korrelációs együtthatókra vonatkozó néhány alapvető pontot szépen illusztrálja az előző ábra. A legkevésbé tudnia kell, hogy a
- korrelációk soha nem alacsonyabbak, mint -1., A -1 korreláció azt jelzi, hogy a scatter-telken lévő adatpontok pontosan egyenes csökkenő vonalon fekszenek; a két változó tökéletesen negatívan lineárisan kapcsolódik egymáshoz.
- a 0 korreláció azt jelenti, hogy két változónak nincs semmilyen lineáris kapcsolata. A két változó között azonban előfordulhat néhány nem lineáris kapcsolat.
- korrelációs együtthatók soha nem magasabbak, mint 1. Az 1-es korrelációs együttható azt jelenti, hogy két változó tökéletesen pozitívan lineárisan kapcsolódik; a scatter telek pontjai pontosan egyenes emelkedő vonalon fekszenek.,
korrelációs együttható – értelmezési figyelmeztetések
a korrelációk értelmezésekor néhány dolgot szem előtt kell tartania. Egy bonyolult vita külön bemutatót érdemel, de röviden megemlítünk két fő pontot.
- korrelációk okozati összefüggéseket jelezhetnek vagy nem jelezhetnek. Fordítva, okozati összefüggések néhány változó egy másik változó lehet, hogy nem eredményez korrelációt a két változó.
- a korrelációk nagyon érzékenyek a kiugró értékekre; egyetlen szokatlan megfigyelés nagy hatással lehet A korrelációra., Az ilyen kiugró könnyen kimutatható egy gyors ellenőrzés a szórás.
korrelációs koefficiens – Software
a legtöbb táblázatkezelő szerkesztők, mint például az Excel, Google sheets and OpenOffice lehet számítani korrelációk az Ön számára. Az alábbi ábra egy példát mutat a Googlesheets-ben.
korrelációs együttható – korrelációs mátrix
ne feledje, hogy a korrelációk a változók párjaira vonatkoznak. Ha több mint 2 változó érdekli, akkor valószínűleg meg akarja nézni az összes különböző változó pár közötti korrelációt., Ezeket a korrelációkat általában egy korrelációs mátrixként ismert négyzettáblában mutatják be. A statisztikai szoftvercsomagok, például az SPSS, korrelációs mátrixokat hoznak létre, mielőtt pisloghat a szeme. Az alábbiakban egy példa látható.
vegye figyelembe, hogy az átlós elemek (piros) az egyes változók és maga közötti korrelációk. Ezért mindig 1.
azt is vegye figyelembe, hogy az átló alatti korrelációk (szürke) redundánsak, mert azonosak az átló feletti korrelációkkal. Technikailag azt mondjuk, hogy ez egy szimmetrikus mátrix.,
Végül vegye figyelembe, hogy a korrelációk mintája tökéletesen érthető: az éves jövedelmek közötti korreláció alacsonyabb lesz, amennyiben ezek az évek távolabb vannak egymástól.
Pearson Correlation-Formula
korreláció-statisztikai szignifikancia
a rendelkezésre álló adatok gyakran-de nem mindig-egy kis minta egy sokkal nagyobb populációból. Ha igen, akkor a
mintánkban nem nulla korrelációt találhatunk, még akkor is, ha a populációban nulla. Az alábbi ábra szemlélteti, hogy ez hogyan történhet meg.,
Ha egy pillanatra figyelmen kívül hagyjuk a színeket, akkor ebben a scatterplotban minden 1000 pont megjelenít néhány populációt. A populációs korreláció-ρ – vel jelölve-nulla az 1.és a 2. teszt között.
most egy n = 20 mintát vehetünk ebből a populációból, amelyre az R = 0, 95 korreláció.Fordítva, ez azt jelenti, hogy a 0,95-ös minta korreláció nem bizonyítja bizonyossággal, hogy a teljes népességben nincs nulla korreláció. Azonban az R = 0, 95 megtalálása N = 20 esetén rendkívül valószínűtlen, ha ρ = 0. De pontosan mennyire valószínűtlen? És honnan tudjuk?,
korrelációs-vizsgálati statisztika
Ha ρ-populációs korreláció-nulla, akkor egy adott minta korrelációjának valószínűsége – statisztikai jelentősége-a minta méretétől függ. Ezért a minta méretét és az r-t egyetlen számra egyesítjük, a tesztstatisztikánk t:$$T = R \ sqrt {\frac {(n – 2)} {(1 – R^2)}$
most maga a T nem érdekes. Szükségünk van azonban arra, hogy megtaláljuk a korreláció szignifikanciaszintjét. T követi a T eloszlást ν = n – 2 szabadságfokkal, de csak akkor, ha bizonyos feltételezések teljesülnek.,
korrelációs teszt-feltételezések
a Pearson-korreláció statisztikai szignifikancia tesztje 3 feltételezést igényel:
- független megfigyelések;
- A populációs korreláció, ρ = 0;
- normalitás: az érintett 2 változó általában a populációban oszlik meg. Ez azonban nem szükséges egy ésszerű mintamérethez-mondjuk, n ≥ 20 vagy úgy.Ennek oka a központi határ tétel.
Pearson Correlation – Sampling Distribution
példánkban az n minta mérete 20 volt., Tehát, ha teljesítjük feltételezéseinket, A t követi a T-eloszlást df = 18-mal, az alábbiak szerint.
Köszönjük az olvasást!