Coefficiente di correlazione di Pearson - Introduzione rapida

Una correlazione di Pearson è un numero compreso tra -1 e +1 che indica
in quale misura 2 variabili sono linearmente correlate.La correlazione di Pearson è anche conosciuta come” product moment correlation coefficient “(PMCC) o semplicemente”correlazione”.
Le correlazioni di Pearson sono adatte solo per variabili quantitative (comprese le variabili dicotomiche).

Per le variabili ordinali, utilizzare la correlazione di Spearman o tau di Kendall e
per le variabili nominali, utilizzare V di Cramér.,

Coefficiente di correlazione – Esempio

Abbiamo chiesto a 40 liberi professionisti per i loro redditi annuali dal 2010 al 2014. Parte dei dati grezzi sono mostrati di seguito.

La domanda di oggi è:esiste una relazione tra reddito oltre il 2010
e reddito oltre il 2011?Bene, un modo splendido per scoprirlo è ispezionare un grafico a dispersione per queste due variabili: rappresenteremo ogni libero professionista con un punto. Le posizioni orizzontali e verticali di ciascun punto indicano il reddito di un libero professionista nel 2010 e nel 2011. Il risultato è mostrato di seguito.,

Il nostro scatterplot mostra una forte relazione tra reddito sopra 2010 e 2011: liberi professionisti che avevano un reddito basso sopra 2010 (punti più a sinistra) in genere avevano un reddito basso sopra 2011 pure (punti più bassi) e viceversa. Inoltre, questa relazione è approssimativamente lineare; il modello principale nei punti è una linea retta.
La misura in cui i nostri punti si trovano su una linea retta indica la forza della relazione. La correlazione di Pearson è un numero che indica la forza esatta di questa relazione.,

Coefficienti di correlazione e Scatterplots

Un coefficiente di correlazione indica la misura in cui i punti in un scatterplot si trovano su una linea retta. Ciò implica che di solito possiamo stimare le correlazioni in modo abbastanza accurato da nient’altro che grafici a dispersione. La figura seguente illustra bene questo punto.

Coefficiente di correlazione – Nozioni di base

Alcuni punti fondamentali riguardanti i coefficienti di correlazione sono ben illustrati dalla figura precedente. Il minimo che dovresti sapere è che le correlazioni

non sono mai inferiori a -1., Una correlazione di -1 indica che i punti dati in un grafico a dispersione si trovano esattamente su una linea discendente retta; le due variabili sono perfettamente negativamente linearmente correlate.
Una correlazione di 0 significa che due variabili non hanno alcuna relazione lineare. Tuttavia, alcune relazioni non lineari possono esistere tra le due variabili.
I coefficienti di correlazione non sono mai superiori a 1. Un coefficiente di correlazione di 1 significa che due variabili sono perfettamente positivamente linearmente correlate; i punti in un grafico a dispersione si trovano esattamente su una linea ascendente retta.,

Coefficiente di correlazione – Avvertenze di interpretazione

Quando si interpretano le correlazioni, è necessario tenere a mente alcune cose. Una discussione elaborata merita un tutorial separato, ma menzioneremo brevemente due punti principali.

Le correlazioni possono o non possono indicare relazioni causali. In senso inverso, le relazioni causali da una variabile a un’altra variabile possono comportare o meno una correlazione tra le due variabili.
Le correlazioni sono molto sensibili ai valori anomali; una singola osservazione insolita può avere un enorme impatto su una correlazione., Tali valori anomali sono facilmente rilevati da una rapida ispezione un grafico a dispersione.

Coefficiente di correlazione-Software

La maggior parte degli editor di fogli di calcolo come Excel, Google sheets e OpenOffice può calcolare le correlazioni per te. L’illustrazione seguente mostra un esempio in Googlesheets.

Coefficiente di correlazione – Matrice di correlazione

Tieni presente che le correlazioni si applicano a coppie di variabili. Se sei interessato a più di 2 variabili, probabilmente vorrai dare un’occhiata alle correlazioni tra tutte le diverse coppie di variabili., Queste correlazioni sono solitamente mostrate in una tabella quadrata nota come matrice di correlazione. Pacchetti software statistici come SPSS creano matrici di correlazioni prima di poter battere gli occhi. Un esempio è mostrato di seguito.

Si noti che gli elementi diagonali (in rosso) sono le correlazioni tra ogni variabile e se stessa. Questo è il motivo per cui sono sempre 1.
Si noti inoltre che le correlazioni sotto la diagonale (in grigio) sono ridondanti perché sono identiche alle correlazioni sopra la diagonale. Tecnicamente, diciamo che questa è una matrice simmetrica.,
Infine, si noti che il modello delle correlazioni ha perfettamente senso: le correlazioni tra i redditi annuali diventano più basse nella misura in cui questi anni si trovano più distanti.

Pearson Correlation – Formula

Correlation – Statistical Significance

I dati che abbiamo a disposizione sono spesso-ma non sempre – un piccolo campione da una popolazione molto più grande. Se è così, potremmo trovare una correlazione diversa da zero nel nostro campione
anche se è zero nella popolazione. La figura seguente illustra come ciò potrebbe accadere.,

Se ignoriamo i colori per un secondo, tutti i 1.000 punti in questo scatterplot visualizzano una certa popolazione. La correlazione di popolazione-indicata da ρ-è zero tra il test 1 e il test 2.
Ora, potremmo disegnare un campione di N = 20 da questa popolazione per la quale la correlazione r = 0.95.In senso inverso, ciò significa che una correlazione campione di 0,95 non dimostra con certezza che esiste una correlazione diversa da zero nell’intera popolazione. Tuttavia, trovare r = 0,95 con N = 20 è estremamente improbabile se ρ = 0. Ma esattamente quanto improbabile? E come lo sappiamo?,

Correlation – Test Statistic

Se ρ-una correlazione di popolazione – è zero, allora la probabilità per una data correlazione del campione-la sua significatività statistica – dipende dalla dimensione del campione. Quindi combiniamo la dimensione del campione e r in un singolo numero, la nostra statistica di test t: T T = R\sqrt{\frac{(n – 2)}{(1 – R^2)}} Now
Ora, T in sé non è interessante. Tuttavia, ne abbiamo bisogno per trovare il livello di significatività per qualche correlazione. T segue una distribuzione t con ν = n-2 gradi di libertà ma solo se alcune ipotesi sono soddisfatte.,

Test di correlazione – Ipotesi

Il test di significatività statistica per una correlazione di Pearson richiede 3 ipotesi:

osservazioni indipendenti;
la correlazione di popolazione, ρ = 0;
normalità: le 2 variabili coinvolte sono distribuite bivariatamente normalmente nella popolazione. Tuttavia, questo non è necessario per una dimensione ragionevole del campione-diciamo, N ≥ 20 o giù di lì.La ragione di ciò risiede nel teorema del limite centrale.

Pearson Correlation – Sampling Distribution

Nel nostro esempio, la dimensione del campione N era 20., Quindi, se incontriamo le nostre ipotesi, T segue una distribuzione t con df = 18 come mostrato di seguito.

Grazie per la lettura!

Correlazioni di Pearson-Introduzione rapida