Coeficiente de correlación de Pearson-introducción rápida

una correlación de Pearson es un número entre -1 y +1 que indica
En qué medida 2 variables están relacionadas linealmente.La correlación de Pearson también se conoce como el» coeficiente de correlación del momento del producto «(PMCC) o simplemente»correlación».
las correlaciones de Pearson solo son adecuadas para variables cuantitativas (incluyendo variables dicotómicas).

Para variables ordinales, use la correlación de Spearman o tau de Kendall y
Para variables nominales, use V de Cramér.,

coeficiente de correlación-ejemplo

preguntamos a 40 freelancers por sus ingresos anuales desde 2010 hasta 2014. Parte de los datos brutos se muestran a continuación.

la pregunta de hoy es: ¿existe alguna relación entre los ingresos de 2010 y los ingresos de 2011?Bueno, una forma espléndida de averiguarlo es inspeccionando una gráfica de dispersión para estas dos variables: representaremos a cada freelancer por un punto. Las posiciones horizontales y verticales de cada punto indican los ingresos de un freelancer durante 2010 y 2011. El resultado se muestra a continuación.,

nuestra gráfica de dispersión muestra una fuerte relación entre los ingresos durante 2010 y 2011: los freelancers que tenían bajos ingresos durante 2010 (puntos más a la izquierda) típicamente también tenían bajos ingresos durante 2011 (puntos más bajos) y viceversa. Además, esta relación es más o menos lineal; el patrón principal en los puntos es una línea recta.
La medida en que nuestros puntos se encuentran en una línea recta indica la fuerza de la relación. La correlación de Pearson es un número que indica la fuerza exacta de esta relación.,

coeficientes de correlación y gráficas de dispersión

un coeficiente de correlación indica la medida en que los puntos de una gráfica de dispersión se encuentran en una línea recta. Esto implica que generalmente podemos estimar correlaciones con bastante precisión a partir de nada más que gráficas de dispersión. La siguiente figura ilustra muy bien este punto.

coeficiente de correlación-Fundamentos

algunos puntos básicos con respecto a los coeficientes de correlación están muy bien ilustrados por la figura anterior. Lo menos que debe saber es que las correlaciones

nunca son inferiores a -1., Una correlación de -1 indica que los puntos de datos en un gráfico de dispersión se encuentran exactamente en una línea descendente recta; las dos variables están perfectamente relacionadas linealmente negativamente.
una correlación de 0 significa que dos variables no tienen ninguna relación lineal en absoluto. Sin embargo, puede existir alguna relación no lineal entre las dos variables.
Los coeficientes de correlación nunca son superiores a 1. Un coeficiente de correlación de 1 significa que dos variables están perfectamente positivamente relacionadas linealmente; los puntos en un gráfico de dispersión se encuentran exactamente en una línea ascendente recta.,

coeficiente de correlación – advertencias de interpretación

al interpretar correlaciones, debe tener algunas cosas en mente. Una discusión elaborada merece un tutorial separado, pero mencionaremos brevemente dos puntos principales.

las correlaciones pueden o no indicar relaciones causales. Inversamente, las relaciones causales de una variable a otra variable pueden o no resultar en una correlación entre las dos variables.
las correlaciones son muy sensibles a los valores atípicos; una sola observación inusual puede tener un gran impacto en una correlación., Tales valores atípicos se detectan fácilmente mediante una inspección rápida de una gráfica de dispersión.

coeficiente de correlación-software

La mayoría de los editores de hojas de cálculo como Excel, Google sheets y OpenOffice pueden calcular las correlaciones por usted. La siguiente ilustración muestra un ejemplo en Googlesheets.

coeficiente de correlación – matriz de correlación

tenga en cuenta que las correlaciones se aplican a pares de variables. Si estás interesado en más de 2 variables, probablemente quieras echar un vistazo a las correlaciones entre todos los pares de variables diferentes., Estas correlaciones generalmente se muestran en una tabla cuadrada conocida como matriz de correlación. Los paquetes de software estadístico como SPSS crean matrices de correlaciones antes de que pueda parpadear. A continuación se muestra un ejemplo.

tenga en cuenta que los elementos diagonales (en rojo) son las correlaciones entre cada variable y sí mismo. Esta es la razón por la que siempre son 1.
También tenga en cuenta que las correlaciones por debajo de la diagonal (en gris) son redundantes porque son idénticas a las correlaciones por encima de la diagonal. Técnicamente, decimos que esta es una matriz simétrica.,finalmente, nótese que el patrón de correlaciones tiene perfecto sentido: las correlaciones entre ingresos anuales se vuelven más bajas en la medida en que estos años se encuentran más separados.

fórmula de correlación de Pearson

correlación – significación estadística

los datos que tenemos disponibles son a menudo, pero no siempre, una pequeña muestra de una población mucho mayor. Si es así, podemos encontrar una correlación no cero en nuestra muestra
incluso si es cero en la población. La siguiente figura ilustra cómo esto podría suceder.,

si ignoramos los colores por un segundo, todos los 1,000 puntos en esta gráfica de dispersión visualizan alguna población. La correlación poblacional-denotada por ρ – es cero entre la prueba 1 y la prueba 2.
ahora, podríamos dibujar una muestra de N = 20 de esta población para la cual la correlación r = 0.95.Inversamente, esto significa que una correlación de muestra de 0.95 no prueba con certeza que hay una correlación no cero en toda la población. Sin embargo, encontrar r = 0.95 con N = 20 es extremadamente improbable si ρ = 0. Pero precisamente, ¿qué tan improbable? Y ¿cómo lo sabemos?,

Correlation – Test Statistic

Si ρ – una correlación de población-es cero, entonces la probabilidad de una correlación de muestra dada-su significación estadística – depende del tamaño de la muestra. Por lo tanto, combinamos el tamaño de la muestra y r en un solo Número, nuestro estadístico de prueba t: T T = R\sqrt{\frac{(n – 2)}{(1 – R^2)}} now
Ahora, T en sí no es interesante. Sin embargo, lo necesitamos para encontrar el nivel de significancia para alguna correlación. T sigue una distribución t Con ν = n-2 grados de libertad, pero solo si se cumplen algunas suposiciones.,

prueba de correlación – supuestos

la prueba de significancia estadística para una correlación de Pearson requiere 3 supuestos:

observaciones independientes;
La correlación poblacional, ρ = 0;
normalidad: las 2 variables involucradas se distribuyen normalmente bivariadamente en la población. Sin embargo, esto no es necesario para un tamaño de muestra razonable-por ejemplo, n ≥ 20 o así.La razón de esto radica en el teorema del límite central.

correlación de Pearson – distribución muestral

en nuestro ejemplo, el tamaño muestral n fue 20., Así que si nos encontramos con nuestras suposiciones, T sigue una distribución t con df = 18 como se muestra a continuación.

Gracias por leer!

correlaciones de Pearson-introducción rápida