Coefficient de corrélation de Pearson - Introduction rapide

Une corrélation de Pearson est un nombre compris entre -1 et +1 qui indique
dans quelle mesure 2 variables sont linéairement liées.La corrélation de Pearson est également connue sous le nom de « coefficient de corrélation du moment du produit” (PMCC) ou simplement « corrélation”.
Les corrélations de Pearson ne conviennent que pour les variables quantitatives (y compris les variables dichotomiques).

Pour les variables ordinales, utilisez la corrélation de Spearman ou le tau de Kendall et
pour les variables nominales, utilisez le V de Cramér.,

Coefficient de corrélation – Exemple

Nous avons demandé à 40 pigistes leurs revenus annuels de 2010 à 2014. Une partie des données brutes sont présentées ci-dessous.

La question d’aujourd’hui est:existe-t-il une relation entre le revenu sur 2010
et le revenu sur 2011?Eh bien, une excellente façon de le découvrir est d’inspecter un nuage de points pour ces deux variables: nous représenterons chaque pigiste par un point. Les positions horizontale et verticale de chaque point indiquent le revenu d’un pigiste sur 2010 et 2011. Le résultat est illustré ci-dessous.,

Notre nuage de points montre une forte relation entre le revenu sur 2010 et 2011: les pigistes qui avaient un faible revenu sur 2010 (points les plus à gauche) avaient généralement un faible revenu sur 2011 également (points inférieurs) et vice versa. De plus, cette relation est à peu près linéaire; le motif principal dans les points est une ligne droite.
La mesure dans laquelle nos points se trouvent sur une ligne droite indique la force de la relation. La corrélation de Pearson est un nombre qui indique la force exacte de cette relation.,

Coefficients de corrélation et nuages de points

Un coefficient de corrélation indique la mesure dans laquelle les points d’un nuage de points se trouvent sur une ligne droite. Cela implique que nous pouvons généralement estimer les corrélations assez précisément à partir de rien de plus que des nuages de points. La figure ci-dessous illustre bien ce point.

Coefficient de corrélation – Bases

Quelques points de base concernant les coefficients de corrélation sont bien illustrés par la figure précédente. Le moins que vous sachiez est que

Les corrélations ne sont jamais inférieures à -1., Une corrélation de -1 indique que les points de données dans un nuage de points se trouvent exactement sur une droite descendante; les deux variables sont parfaitement linéairement liées négativement.
Une corrélation de 0 signifie que deux variables n’ont aucune relation linéaire. Cependant, une relation non linéaire peut exister entre les deux variables.
Les coefficients de corrélation ne sont jamais supérieurs à 1. Un coefficient de corrélation de 1 signifie que deux variables sont parfaitement linéairement liées positivement; les points d’un nuage de points se trouvent exactement sur une ligne ascendante droite.,

Coefficient de corrélation – Mises en garde d’interprétation

Lors de l’interprétation des corrélations, vous devez garder certaines choses à l’esprit. Une discussion élaborée mérite un tutoriel séparé, mais nous mentionnerons brièvement deux points principaux.

Les corrélations peuvent indiquer ou non des relations causales. Inversement, les relations causales d’une variable à une autre variable peuvent ou non entraîner une corrélation entre les deux variables.
Les corrélations sont très sensibles aux valeurs aberrantes; une seule observation inhabituelle peut avoir un impact énorme sur une corrélation., Ces valeurs aberrantes sont facilement détectées par une inspection rapide d’un nuage de points.

Coefficient de corrélation – Logiciel

La plupart des éditeurs de feuilles de calcul tels qu’Excel, Google sheets et OpenOffice peuvent calculer des corrélations pour vous. L’illustration ci-dessous montre un exemple dans Googlesheets.

Coefficient de Corrélation – Matrice de Corrélation

Gardez à l’esprit que les corrélations s’appliquent à des paires de variables. Si vous êtes intéressé par plus de 2 variables, vous voudrez probablement jeter un oeil aux corrélations entre toutes les différentes paires de variables., Ces corrélations sont généralement présentées dans un tableau carré appelé matrice de corrélation. Les logiciels statistiques tels que SPSS créent des matrices de corrélations avant de pouvoir cligner des yeux. Un exemple est montré ci-dessous.

Notez que les éléments diagonaux (en rouge) sont les corrélations entre chaque variable et elle-même. C’est pourquoi ils sont toujours de 1.
Notez également que les corrélations sous la diagonale (en gris) sont redondantes car elles sont identiques aux corrélations au-dessus de la diagonale. Techniquement, nous disons qu’il s’agit d’une matrice symétrique.,
Enfin, notez que le schéma des corrélations est parfaitement logique: les corrélations entre revenus annuels deviennent plus faibles dans la mesure où ces années sont plus éloignées les unes des autres.

Corrélation de Pearson – Formule

Corrélation – Signification statistique

Les données dont nous disposons sont souvent-mais pas toujours – un petit échantillon d’une population beaucoup plus importante. Si c’est le cas,nous pouvons trouver une corrélation non nulle dans notre échantillon
même si elle est nulle dans la population. La figure ci-dessous illustre comment cela pourrait se produire.,

Si nous ignorons les couleurs pendant une seconde, les 1 000 points de ce nuage de points visualisent une population. La corrélation de population-notée ρ-est nulle entre le test 1 et le test 2.
Maintenant, nous pourrions tirer un échantillon de N = 20 de cette population pour laquelle la corrélation r = 0,95.Inversement, cela signifie qu’une corrélation d’échantillon de 0,95 ne prouve pas avec certitude qu’il existe une corrélation non nulle dans l’ensemble de la population. Cependant, trouver r = 0,95 avec N = 20 est extrêmement improbable si ρ = 0. Mais précisément comment peu probable? Et comment savons-nous?,

Corrélation – Statistique de test

Si ρ-une corrélation de population – est nulle, alors la probabilité d’une corrélation d’échantillon donnée-sa signification statistique – dépend de la taille de l’échantillon. Nous combinons donc la taille de l’échantillon et r en un seul nombre, notre statistique de test t: $ $ T = R\sqrt{\frac{(n – 2)}{(1 – R^2)}}Maintenant, T lui-même n’est pas intéressant. Cependant, nous en avons besoin pour trouver le niveau de signification d’une certaine corrélation. T suit une distribution t avec ν = n – 2 degrés de liberté, mais seulement si certaines hypothèses sont satisfaites.,

Test de corrélation – Hypothèses

Le test de signification statistique pour une corrélation de Pearson nécessite 3 hypothèses:

observations indépendantes;
la corrélation de population, ρ = 0;
normalité: les 2 variables impliquées sont réparties de manière bivariée dans la population. Cependant, cela n’est pas nécessaire pour une taille d’échantillon raisonnable-disons, N ≥ 20 ou plus.La raison en est le théorème central limite.

Distribution d’échantillonnage par corrélation de Pearson

Dans notre exemple, la taille de l’échantillon N était de 20., Donc, si nous répondons à nos hypothèses, T suit une distribution t avec df = 18 comme indiqué ci-dessous.

Merci pour la lecture!

Corrélations de Pearson-Introduction rapide