Eine Pearson-Korrelation ist eine Zahl zwischen -1 und +1, die
angibt, inwieweit 2 Variablen linear verwandt sind.Die Pearson-Korrelation wird auch als „Product Moment Correlation coefficient“ (PMCC) oder einfach als „Korrelation“bezeichnet.
Pearson-Korrelationen sind nur für quantitative Variablen (einschließlich dichotome Variablen) geeignet.
- Für ordinale Variablen verwenden Sie die Spearman-Korrelation oder Kendalls tau und
- für nominale Variablen verwenden Sie Cramérs V.,
Korrelationskoeffizient-Beispiel
Wir haben 40 Freiberufler über 2010 bis 2014 nach ihrem Jahreseinkommen gefragt. Ein Teil der Rohdaten ist unten dargestellt.
Die heutige Frage ist:Gibt es eine Beziehung zwischen Einkommen über 2010
und Einkommen über 2011?Nun, eine großartige Möglichkeit, dies herauszufinden, besteht darin, ein Scatterplot für diese beiden Variablen zu untersuchen: Wir stellen jeden Freiberufler durch einen Punkt dar. Die horizontalen und vertikalen Positionen jedes Punktes geben das Einkommen eines Freiberuflers über 2010 und 2011 an. Das Ergebnis wird unten gezeigt.,
Unser Scatterplot zeigt eine starke Beziehung zwischen Einkommen über 2010 und 2011: Freiberufler, die über 2010 ein niedriges Einkommen hatten (ganz links), hatten in der Regel auch ein niedriges Einkommen über 2011 (niedrigere Punkte) und umgekehrt. Weiterhin ist diese Beziehung grob linear; Das Hauptmuster in den Punkten ist eine gerade Linie.
Das Ausmaß, in dem unsere Punkte liegen auf einer geraden Linie, zeigt die Stärke der Beziehung. Die Pearson-Korrelation ist eine Zahl, die die genaue Stärke dieser Beziehung angibt.,
Korrelationskoeffizienten und Scatterplots
Ein Korrelationskoeffizient gibt an, inwieweit Punkte in einem Scatterplot auf einer geraden Linie liegen. Dies impliziert, dass wir Korrelationen normalerweise ziemlich genau aus nichts anderem als Scatterplots abschätzen können. Die folgende Abbildung veranschaulicht diesen Punkt gut.
Korrelationskoeffizient – Grundlagen
Einige grundlegende Punkte in Bezug auf Korrelationskoeffizienten sind in der vorherigen Abbildung gut dargestellt. Das Mindeste, was Sie wissen sollten, ist, dass
- Korrelationen niemals niedriger als -1 sind., Eine Korrelation von -1 zeigt an, dass die Datenpunkte in einem Streudiagramm genau auf einer geraden absteigenden Linie liegen; Die beiden Variablen sind vollkommen negativ linear verwandt.
- Eine Korrelation von 0 bedeutet, dass zwei Variablen keinerlei lineare Beziehung haben. Es kann jedoch eine nicht lineare Beziehung zwischen den beiden Variablen bestehen.
- Korrelationskoeffizienten sind niemals höher als 1. Ein Korrelationskoeffizient von 1 bedeutet, dass zwei Variablen vollkommen positiv linear zusammenhängen; Die Punkte in einem Streudiagramm liegen genau auf einer geraden aufsteigenden Linie.,
Korrelation – Interpretation Vorsichtsmaßnahmen
Bei der Interpretation von Korrelationen, sollten Sie einige Dinge beachten. Eine ausführliche Diskussion verdient ein separates Tutorial, aber wir werden kurz zwei Hauptpunkte erwähnen.
- Korrelationen können kausale Zusammenhänge anzeigen oder nicht. Umgekehrt können kausale Beziehungen von einer Variablen zu einer anderen Variablen zu einer Korrelation zwischen den beiden Variablen führen oder auch nicht.
- Korrelationen reagieren sehr empfindlich auf Ausreißer; Eine einzelne ungewöhnliche Beobachtung kann einen großen Einfluss auf eine Korrelation haben., Solche Ausreißer lassen sich leicht durch eine schnelle Inspektion eines Streubeutels erkennen.
Korrelationskoeffizient-Software
Die meisten Tabellenkalkulationseditoren wie Excel, Google Sheets und OpenOffice können Korrelationen für Sie berechnen. Die folgende Abbildung zeigt ein Beispiel in Googlesheets.
Korrelationskoeffizient – Korrelationsmatrix
Beachten Sie, dass Korrelationen für Variablenpaare gelten. Wenn Sie an mehr als 2 Variablen interessiert sind, sollten Sie sich wahrscheinlich die Korrelationen zwischen allen verschiedenen Variablenpaaren ansehen., Diese Korrelationen werden normalerweise in einer quadratischen Tabelle angezeigt, die als Korrelationsmatrix bezeichnet wird. Statistische Softwarepakete wie SPSS erstellen Korrelationsmatrizen, bevor Sie mit den Augen blinzeln können. Ein Beispiel ist unten gezeigt.
Beachten Sie, dass die diagonalen Elemente (in rot) die Korrelationen zwischen jeder Variablen und sich selbst sind. Deshalb sind sie immer 1.
Beachten Sie auch, dass die Korrelationen unter der Diagonale (in Grau) redundant sind, da sie mit den Korrelationen über der Diagonale identisch sind. Technisch gesehen sagen wir, dass dies eine symmetrische Matrix ist.,
Schließlich, beachten Sie, dass das Muster der Korrelationen macht durchaus Sinn: Korrelationen zwischen den jährlichen Einkommen werden niedriger, soweit diese Jahre liegen weiter auseinander.
Pearson-Korrelation-Formel
Korrelation-Statistische Signifikanz
Die Daten, die wir zur Verfügung haben, sind oft-aber nicht immer – eine kleine Stichprobe aus einer viel größeren Population. In diesem Fall finden wir möglicherweise eine Korrelation ungleich Null in unserer Stichprobe
, auch wenn sie in der Grundgesamtheit Null ist. Die folgende Abbildung zeigt, wie dies geschehen könnte.,
Wenn wir die Farben für eine Sekunde ignorieren, visualisieren alle 1.000 Punkte in diesem Streudiagramm eine Population. Die Populationskorrelation-bezeichnet mit ρ – ist zwischen Test 1 und Test 2 Null.
Nun könnten wir eine Stichprobe von N = 20 aus dieser Population ziehen, für die die Korrelation r = 0,95 ist.Umgekehrt bedeutet dies, dass eine Stichprobenkorrelation von 0,95 nicht mit Sicherheit beweist, dass es in der gesamten Population eine Korrelation ungleich Null gibt. Das Finden von r = 0,95 mit N = 20 ist jedoch äußerst unwahrscheinlich, wenn ρ = 0 ist. Aber genau wie unwahrscheinlich? Und woher wissen wir es?,
Korrelation-Teststatistik
Wenn ρ-eine Populationskorrelation-Null ist, hängt die Wahrscheinlichkeit für eine gegebene Probenkorrelation-ihre statistische Signifikanz – von der Stichprobengröße ab. Wir kombinieren daher die Stichprobengröße und r zu einer einzigen Zahl, unsere Teststatistik t:$$T = R\sqrt{\frac {(n – 2)} {(1 – R^2)}}$$
Jetzt ist T selbst nicht interessant. Wir brauchen es jedoch, um das Signifikanzniveau für eine gewisse Korrelation zu finden. T folgt einer t-Verteilung mit ν = n-2 Freiheitsgraden, jedoch nur, wenn einige Annahmen erfüllt sind.,
Korrelationstest-Annahmen
Der statistische Signifikanztest für eine Pearson-Korrelation erfordert 3 Annahmen:
- unabhängige Beobachtungen;
- die Populationskorrelation, ρ = 0;
- Normalität: Die beiden beteiligten Variablen sind bivariat in der Population normal verteilt. Dies ist jedoch nicht für eine angemessene Stichprobengröße erforderlich-beispielsweise N ≥ 20 oder so.Der Grund dafür liegt im zentralen Grenzwertsatz.
Pearson Correlation-Sampling Distribution
In unserem Beispiel betrug die Stichprobengröße N 20., Wenn wir also unsere Annahmen erfüllen, folgt T einer T-Verteilung mit df = 18 wie unten gezeigt.
vielen Dank für das Lesen!