a correlação de Pearson é um número entre -1 e + 1 que indica
em que Extensão 2 variáveis são linearmente relacionadas.A correlação de Pearson é também conhecida como o” coeficiente de correlação do momento do produto “(PMCC) ou simplesmente”correlação”.as correlações de Pearson são apenas adequadas para variáveis quantitativas (incluindo variáveis dicotômicas).
- Para variáveis ordinais, use a correlação de Spearman ou tau de Kendall e
- para variáveis nominais, use Cramér V.,pedimos 40 freelancers pelos seus rendimentos anuais ao longo de 2010 até 2014. Parte dos dados brutos são mostrados abaixo.
a pergunta De Hoje é: Existe alguma relação entre o rendimento em 2010 e o rendimento em 2011?Bem, uma maneira esplêndida de descobrir é inspecionar um plano de dispersão para estas duas variáveis: nós representaremos cada freelancer por um ponto. As posições horizontais e verticais de cada ponto indicam a renda de um freelancer em 2010 e 2011. O resultado é mostrado abaixo.,
nosso scatterplot mostra uma forte relação entre a renda em relação a 2010 e 2011: freelancers que tinham uma baixa renda em relação a 2010 (pontos mais à esquerda) tipicamente tinham uma baixa renda em relação a 2011 também (pontos mais baixos) e vice-versa. Além disso, esta relação é aproximadamente linear; o padrão principal nos pontos é uma linha reta.
a extensão em que nossos pontos estão em uma linha reta indica a força da relação. A correlação de Pearson é um número que indica a força exata dessa relação.,coeficientes de correlação e “Scatterplots”
um coeficiente de correlação indica a medida em que os pontos numa folha de cálculo se encontram numa linha recta. Isto implica que normalmente podemos estimar correlações com bastante precisão a partir de nada mais do que folhetos de dispersão. A figura abaixo ilustra bem este ponto.
coeficiente de correlação – fundamentos
alguns pontos básicos em relação aos coeficientes de correlação são bem ilustrados pela figura anterior. O mínimo que deve saber é que as correlações
- nunca são inferiores a-1., Uma correlação de -1 indica que os pontos de dados em um gráfico de dispersão estão exatamente em uma linha descendente reta; as duas variáveis são perfeitamente linearmente relacionadas negativamente.uma correlação de 0 significa que duas variáveis não têm qualquer relação linear. No entanto, algumas relações não lineares podem existir entre as duas variáveis.os coeficientes de correlação nunca são superiores a 1. Um coeficiente de correlação de 1 significa que duas variáveis são perfeitamente linearmente relacionadas; os pontos em uma parcela de dispersão estão exatamente em uma linha ascendente reta.,
coeficiente de correlação – Caveats de interpretação
ao interpretar correlações, você deve manter algumas coisas em mente. Uma discussão elaborada merece um tutorial separado, mas brevemente mencionaremos dois pontos principais.correlações podem ou não indicar relações causais. Inversamente, as relações causais de alguma variável para outra variável podem ou não resultar em uma correlação entre as duas variáveis.as correlações são muito sensíveis aos valores anómalos; uma única observação incomum pode ter um enorme impacto numa correlação., Estes valores anómalos são facilmente detectados por uma inspecção rápida de um scatterplot.
coeficiente de correlação – o software
a maioria dos editores de planilhas como o Excel, o Google sheets e o OpenOffice podem calcular correlações para si. A ilustração abaixo mostra um exemplo em Googlesheets.
coeficiente de correlação matriz de correlação
tenha em mente que as correlações se aplicam a pares de variáveis. Se você está interessado em mais de 2 variáveis, você provavelmente vai querer dar uma olhada nas correlações entre todos os pares variáveis diferentes., Estas correlações são geralmente mostradas em uma tabela quadrada conhecida como matriz de correlação. Pacotes de software estatístico como SPSS criam matrizes de correlações antes que você possa piscar seus olhos. Um exemplo é mostrado abaixo.
Note that the diagonal elements (in red) are the correlations between each variable and itself. É por isso que são sempre 1.
Também note que as correlações abaixo da diagonal (em cinza) são redundantes porque são idênticas às correlações acima da diagonal. Tecnicamente, dizemos que esta é uma matriz simétrica.,
Finalmente, note que o padrão de correlações faz todo o sentido: correlações entre rendimentos anuais tornam-se mais baixas na medida em que estes anos se afastam ainda mais.correlação – correlação – significado estatístico
os dados disponíveis são frequentemente-mas nem sempre-uma pequena amostra de uma população muito maior. Se assim for, podemos encontrar uma correlação não zero em nossa amostra
mesmo que seja zero na população. A figura abaixo ilustra como isso poderia acontecer.,
se ignorarmos as cores por um segundo, todos os 1000 pontos neste scatterplot visualizam alguma população. A correlação da população-representada por ρ-é zero entre o ensaio 1 e o ensaio 2.
Now, we could draw a sample of N = 20 from this population for which the correlation r = 0.95.Inversamente, isto significa que uma correlação de amostra de 0,95 não prova com certeza que há uma correlação não zero em toda a população. No entanto, encontrar r = 0, 95 com n = 20 é extremamente improvável Se ρ = 0. Mas quão improvável? E como é que sabemos?,Se ρ-uma correlação da população-for zero, então a probabilidade para uma determinada correlação da amostra-a sua significância estatística – depende do tamanho da amostra. Portanto, combinamos o tamanho da amostra e r em um único número, Nossa estatística de teste t:$t = r\sqrt{\frac {(n – 2)} {(1 – r^2)}}$
agora, T em si não é interessante. No entanto, precisamos dele para encontrar o nível de significância para alguma correlação. T segue uma distribuição t COM ν = n-2 graus de liberdade, mas apenas se algumas suposições forem cumpridas.,o teste de significância estatística para uma correlação de Pearson requer 3 pressupostos:
- observações independentes;
- a correlação da população, ρ = 0;
- normalidade: as 2 variáveis envolvidas são normalmente distribuídas na população. No entanto, isto não é necessário para uma amostra razoável-por exemplo, N ≥ 20.A razão para isso está no teorema central do limite. correlação de Pearson-distribuição de amostragem
no nosso exemplo, o tamanho da amostra n era de 20., Assim, se atendermos às nossas suposições, t segue uma distribuição t com df = 18 Como mostrado abaixo.
Obrigado por ler!