Quando não utilizar a média
A média foi uma das principais desvantagens: é particularmente suscetível à influência de outliers. Estes são valores que são incomun comparados com o resto do conjunto de dados por ser especialmente pequeno ou grande em valor numérico., For example, consider the wages of staff at a factory below:
Staff | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
Salary | 15k | 18k | 16k | 14k | 15k | 15k | 12k | 17k | 90k | 95k |
The mean salary for these ten staff is $30.7k., No entanto, inspecionar os dados brutos sugere que este valor médio pode não ser a melhor maneira de refletir com precisão o salário típico de um trabalhador, como a maioria dos trabalhadores têm salários na faixa de US $12k a 18k. A média está a ser distorcida pelos dois grandes salários. Portanto, nesta situação, gostaríamos de ter uma melhor medida de tendência central. Como vamos descobrir mais tarde, tomar a mediana seria uma melhor medida da tendência central nesta situação.
outra vez quando preferimos a mediana sobre a média (ou modo) é quando nossos dados são distorcidos (i.e.,, a distribuição de frequência para os nossos dados é distorcida). Se considerarmos a distribuição normal – como esta é a mais frequentemente avaliada em estatísticas-quando os dados são perfeitamente normais, a média, mediana e modo são idênticos. Além disso, todos eles representam o valor mais típico no conjunto de dados. No entanto, à medida que os dados se tornam distorcidos, a média perde a sua capacidade de fornecer a melhor localização central para os dados, porque os dados distorcidos está a arrastá-lo para longe do valor típico. No entanto, a mediana melhor mantém esta posição e não é tão fortemente influenciada pelos valores distorcidos., Isto é explicado mais detalhadamente na secção de distribuição inclinada mais à frente no presente guia.
mediana
a mediana é a pontuação média de um conjunto de dados que foi arranjado por ordem de magnitude. A mediana é menos afectada por dados anómalos e distorcidos.,dian, suppose we have the data below:
65 | 55 | 89 | 56 | 35 | 14 | 56 | 55 | 87 | 45 | 92 |
We first need to rearrange that data into order of magnitude (smallest first):
14 | 35 | 45 | 55 | 55 | 56 | 56 | 65 | 87 | 89 | 92 |
Our median mark is the middle mark – in this case, 56 (highlighted in bold)., É a marca do meio porque há 5 pontuações antes e 5 pontuações depois. Isto funciona bem quando você tem um número ímpar de pontuações, mas o que acontece quando você tem um número par de pontuações? E se tivesses apenas 10 pontuações? Bem, você simplesmente tem que pegar as duas pontuações do meio e mediar o resultado., So, if we look at the example below:
65 | 55 | 89 | 56 | 35 | 14 | 56 | 55 | 87 | 45 |
We again rearrange that data into order of magnitude (smallest first):
14 | 35 | 45 | 55 | 55 | 56 | 56 | 65 | 87 | 89 |
Only now we have to take the 5th and 6th score in our data set and average them to get a median of 55.5.,
modo
o modo é a pontuação mais frequente no nosso conjunto de dados. Em um histograma representa a barra mais alta em um gráfico de barras ou histograma. Você pode, portanto, às vezes considerar o modo como a opção mais popular. Um exemplo de um modo, é apresentado a seguir:
Normalmente, o modo é utilizado para dados categóricos onde nós queremos saber qual é a categoria mais comum, como ilustrado abaixo:
podemos ver acima que a forma mais comum de transporte, neste particular conjunto de dados, é o ônibus., No entanto, um dos problemas com o modo é que ele não é o único, de modo que deixa a gente com problemas quando temos dois ou mais valores que compartilham a freqüência mais alta, como abaixo:
agora Estamos presos como para o modo que melhor descreve a tendência central dos dados. Isto é particularmente problemático quando temos dados contínuos, porque é mais provável que não tenhamos um valor que seja mais frequente do que o outro. Por exemplo, considere medir o peso de 30 pessoas (para o mais próximo 0,1 kg)., Qual é a probabilidade de encontrarmos duas ou mais pessoas com o mesmo peso (por exemplo, 67,4 kg)? A resposta, é, provavelmente, muito improvável, muitas pessoas podem estar perto, mas com uma pequena amostra (30 pessoas) e uma grande variedade de possíveis pesos, é improvável que se encontrar duas pessoas com exatamente o mesmo peso, isto é, com aproximação de 0,1 kg. É por isso que o modo é muito raramente usado com dados contínuos.,
Outro problema com o modo que ele não irá nos fornecer uma boa medida de tendência central, quando o mais comum marca está longe do resto dos dados no conjunto de dados, como representado no diagrama abaixo:
No diagrama acima o modo tem um valor de 2. Podemos ver claramente, no entanto, que o modo não é representativo dos dados, que se concentra principalmente em torno da Gama de valores de 20 a 30. Utilizar o modo para descrever a tendência central deste conjunto de dados seria enganador.,
distribuições distorcidas e a média e mediana
muitas vezes testamos se os nossos dados são normalmente distribuídos porque esta é uma suposição comum subjacente a muitos testes estatísticos. Um exemplo de um conjunto de dados normalmente distribuído é apresentado abaixo:
quando você tem uma amostra normalmente distribuída você pode legitimamente usar tanto a média como a mediana como a sua medida de tendência central. De fato, em qualquer distribuição simétrica a média, mediana e modo são iguais., No entanto, nesta situação, a média é amplamente preferido como a melhor medida de tendência central, pois é a medida que inclui todos os valores do conjunto de dados para o seu cálculo, e qualquer alteração em qualquer um dos índices de afetar o valor da média. Este não é o caso da mediana ou modo.
no Entanto, quando os nossos dados é assimétrica, por exemplo, com o direito desviada para o conjunto de dados abaixo:
Nós achamos que a média é arrastado no direto da inclinação., Nestas situações, a mediana é geralmente considerada a mais representativa da localização central dos dados. Quanto mais distorcida a distribuição, maior a diferença entre a mediana e a média, e maior ênfase deve ser colocada na utilização da mediana em oposição à média. Um exemplo clássico da distribuição inclinada para a direita acima é o rendimento (salário), onde os trabalhadores com rendimentos mais elevados fornecem uma falsa representação do rendimento típico se Expresso como uma média e não como uma mediana.,
se se tratar de uma distribuição normal, e testes de normalidade mostram que os dados não são normais, é costume usar a mediana em vez da média. No entanto, esta é mais uma regra de ouro do que uma orientação rigorosa. Por vezes, os investigadores pretendem comunicar a média de uma distribuição distorcida se a mediana e a média não forem sensivelmente diferentes (uma avaliação subjectiva) e se permitirem comparações mais fáceis com a investigação anterior.,
resumo de quando usar a média, mediana e modo
Por favor use a seguinte tabela de resumo para saber qual é a melhor medida de tendência central em relação aos diferentes tipos de variáveis.,
Tipo da Variável | a Melhor medida de tendência central |
Nominal | Mode |
Ordinal | Mediana |
Intervalo/Relação (não inclinado) | Significa |
Intervalo/Ratio (distorcida) | Mediana |
para obter respostas para perguntas mais frequentes acerca de medidas de tendência central, por favor, vá para a próxima página.