Depois de um cientista de dados tem escolhido uma variável-alvo – por exemplo, a “coluna” em uma planilha que deseja prever – e completou os pré-requisitos de transformar dados e a construção de um modelo, uma das etapas finais é avaliar o desempenho do modelo.
matriz de confusão
escolher uma métrica de desempenho muitas vezes depende do problema de negócio a ser resolvido., Digamos que você tem 100 exemplos no seu conjunto de dados, e você deu cada um ao seu modelo e recebeu uma classificação. A classificação prevista vs. Real Pode ser mapeada em uma tabela chamada de matriz de confusão.,0
Negativo (previsto) | Positivo (previsto) | |
---|---|---|
Negativo (real) | 98 | 0 |
Positivo (real) | 1 | 1 |
A tabela acima descreve uma saída de negativos vs. positivo. Estes dois resultados são as “classes” de cada exemplo., Como existem apenas duas classes, o modelo usado para gerar a matriz de confusão pode ser descrito como um classificador binário. (Exemplo de um classificador binário: detecção de spam. Todos os e-mails são spam ou não spam, assim como toda a comida é um cachorro quente ou não um cachorro quente.)
para melhor interpretar a tabela, você também pode vê-la em termos de verdadeiros positivos, negativos verdadeiros, falsos positivos e falsos negativos.,
Negative (predicted) | Positive (predicted) | |
---|---|---|
Negative (actual) | true negative | false positive |
Positive (actual) | false negative | true positive |
Accuracy
Overall, how often is our model correct?,
1
Como uma heurística, ou regra geral, a precisão pode nos dizer imediatamente se um modelo está sendo treinado corretamente e como ele pode executar em geral. No entanto, não fornece informações pormenorizadas sobre a sua aplicação ao problema.
O problema com o uso da precisão como sua métrica de desempenho principal é que ele não faz bem quando você tem um desequilíbrio de classe grave. Vamos usar o conjunto de dados na matriz de confusão acima. Digamos que os negativos são transacções normais e os positivos são transacções fraudulentas., A precisão dir-lhe-á que tem razão 99% do Tempo em todas as aulas.
mas podemos ver que para a classe de fraude (positivo), você está certo apenas 50% do tempo, o que significa que você vai estar perdendo dinheiro. Raios, se criasses uma regra difícil, prevendo que todas as transacções eram normais, estarias certo 98% das vezes. Mas isso não seria um modelo muito inteligente, ou uma métrica de avaliação Muito inteligente. É por isso que, quando o teu chefe te pede para lhes dizeres “quão preciso é esse modelo?”, sua resposta pode ser: “é complicado.,”
para dar uma resposta melhor, precisamos saber sobre precisão, recall e pontuações f1.
aprender a aplicar ia a simulações ”
precisão
Quando o modelo prevê positivo, com que frequência é correcto?
a precisão ajuda quando os custos dos falsos positivos são elevados. Então vamos assumir que o problema envolve a detecção de câncer de pele. Se tivermos um modelo que tem uma precisão muito baixa, então muitos pacientes serão informados de que têm melanoma, e isso incluirá alguns diagnósticos errados. Há muitos testes extras e stress em jogo., Quando os falsos positivos são muito altos, aqueles que monitoram os resultados aprenderão a ignorá-los depois de serem bombardeados com falsos alarmes.
Recall
Recall ajuda quando o custo de falsos negativos é alta. E se precisarmos de detectar mísseis nucleares? Um falso negativo tem consequências devastadoras. Erramos e morremos todos. Quando falsos negativos são frequentes, Você é atingido pela coisa que você quer evitar. Um falso negativo é quando você decide ignorar o som de um galho quebrando em uma floresta escura, e você é comido por um urso., (Um falso positivo é ficar acordado a noite toda sem dormir em sua tenda em um suado frio ouvindo cada baralho na floresta, só para perceber na manhã seguinte que esses sons foram feitos por um esquilo. Não é divertido.) Se você tivesse um modelo que deixasse entrar mísseis nucleares por engano, você iria querer jogá-lo fora. Se tivesses um modelo que te mantivesse acordado toda a noite porque os esquilos, também o querias deitar fora., Se, como a maioria das pessoas, você preferir não ser comido pelo urso, e também não ficar acordado toda a noite preocupado com alarmes chipmunk, então você precisa otimizar para uma métrica de avaliação que é uma medida combinada de precisão e memória. Digite o F1 pontuação…
F1 Pontuação
F1 é uma medida global de um modelo de rigor que combina precisão e lembre-se, no que maneira estranha de que a adição e a multiplicação basta misturar os dois ingredientes para fazer um prato separado completamente., Isto é, uma boa pontuação F1 significa que você tem baixos falsos positivos e baixos falsos negativos, então você está identificando corretamente ameaças reais e você não é perturbado por falsos alarmes. Uma pontuação F1 é considerada perfeita quando é 1
, enquanto o modelo é uma falha total quando é 0
.
lembre-se: todos os modelos estão errados, mas alguns são úteis. Isto é, todos os modelos irão gerar alguns falsos negativos, alguns falsos positivos, e possivelmente ambos., Enquanto você pode sintonizar um modelo para minimizar um ou outro, você muitas vezes enfrenta um tradeoff, onde uma diminuição em negativos falsos leva a um aumento em falsos positivos, ou vice-versa. Você precisa otimizar para as métricas de desempenho que são mais úteis para o seu problema específico.
notas
0) “matriz de confusão” tem de ser um dos Termos poéticos não intencionais em toda a matemática. É o tipo de frase que você lê e diz: “Eu vivo em uma matriz de confusão. A matriz de confusão da modernidade. Estamos a saltar entre falsos positivos e falsos negativos em busca da verdade.,”
1) para uma formatação Latex fácil que você pode fotografar e incorporar em suas postagens do blog, experimente matemática.endereco.,TMs