Après qu’un data scientist a choisi une variable cible – par exemple la « colonne” d’une feuille de calcul qu’il souhaite prédire – et rempli les conditions préalables à la transformation des données et à la construction d’un modèle, l’une des dernières étapes consiste à évaluer les performances du modèle.
Matrice de confusion
Le choix d’une mesure de performance dépend souvent du problème métier à résoudre., Supposons que vous ayez 100 exemples dans votre ensemble de données, et que vous en ayez fourni chacun à votre modèle et que vous ayez reçu une classification. La classification prévue par rapport à la classification réelle peut être cartographiée dans un tableau appelé matrice de confusion.,0
Négatif (prédit) | Positif (prédit) | |
---|---|---|
Négatif (réel) | 98 | 0 |
Positif (réel) | 1 | 1 |
Le tableau ci-dessus décrit une sortie de négatif vs positif. Ces deux résultats sont les « classes » de chaque exemple., Comme il n’y a que deux classes, le modèle utilisé pour générer la matrice de confusion peut être décrit comme un classificateur binaire. (Exemple de classificateur binaire: détection de spam. Tous les e-mails sont du spam ou non, tout comme tous les aliments sont un hot-dog ou non un hot-dog.)
afin De mieux interpréter le tableau, vous pouvez également le voir en termes de vrais positifs, vrais négatifs faux positifs et de faux négatifs.,
Negative (predicted) | Positive (predicted) | |
---|---|---|
Negative (actual) | true negative | false positive |
Positive (actual) | false negative | true positive |
Accuracy
Overall, how often is our model correct?,
1
En tant qu’heuristique, ou règle empirique, la précision peut nous dire immédiatement si un modèle est entraîné correctement et comment il peut fonctionner en général. Cependant, il ne donne pas d’informations détaillées concernant son application au problème.
Le problème avec l’utilisation de la précision comme mesure de performance principale est qu’elle ne fonctionne pas bien lorsque vous avez un déséquilibre de classe sévère. Utilisons l’ensemble de données dans la matrice de confusion ci-dessus. Disons que les négatifs sont des transactions normales et les positifs sont des transactions frauduleuses., La précision vous dira que vous avez raison 99% du temps dans toutes les classes.
Mais nous pouvons voir que pour la classe de fraude (positive), vous n’avez raison que 50% du temps, ce qui signifie que vous allez perdre de l’argent. Enfer, si vous avez créé une règle dure prédisant que toutes les transactions étaient normales, vous auriez raison 98% du temps. Mais ce ne serait pas un modèle très intelligent, ou une mesure d’évaluation très intelligente. C’est pourquoi, lorsque votre patron vous demande de leur dire: « quelle est la précision de ce modèle?”, votre réponse pourrait être: « C’est compliqué., »
Pour donner une meilleure réponse, nous devons connaître les scores de précision, de rappel et de f1.
Apprenez à appliquer l’IA aux simulations »
Précision
Lorsque le modèle prédit positif, à quelle fréquence est-il correct?
Précision permet, lorsque les coûts de faux positifs est élevé. Supposons donc que le problème implique la détection du cancer de la peau. Si nous avons un modèle qui a une très faible précision, alors de nombreux patients seront informés qu’ils ont un mélanome, et cela inclura des diagnostics erronés. Beaucoup de tests supplémentaires et de stress sont en jeu., Lorsque les faux positifs sont trop élevés, ceux qui surveillent les résultats apprendront à les ignorer après avoir été bombardés de fausses alarmes.
Rappel
Rappel d’aide lorsque le coût de faux négatifs est élevé. Et si nous devions détecter les missiles nucléaires entrants? Un faux négatif a des conséquences dévastatrices. Avoir tort et que nous mourrons tous. Quand les faux négatifs sont fréquents, vous êtes frappé par la chose que vous voulez éviter. Un faux négatif est lorsque vous décidez d’ignorer le son d’une brindille qui se brise dans une forêt sombre et que vous vous faites manger par un ours., (Un faux positif reste éveillé toute la nuit sans sommeil dans votre tente dans une sueur froide en écoutant chaque battement dans la forêt, pour se rendre compte le lendemain matin que ces sons ont été émis par un tamia. Pas de plaisir.) Si vous aviez un modèle qui permettent de missiles nucléaires par erreur, vous pouvez le jeter. Si vous aviez un modèle qui vous gardait éveillé toute la nuit à cause des tamias, vous voudriez le jeter aussi., Si, comme la plupart des gens, vous préférez ne pas vous faire manger par l’ours et ne pas rester éveillé toute la nuit, vous devez optimiser pour obtenir une mesure d’évaluation combinant précision et rappel. Entrez le score F1
Score F1
F1 est une mesure globale de la précision d’un modèle qui combine précision et rappel, de cette manière étrange que l’addition et la multiplication mélangent simplement deux ingrédients pour faire un plat séparé., Autrement dit, un bon score F1 signifie que vous avez de faibles faux positifs et de faibles faux négatifs, de sorte que vous identifiez correctement les menaces réelles et que vous n’êtes pas dérangé par les fausses alarmes. Un score F1 est considéré comme parfait quand il est 1
, alors que le modèle est un échec total quand il est 0
.
Souvenez-vous: Tous les modèles sont faux, mais certains sont utiles. Autrement dit, tous les modèles généreront des faux négatifs, des faux positifs, et peut-être les deux., Alors que vous pouvez régler un modèle pour minimiser l’un ou l’autre, vous faites souvent face à un compromis, où une diminution des faux négatifs entraîne une augmentation des faux positifs, ou vice versa. Vous devrez optimiser les mesures de performance les plus utiles pour votre problème spécifique.
Notes de bas de page
0) « Matrice de confusion” doit être l’un des termes les plus involontairement poétiques de toutes les mathématiques. C’est le genre de phrase que vous lisez et dites: « Je vis dans une matrice de confusion. La matrice de confusion de la modernité. Nous sommes des flippers qui rebondissent entre faux positifs et faux négatifs à la recherche de la vérité., »
1) Pour un formatage Latex facile que vous pouvez capturer et intégrer dans vos articles de blog, essayez les mathématiques.URL.,TMs