Nachdem ein Data Scientist eine Zielvariable ausgewählt hat – z. B. die „Spalte“ in einer Tabelle, die er vorhersagen möchte – und die Voraussetzungen für die Transformation von Daten und die Erstellung eines Modells erfüllt hat, ist einer der letzten Schritte die Bewertung der Modellleistung.
Verwirrungsmatrix
Die Auswahl einer Leistungsmetrik hängt häufig vom zu lösenden Geschäftsproblem ab., Angenommen, Sie haben 100 Beispiele in Ihrem Datensatz, und Sie haben jedes Ihrem Modell zugeführt und eine Klassifizierung erhalten. Die vorhergesagte vs. tatsächliche Klassifizierung kann in einer Tabelle dargestellt werden, die als Verwirrungsmatrix bezeichnet wird.,0
Negativ (vorhergesagt) | Positiv (vorhergesagt) | |
---|---|---|
Negativ (tatsächlich) | 98 | 0 |
Positiv (tatsächlich) | 1 | 1 |
Die obige Tabelle beschreibt eine Ausgabe von negativ vs. positiv. Diese beiden Ergebnisse sind die „Klassen“ jedes Beispiels., Da es nur zwei Klassen gibt, kann das Modell, das zum Generieren der Verwirrungsmatrix verwendet wird, als binärer Klassifikator beschrieben werden. (Beispiel eines binären Klassifikators: Spam-Erkennung. Alle E-Mails sind Spam oder kein Spam, genauso wie alle Lebensmittel ein Hot Dog oder kein Hot Dog sind.)
Um die Tabelle besser zu interpretieren, können Sie sie auch in Bezug auf true Positive, true negative, false Positive und false Negative sehen.,
Negative (predicted) | Positive (predicted) | |
---|---|---|
Negative (actual) | true negative | false positive |
Positive (actual) | false negative | true positive |
Accuracy
Overall, how often is our model correct?,
1
Als Heuristik oder Faustregel können Sie uns sofort mitteilen, ob ein Modell korrekt trainiert wird und wie es im Allgemeinen funktioniert. Es gibt jedoch keine detaillierten Informationen über seine Anwendung auf das Problem.
Das Problem bei der Verwendung der Genauigkeit als Hauptleistungsmetrik besteht darin, dass sie bei einem schweren Klassenungleichgewicht nicht gut abschneidet. Verwenden wir den Datensatz in der obigen Verwirrungsmatrix. Nehmen wir an, die Negativen sind normale Transaktionen und die Positiven sind betrügerische Transaktionen., Genauigkeit wird Ihnen sagen, dass Sie 99% der Zeit in allen Klassen richtig sind.
Aber wir können sehen, dass Sie für die Betrugsklasse (positiv) nur 50% der Zeit Recht haben, was bedeutet, dass Sie Geld verlieren werden. Hölle, wenn Sie eine harte Regel erstellen würden, die vorhersagt, dass alle Transaktionen normal sind, hätten Sie 98% der Zeit Recht. Aber das wäre kein sehr intelligentes Modell oder eine sehr intelligente Bewertungsmetrik. Deshalb, wenn Ihr Chef Sie bittet, ihnen zu sagen, “ Wie genau ist das Modell?“Ihre Antwort könnte sein: „Es ist kompliziert.,“
Um eine bessere Antwort zu geben, müssen wir über Präzision, Rückruf und F1-Werte Bescheid wissen.
Erfahren Sie, wie Sie KI auf Simulationen anwenden “
Präzision
Wenn das Modell positiv vorhersagt, wie oft ist es korrekt?
Präzision hilft, wenn die Kosten für Fehlalarme hoch sind. Nehmen wir also an, das problem beinhaltet die Erkennung von Hautkrebs. Wenn wir ein Modell mit sehr geringer Präzision haben, wird vielen Patienten mitgeteilt, dass sie an Melanomen leiden, und dazu gehören auch einige Fehldiagnosen. Viele zusätzliche Tests und Stress stehen auf dem Spiel., Wenn Fehlalarme zu hoch sind, lernen diejenigen, die die Ergebnisse überwachen, sie zu ignorieren, nachdem sie mit Fehlalarmen bombardiert wurden.
Rückruf
Rückruf hilft, wenn die Kosten für falsch Negative hoch sind. Was ist, wenn wir ankommende Atomraketen aufspüren müssen? Ein falsches Negativ hat verheerende Folgen. Versteh es falsch und wir alle sterben. Wenn falsche Negative häufig auftreten, werden Sie von der Sache getroffen, die Sie vermeiden möchten. Ein falsches Negativ ist, wenn Sie sich entscheiden, das Geräusch eines Zweigs zu ignorieren, der in einem dunklen Wald bricht, und Sie von einem Bären gefressen werden., (Ein falsches Positiv ist, die ganze Nacht schlaflos in Ihrem Zelt in kaltem Schweiß aufzubleiben und jedem Shuffle im Wald zuzuhören, nur um am nächsten Morgen zu erkennen, dass diese Geräusche von einem Chipmunk gemacht wurden. Nicht lustig.), Wenn Sie hatte ein Modell, dass wir in der nuklearen Raketen, die durch Fehler, die Sie würde wollen zu werfen es Weg. Wenn du ein Modell hättest, das dich die ganze Nacht wach hielt, weil Chipmunks, würdest du es auch rauswerfen wollen., Wenn Sie, wie die meisten Menschen, lieber nicht vom Bären gefressen werden und auch nicht die ganze Nacht aufbleiben, um sich Sorgen um Chipmunk-Alarme zu machen, müssen Sie für eine Bewertungsmetrik optimieren, die ein kombiniertes Maß für Präzision und Rückruf darstellt. Geben Sie die F1-Punktzahl ein…
F1-Punktzahl
F1 ist ein Gesamtmaß für die Genauigkeit eines Modells, das Präzision und Rückruf auf diese seltsame Weise kombiniert, dass Addition und Multiplikation nur zwei Zutaten mischen, um insgesamt ein separates Gericht zu bilden., Das heißt, ein guter F1-Score bedeutet, dass Sie niedrige Fehlalarme und niedrige Fehlalarme haben, sodass Sie echte Bedrohungen korrekt identifizieren und nicht durch Fehlalarme gestört werden. Ein F1-Score gilt als perfekt, wenn es 1
, während das Modell ein Totalausfall ist, wenn es 0
.
denken Sie Daran: Alle Modelle sind falsch, aber einige sind nützlich. Das heißt, alle Modelle erzeugen falsche Negative, falsche Positive und möglicherweise beides., Während Sie ein Modell so einstellen können, dass es das eine oder andere minimiert, stehen Sie häufig vor einem Kompromiss, bei dem eine Abnahme der falsch negativen zu einer Zunahme der falsch positiven Ergebnisse führt oder umgekehrt. Sie müssen für die Leistungsmetriken optimieren, die für Ihr spezifisches Problem am nützlichsten sind.
Fußnoten
0) „Confusion matrix“ muss einer der unbeabsichtigt poetischen Begriffe in der gesamten Mathematik sein. Es ist die Art von Satz, den Sie lesen und sagen: „Ich lebe in einer Verwirrungsmatrix. Die Verwirrungsmatrix der Moderne. Wir sind Flipper, die auf der Suche nach Wahrheit zwischen falsch Positiven und falsch Negativen hüpfen.,“
1) Für eine einfache Latex-Formatierung, die Sie in Ihren Blog-Posts Screenshot und einbetten können, probieren Sie Math.URL.,TMs