nadat een data scientist een doelvariabele heeft gekozen – bijvoorbeeld de “kolom” in een spreadsheet die zij willen voorspellen – en de voorwaarden heeft vervuld voor het transformeren van gegevens en het bouwen van een model, is een van de laatste stappen het evalueren van de prestaties van het model.
Verwarmingsmatrix
het kiezen van een prestatiemetrie hangt vaak af van het zakelijke probleem dat wordt opgelost., Laten we zeggen dat je 100 voorbeelden in je dataset hebt, en je hebt ze allemaal aan je model gegeven en een classificatie ontvangen. De voorspelde vs. werkelijke classificatie kan in kaart worden gebracht in een tabel genaamd een verwarmingsmatrix.,0
Negatief (voorspelde) | Positieve (voorspelde) | |
---|---|---|
Negatief (werkelijke) | 98 | 0 |
Positieve (werkelijke) | 1 | 1 |
De bovenstaande tabel beschrijft een vermogen van negatieve versus positieve. Deze twee uitkomsten zijn de” klassen ” van elk voorbeeld., Omdat er slechts twee klassen zijn, kan het model dat wordt gebruikt om de verwarmingsmatrix te genereren worden beschreven als een binaire classifier. (Voorbeeld van een binaire classifier: spam detectie. Alle e-mails zijn spam of niet spam, net zoals al het eten is een hotdog of niet een hotdog.)
om de tabel beter te interpreteren, kunt u deze ook zien in termen van true positieven, true negatieven, false positieven en false negatieven.,
Negative (predicted) | Positive (predicted) | |
---|---|---|
Negative (actual) | true negative | false positive |
Positive (actual) | false negative | true positive |
Accuracy
Overall, how often is our model correct?,
1
als vuistregel kan nauwkeurigheid ons direct vertellen of een model correct wordt getraind en hoe het in het algemeen kan presteren. Het geeft echter geen gedetailleerde informatie over de toepassing ervan op het probleem.
het probleem met het gebruik van nauwkeurigheid als uw belangrijkste prestatiemetrie is dat het niet goed gaat als u een ernstige klasse onbalans heeft. Laten we de dataset gebruiken in de verwarmingsmatrix hierboven. Stel dat de negatieven normale transacties zijn en de positieven frauduleuze transacties., Nauwkeurigheid zal u vertellen dat je gelijk hebt 99% van de tijd in alle klassen.
maar we kunnen zien dat Voor de fraudeklasse (positief), je maar 50% van de tijd gelijk hebt, wat betekent dat je geld gaat verliezen. Als je een harde regel had gemaakt die voorspelde dat alle transacties normaal waren, had je 98% van de tijd gelijk. Maar dat zou geen erg slim model zijn, of een erg slimme evaluatie-maatstaf. Dat is waarom, als je baas je vraagt om hen te vertellen ” hoe accuraat is dat model?”, uw antwoord zou kunnen zijn: “het is ingewikkeld.,”
om een beter antwoord te geven, moeten we weten over precisie, recall en F1 scores.
leer hoe AI toe te passen op simulaties “
precisie
wanneer het model positief voorspelt, hoe vaak is het correct?
precisie helpt wanneer de kosten van false positieven hoog zijn. Dus laten we aannemen dat het probleem de detectie van huidkanker betreft. Als we een model hebben dat zeer lage precisie heeft, dan zullen veel patiënten worden verteld dat ze melanoom hebben, en dat zal enkele verkeerde diagnoses omvatten. Er staan veel extra tests en stress op het spel., Wanneer valse positieven te hoog zijn, zullen degenen die de resultaten controleren leren om ze te negeren nadat ze zijn gebombardeerd met valse alarmen.
Recall
Recall helpt wanneer de kosten van valse negatieven hoog zijn. Wat als we binnenkomende nucleaire raketten moeten detecteren? Een vals negatief heeft verwoestende gevolgen. Als je het mis hebt, sterven we allemaal. Wanneer valse negatieven frequent zijn, krijg je geraakt door het ding dat je wilt vermijden. Een vals negatief is wanneer je besluit om het geluid te negeren van een tak die breekt in een donker bos, en je wordt opgegeten door een beer., (Een vals positief blijft de hele nacht wakker slapeloos in je tent in een koud zweet luisteren naar elke shuffle in het bos, alleen om de volgende ochtend te beseffen dat die geluiden werden gemaakt door een eekhoorn. Niet leuk. Als je een model had dat per ongeluk kernraketten binnenliet, zou je het eruit willen gooien. Als je een model had dat je de hele nacht wakker hield omdat eekhoorns, zou je het ook weg willen gooien., Als je, zoals de meeste mensen, liever niet opgegeten wordt door de beer, en ook niet de hele nacht wakker blijft met je zorgen over eekhoornalarmen, dan moet je optimaliseren voor een evaluatiemetrie die een gecombineerde maat is voor precisie en terugroepactiviteit. Voer de F1-score in …
F1-Score
F1 is een algemene maat voor de nauwkeurigheid van een model dat precisie en terugroeping combineert, op die vreemde manier dat optellen en vermenigvuldigen gewoon twee ingrediënten mengen om een afzonderlijk gerecht te maken., Dat wil zeggen, een goede F1-score betekent dat je lage valse positieven en lage valse negatieven hebt, zodat je echte bedreigingen correct identificeert en je niet gestoord wordt door valse alarmen. Een F1-score wordt als perfect beschouwd als het 1
is, terwijl het model een totale mislukking is als het 0
is.
onthoud: alle modellen zijn verkeerd, maar sommige zijn nuttig. Dat wil zeggen, alle modellen zullen een aantal valse negatieven, een aantal valse positieven, en mogelijk beide genereren., Terwijl u een model kunt afstemmen om het een of het ander te minimaliseren, wordt u vaak geconfronteerd met een afweging, waarbij een afname van valse negatieven leidt tot een toename van valse positieven, of vice versa. U moet optimaliseren voor de prestaties metrics die het meest nuttig zijn voor uw specifieke probleem.
voetnoten
0) “Verwarmingsmatrix” moet een van de meest onbedoelde poëtische termen in de wiskunde zijn. Het is het soort zin die je leest en zegt: “Ik leef in een verwarmingsmatrix. De verwarmingsmatrix van de moderniteit. We zijn pinballs stuiteren tussen valse positieven en valse negatieven op zoek naar de waarheid.,”
1) voor eenvoudige Latex opmaak die u kunt screenshot en insluiten in uw blog posts, probeer wiskunde.URL.,TMs