efter at en dataforsker har valgt en målvariabel – f.eks. “kolonnen” i et regneark, de ønsker at forudsige-og afsluttet forudsætningerne for at transformere data og opbygge en model, er et af de sidste trin at evaluere modellens ydeevne.
Forvirringsmatri.
valg af præstationsmetrik afhænger ofte af det forretningsmæssige problem, der løses., Lad os sige, at du har 100 eksempler i dit datasæt, og du har fodret hver enkelt til din model og modtaget en klassificering. Den forudsagte vs faktiske klassificering kan kortlægges i en tabel kaldet en forvirringsmatri..,0
Negativ (forventede) | Positiv (forventede) | |
---|---|---|
Negativ (faktiske) | 98 | 0 |
Positiv (faktiske) | 1 | 1 |
tabellen ovenfor beskriver et output af negative vs. positive. Disse to resultater er “klasserne” af hvert eksempel., Da der kun er to klasser, kan Modellen, der bruges til at generere forvirringsmatri theen, beskrives som en binær klassifikator. (Eksempel på en binær klassifikator: spam detektion. Alle e-mails er spam eller ikke spam, ligesom al mad er en hotdog eller ikke en hotdog.)
for bedre at fortolke tabellen kan du også se det med hensyn til sande positive, sande negativer, falske positive og falske negativer.,
Negative (predicted) | Positive (predicted) | |
---|---|---|
Negative (actual) | true negative | false positive |
Positive (actual) | false negative | true positive |
Accuracy
Overall, how often is our model correct?,
1
som en heuristisk eller tommelfingerregel kan nøjagtigheden straks fortælle os, om en model trænes korrekt, og hvordan den kan fungere generelt. Det giver dog ikke detaljerede oplysninger om dets anvendelse på problemet.
problemet med at bruge nøjagtighed som din primære ydeevne metrisk er, at det ikke gør godt, når du har en alvorlig klasse ubalance. Lad os bruge datasættet i forvirringsmatri theen ovenfor. Lad os sige, at negativerne er normale transaktioner, og positiverne er svigagtige transaktioner., Nøjagtighed vil fortælle dig, at du har ret 99% af tiden på tværs af alle klasser.
men vi kan se, at for svindelklassen (positiv) har du kun ret 50% af tiden, hvilket betyder, at du vil miste penge. Helvede, hvis du oprettede en hård regel, der forudsagde, at alle transaktioner var normale, ville du have ret 98% af tiden. Men det ville ikke være en meget smart model eller en meget smart evalueringsmetode. Det er derfor, når din chef beder dig om at fortælle dem ” hvor præcis er den model?”, kan dit svar være: “det er kompliceret.,”
for at give et bedre svar skal vi vide om præcision, tilbagekaldelse og F1-score.
Lær hvordan du anvender AI til simuleringer “
præcision
når modellen forudsiger positiv, hvor ofte er det korrekt?
præcision hjælper, når omkostningerne ved falske positiver er høje. Så lad os antage, at problemet indebærer påvisning af hudkræft. Hvis vi har en model, der har meget lav præcision, vil mange patienter blive fortalt, at de har melanom, og det vil omfatte nogle fejldiagnoser. Masser af ekstra test og stress er på spil., Når falske positiver er for høje, vil de, der overvåger resultaterne, lære at ignorere dem efter at være bombarderet med falske alarmer.
Recall
Recall hjælper, når omkostningerne ved falske negativer er høje. Hvad hvis vi har brug for at opdage indkommende atommissiler? En falsk negativ har ødelæggende konsekvenser. Gør det forkert, og vi dør alle sammen. Når falske negativer er hyppige, bliver du ramt af den ting, du vil undgå. Et falsk negativt er, når du beslutter dig for at ignorere lyden af en kvist, der bryder i en mørk skov, og du bliver spist af en bjørn., (En falsk positiv opholder sig hele natten Søvnløs i dit telt i en kold sved og lytter til hver shuffle i skoven, kun for at indse næste morgen, at disse lyde blev lavet af en chipmunk. Ikke sjovt.) Hvis du havde en model, der lod i nukleare missiler ved en fejltagelse, ville du ønsker at smide det ud. Hvis du havde en model, der holdt dig vågen hele natten, fordi jordegern, du ønsker at smide det ud, også., Hvis du som de fleste mennesker foretrækker at ikke blive spist af bjørnen, og heller ikke holde op hele natten bekymret for chipmunk alarmer, så skal du optimere for en evalueringsmetode, der er et kombineret mål for præcision og tilbagekaldelse. Indtast F1 score…
F1-Score
F1 er en samlet foranstaltning af en models nøjagtighed, der kombinerer præcision og recall, i denne underlige måde, at addition og multiplikation bare bland de to ingredienser til at lave en separat skål helt., Det vil sige, at en god F1-score betyder, at du har lave falske positiver og lave falske negativer, så du korrekt identificerer reelle trusler, og du bliver ikke forstyrret af falske alarmer. En F1-score betragtes som perfekt, når det er 1
, mens modellen er en total fiasko, når det er 0
.
husk: Alle modeller er forkerte, men nogle er nyttige. Det vil sige, at alle modeller vil generere nogle falske negativer, nogle falske positiver og muligvis begge dele., Mens du kan indstille en model for at minimere den ene eller den anden, står du ofte over for en afvejning, hvor et fald i falske negativer fører til en stigning i falske positiver eller omvendt. Du skal optimere for de præstationsmålinger, der er mest nyttige til dit specifikke problem.
fodnoter
0) “Forvirringsmatri.” skal være et af de mest utilsigtede poetiske udtryk i al matematik. Det er den slags sætning, du læser og siger: “jeg lever i en forvirringsmatri.. Modernitetens forvirringsmatri.. Vi er pinballs hoppende mellem falske positiver og falske negativer på jagt efter sandheden.,”
1) For nem late .formatering, som du kan screenshot og integrere i dine blogindlæg, prøv matematik.URL.,TMs