Når en data forskeren har valgt et mål variabel – f.eks. «søylen» i et regneark, de ønsker å forutsi – og fullførte forutsetninger for å transformere data og bygge en modell, en av de siste trinnene er å vurdere modellens resultater.
Forvirring Matrix
Velge en ytelse beregningen avhenger ofte på virksomheten problemet være løst., La oss si at du har 100 eksempler i datasettet, og du har matet hver og en til din modell og fikk en klassifisering. De foreslåtte vs. faktiske klassifisering kan kartlegges i en tabell som kalles en forvirring matrise.,0
Negativ (estimert) | Positive (estimert) | |
---|---|---|
Negativ (faktiske) | 98 | 0 |
Positive (faktiske) | 1 | 1 |
tabellen ovenfor beskriver en effekt av negativ versus positiv. Disse to resultatene er «klasser» av hver eksempler., Fordi det er bare to klasser, den modell som brukes til å generere forvirring matrix kan beskrives som en binær classifier. (Eksempel på en binær classifier: spam deteksjon. Alle e-poster er spam eller ikke spam, akkurat som all mat er en varm hund eller ikke en hot dog.)
for Å bedre tolke tabellen, kan du også se det i form av sanne positive, sant negative, falskt positive og falskt negative.,
Negative (predicted) | Positive (predicted) | |
---|---|---|
Negative (actual) | true negative | false positive |
Positive (actual) | false negative | true positive |
Accuracy
Overall, how often is our model correct?,
1
Som en heuristisk, eller tommelfingerregel, nøyaktighet kan fortelle oss umiddelbart om en modell er trent riktig og hvordan det kan utføre generelt. Men det betyr ikke gi detaljert informasjon om sin søknad til problemet.
problemet med å bruke nøyaktighet som din viktigste ytelse beregningen, er at det ikke bra når du har en alvorlig klasse ubalanse. La oss bruke datasettet i forvirringen matrisen ovenfor. La oss si det negative er normale transaksjoner og det positive er falske transaksjoner., Nøyaktigheten vil fortelle deg at du er riktig 99% av tiden på tvers av alle klasser.
Men vi kan se at for svindel klasse (positiv), har du bare rett til 50% av tiden, noe som betyr at du kommer til å tape penger. Helvete, hvis du opprettet en vanskelig regel å forutsi at alle transaksjoner var normalt, vil du være rett 98% av tiden. Men det ville ikke være en veldig smart modell, eller en veldig smart evaluering beregningen. Det er derfor, når sjefen ber deg om å fortelle dem «hvor nøyaktig er at modellen?ditt svar kan være: «Det er komplisert.,»
for Å gi et bedre svar, vi trenger å vite om presisjon, husker og f1-score.
finn ut Hvordan du bruker kunstig INTELLIGENS til å Simuleringer «
Presisjon
Når modellen forutsier positive, hvor ofte er det riktig?
Presisjon hjelper når kostnadene av falske positiver er høy. Så la oss anta at problemet gjelder deteksjon av hud kreft. Hvis vi har en modell som har svært lav presisjon, da mange pasienter vil bli fortalt at de har melanom, og som vil inneholde noen misdiagnoses. Massevis av ekstra tester og stress er på spill., Når falske positiver er for høye, de som vil overvåke resultatene vil lære å ignorere dem etter å ha blitt bombardert med falske alarmer.
Tilbakekall
Tilbakekall hjelper når kostnadene falske negativer er høy. Hva hvis vi trenger å oppdage innkommende kjernefysiske raketter? En falsk negativ har ødeleggende konsekvenser. Få det galt, og vi alle dø. Når falske negativer er hyppig, du blir truffet av ting du ønsker å unngå. En falsk negativ er når du bestemmer deg for å ignorere lyden av en kvist å bryte i en mørk skog, og du får spist av en bjørn., (Falske positive er å bo oppe hele natten og søvnløs i teltet i en kald svette lytter til hver shuffle i skogen, bare for å innse neste morgen at de lydene som var laget av et ekorn. Ikke moro.) Hvis du hadde en modell som la i kjernefysiske raketter ved en feil, vil du ønsker å kaste den ut. Hvis du hadde en modell som holdt deg våken hele natten fordi gjengen, ønsker du å kaste den ut, også., Hvis, som de fleste folk du foretrekker å ikke bli spist av en bjørn, og heller ikke bo oppe hele natten og var bekymret chipmunk alarmer, så du trenger for å optimalisere for en evaluering beregningen som er en kombinert grad av presisjon og recall. Skriv inn F1 score…
F1-Score
F1 er et samlet mål på modellens nøyaktighet som kombinerer presisjon og recall, i den rare måten at addisjon og multiplikasjon bare blande to ingredienser til å lage en egen rett sammen., Det er en god F1 score betyr at du har lavt falske positive og lave falske negativer, så du er riktig å identifisere reelle trusler, og du blir ikke forstyrret av falske alarmer. En F1-score er vurdert perfekt når det er 1
, mens modellen er en total fiasko når det er 0
.
Husk: Alle modeller er gale, men noen er nyttige. Som er, alle modeller vil generere noen falske negativer, noen falske positiver, og muligens begge., Mens du kan stille inn en modell for å minimere den ene eller den andre, vil du ofte møte en byttehandel, hvor en nedgang i falske negativer fører til en økning i falske positiver, eller vice versa. Du trenger for å oppnå de ytelsesmål som er mest nyttige for ditt spesifikke problem.
Fotnoter
0) «Forvirring matrix» må være en av de mest utilsiktet poetisk form i alle matematikk. Det er den slags uttrykk for at du leser og sier: «jeg lever i en forvirring matrise. Forvirringen matrise av modernitet. Vi er pinballs spretter mellom falske positiver og falske negativer for å søke etter sannheten.,»
1) For enkel Latex formatering som du kan skjermbilde og legge inn i din blogg innlegg, prøve ut matematikk.url-en.,TMs