Po dat vědec má vybrané cílové proměnné – např. „sloupec“ v tabulce chtějí předvídat – a úspěšně absolvováno předpoklady transformace dat a vytvoření modelu, jedním z posledních kroků je posouzení modelu je výkon.
matrice záměny
výběr metriky výkonu často závisí na řešeném obchodním problému., Řekněme, že máte ve svém datovém souboru 100 příkladů, a každý z nich jste vložili do svého modelu a obdrželi klasifikaci. Předpokládaná vs. skutečná klasifikace může být mapována v tabulce zvané matrice zmatku.,0
Negativní (předpokládané) | Pozitivní (předpokládané) | |
---|---|---|
Negativní (aktuální) | 98 | 0 |
Pozitivní (aktuální) | 1 | 1 |
výše uvedená tabulka popisuje výstup negativní vs. pozitivní. Tyto dva výsledky jsou „třídy“ jednotlivých příkladů., Protože existují pouze dvě třídy, model použitý k vytvoření matrice zmatku lze popsat jako binární klasifikátor. (Příklad binárního klasifikátoru: detekce spamu. Všechny e-maily jsou spam nebo ne spam, stejně jako všechny potraviny je párek v rohlíku, nebo ne hot dog.)
Chcete-li lépe interpretovat tabulku, můžete ji také vidět z hlediska skutečných pozitiv, skutečných negativů, falešných pozitiv a falešných negativů.,
Negative (predicted) | Positive (predicted) | |
---|---|---|
Negative (actual) | true negative | false positive |
Positive (actual) | false negative | true positive |
Accuracy
Overall, how often is our model correct?,
1.
Jako heuristické, nebo pravidlo, přesnost nám může říct hned, zda model je řádně vyškoleni, a jak to mohou provést obecně. Neposkytuje však podrobné informace o jeho aplikaci na problém.
problém s použitím přesnosti jako hlavní metriky výkonu spočívá v tom, že se vám nedaří, když máte vážnou nerovnováhu třídy. Použijeme datový soubor v matici zmatku výše. Řekněme, že negativy jsou normální transakce a pozitivy jsou podvodné transakce., Přesnost vám řekne, že máte pravdu 99% času ve všech třídách.
ale vidíme, že pro třídu podvodů (pozitivní) máte pravdu pouze 50% času, což znamená, že ztratíte peníze. Sakra, pokud jste vytvořili tvrdé pravidlo předpovídající, že všechny transakce byly normální, měli byste pravdu 98% času. Ale to by nebyl moc chytrý model, ani velmi chytrá hodnotící metrika. Proto, když vás váš šéf požádá, abyste jim řekl :“ jak přesný je tento model?“, vaše odpověď může být: „je to komplikované.,“
abychom získali lepší odpověď, musíme vědět o přesnosti, vyvolání a skóre f1.
Naučte se, jak aplikovat AI na Simulace „
Precision
když model předpovídá pozitivní, jak často je správný?
přesnost pomáhá, když jsou náklady na falešné pozitiva vysoké. Takže předpokládejme, že problém zahrnuje detekci rakoviny kůže. Pokud máme model, který má velmi nízkou přesnost, pak mnoho pacientů bude řečeno, že mají melanomu, a to bude zahrnovat některé určením špatné diagnózy. V sázce je spousta dalších testů a stresu., Když jsou falešná pozitiva příliš vysoká, ti, kteří sledují výsledky, se je naučí ignorovat poté, co byli bombardováni falešnými poplachy.
Recall
Recall pomáhá, když jsou náklady na falešné negativy vysoké. Co když potřebujeme detekovat příchozí jaderné rakety? Falešně negativní má zničující důsledky. Zmizni a všichni zemřeme. Když jsou falešné negativy časté, dostanete hit tím, čemu se chcete vyhnout. Falešně negativní je, když se rozhodnete ignorovat zvuk větvičky lámající se v temném lese a dostanete se jíst medvědem., (Falešně pozitivní je zůstat celou noc bezesný ve vašem stanu ve studeném potu a poslouchat každý shuffle v lese, jen aby si uvědomil, druhý den ráno, že tyto zvuky byly vyrobeny chipmunk. Není to sranda.) Pokud byste měli model, který omylem vpustil jaderné rakety, chtěli byste je vyhodit. Pokud byste měli model, který vás celou noc držel vzhůru kvůli chipmunkům, chtěli byste ho také vyhodit., Pokud, jako většina lidí, se raději ani dostat sežral medvěd, a také ne zůstat vzhůru celou noc strach o veverky alarmy, pak budete muset optimalizovat pro vyhodnocení metriky, která je kombinovaná opatření z precision a recall. Zadejte F1 skóre…
F1 Skóre
F1 je celkové měřítko modelu je přesnost, která kombinuje precision a recall, v tom, že zvláštním způsobem, že sčítání a násobení jen míchat dvě složky, aby se samostatný pokrm úplně., To znamená, že dobré skóre F1 znamená, že máte nízké falešné pozitiva a nízké falešné negativy, takže správně identifikujete skutečné hrozby a nejste rušeni falešnými poplachy. F1 skóre je považován za ideální, když je 1
, zatímco model je totální selhání, když je 0
.
pamatujte: všechny modely jsou špatné, ale některé jsou užitečné. To znamená, že všechny modely vytvoří nějaké falešné negativy, některé falešné pozitiva a možná obojí., I když můžete naladit model tak, aby minimalizoval jeden nebo druhý, často čelíte kompromisu, kde pokles falešných negativů vede ke zvýšení falešných pozitiv nebo naopak. Budete muset optimalizovat metriky výkonu, které jsou nejužitečnější pro váš konkrétní problém.
poznámky pod čarou
0) „Matrix záměny“ musí být jedním z nejvíce neúmyslně poetických pojmů v celé matematice. Je to taková fráze, kterou čtete a říkáte: „žiji v matici zmatku. Matrix zmatku modernity. Jsme pinballs skákající mezi falešnými pozitivy a falešnými negativy při hledání pravdy.,“
1) pro snadné formátování latexu, které můžete screenshot a vložit do svých blogových příspěvků, vyzkoušejte matematiku.adresa.,TMs