logo

Klassifiseringsalgoritme i maskinlæring

Som vi vet, kan Supervised Machine Learning-algoritmen i store trekk klassifiseres i regresjons- og klassifikasjonsalgoritmer. I regresjonsalgoritmer har vi spådd utgangen for kontinuerlige verdier, men for å forutsi de kategoriske verdiene trenger vi Klassifikasjonsalgoritmer.

Hva er klassifiseringsalgoritmen?

Klassifikasjonsalgoritmen er en overvåket læringsteknikk som brukes til å identifisere kategorien av nye observasjoner på grunnlag av treningsdata. I klassifisering lærer et program av det gitte datasettet eller observasjonene og klassifiserer deretter ny observasjon i en rekke klasser eller grupper. Som for eksempel, Ja eller Nei, 0 eller 1, Spam eller Ikke Spam, katt eller hund, osv. Klasser kan kalles som mål/etiketter eller kategorier.

okse vs okse

I motsetning til regresjon, er utgangsvariabelen til Klassifikasjon en kategori, ikke en verdi, slik som 'Grønn eller Blå', 'frukt eller dyr', osv. Siden Klassifikasjonsalgoritmen er en overvåket læringsteknikk, tar den derfor merket inndata, som betyr at den inneholder input med tilsvarende utgang.

I klassifiseringsalgoritmen blir en diskret utgangsfunksjon(y) tilordnet inngangsvariabel(x).

 y=f(x), where y = categorical output 

Det beste eksemplet på en ML-klassifiseringsalgoritme er Spamdetektor for e-post .

Hovedmålet med Klassifikasjonsalgoritmen er å identifisere kategorien til et gitt datasett, og disse algoritmene brukes hovedsakelig til å forutsi utdata for de kategoriske dataene.

Klassifiseringsalgoritmer kan forstås bedre ved å bruke diagrammet nedenfor. I diagrammet nedenfor er det to klasser, klasse A og klasse B. Disse klassene har egenskaper som ligner på hverandre og ikke ligner på andre klasser.

Klassifiseringsalgoritme i maskinlæring

Algoritmen som implementerer klassifiseringen på et datasett er kjent som en klassifikator. Det finnes to typer klassifikasjoner:

    Binær klassifisering:Hvis klassifiseringsproblemet bare har to mulige utfall, kalles det som binær klassifikator.
    Eksempler: JA eller NEI, HANN eller KVINNE, SPAM eller IKKE SPAM, KATT eller HUND, etc.Flerklasseklassifisering:Hvis et klassifiseringsproblem har mer enn to utfall, kalles det som Multi-class Classifier.
    Eksempel: Klassifikasjoner av typer avlinger, Klassifisering av typer musikk.

Elever i klassifiseringsproblemer:

I klassifiseringsoppgavene er det to typer elever:

    Late elever:Lazy Learner lagrer først treningsdatasettet og venter til det mottar testdatasettet. I Lazy elev-tilfelle gjøres klassifisering på grunnlag av de mest relaterte dataene som er lagret i treningsdatasettet. Det tar mindre tid på trening, men mer tid til spådommer.
    Eksempel: K-NN-algoritme, Kasusbasert resonnementIvrige elever:Ivrige elever utvikler en klassifiseringsmodell basert på et opplæringsdatasett før de mottar et testdatasett. I motsetning til late elever, bruker Eager Learner mer tid på å lære og mindre tid på å forutsi. Eksempel: Decision Trees, Na�ve Bayes, ANN.

Typer ML-klassifiseringsalgoritmer:

Klassifiseringsalgoritmer kan videre deles inn i hovedsaklig to kategorier:

    Lineære modeller
    • Logistisk regresjon
    • Støtte vektormaskiner
    Ikke-lineære modeller
    • K-Nærmeste Naboer
    • Kjerne SVM
    • Nave Bayes
    • Klassifisering av beslutningstre
    • Tilfeldig skogklassifisering

Merk: Vi vil lære algoritmene ovenfor i senere kapitler.

Evaluering av en klassifiseringsmodell:

Når modellen vår er fullført, er det nødvendig å evaluere ytelsen; enten er det en klassifiserings- eller regresjonsmodell. Så for å evaluere en klassifiseringsmodell har vi følgende måter:

1. Loggtap eller kryssentropitap:

  • Den brukes til å evaluere ytelsen til en klassifikator, hvis utgang er en sannsynlighetsverdi mellom 0 og 1.
  • For en god binær klassifiseringsmodell bør verdien av loggtap være nær 0.
  • Verdien av loggtap øker hvis den anslåtte verdien avviker fra den faktiske verdien.
  • Det lavere loggtapet representerer den høyere nøyaktigheten til modellen.
  • For binær klassifisering kan kryssentropi beregnes som:
 ?(ylog(p)+(1?y)log(1?p)) 

Hvor y = Faktisk utgang, p = predikert utgang.

2. Forvirringsmatrise:

  • Forvirringsmatrisen gir oss en matrise/tabell som utdata og beskriver ytelsen til modellen.
  • Det er også kjent som feilmatrisen.
  • Matrisen består av prediksjoner resulterer i en oppsummert form, som har et totalt antall korrekte prediksjoner og feil prediksjoner. Matrisen ser ut som i tabellen nedenfor:
Faktisk positiv Faktisk negativ
Forutsagt positiv Sant positiv Falsk positiv
Forutsagt negativ Falsk negativ Ekte negativ
Klassifiseringsalgoritme i maskinlæring

3. AUC-ROC-kurve:

for loops java
  • ROC-kurve står for Mottaker Driftsegenskaper Kurve og AUC står for Område under kurven .
  • Det er en graf som viser ytelsen til klassifiseringsmodellen ved ulike terskler.
  • For å visualisere ytelsen til flerklasseklassifiseringsmodellen bruker vi AUC-ROC-kurven.
  • ROC-kurven er plottet med TPR og FPR, hvor TPR (True Positive Rate) på Y-aksen og FPR (False Positive Rate) på X-aksen.

Bruk tilfeller av klassifikasjonsalgoritmer

Klassifiseringsalgoritmer kan brukes på forskjellige steder. Nedenfor er noen populære brukstilfeller av klassifiseringsalgoritmer:

  • Deteksjon av søppelpost på e-post
  • Talegjenkjenning
  • Identifikasjon av kreftsvulstceller.
  • Klassifisering av narkotika
  • Biometrisk identifikasjon, etc.