VEILEDET OG UOVERVÅKET LÆRING - TECHCODEVIEW.COM

Maskinlæring er et felt innen informatikk som gir datamaskiner muligheten til å lære uten å være eksplisitt programmert. Veiledet læring og uovervåket læring er to hovedtyper maskinlæring .

I veiledet læring , er maskinen trent på et sett med merkede data, noe som betyr at inngangsdataene er paret med ønsket utgang. Maskinen lærer deretter å forutsi utdata for nye inngangsdata. Overvåket læring brukes ofte til oppgaver som klassifisering, regresjon og objektdeteksjon.

Ved uovervåket læring trenes maskinen på et sett med umerkede data, noe som betyr at inngangsdataene ikke er paret med ønsket utgang. Maskinen lærer så å finne mønstre og sammenhenger i dataene. Uovervåket læring brukes ofte til oppgaver som f.eks gruppering , dimensjonalitetsreduksjon og anomalideteksjon.

Hva er veiledet læring?

Veiledet læring er en type maskinlæringsalgoritme som lærer av merkede data. Merkede data er data som er merket med riktig svar eller klassifisering.

Veiledet læring har, som navnet indikerer, tilstedeværelsen av en veileder som lærer. Veiledet læring er når vi lærer eller trener maskinen ved hjelp av data som er godt merket. Noe som betyr at noen data allerede er merket med riktig svar. Etter det blir maskinen utstyrt med et nytt sett med eksempler(data) slik at den overvåkede læringsalgoritmen analyserer treningsdataene (sett med treningseksempler) og produserer et korrekt resultat fra merkede data.

For eksempel vil et merket datasett med bilder av Elephant, Camel og Cow ha hvert bilde merket med enten Elephant , Camelor Cow.

Veiledet læring

Viktige punkter:

Overvåket læring innebærer å trene en maskin fra merkede data.
Merkede data består av eksempler med riktig svar eller klassifisering.
Maskinen lærer forholdet mellom innganger (fruktbilder) og utganger (fruktetiketter).
Den trente maskinen kan deretter lage spådommer på nye, umerkede data.

Eksempel:

La oss si at du har en fruktkurv du vil identifisere. Maskinen ville først analysere bildet for å trekke ut funksjoner som form, farge og tekstur. Deretter vil den sammenligne disse funksjonene med egenskapene til fruktene den allerede har lært om. Hvis funksjonene til det nye bildet ligner mest på et eple, vil maskinen forutsi at frukten er et eple.

bytte java

For eksempel , anta at du får en kurv fylt med forskjellige typer frukt. Nå er det første trinnet å trene maskinen med alle de forskjellige fruktene en etter en slik:

Hvis formen på objektet er avrundet og har en fordypning på toppen, er rød i fargen, vil det bli merket som – eple .
Hvis formen på objektet er en lang buet sylinder med grønn-gul farge, vil den bli merket som – Banan .

Anta nå at etter å ha trent dataene, har du gitt en ny separat frukt, si Banan fra kurven, og bedt om å identifisere den.

sortering i arraylist i java

Siden maskinen allerede har lært tingene fra tidligere data og denne gangen må bruke den med omhu. Den vil først klassifisere frukten med sin form og farge og vil bekrefte fruktnavnet som BANANA og plassere den i Bananakategorien. Dermed lærer maskinen tingene fra treningsdata (kurv som inneholder frukt) og bruker deretter kunnskapen til å teste data (ny frukt).

Typer veiledet læring

Overvåket læring er klassifisert i to kategorier av algoritmer:

Regresjon : Et regresjonsproblem er når utdatavariabelen er en reell verdi, for eksempel dollar eller vekt.
Klassifisering : Et klassifiseringsproblem er når utdatavariabelen er en kategori, for eksempel Rød eller blå, sykdom eller ingen sykdom.

Veiledet læring omhandler eller lærer med merkede data. Dette innebærer at noen data allerede er merket med riktig svar.

1- Regresjon

Regresjon er en type overvåket læring som brukes til å forutsi kontinuerlige verdier, for eksempel boligpriser, aksjekurser eller kundeavgang. Regresjonsalgoritmer lærer en funksjon som kartlegger fra inngangsfunksjonene til utdataverdien.

Noen vanlige regresjonsalgoritmer inkludere:

Lineær regresjon
Polynomregresjon
Støtt vektormaskinregresjon
Regresjon av beslutningstre
Tilfeldig skogregresjon

2- Klassifisering

Klassifisering er en type overvåket læring som brukes til å forutsi kategoriske verdier, for eksempel om en kunde vil churne eller ikke, om en e-post er spam eller ikke, eller om et medisinsk bilde viser en svulst eller ikke. Klassifikasjonsalgoritmer lærer en funksjon som kartlegger fra inngangsfunksjonene til en sannsynlighetsfordeling over utdataklassene.

Noen vanlige klassifiseringsalgoritmer inkludere:

Logistisk regresjon
Støtte vektormaskiner
Beslutningstrær
Tilfeldige skoger
Naiv Baye

Evaluering av veiledede læringsmodeller

Evaluering av veiledede læringsmodeller er et viktig skritt for å sikre at modellen er nøyaktig og generaliserbar. Det finnes en rekke forskjellige beregninger som kan brukes til å evaluere veiledede læringsmodeller, men noen av de vanligste inkluderer:

For regresjon

Mean Squared Error (MSE): MSE måler den gjennomsnittlige kvadratiske forskjellen mellom de predikerte verdiene og de faktiske verdiene. Lavere MSE-verdier indikerer bedre modellytelse.
Root Mean Squared Error (RMSE): RMSE er kvadratroten av MSE, som representerer standardavviket til prediksjonsfeilene. I likhet med MSE indikerer lavere RMSE-verdier bedre modellytelse.
Gjennomsnittlig absolutt feil (MAE): MAE måler den gjennomsnittlige absolutte forskjellen mellom de predikerte verdiene og de faktiske verdiene. Den er mindre følsom for uteliggere sammenlignet med MSE eller RMSE.
R-kvadrat (bestemmelseskoeffisient): R-kvadrat måler andelen av variansen i målvariabelen som forklares av modellen. Høyere R-kvadrerte verdier indikerer bedre modelltilpasning.

For klassifisering

Nøyaktighet: Nøyaktighet er prosentandelen av spådommer som modellen gjør riktig. Det beregnes ved å dele antall korrekte spådommer med det totale antallet spådommer.
Presisjon: Presisjon er prosentandelen av positive spådommer som modellen gir som faktisk er riktige. Det beregnes ved å dele antall sanne positive med det totale antallet positive spådommer.
Minnes: Tilbakekalling er prosentandelen av alle positive eksempler som modellen identifiserer korrekt. Det beregnes ved å dele antallet sanne positive med det totale antallet positive eksempler.
F1-poengsum: F1-poengsummen er et vektet gjennomsnitt av presisjon og tilbakekalling. Det beregnes ved å ta det harmoniske gjennomsnittet av presisjon og gjenkalling.
Forvirringsmatrise: En forvirringsmatrise er en tabell som viser antall spådommer for hver klasse, sammen med de faktiske klasseetikettene. Den kan brukes til å visualisere ytelsen til modellen og identifisere områder hvor modellen sliter.

Anvendelser av veiledet læring

Veiledet læring kan brukes til å løse en rekke problemer, inkludert:

Spamfiltrering: Overvåkede læringsalgoritmer kan trenes til å identifisere og klassifisere spam-e-poster basert på innholdet, og hjelper brukere med å unngå uønskede meldinger.
Bildeklassifisering: Overvåket læring kan automatisk klassifisere bilder i forskjellige kategorier, for eksempel dyr, objekter eller scener, noe som letter oppgaver som bildesøk, innholdsmoderering og bildebaserte produktanbefalinger.
Medisinsk diagnose: Overvåket læring kan hjelpe til med medisinsk diagnose ved å analysere pasientdata, for eksempel medisinske bilder, testresultater og pasienthistorie, for å identifisere mønstre som antyder spesifikke sykdommer eller tilstander.
Svindeloppdagelse: Overvåkede læringsmodeller kan analysere finansielle transaksjoner og identifisere mønstre som indikerer uredelig aktivitet, og hjelper finansinstitusjoner med å forhindre svindel og beskytte kundene sine.
Naturlig språkbehandling (NLP): Overvåket læring spiller en avgjørende rolle i NLP-oppgaver, inkludert sentimentanalyse, maskinoversettelse og tekstoppsummering, noe som gjør det mulig for maskiner å forstå og behandle menneskelig språk effektivt.

Fordeler med veiledet læring

Overvåket læring gjør det mulig å samle inn data og produsere data fra tidligere erfaringer.
Bidrar til å optimalisere ytelseskriterier ved hjelp av erfaring.
Overvåket maskinlæring hjelper til med å løse ulike typer beregningsproblemer i den virkelige verden.
Den utfører klassifiserings- og regresjonsoppgaver.
Det gjør det mulig å estimere eller kartlegge resultatet til en ny prøve.
Vi har full kontroll på valg av antall klasser vi ønsker i treningsdataene.

Ulemper ved veiledet læring

Klassifisering av big data kan være utfordrende.
Opplæring for veiledet læring krever mye regnetid. Så det krever mye tid.
Overvåket læring kan ikke håndtere alle komplekse oppgaver i maskinlæring.
Beregningstiden er enorm for veiledet læring.
Det krever et merket datasett.
Det krever en opplæringsprosess.

Hva er uovervåket læring?

Uovervåket læring er en type maskinlæring som lærer fra umerkede data. Dette betyr at dataene ikke har noen eksisterende etiketter eller kategorier. Målet med uovervåket læring er å oppdage mønstre og sammenhenger i dataene uten noen eksplisitt veiledning.

Uovervåket læring er trening av en maskin ved å bruke informasjon som verken er klassifisert eller merket og lar algoritmen handle på denne informasjonen uten veiledning. Her er maskinens oppgave å gruppere usortert informasjon etter likheter, mønstre og forskjeller uten forutgående opplæring av data.

I motsetning til veiledet læring, er ingen lærer gitt, noe som betyr at maskinen ikke får opplæring. Derfor er maskinen begrenset til å finne den skjulte strukturen i umerkede data av seg selv.

Du kan bruke uovervåket læring for å undersøke dyredataene som er samlet inn og skille mellom flere grupper i henhold til egenskapene og handlingene til dyrene. Disse grupperingene kan tilsvare forskjellige dyrearter, noe som gir deg mulighet til å kategorisere skapningene uten å være avhengig av etiketter som allerede eksisterer.

Uovervåket læring

Viktige punkter

Uovervåket læring lar modellen oppdage mønstre og sammenhenger i umerkede data.
Klyngealgoritmer grupperer lignende datapunkter basert på deres iboende egenskaper.
Funksjonsekstraksjon fanger viktig informasjon fra dataene, slik at modellen kan gjøre meningsfulle forskjeller.
Etiketttilknytning tildeler kategorier til klyngene basert på de ekstraherte mønstrene og egenskapene.

Eksempel

Tenk deg at du har en maskinlæringsmodell trent på et stort datasett med umerkede bilder, som inneholder både hunder og katter. Modellen har aldri sett et bilde av en hund eller katt før, og den har ingen eksisterende etiketter eller kategorier for disse dyrene. Din oppgave er å bruke uovervåket læring for å identifisere hundene og kattene i et nytt, usett bilde.

For eksempel , anta at den får et bilde med både hunder og katter som den aldri har sett.

kjører skript i linux

Dermed har maskinen ingen anelse om egenskapene til hunder og katter, så vi kan ikke kategorisere den som 'hunder og katter'. Men det kan kategorisere dem i henhold til deres likheter, mønstre og forskjeller, det vil si at vi enkelt kan kategorisere bildet ovenfor i to deler. Den første kan inneholde alle bildene som har hunder i dem og den andre delen kan inneholde alle bilder som har katter i dem. Her har du ikke lært noe før, noe som betyr ingen treningsdata eller eksempler.

Det lar modellen jobbe på egen hånd for å oppdage mønstre og informasjon som tidligere ikke ble oppdaget. Den omhandler hovedsakelig umerkede data.

Typer uovervåket læring

Uovervåket læring er klassifisert i to kategorier av algoritmer:

Gruppering : Et klyngeproblem er der du ønsker å oppdage de iboende grupperingene i dataene, for eksempel gruppering av kunder etter kjøpsatferd.
assosiasjon : Et problem med læring av assosiasjonsregler er der du vil oppdage regler som beskriver store deler av dataene dine, slik som at folk som kjøper X også har en tendens til å kjøpe Y.

Gruppering

Clustering er en type uovervåket læring som brukes til å gruppere lignende datapunkter sammen. Klyngealgoritmer arbeid ved å iterativt flytte datapunkter nærmere deres klyngesentra og lenger bort fra datapunkter i andre klynger.

Eksklusivt (partisjonering)
Agglomerativ
Overlappende
Probabilistisk

Klyngetyper: -

primærnøkkel sammensatt nøkkel

Hierarkisk klynging
K-betyr gruppering
Hovedkomponentanalyse
Enkeltverdidekomponering
Uavhengig komponentanalyse
Gaussiske blandingsmodeller (GMM)
Tetthetsbasert romlig klynging av applikasjoner med støy (DBSCAN)

Foreningsregellæring

Assosiasjonsregellæring er en type uovervåket læring som brukes til å identifisere mønstre i en data. Foreningsregel læringsalgoritmer fungerer ved å finne relasjoner mellom ulike elementer i et datasett.

Noen vanlige assosiasjonsregellæringsalgoritmer inkluderer:

Apriori-algoritme
Eclat-algoritme
FP-vekstalgoritme

Evaluering av ikke-veiledede læringsmodeller

Evaluering av ikke-veiledede læringsmodeller er et viktig skritt for å sikre at modellen er effektiv og nyttig. Det kan imidlertid være mer utfordrende enn å evaluere veiledede læringsmodeller, siden det ikke er noen grunnleggende sannhetsdata å sammenligne modellens spådommer med.

Det finnes en rekke forskjellige beregninger som kan brukes til å evaluere ikke-veiledede læringsmodeller, men noen av de vanligste inkluderer:

Silhouette score: Silhuettpoengsummen måler hvor godt hvert datapunkt er gruppert med sine egne klyngemedlemmer og atskilt fra andre klynger. Den varierer fra -1 til 1, med høyere poengsum som indikerer bedre klynging.
Calinski-Harabasz score: Calinski-Harabasz-skåren måler forholdet mellom variansen mellom klynger og variansen innenfor klynger. Den varierer fra 0 til uendelig, med høyere poengsum som indikerer bedre klynging.
Justert Rand-indeks: Den justerte Rand-indeksen måler likheten mellom to grupperinger. Den varierer fra -1 til 1, med høyere poengsum som indikerer flere lignende grupperinger.
Davies-Bouldin indeks: Davies-Bouldin-indeksen måler gjennomsnittlig likhet mellom klynger. Den varierer fra 0 til uendelig, med lavere poengsum som indikerer bedre klynging.
F1-poengsum: F1-poengsummen er et vektet gjennomsnitt av presisjon og tilbakekalling, som er to beregninger som ofte brukes i veiledet læring for å evaluere klassifikasjonsmodeller. F1-skåren kan imidlertid også brukes til å evaluere ikke-veiledede læringsmodeller, for eksempel klyngemodeller.

applikasjon av uovervåket læring

Ikke-veiledet læring kan brukes til å løse et bredt spekter av problemer, inkludert:

Anomalideteksjon: Uovervåket læring kan identifisere uvanlige mønstre eller avvik fra normal atferd i data, noe som muliggjør oppdagelse av svindel, inntrenging eller systemfeil.
Vitenskapelig oppdagelse: Uovervåket læring kan avdekke skjulte sammenhenger og mønstre i vitenskapelige data, noe som fører til nye hypoteser og innsikter innen ulike vitenskapelige felt.
Anbefalingssystemer: Uovervåket læring kan identifisere mønstre og likheter i brukeratferd og preferanser for å anbefale produkter, filmer eller musikk som stemmer overens med deres interesser.
Kundesegmentering: Uovervåket læring kan identifisere grupper av kunder med lignende egenskaper, slik at bedrifter kan målrette markedsføringskampanjer og forbedre kundeservicen mer effektivt.
Bildeanalyse: Uovervåket læring kan gruppere bilder basert på innholdet deres, noe som letter oppgaver som bildeklassifisering, gjenstandsgjenkjenning og bildehenting.

Fordeler av uovervåket læring

Det krever ikke at treningsdata merkes.
Dimensjonsreduksjon kan enkelt oppnås ved å bruke uovervåket læring.
I stand til å finne tidligere ukjente mønstre i data.
Uovervåket læring kan hjelpe deg med å få innsikt fra umerkede data som du kanskje ellers ikke kunne ha fått.
Uovervåket læring er flink til å finne mønstre og sammenhenger i data uten å bli fortalt hva man skal se etter. Dette kan hjelpe deg å lære nye ting om dataene dine.

Ulemper av uovervåket læring

Vanskelig å måle nøyaktighet eller effektivitet på grunn av mangel på forhåndsdefinerte svar under trening.
Resultatene har ofte mindre nøyaktighet.
Brukeren må bruke tid på å tolke og merke klassene som følger den klassifiseringen.
Uovervåket læring kan være sensitiv for datakvalitet, inkludert manglende verdier, uteliggere og støyende data.
Uten merkede data kan det være vanskelig å evaluere ytelsen til uovervåkede læringsmodeller, noe som gjør det utfordrende å vurdere effektiviteten deres.

Overvåket vs. uovervåket maskinlæring

Parametere	Overvåket maskinlæring	Maskinlæring uten tilsyn
Inndata	Algoritmer trenes ved hjelp av merkede data.	Algoritmer brukes mot data som ikke er merket
Beregningsmessig kompleksitet	Enklere metode	Beregningsmessig kompleks
Nøyaktighet	Svært nøyaktig	Mindre nøyaktig
Antall klasser	Antall klasser er kjent	Antall klasser er ikke kjent
Dataanalyse	Bruker offline analyse	Bruker sanntidsanalyse av data
Algoritmer brukt	Lineær og logistikkregresjon, tilfeldig skog, flerklasseklassifisering, beslutningstre, støttevektormaskin, nevralt nettverk, etc.	K-Means clustering, Hierarkisk clustering, KNN, Apriori algoritme, etc.
Produksjon	Ønsket utgang er gitt.	Ønsket utgang er ikke gitt.
Treningsdata	Bruk treningsdata for å utlede modellen.	Ingen treningsdata brukes.
Kompleks modell	Det er ikke mulig å lære større og mer komplekse modeller enn med veiledet læring.	Det er mulig å lære større og mer komplekse modeller med uovervåket læring.
Modell	Vi kan teste modellen vår.	Vi kan ikke teste modellen vår.
Kalt som	Veiledet læring kalles også klassifisering.	Uovervåket læring kalles også clustering.
Eksempel	Eksempel: Optisk tegngjenkjenning.	Eksempel: Finn et ansikt i et bilde.
Tilsyn	veiledet læring trenger veiledning for å trene modellen.	Uovervåket læring trenger ingen veiledning for å trene modellen.

Konklusjon

Veiledet og uovervåket læring er to kraftige verktøy som kan brukes til å løse en lang rekke problemer. Veiledet læring er godt egnet for oppgaver hvor ønsket effekt er kjent, mens uveiledet læring er godt egnet for oppgaver hvor ønsket effekt er ukjent.

Ofte stilte spørsmål (FAQ)

1. Hva er forskjellen mellom overvåket og uovervåket maskinspråk?

Overvåket og uovervåket læring er to grunnleggende tilnærminger til maskinlæring som er forskjellige i treningsdata og læringsmål.
java returkommando

Veiledet læring innebærer opplæring av en maskinlæringsmodell på et merket datasett, der hvert datapunkt har en tilsvarende etikett eller utdataverdi. Algoritmen lærer å kartlegge inndataene til ønsket utgang, slik at den kan lage spådommer for nye, usynlige data.

Uovervåket læring , derimot, omhandler umerkede datasett, der datapunktene ikke har tilknyttede etiketter eller utdataverdier.

2. Hva er veiledet læring?

Overvåket læring er en type maskinlæring hvor algoritmen trenes på et merket datasett, hvor hvert datapunkt har en tilsvarende etikett eller utdataverdi. Algoritmen lærer å kartlegge inndataene til ønsket utgang, slik at den kan lage spådommer for nye, usynlige data.

3. Hva er vanlige veiledede læringsalgoritmer?

Vanlige overvåket læringsalgoritmer inkluderer:

Klassifisering: Brukes til å tilordne kategorier til datapunkter. Eksempler inkluderer støttevektormaskiner (SVM), logistisk regresjon og beslutningstrær.

Regresjon: Brukes til å forutsi kontinuerlige numeriske verdier. Eksempler inkluderer lineær regresjon, polynomregresjon og ryggregresjon.

4. Hva er vanlige algoritmer for uovervåket læring?

Vanlige uovervåkede læringsalgoritmer inkluderer:

Gruppering: Gruppering av datapunkter i klynger basert på deres likhet. Eksempler inkluderer k-betyr clustering og hierarkisk clustering.

Dimensjonsreduksjon: Redusere antall funksjoner i et datasett samtidig som den viktigste informasjonen bevares. Eksempler inkluderer hovedkomponentanalyse (PCA) og autoenkodere.

5. Hva er uovervåket læring?

Uovervåket læring er en type maskinlæring der algoritmen trenes på et umerket datasett, der datapunktene ikke har tilsvarende etiketter eller utdataverdier. Algoritmen lærer å identifisere mønstre og strukturer i dataene uten eksplisitt veiledning.

6. Når skal man bruke veiledet læring kontra ikke-overvåket læring?

Bruk overvåket læring når du har et merket datasett og ønsker å forutsi nye data. Bruk uovervåket læring når du har et umerket datasett og ønsker å identifisere mønstre eller strukturer i dataene.