logo

Clustering i maskinlæring

Clustering eller klyngeanalyse er en maskinlæringsteknikk som grupperer det umerkede datasettet. Det kan defineres som 'En måte å gruppere datapunktene i forskjellige klynger, bestående av lignende datapunkter. Objektene med mulige likheter forblir i en gruppe som har mindre eller ingen likheter med en annen gruppe.'

Det gjør det ved å finne noen lignende mønstre i det umerkede datasettet, for eksempel form, størrelse, farge, oppførsel, osv., og deler dem i henhold til tilstedeværelsen og fraværet av de lignende mønstrene.

Det er en uovervåket læring metoden, derfor gis ingen tilsyn til algoritmen, og den omhandler det umerkede datasettet.

Etter å ha brukt denne klyngeteknikken, er hver klynge eller gruppe utstyrt med en klynge-ID. ML-systemet kan bruke denne ID-en til å forenkle behandlingen av store og komplekse datasett.

prologspråk

Klyngeteknikken brukes ofte til statistisk dataanalyse.

Merk: Clustering er et sted som ligner på klassifiseringsalgoritme , men forskjellen er typen datasett vi bruker. I klassifisering jobber vi med det merkede datasettet, mens vi i clustering jobber med det umerkede datasettet.

Eksempel : La oss forstå klyngeteknikken med det virkelige eksemplet med kjøpesenter: Når vi besøker et kjøpesenter, kan vi observere at tingene med lignende bruk er gruppert sammen. Slik som at t-skjortene er gruppert i en seksjon, og bukser i andre seksjoner, på samme måte, ved grønnsaksavdelinger, er epler, bananer, mango osv. gruppert i separate seksjoner, slik at vi enkelt kan finne ut av tingene. Klyngeteknikken fungerer også på samme måte. Andre eksempler på clustering er gruppering av dokumenter etter emnet.

Klyngeteknikken kan brukes mye i ulike oppgaver. Noen vanligste bruksområder for denne teknikken er:

  • Markedssegmentering
  • Statistisk dataanalyse
  • Analyse av sosiale nettverk
  • Bildesegmentering
  • Anomalideteksjon osv.

Bortsett fra disse generelle bruksområdene, brukes den av Amazon i sitt anbefalingssystem for å gi anbefalingene i henhold til tidligere produktsøk. Netflix bruker også denne teknikken til å anbefale filmene og nettseriene til brukerne i henhold til seerhistorikken.

Diagrammet nedenfor forklarer hvordan klyngealgoritmen fungerer. Vi kan se de forskjellige fruktene er delt inn i flere grupper med like egenskaper.

Clustering i maskinlæring

Typer grupperingsmetoder

Klyngemetodene er grovt delt inn i Hard klynging (datapunkt tilhører kun én gruppe) og Myk gruppering (datapunkter kan også tilhøre en annen gruppe). Men det finnes også andre forskjellige tilnærminger til Clustering. Nedenfor er de viktigste klyngemetodene som brukes i maskinlæring:

    Partisjonering Clustering Tetthetsbasert gruppering Distribusjonsmodellbasert gruppering Hierarkisk gruppering Fuzzy Clustering

Partisjonering Clustering

Det er en type clustering som deler dataene inn i ikke-hierarkiske grupper. Det er også kjent som tyngdepunktsbasert metode . Det vanligste eksemplet på partisjoneringsklynger er K-Means Clustering-algoritme .

I denne typen er datasettet delt inn i et sett med k grupper, hvor K brukes til å definere antall forhåndsdefinerte grupper. Klyngesenteret er opprettet på en slik måte at avstanden mellom datapunktene til en klynge er minimum sammenlignet med en annen klyngesenter.

Clustering i maskinlæring

Tetthetsbasert gruppering

Den tetthetsbaserte klyngemetoden forbinder de svært tette områdene til klynger, og de vilkårlig formede fordelingene dannes så lenge det tette området kan kobles sammen. Denne algoritmen gjør det ved å identifisere forskjellige klynger i datasettet og kobler områdene med høy tetthet til klynger. De tette områdene i datarommet er delt fra hverandre med sparsommere områder.

Disse algoritmene kan ha problemer med å gruppere datapunktene hvis datasettet har varierende tettheter og høye dimensjoner.

Clustering i maskinlæring

Distribusjonsmodellbasert gruppering

I den distribusjonsmodellbaserte klyngemetoden deles dataene basert på sannsynligheten for hvordan et datasett tilhører en bestemt distribusjon. Grupperingen gjøres ved å anta noen fordelinger vanlig Gaussisk distribusjon .

Eksemplet på denne typen er Forventningsmaksimering Klyngealgoritme som bruker Gaussian Mixture Models (GMM).

Clustering i maskinlæring

Hierarkisk gruppering

Hierarkisk clustering kan brukes som et alternativ for den partisjonerte clustering da det ikke er noe krav om å forhåndsspesifisere antall klynger som skal opprettes. I denne teknikken er datasettet delt inn i klynger for å lage en trelignende struktur, som også kalles en dendrogram . Observasjonene eller et hvilket som helst antall klynger kan velges ved å kutte treet på riktig nivå. Det vanligste eksemplet på denne metoden er Agglomerativ hierarkisk algoritme .

Clustering i maskinlæring

Fuzzy Clustering

Fuzzy clustering er en type myk metode der et dataobjekt kan tilhøre mer enn én gruppe eller klynge. Hvert datasett har et sett med medlemskapskoeffisienter, som avhenger av graden av medlemskap som skal være i en klynge. Fuzzy C-betyr algoritme er eksempelet på denne typen gruppering; det er noen ganger også kjent som Fuzzy k-betyr-algoritmen.

Klyngealgoritmer

Clustering-algoritmene kan deles inn basert på modellene deres som er forklart ovenfor. Det er publisert forskjellige typer klyngealgoritmer, men bare noen få er ofte brukt. Klyngealgoritmen er basert på typen data vi bruker. For eksempel, noen algoritmer trenger å gjette antall klynger i det gitte datasettet, mens noen kreves for å finne minimumsavstanden mellom observasjonen av datasettet.

Her diskuterer vi hovedsakelig populære Clustering-algoritmer som er mye brukt i maskinlæring:

    K-Means-algoritme:K-means-algoritmen er en av de mest populære klyngealgoritmene. Den klassifiserer datasettet ved å dele prøvene inn i forskjellige klynger med like varianser. Antall klynger må spesifiseres i denne algoritmen. Det er raskt med færre beregninger som kreves, med den lineære kompleksiteten til På). Gjennomsnittlig skiftalgoritme:Mean-shift-algoritmen prøver å finne de tette områdene i den jevne tettheten av datapunkter. Det er et eksempel på en tyngdepunktsbasert modell som jobber med å oppdatere kandidatene for tyngdepunkt til å være sentrum av punktene innenfor en gitt region.DBSCAN-algoritme:Det står for tetthetsbasert romlig gruppering av applikasjoner med støy . Det er et eksempel på en tetthetsbasert modell som ligner gjennomsnittsforskyvningen, men med noen bemerkelsesverdige fordeler. I denne algoritmen er områdene med høy tetthet atskilt med områdene med lav tetthet. På grunn av dette kan klyngene finnes i hvilken som helst vilkårlig form.Forventningsmaksimering klynging ved bruk av GMM:Denne algoritmen kan brukes som et alternativ for k-middelalgoritmen eller for de tilfellene hvor K-middel kan mislykkes. I GMM antas det at datapunktene er gaussisk distribuert.Agglomerativ hierarkisk algoritme:Den agglomerative hierarkiske algoritmen utfører den nedenfra og opp hierarkiske klyngingen. I dette blir hvert datapunkt behandlet som en enkelt klynge i begynnelsen og deretter suksessivt slått sammen. Klyngehierarkiet kan representeres som en trestruktur.Affinitetsutbredelse:Det er forskjellig fra andre klyngealgoritmer da det ikke krever å spesifisere antall klynger. I dette sender hvert datapunkt en melding mellom paret av datapunkt til konvergens. Den har O(N2T) tidskompleksitet, som er den største ulempen med denne algoritmen.

Anvendelser av Clustering

Nedenfor er noen kjente anvendelser av klyngeteknikk i maskinlæring:

    Ved identifisering av kreftceller:Klyngealgoritmene er mye brukt for identifisering av kreftceller. Den deler opp datasettene for kreft og ikke-kreft i forskjellige grupper.I søkemotorer:Søkemotorer jobber også med klyngeteknikken. Søkeresultatet vises basert på objektet som er nærmest søket. Den gjør det ved å gruppere lignende dataobjekter i en gruppe som er langt fra de andre forskjellige objektene. Det nøyaktige resultatet av en spørring avhenger av kvaliteten på klyngealgoritmen som brukes.Kundesegmentering:Den brukes i markedsundersøkelser for å segmentere kundene basert på deres valg og preferanser.I biologi:Den brukes i biologistrømmen for å klassifisere forskjellige arter av planter og dyr ved hjelp av bildegjenkjenningsteknikken.I landbruk:Klyngeteknikken brukes til å identifisere området med lignende landbruk i GIS-databasen. Dette kan være veldig nyttig for å finne ut at til hvilket formål den aktuelle tomten skal brukes, det betyr til hvilket formål den er mer egnet.