Clustering eller klyngeanalyse er en maskinlæringsteknikk som grupperer det umerkede datasettet. Det kan defineres som 'En måte å gruppere datapunktene i forskjellige klynger, bestående av lignende datapunkter. Objektene med mulige likheter forblir i en gruppe som har mindre eller ingen likheter med en annen gruppe.'
Det gjør det ved å finne noen lignende mønstre i det umerkede datasettet, for eksempel form, størrelse, farge, oppførsel, osv., og deler dem i henhold til tilstedeværelsen og fraværet av de lignende mønstrene.
Det er en uovervåket læring metoden, derfor gis ingen tilsyn til algoritmen, og den omhandler det umerkede datasettet.
Etter å ha brukt denne klyngeteknikken, er hver klynge eller gruppe utstyrt med en klynge-ID. ML-systemet kan bruke denne ID-en til å forenkle behandlingen av store og komplekse datasett.
prologspråk
Klyngeteknikken brukes ofte til statistisk dataanalyse.
Merk: Clustering er et sted som ligner på klassifiseringsalgoritme , men forskjellen er typen datasett vi bruker. I klassifisering jobber vi med det merkede datasettet, mens vi i clustering jobber med det umerkede datasettet.
Eksempel : La oss forstå klyngeteknikken med det virkelige eksemplet med kjøpesenter: Når vi besøker et kjøpesenter, kan vi observere at tingene med lignende bruk er gruppert sammen. Slik som at t-skjortene er gruppert i en seksjon, og bukser i andre seksjoner, på samme måte, ved grønnsaksavdelinger, er epler, bananer, mango osv. gruppert i separate seksjoner, slik at vi enkelt kan finne ut av tingene. Klyngeteknikken fungerer også på samme måte. Andre eksempler på clustering er gruppering av dokumenter etter emnet.
Klyngeteknikken kan brukes mye i ulike oppgaver. Noen vanligste bruksområder for denne teknikken er:
- Markedssegmentering
- Statistisk dataanalyse
- Analyse av sosiale nettverk
- Bildesegmentering
- Anomalideteksjon osv.
Bortsett fra disse generelle bruksområdene, brukes den av Amazon i sitt anbefalingssystem for å gi anbefalingene i henhold til tidligere produktsøk. Netflix bruker også denne teknikken til å anbefale filmene og nettseriene til brukerne i henhold til seerhistorikken.
Diagrammet nedenfor forklarer hvordan klyngealgoritmen fungerer. Vi kan se de forskjellige fruktene er delt inn i flere grupper med like egenskaper.
Typer grupperingsmetoder
Klyngemetodene er grovt delt inn i Hard klynging (datapunkt tilhører kun én gruppe) og Myk gruppering (datapunkter kan også tilhøre en annen gruppe). Men det finnes også andre forskjellige tilnærminger til Clustering. Nedenfor er de viktigste klyngemetodene som brukes i maskinlæring:
Partisjonering Clustering
Det er en type clustering som deler dataene inn i ikke-hierarkiske grupper. Det er også kjent som tyngdepunktsbasert metode . Det vanligste eksemplet på partisjoneringsklynger er K-Means Clustering-algoritme .
I denne typen er datasettet delt inn i et sett med k grupper, hvor K brukes til å definere antall forhåndsdefinerte grupper. Klyngesenteret er opprettet på en slik måte at avstanden mellom datapunktene til en klynge er minimum sammenlignet med en annen klyngesenter.
Tetthetsbasert gruppering
Den tetthetsbaserte klyngemetoden forbinder de svært tette områdene til klynger, og de vilkårlig formede fordelingene dannes så lenge det tette området kan kobles sammen. Denne algoritmen gjør det ved å identifisere forskjellige klynger i datasettet og kobler områdene med høy tetthet til klynger. De tette områdene i datarommet er delt fra hverandre med sparsommere områder.
Disse algoritmene kan ha problemer med å gruppere datapunktene hvis datasettet har varierende tettheter og høye dimensjoner.
Distribusjonsmodellbasert gruppering
I den distribusjonsmodellbaserte klyngemetoden deles dataene basert på sannsynligheten for hvordan et datasett tilhører en bestemt distribusjon. Grupperingen gjøres ved å anta noen fordelinger vanlig Gaussisk distribusjon .
Eksemplet på denne typen er Forventningsmaksimering Klyngealgoritme som bruker Gaussian Mixture Models (GMM).
Hierarkisk gruppering
Hierarkisk clustering kan brukes som et alternativ for den partisjonerte clustering da det ikke er noe krav om å forhåndsspesifisere antall klynger som skal opprettes. I denne teknikken er datasettet delt inn i klynger for å lage en trelignende struktur, som også kalles en dendrogram . Observasjonene eller et hvilket som helst antall klynger kan velges ved å kutte treet på riktig nivå. Det vanligste eksemplet på denne metoden er Agglomerativ hierarkisk algoritme .
Fuzzy Clustering
Fuzzy clustering er en type myk metode der et dataobjekt kan tilhøre mer enn én gruppe eller klynge. Hvert datasett har et sett med medlemskapskoeffisienter, som avhenger av graden av medlemskap som skal være i en klynge. Fuzzy C-betyr algoritme er eksempelet på denne typen gruppering; det er noen ganger også kjent som Fuzzy k-betyr-algoritmen.
Klyngealgoritmer
Clustering-algoritmene kan deles inn basert på modellene deres som er forklart ovenfor. Det er publisert forskjellige typer klyngealgoritmer, men bare noen få er ofte brukt. Klyngealgoritmen er basert på typen data vi bruker. For eksempel, noen algoritmer trenger å gjette antall klynger i det gitte datasettet, mens noen kreves for å finne minimumsavstanden mellom observasjonen av datasettet.
Her diskuterer vi hovedsakelig populære Clustering-algoritmer som er mye brukt i maskinlæring:
Anvendelser av Clustering
Nedenfor er noen kjente anvendelser av klyngeteknikk i maskinlæring: