logo

Hierarkisk clustering i data mining

Hierarkisk clustering refererer til en uovervåket læringsprosedyre som bestemmer suksessive klynger basert på tidligere definerte klynger. Det fungerer ved å gruppere data i et tre med klynger. Hierarkisk klyngestatistikk ved å behandle hvert datapunkt som en individuell klynge. Endepunktet refererer til et annet sett med klynger, der hver klynge er forskjellig fra den andre klyngen, og objektene i hver klynge er de samme som hverandre.

Det finnes to typer hierarkisk klynging

  • Agglomerativ hierarkisk gruppering
  • Splittende gruppering

Agglomerativ hierarkisk klynging

Agglomerativ clustering er en av de vanligste typene hierarkisk clustering som brukes til å gruppere lignende objekter i klynger. Agglomerative clustering er også kjent som AGNES (Agglomerative Nesting). Ved agglomerativ clustering fungerer hvert datapunkt som en individuell klynge, og ved hvert trinn grupperes dataobjekter i en nedenfra-opp-metode. Til å begynne med er hvert dataobjekt i sin klynge. Ved hver iterasjon kombineres klyngene med forskjellige klynger inntil en klynge er dannet.

Agglomerativ hierarkisk klyngealgoritme

  1. Bestem likheten mellom individer og alle andre klynger. (Finn nærhetsmatrise).
  2. Betrakt hvert datapunkt som en individuell klynge.
  3. Kombiner lignende klynger.
  4. Beregn nærhetsmatrisen på nytt for hver klynge.
  5. Gjenta trinn 3 og trinn 4 til du får en enkelt klynge.

La oss forstå dette konseptet ved hjelp av grafisk representasjon ved hjelp av et dendrogram.

Ved hjelp av gitt demonstrasjon kan vi forstå hvordan selve algoritmen fungerer. Her er det ikke gjort noen beregning under all nærhet blant klyngene er antatt.

La oss anta at vi har seks forskjellige datapunkter P, Q, R, S, T, V.

Hierarkisk clustering i data mining

Trinn 1:

Betrakt hvert alfabet (P, Q, R, S, T, V) som en individuell klynge og finn avstanden mellom den individuelle klyngen fra alle andre klynger.

Steg 2:

Slå nå sammen de sammenlignbare klyngene i en enkelt klynge. La oss si at klynge Q og klynge R ligner hverandre slik at vi kan slå dem sammen i det andre trinnet. Til slutt får vi klyngene [(P), (QR), (ST), (V)]

Trinn 3:

Her beregner vi nærheten på nytt i henhold til algoritmen og kombinerer de to nærmeste klyngene [(ST), (V)] sammen for å danne nye klynger som [(P), (QR), (STV)]

Trinn 4:

Gjenta den samme prosessen. Klyngene STV og PQ er sammenlignbare og kombinert sammen for å danne en ny klynge. Nå har vi [(P), (QQRSTV)].

Trinn 5:

Til slutt blir de resterende to klyngene slått sammen for å danne en enkelt klynge [(PQRSTV)]

Splittende hierarkisk gruppering

Delende hierarkisk clustering er nøyaktig det motsatte av agglomerativ hierarkisk clustering. I splittende hierarkisk klynge betraktes alle datapunktene som en individuell klynge, og i hver iterasjon skilles datapunktene som ikke er like fra klyngen. De separerte datapunktene behandles som en individuell klynge. Til slutt står vi igjen med N klynger.

Hierarkisk clustering i data mining

Fordeler med hierarkisk klynging

  • Det er enkelt å implementere og gir det beste resultatet i noen tilfeller.
  • Det er enkelt og resulterer i et hierarki, en struktur som inneholder mer informasjon.
  • Det trenger ikke at vi forhåndsspesifiserer antall klynger.

Ulemper ved hierarkisk clustering

  • Det bryter de store klyngene.
  • Det er vanskelig å håndtere klynger i forskjellige størrelser og konvekse former.
  • Den er følsom for støy og ytterliggere.
  • Algoritmen kan aldri endres eller slettes når den først ble gjort tidligere.