logo

Cosinus likhet

Forutsetning – Data Mining, likhetsmål refererer til avstand med dimensjoner som representerer funksjoner til dataobjektet, i et datasett. Hvis denne avstanden er mindre, vil det være en høy grad av likhet, men når avstanden er stor, vil det være en lav grad av likhet. Noen av de populære likhetsmålene er -

  1. Euklidisk avstand.
  2. Manhattan avstand.
  3. Jaccard likhet.
  4. Minkowski avstand.
  5. Cosinus likhet.

Cosinus likhet er en beregning som er nyttig for å bestemme hvor like dataobjektene er uavhengig av størrelsen. Vi kan måle likheten mellom to setninger i Python ved å bruke Cosine Similarity. I cosinus-likhet behandles dataobjekter i et datasett som en vektor. Formelen for å finne cosinuslikheten mellom to vektorer er -



(x, y) = x . y / ||x||  ||y||>

hvor,

    x . y = produkt (prikk) av vektorene 'x' og 'y'.||x|| og ||og|| = lengden (størrelsen) av de to vektorene 'x' og 'y'.||x||  ganger ||og|| = vanlig produkt av de to vektorene 'x' og 'y'.

Eksempel: Tenk på et eksempel for å finne likheten mellom to vektorer - 'x' og 'og' , ved å bruke Cosine Similarity. 'x'-vektoren har verdier, x = { 3, 2, 0, 5 } 'y'-vektoren har verdier, y = { 1, 0, 0, 0 } Formelen for å beregne cosinuslikheten er: (x, y) = x. y / ||x|| ||og||

x . y = 3*1 + 2*0 + 0*0 + 5*0 = 3 ||x|| = √ (3)^2 + (2)^2 + (0)^2 + (5)^2 = 6.16 ||y|| = √ (1)^2 + (0)^2 + (0)^2 + (0)^2 = 1 ∴ (x, y) = 3 / (6.16 * 1) = 0.49>

Ulikheten mellom de to vektorene 'x' og 'y' er gitt av -



∴ (x, y) = 1 - (x, y) = 1 - 0.49 = 0.51>
  • Cosinuslikheten mellom to vektorer måles i 'θ'.
  • Hvis θ = 0°, overlapper 'x'- og 'y'-vektorene, noe som beviser at de er like.
  • Hvis θ = 90°, er 'x'- og 'y'-vektorene forskjellige.

Cosinus Likhet mellom to vektorer


Fordeler :

  • Cosinuslikheten er fordelaktig fordi selv om de to lignende dataobjektene er langt fra hverandre med den euklidiske avstanden på grunn av størrelsen, kan de fortsatt ha en mindre vinkel mellom seg. Mindre vinkel, høyere likhet.
  • Når den plottes på et flerdimensjonalt rom, fanger cosinuslikheten opp orienteringen (vinkelen) til dataobjektene og ikke størrelsen.