logo

Lokalt lineær innebygging i maskinlæring

LLE (Lokalt lineær innebygging) er en uovervåket tilnærming designet for å transformere data fra dets opprinnelige høydimensjonale rom til en lavere dimensjonal representasjon, alt mens man strever etter å beholde de essensielle geometriske egenskapene til den underliggende ikke-lineære funksjonsstrukturen. LLE opererer i flere nøkkeltrinn:

  • For det første konstruerer den en graf for nærmeste naboer for å fange disse lokale relasjonene. Deretter optimerer den vektverdier for hvert datapunkt, med sikte på å minimere rekonstruksjonsfeilen når du uttrykker et punkt som en lineær kombinasjon av naboene. Denne vektmatrisen gjenspeiler styrken til forbindelsene mellom punktene.
  • Deretter beregner LLE en lavere dimensjonal representasjon av dataene ved å finne egenvektorer av en matrise avledet fra vektmatrisen. Disse egenvektorene representerer de mest relevante retningene i det reduserte rommet. Brukere kan spesifisere ønsket dimensjonalitet for utgangsrommet, og LLE velger de øverste egenvektorene tilsvarende.

Som en illustrasjon, tenk på en Swiss roll datasett , som iboende er ikke-lineær i sitt høydimensjonale rom. LLE, i dette tilfellet, jobber for å projisere denne komplekse strukturen på et lavere dimensjonalt plan, og bevarer dens særegne geometriske egenskaper gjennom transformasjonsprosessen.



Innholdsfortegnelse

Matematisk implementering av LLE-algoritme

Nøkkelideen til LLE er at lokalt, i nærheten av hvert datapunkt, ligger dataene omtrent på et lineært underrom. LLE forsøker å utfolde eller rulle ut dataene mens de bevarer disse lokale lineære relasjonene.

Her er en matematisk oversikt over LLE-algoritmen:

c++ par

Minimer: sum _{i} | x{_i} - sum _{j} w _{ij} x{_j}|^2



Med forbehold om: sum {_j} w _{ij} = 1

Hvor:

  • xJegrepresenterer det i-te datapunktet.
  • Iijer vektene som minimerer rekonstruksjonsfeilen for datapunkt xJegved hjelp av sine naboer.

Den tar sikte på å finne en lavere dimensjonal representasjon av data samtidig som lokale relasjoner bevares. Det matematiske uttrykket for LLE innebærer å minimere rekonstruksjonsfeilen til hvert datapunkt ved å uttrykke det som en vektet sum av dets k nærmeste naboer ' bidragene. Denne optimeringen er underlagt begrensninger som sikrer at vektene summeres til 1 for hvert datapunkt. Locally Linear Embedding (LLE) er en dimensjonsreduksjonsteknikk som brukes i maskinlæring og dataanalyse. Den fokuserer på å bevare lokale relasjoner mellom datapunkter ved kartlegging av høydimensjonale data til et lavere dimensjonalt rom. Her vil vi forklare LLE-algoritmen og dens parametere.



Lokalt lineær innbyggingsalgoritme

LLE-algoritmen kan deles inn i flere trinn:

  • Valg av nabolag: For hvert datapunkt i det høydimensjonale rommet identifiserer LLE sine k-nærmeste naboer. Dette trinnet er avgjørende fordi LLE antar at hvert datapunkt kan tilnærmes godt med en lineær kombinasjon av naboene.
  • Vektmatrisekonstruksjon: LLE beregner et sett med vekter for hvert datapunkt for å uttrykke det som en lineær kombinasjon av naboene. Disse vektene er bestemt på en slik måte at rekonstruksjonsfeilen minimeres. Lineær regresjon brukes ofte for å finne disse vektene.
  • Global strukturbevaring: Etter å ha konstruert vektmatrisen, har LLE som mål å finne en lavere dimensjonal representasjon av dataene som best bevarer de lokale lineære relasjonene. Den gjør dette ved å søke et sett med koordinater i det lavere dimensjonale rommet for hvert datapunkt som minimerer en kostnadsfunksjon. Dette kostnadsfunksjon evaluerer hvor godt hvert datapunkt kan representeres av naboene.
  • Utdatainnbygging: Når optimaliseringsprosessen er fullført, gir LLE den endelige lavere dimensjonale representasjonen av dataene. Denne representasjonen fanger opp den essensielle strukturen til dataene samtidig som den reduserer dimensjonaliteten.

Parametere i LLE-algoritmen

LLE har noen få parametere som påvirker oppførselen:

  • k (Antall naboer): Denne parameteren bestemmer hvor mange nærmeste naboer som vurderes når vektmatrisen konstrueres. En større k fanger opp flere globale forhold, men kan introdusere støy. En mindre k fokuserer på lokale relasjoner, men kan være følsom for uteliggere. Å velge en passende verdi for k er avgjørende for at algoritmen skal lykkes.
  • Dimensjonalitet av utgangsrom: Du kan spesifisere dimensjonaliteten til det lavere dimensjonale rommet som dataene skal kartlegges til. Dette velges ofte basert på problemets krav og avveiningen mellom beregningsmessig kompleksitet og informasjonsbevaring.
  • Avstandsberegning: LLE er avhengig av en avstandsberegning for å definere nærheten mellom datapunkter. Vanlige valg inkluderer euklidisk avstand, Manhattan-avstand eller spesialdefinerte avstandsfunksjoner. Valget av avstandsberegning kan påvirke resultatene.
  • Regularisering (valgfritt): I noen tilfeller legges regulariseringsvilkår til kostnadsfunksjonen for å forhindre overmontering. Regularisering kan være nyttig når du arbeider med støyende data eller når antallet naboer er høyt.
  • Optimaliseringsalgoritme (valgfritt): LLE bruker ofte optimaliseringsteknikker som Enkeltverdidekomponering (SVD) eller egenvektormetoder for å finne den lavere dimensjonale representasjonen. Disse optimaliseringsmetodene kan ha sine egne parametere som kan justeres.

LLE (Locally Linear Embedding) representerer et betydelig fremskritt innen strukturanalyse, og overgår tradisjonelle tetthetsmodelleringsteknikker som lokale PCA eller blandinger av faktoranalysatorer. Begrensningen til tetthetsmodeller ligger i deres manglende evne til å konsekvent etablere et sett med globale koordinater som er i stand til å legge inn observasjoner over hele den strukturelle manifolden. Følgelig viser de seg utilstrekkelige for oppgaver som å generere lavdimensjonale projeksjoner av det originale datasettet. Disse modellene utmerker seg bare ved å identifisere lineære funksjoner, som vist på bildet nedenfor. Imidlertid kommer de til kort i å fange intrikate buede mønstre, en evne som er iboende til LLE.

design mønstre java

Forbedret beregningseffektivitet med LLE. LLE tilbyr overlegen beregningseffektivitet på grunn av den sparsomme matrisehåndteringen, som overgår andre algoritmer.

Implementering av Locally Linear Embedding

Importerer biblioteker

Python3

#importing Libraries> import> numpy as np> import> matplotlib.pyplot as plt> from> sklearn.datasets>import> make_swiss_roll> from> sklearn.manifold>import> LocallyLinearEmbedding>
>
>

Koden starter med å importere nødvendige biblioteker, inkludert numpy, matplotlib.pyplot , make_swiss_roll fra sklearn.datasets, og LocallyLinearEmbedding fra sklearn.manifold .

Generering av et syntetisk datasett (Swiss Roll)

Python3

# Code for Generating a synthetic dataset (Swiss Roll)> n_samples>=> 1000> # Define the number of neighbors for LLE> n_neighbors>=> 10> X, _>=> make_swiss_roll(n_samples>=>n_samples)>
>
>

Den genererer et syntetisk datasett som ligner en Swiss Roll ved å bruke make_swiss_roll-funksjonen fra scikit-learn.

n_samples spesifiserer antall datapunkter som skal genereres.
n_neighbors definerer antall naboer som brukes i LLE-algoritmen.

Bruk av lokalt lineær innebygging (LLE)

Python3

# Including Locally Linear Embedding> lle>=> LocallyLinearEmbedding(n_neighbors>=>n_neighbors, n_components>=>2>)> X_reduced>=> lle.fit_transform(X)>
>
>

En forekomst av LLE-algoritmen opprettes med LocallyLinearEmbedding. Parameteren n_neighbors bestemmer antall naboer som skal vurderes under innbyggingsprosessen.

LLE-algoritmen tilpasses deretter de originale dataene X ved å bruke passe_transform metode. Dette trinnet reduserer datasettet til to dimensjoner (n_components=2).

java array skive

Visualisering av originale og reduserte data

Python3

# Code for Visualizing the original Versus reduced data> plt.figure(figsize>=>(>12>,>6>))> plt.subplot(>121>)> plt.scatter(X[:,>0>], X[:,>1>], c>=>X[:,>2>], cmap>=>plt.cm.Spectral)> plt.title(>'Original Data'>)> plt.xlabel(>'Feature 1'>)> plt.ylabel(>'Feature 2'>)> plt.subplot(>122>)> plt.scatter(X_reduced[:,>0>], X_reduced[:,>1>], c>=>X[:,>2>], cmap>=>plt.cm.Spectral)> plt.title(>'Reduced Data (LLE)'>)> plt.xlabel(>'Component 1'>)> plt.ylabel(>'Component 2'>)> plt.tight_layout()> plt.show()>
>
>

Produksjon:


Lokalt lineær innbygging


sorter arrayliste


I det andre underplottet blir de reduserte dataene hentet fra LLE (X_reduced) visualisert på lignende måte som de originale dataene. Fargen på datapunktene bestemmes fortsatt av den tredje egenskapen til de originale dataene (X[:, 2]). plt.tight_layout() funksjonen brukes for å sikre riktig avstand mellom delplottene.

Fordeler med LLE

Dimensjonalitetsreduksjonsmetoden kjent som lokalt lineær embedding (LLE) har mange fordeler for databehandling og visualisering. Følgende er LLEs viktigste fordeler:

  • Bevaring av lokale strukturer : LLE er utmerket til å opprettholde lokale relasjoner eller strukturer i dataene. Den fanger med hell den iboende geometrien til ikke-lineære manifolder ved å opprettholde parvise avstander mellom nærliggende datapunkter.
  • Håndtering av ikke-linearitet : LLE har evnen til å fange ikke-lineære mønstre og strukturer i dataene, i motsetning til lineære teknikker som Hovedkomponentanalyse (PCA). Når du arbeider med kompliserte, buede eller vridde datasett, er det spesielt nyttig.
  • Dimensjonsreduksjon : LLE senker dimensjonaliteten til dataene samtidig som de bevarer de grunnleggende egenskapene. Spesielt når du arbeider med høydimensjonale datasett, gjør denne reduksjonen datapresentasjon, utforskning og analyse enklere.

Ulemper med LLE

  • Dimensjonalitetens forbannelse : LLE kan oppleve dimensjonalitetens forbannelse når det brukes med ekstremt høydimensjonale data, akkurat som mange andre tilnærminger til dimensjonalitetsreduksjon. Antallet naboer som kreves for å fange opp lokale interaksjoner øker etter hvert som dimensjonaliteten gjør, og potensielt øke beregningskostnadene for tilnærmingen.
  • Minne og beregningskrav : For store datasett kan det være minnekrevende å lage en vektet tilstøtende matrise som en del av LLE. Egenverdidekomponeringsstadiet kan også være beregningsmessig belastende for store datasett.
  • Outliers og støyende data : LLE er mottakelig for anomalier og nervøse datapunkter. Kvaliteten på innebyggingen kan bli påvirket og de lokale lineære sammenhengene kan bli forvrengt av uteliggere.