logo

Gini-indeks i maskinlæring

Introduksjon

Maskinlæring har reformert måten vi behandler og undersøker data på, og beslutningstrealgoritmer er en kjent beslutning for klassifiserings- og regresjonsoppgaver. Gini-indeksen, ellers kalt Gini-urenhet eller Gini-koeffisient, er et betydelig urenhetsmål som brukes i beslutningstrealgoritmer. I denne artikkelen vil vi undersøke ideen til Gini Index uttømmende, dens numeriske formel og dens anvendelser innen maskinlæring. Vi vil likeledes kontrastere Gini-indeksen og andre urenhetstiltak, snakke om dens begrensninger og fordeler, og inspisere kontekstuelle analyser av dens virkelige applikasjoner. Omsider vil vi presentere fremtidens peiling for forskning rundt her.

Hva er Gini Index?

Gini-indeksen er en andel av urenheter eller ulikhet i statistiske og monetære omgivelser. I maskinlæring brukes den som et urenhetsmål i beslutningstrealgoritmer for klassifiseringsoppgaver. Gini-indeksen måler sannsynligheten for at en tilfeldig valgt test blir feilklassifisert av en beslutningstrealgoritme, og verdien går fra 0 (perfekt ren) til 1 (perfekt uren).

Gini-indeksformel

Gini-indeksen er en andel av urenheten eller ulikheten i en sirkulasjon, regelmessig brukt som et urenhetsmål i beslutningstrealgoritmer. Når det gjelder beslutningstrær, brukes Gini-indeksen for å bestemme den beste funksjonen for å dele dataene på hver node i treet.

Formelen for Gini Index er som følger:

Gini-indeks i maskinlæring

der pi er sannsynligheten for at en ting har en plass med en bestemt klasse.

For eksempel bør vi vurdere et binært klassifiseringsproblem med to klasser An og B. Hvis sannsynligheten for klasse An er p og sannsynligheten for klasse B er (1-p), kan Gini-indeksen beregnes som :

Verdien av Gini-indeksen går fra 0,0 til 0,5 for binære klassifiseringsproblemer, der 0,0 viser en perfekt ren node (alle eksempler har en plass med en lignende klasse) og 0,5 viser en perfekt uren node (tester er likt fordelt på de to klassene) ).

Bruke Gini Index i klassifiseringsproblemer

Gini-indeksen brukes vanligvis som et urenhetsmål i beslutningstrealgoritmer for klassifiseringsproblemer. I beslutningstrær adresserer hver node et element, og målet er å dele dataene i delsett som i hovedsak er så rene som man kunne forvente. Urenhetsmålet (som Gini Index) brukes til å bestemme den beste splittelsen ved hver node.

For å illustrere dette bør vi vurdere et eksempel på et beslutningstre for et binært klassifiseringsproblem. Treet har to elementer: alder og inntekt, og målet er å forutse uavhengig av om en person sannsynligvis kommer til å kjøpe en vare. Treet er konstruert ved å bruke Gini-indeksen som urenhetsmål.

Ved rotnoden beregnes Gini-indeksen med tanke på sannsynligheten for at eksemplene får plass med klasse 0 eller klasse 1. Noden deles med tanke på den komponenten som gir høyest reduksjon i Gini-indeksen. Denne syklusen rehashes rekursivt for hvert delsett inntil et stoppemål er oppfylt.

Beslutningstrær

Et beslutningstre er en velkjent maskinlæringsalgoritme som brukes til både klassifiserings- og regresjonsoppgaver. En modell arbeides ved å rekursivt dele opp datasettet i mer beskjedne delsett i lys av verdiene til informasjonshøydepunktene, bestemt for å begrense urenheten til de påfølgende delsettene.

Ved hver node i treet blir det tatt en avgjørelse med tanke på verdiene til et av infohøydepunktene, med det endelige målet at de påfølgende undersettene i utgangspunktet er så rene som man egentlig kunne forvente. Renheten til en undergruppe estimeres regelmessig ved et urenhetsmål, for eksempel Gini-indeksen eller entropien.

Beslutningstrealgoritmen kan brukes til både binære og multi-klasse klassifiseringsoppgaver, samt regresjonsoppgaver. I binære klassifiseringsoppgaver deler beslutningstreet datasettet i to delsett i lys av verdien av en binær funksjon, som ja eller nei. I klassifiseringsoppgaver med flere klasser deler beslutningstreet datasettet i en rekke delsett i lys av verdiene til en rett ut funksjon, som rød, grønn eller blå.

Gini-indeks vs andre urenhetsmål

Bortsett fra Gini-indeksen, er det andre urenhetsmål som vanligvis brukes i beslutningstrealgoritmer, for eksempel entropi og informasjonsgevinst.

Entropi:

I maskinlæring er entropi en andel av uregelmessigheten eller sårbarheten i en haug med data. Det brukes vanligvis som et urenhetsmål i beslutningstrealgoritmer, sammen med Gini-indeksen.

I beslutningstrealgoritmer brukes entropi for å bestemme den beste komponenten å dele dataene på ved hver node i treet. Målet er å finne det elementet som gir størst reduksjon i entropi, som er relatert til den komponenten som gir mest informasjon om klassifiseringsspørsmålet.

Gini-indeks i maskinlæring

Mens entropi og Gini-indeksen begge normalt brukes som urenhetsmål i beslutningstrealgoritmer, har de forskjellige egenskaper. Entropi er mer delikat for sirkulasjonen av klassenavn og vil generelt levere mer justerte trær, mens Gini-indeksen er mindre følsom for tilegnelse av klassemerker og vil generelt skape mer begrensede trær med mindre klyvninger. Beslutningen om urenhetstiltak er avhengig av det spesielle problemet og egenskapene til dataene.

Informasjonsgevinst:

Informasjonsgevinst er en handling som brukes til å vurdere arten av en splittelse mens du bygger et beslutningstre. Målet med et beslutningstre er å dele dataene i delmengder som i utgangspunktet er like homogene som mulig som for den objektive variabelen, slik at det påfølgende treet kan brukes til å stille eksakte forventninger til nye data. Informasjonsgevinst måler reduksjonen i entropi eller urenhet som oppnås ved en splittelse. Funksjonen med den mest bemerkelsesverdige informasjonsgevinsten er valgt som den beste funksjonen å dele på ved hver node i beslutningstreet.

Informasjonsgevinst er et normalt involvert mål for å vurdere arten av splittelser i beslutningstrær, men det er ikke det man skal fokusere på. Ulike mål, for eksempel Gini-indeksen eller feilklassifiseringsraten, kan også brukes. Beslutningen om å dele grunnlaget er avhengig av hovedproblemet og egenskapene til datasettet som brukes.

Eksempel på Gini-indeks

Vi bør vurdere et problem med binær klassifisering der vi har et datasett med 10 eksempler med to klasser: 'Positiv' og 'Negativ'. Av de 10 eksemplene har 6 plass med 'Positiv'-klassen og 4 har en plass med 'Negative'-klassen.

For å beregne Gini-indeksen til datasettet, beregner vi først sannsynligheten for hver klasse:

p_1 = 6/10 = 0,6 (positiv)

p_2 = 4/10 = 0,4 (negativ)

Så, på det tidspunktet, bruker vi Gini Index-formelen for å beregne urenheten i datasettet:

Gini(S) = 1 - (p_1^2 + p_2^2)

= 1 - (0,6^2 + 0,4^2)

= 0,48

Så Gini-indeksen til datasettet er 0,48.

Anta for øyeblikket at vi må dele datasettet på et element 'X' som har to potensielle verdier: 'A' og 'B'. Vi deler datasettet i to delsett med tanke på komponenten:

Delmengde 1 (X = A): 4 positiv, 1 negativ

Delsett 2 (X = B): 2 positive, 3 negative

For å beregne reduksjonen i Gini-indeksen for denne delingen, beregner vi først Gini-indeksen for hver undergruppe:

Gini(S_1) = 1 - (4/5)^2 - (1/5)^2 = 0,32

Gini(S_2) = 1 - (2/5)^2 - (3/5)^2 = 0,48

Deretter bruker vi informasjonsgevinstformelen for å beregne reduksjonen i Gini-indeksen:

IG(S, X) = Gini(S) - ((5/10 * Gini(S_1)) + (5/10 * Gini(S_2)))

= 0,48 - ((0,5 * 0,32) + (0,5 * 0,48))

= 0,08

Så informasjonsgevinsten (dvs. reduksjon i Gini-indeksen) for å dele datasettet på høydepunktet 'X' er 0,08.

For denne situasjonen, i tilfelle vi beregner informasjonsgevinsten for alle elementer og velger den med den mest bemerkelsesverdige informasjonsgevinsten, vil den komponenten bli valgt som den beste komponenten å dele på ved rotnoden til beslutningstreet.

Fordeler:

Gini-indeksen er et bredt involvert mål for å evaluere arten av splittelser i beslutningstrær, og den har noen få overtak over forskjellige mål, for eksempel entropi eller feilklassifiseringsrate. Her er en del av hovedfordelene ved å bruke Gini-indeksen:

powershell mindre enn eller lik

Beregningseffektiv: Gini-indeksen er et mindre komplekst og beregningsmessig raskere mål sammenlignet med forskjellige mål, for eksempel entropi, som innebærer å beregne logaritmer.

Intuitiv tolkning: Gini-indeksen er grei og tolke. Den måler sannsynligheten for at et tilfeldig valgt eksempel fra et sett blir feilklassifisert i tilfelle det ble tilfeldig merket i henhold til klasseoverføringen i settet.

Bra for binær klassifisering: Gini-indeksen er spesielt kraftig for binære klassifiseringsproblemer, der objektivvariabelen bare har to klasser. I slike tilfeller er Gini-indeksen kjent for å være mer stabil enn forskjellige mål.

Robust til klasseubalanse: Gini-indeksen er mindre følsom for klasseubalanse i motsetning til forskjellige mål, for eksempel presisjon eller feilklassifiseringsrate. Dette er med den begrunnelse at Gini-indeksen avhenger av det generelle omfanget av eksempler i hver klasse i motsetning til de direkte tallene.

Mindre utsatt for overtilpasning: Gini-indeksen vil generelt lage mer beskjedne beslutningstrær i kontrast til ulike mål, noe som gjør den mindre utsatt for overtilpasning. Dette er med den begrunnelse at Gini-indeksen generelt vil favorisere funksjoner som gjør mer beskjedne pakker av dataene, noe som reduserer mulighetene for overfitting.

Ulemper:

Mens Gini-indeksen har noen fordeler som et splittingstiltak for beslutningstrær, har den også noen ulemper. Her er en del av de viktigste ulempene ved å bruke Gini-indeksen:

Bias mot funksjoner med mange kategorier: Gini-indeksen vil generelt lene seg mot funksjoner med mange kategorier eller verdier, ettersom de kan gjøre flere oppdelinger og pakker av dataene. Dette kan føre til overfitting og et mer komplisert beslutningstre.

Ikke bra for kontinuerlige variabler: Gini-indeksen er ikke egnet for kontinuerlige variabler, da den krever diskretisering av variabelen i kategorier eller søppelkasser, noe som kan føre til tap av informasjon og redusert nøyaktighet.

Ignorer funksjonsinteraksjoner: Gini-indeksen tenker bare på den individuelle forutseende kraften til hver funksjon og ignorerer interaksjoner mellom funksjoner. Dette kan føre til dårlige splittelser og mindre nøyaktige prognoser.

Ikke ideelt for enkelte datasett: noen ganger er Gini-indeksen kanskje ikke det ideelle målet for å evaluere arten av splittelser i et beslutningstre. For eksempel, i tilfelle målvariabelen er eksepsjonelt skråstilt eller ubalansert, kan ulike tiltak, for eksempel informasjonsgevinst eller gevinstandel, være mer egnet.

Utsatt for skjevhet i nærvær av manglende verdier: Gini-indeksen kan være partisk i nærvær av manglende verdier, da den generelt vil lene seg mot funksjoner med mindre manglende verdier, uavhengig av om de ikke er de mest informative.

Real-World Applications of Gini Index

Gini-indeksen har blitt brukt i forskjellige applikasjoner innen maskinlæring, for eksempel utpressingssted, kredittscoring og klientdivisjon. For eksempel, i utpressingsoppdagelse, kan Gini-indeksen brukes til å skille design i utveksling av data og gjenkjenne bisarre måte å oppføre seg på. Ved kredittscoring kan Gini-indeksen brukes til å forutse sannsynligheten for mislighold i lys av variabler som inntekt, forholdet mellom utestående gjeld og hjembetaling og registrering av tilbakebetaling av lån. I klientdivisjon kan Gini-indeksen brukes til å samle klienter med tanke på deres oppførsel og tilbøyeligheter.

Fremtidsforskning

Til tross for den grenseløse bruken i beslutningstrealgoritmer, er det fortsatt grad for forskning på Gini-indeksen. Et forskningsområde er fremme av nye urenhetstiltak som kan håndtere begrensningene til Gini-indeksen, som dens tilbøyelighet til faktorer med mange nivåer. Et annet forskningsområde er effektivisering av beslutningstrealgoritmer ved å bruke Gini-indeksen, for eksempel bruk av antrekksteknikker for å arbeide med presisjonen til beslutningstrær.

Konklusjon

Gini-indeksen er et betydelig urenhetsmål som brukes i beslutningstrealgoritmer for klassifiseringsoppgaver. Den måler sannsynligheten for at en tilfeldig valgt test blir feilklassifisert av en beslutningstrealgoritme, og verdien går fra 0 (helt ren) til 1 (helt uren). Gini-indeksen er enkel og gjennomførbar, beregningsmessig produktiv og kraftig til unntak. Det har blitt brukt i forskjellige applikasjoner innen maskinlæring, for eksempel oppdagelse av feilrepresentasjoner, kredittscoring og klientinndeling. Mens Gini-indeksen har noen få begrensninger, er det fortsatt grad for forskning på forbedring og forbedring av nye urenhetstiltak.