logo

Z-score i statistikk

Z-score i statistikk er et mål på hvor mange standardavvik et datapunkt er fra gjennomsnittet av en fordeling. La oss finne z-score i statistikk. En z-score på 0 indikerer at datapunktets poengsum er den samme som gjennomsnittsskåren. En positiv z-score indikerer at datapunktet er over gjennomsnittet, mens en negativ z-score indikerer at datapunktet er under gjennomsnittet.

fibonacci-sekvens java

Formelen for å beregne en z-score er: z = (x – μ)/ p

Hvor:



  • x: er testverdien
  • m: er middelverdien
  • på: er standardverdien

I denne artikkelen skal vi diskutere følgende konsepter:

Innholdsfortegnelse

Hva er Z-Score?

Z-skåren, også kjent som standardskåren, forteller oss avviket til et datapunkt fra gjennomsnittet ved å uttrykke det i form av standardavvik over eller under gjennomsnittet. Det gir oss en ide om hvor langt et datapunkt er fra gjennomsnittet. Derfor måles Z-score i form av standardavvik fra gjennomsnittet. For eksempel indikerer en Z-score på 2 at verdien er 2 standardavvik unna gjennomsnittet. For å bruke en z-score, må vi kjenne populasjonsgjennomsnittet (μ) og også populasjonens standardavvik (σ).

Formelen for Z-score

En z-score kan beregnes ved å bruke følgende formel.

z = (X – μ) / p

hvor,

  • z = Z-score
  • X = Verdi av element
  • μ = Befolkningsmiddel
  • σ = Populasjonsstandardavvik

Hvordan beregne Z-score?

Vi får populasjonsmiddelverdien (μ), populasjonens standardavvik (σ) og den observerte verdien (x) i problemstillingen ved å erstatte det samme i Z-score-ligningen, gir oss Z-score-verdien. Avhengig av om den gitte Z-score er positiv eller negativ, kan vi bruke positiv Z-tabell eller negativ Z-tabell tilgjengelig på nett eller på baksiden av statistikkboken din i vedlegget.

Eksempel 1:

Du tar GATE-eksamenen og scorer 500. Gjennomsnittlig poengsum for GATE er 390 og standardavviket er 45. Hvor godt scoret du på testen sammenlignet med gjennomsnittlig testperson?

Løsning:

Følgende data er lett tilgjengelig i spørsmålet ovenfor

Rå poengsum/observert verdi = X = 500

Gjennomsnittlig poengsum = μ = 390

Standardavvik = σ = 45

fjærstøvelkommentarer

Ved å bruke formelen for z-score,

z = (X – μ) / p

z = (500 – 390) / 45

z = 110 / 45 = 2,44

Dette betyr at din z-score er 2,44 .

Siden Z-score er positiv 2.44, vil vi bruke den positive Z-tabellen.

La oss nå ta en titt på Z-tabell (CC-BY) for å vite hvor godt du scoret sammenlignet med de andre testtakerne.

Følg instruksjonen nedenfor for å finne sannsynligheten fra tabellen.

Her, z-score = 2,44, hvilken Jeg indikerer at datapunktet er 2,44 standardavvik over gjennomsnittet.

  1. Kartlegg først de to første sifrene 2.4 på Y-aksen.
  2. Deretter langs X-aksen, kart 0.04
  3. Slå sammen begge aksene. Skjæringspunktet mellom de to vil gi deg den kumulative sannsynligheten knyttet til Z-score-verdien du leter etter

[Denne sannsynligheten representerer arealet under standard normalkurven til venstre for Z-skåren]

Normalfordelingstabell

Normalfordelingstabell

Som et resultat vil du få den endelige verdien som er 0,99266 .

Nå må vi sammenligne hvordan den opprinnelige poengsummen vår på 500 på GATE-eksamenen sammenlignes med den gjennomsnittlige poengsummen for partiet. For å gjøre det må vi konvertere den kumulative sannsynligheten knyttet til Z-score til en prosentverdi.

0,99266 × 100 = 99,266 %

Til slutt kan du si at du har prestert bra enn nesten 99 % av andre testtakere.

Eksempel 2 : Hva er sannsynligheten for at en elev skårer mellom 350 og 400 (med en gjennomsnittsscore μ på 390 og et standardavvik σ på 45)?

Løsning:

Min poengsum = X1= 350

Maks poengsum = X2= 400

Ved å bruke formelen for z-score,

Med1= (X1 – m) / s

Med1= (350 – 390) / 45

java for pause

Med1= -40 / 45 = -0,88

Med2= (X2– m) / s

z2 = (400 – 390) / 45

Med2= 10 / 45 = 0,22

Siden z1 er negativ, må vi se på en negativ Z-tabell og finn at kumulativ sannsynlighet p1, den første sannsynligheten, er 0,18943 .

Med2er positiv, så vi bruker en positiv Z-tabell som gir en kumulativ sannsynlighet p2av 0,58706 .

Den endelige sannsynligheten beregnes ved å trekke p1 fra p2:

p = p2– s1

p = 0,58706 – 0,18943 = 0,39763

Sannsynligheten for at en elev skårer mellom 350 og 400 er 39,763 % (0,39763 * 100).

Kjennetegn på Z-Score

  • Størrelsen på Z-skåren reflekterer hvor langt et datapunkt er fra gjennomsnittet når det gjelder standardavvik.
  • Et element som har en z-score på mindre enn 0, representerer at elementet er mindre enn gjennomsnittet.
  • Z-score gir mulighet for sammenligning av datapunkter fra forskjellige distribusjoner.
  • Et element som har en z-score større enn 0, representerer at elementet er større enn gjennomsnittet.
  • Et element som har en z-score lik 0, representerer at elementet er lik gjennomsnittet.
  • Et element som har en z-score lik 1 representerer at elementet er 1 standardavvik større enn gjennomsnittet; en z-score lik 2, 2 standardavvik større enn gjennomsnittet, og så videre.
  • Et element som har en z-score lik -1 representerer at elementet er 1 standardavvik mindre enn gjennomsnittet; en z-score lik -2, 2 standardavvik mindre enn gjennomsnittet, og så videre.
  • Hvis antallet elementer i et gitt sett er stort, har omtrent 68 % av elementene en z-score mellom -1 og 1; ca. 95 % har en z-score mellom -2 og 2; ca. 99 % har en z-score mellom -3 og 3. Dette er kjent som den empiriske regelen, og den angir prosentandelen av data innenfor visse standardavvik fra gjennomsnittet i en normalfordeling som vist i bildet nedenfor

Den empiriske regelen i Normalfordeling

dato til streng

Beregn outliers ved å bruke Z-Score-verdien

Vi kan beregne uteliggere i dataene ved å bruke z-score-verdien til datapunktene. Trinnene for å vurdere et avvikende datapunkt er som:

  • Først samler vi datasettet der vi ønsker å se uteliggere
  • Vi vil beregne gjennomsnittet og standardavviket til datasettet. Disse verdiene vil bli brukt til å beregne z-score-verdien til hvert datapunkt.
  • Vi vil beregne z-score-verdien for hvert datapunkt. Formelen for å beregne z-score-verdien vil være den samme som
    Z = frac{{X – mu}}{{sigma}}
    hvor X vil være datapunktet, μ er gjennomsnittet av dataene, og σ er standardavviket til datasettet.
  • Vi vil bestemme cutoff-verdien for z-score, hvoretter datapunktet kan betraktes som en uteligger. Denne grenseverdien er en hyperparameter som vi bestemmer avhengig av prosjektet vårt.
  • Et datapunkt hvis z-score-verdi er større enn 3 betyr at datapunktet ikke tilhører 99,73 %-punktet av datasettet.
  • Ethvert datapunkt hvis z-score er større enn vår bestemte grenseverdi vil bli ansett som en uteligger.

Kryss av: Z-score for Outlier Detection

Implementering av Z-Score i Python

Vi kan bruke Python til å beregne z-score-verdien til datapunkter i datasettet. Vi vil også bruke numpy-biblioteket til å beregne gjennomsnitt og standardavvik for datasettet.

Python3 import numpy as np def calculate_z_score(data): # Mean of the dataset mean = np.mean(data) # Standard Deviation of tha dataset std_dev = np.std(data) # Z-score of tha data points z_scores = (data - mean) / std_dev return z_scores # Example dataset dataset = [3,9, 23, 43,53, 4, 5,30, 35, 50, 70, 150, 6, 7, 8, 9, 10] z_scores = calculate_z_score(dataset) print('Z-Score :',z_scores) # Data points which lies outside 3 standard deviatioms are outliers # i.e outside range of99.73% values outliers = [data_point for data_point, z_score in zip(dataset, z_scores) if z_score>3] print(f' Utvikerne i datasettet er {outliers}')>

Produksjon:

Z-score : [-0,7574907 -0,59097335 -0,20243286 0,35262498 0,6301539 -0,72973781
-0,70198492 -0,00816262 0,13060185 0,54689523 1,10195307 3,32218443
-0,67423202 -0,64647913 -0,61872624 -0,59097335 -0,56322046]
Uteliggere i datasettet er [150]

Anvendelse av Z-Score

  • Z-score brukes ofte for funksjonsskalering for å bringe forskjellige funksjoner til en felles skala. Normalisering av funksjoner sikrer at de har null gjennomsnitt og enhetsvarians, noe som kan være fordelaktig for visse maskinlæringsalgoritmer, spesielt de som er avhengige av avstandsmål.
  • Z-score kan brukes til å identifisere uteliggere i et datasett. Datapunkter med Z-score over en viss terskel (vanligvis 3 standardavvik fra gjennomsnittet) kan betraktes som uteliggere.
  • Z-score kan brukes i anomalideteksjonsalgoritmer for å identifisere tilfeller som avviker betydelig fra forventet oppførsel.
  • Z-score kan brukes for å transformere skjeve fordelinger til mer normale fordelinger.
  • Når du arbeider med regresjonsmodeller, kan Z-score av residualer analyseres for å sjekke for homoskedastisitet (konstant varians av residualer).
  • Z-score kan brukes i funksjonsskalering ved å se på deres standardavvik fra gjennomsnittet.

Z-score vs. standardavvik

Z- Score

Standardavvik

Forvandle rådata til en standardisert skala.

Måler mengden variasjon eller spredning i et sett med verdier.

Gjør det enklere å sammenligne verdier fra forskjellige datasett fordi de tar bort de opprinnelige måleenhetene.

Standardavvik beholder de opprinnelige måleenhetene, noe som gjør den mindre egnet for direkte sammenligninger mellom datasett med forskjellige enheter.

Angi hvor langt et datapunkt er fra gjennomsnittet når det gjelder standardavvik, og gir et mål på datapunktets relative posisjon innenfor distribusjonen

Uttrykt i samme enheter som de opprinnelige dataene, og gir et absolutt mål på hvor spredt verdiene er rundt gjennomsnittet

Kryss av: Z-scoretabell

Hvorfor kalles Z-score standardscore?

Z-skårer er også kjent som standardskårer fordi de standardiserer verdien av en tilfeldig variabel. Dette betyr at listen over standardiserte skårer har et gjennomsnitt på 0 og et standardavvik på 1,0. Z-score tillater også sammenligning av poeng på forskjellige typer variabler. Dette er fordi de bruker relativ stående for å sette likhetstegn mellom poeng fra forskjellige variabler eller fordelinger.

slett siste commit git

Z-score brukes ofte for å sammenligne en variabel med en standard normalfordeling (med μ = 0 og σ = 1).

Z-score i statistikk – vanlige spørsmål

Hva er betydningen av positive og negative Z-scores?

Positive Z-score indikerer verdier over gjennomsnittet, mens negative Z-score indikerer verdier under gjennomsnittet. Tegnet reflekterer retningen for avviket fra gjennomsnittet.

Hva betyr en Z-score på 0?

En Z-score på 0 indikerer at datapunktets verdi er nøyaktig på gjennomsnittet av datasettet. Det antyder at datapunktet verken er over eller under gjennomsnittet.

Hva er 68-95-99.7-regelen i forhold til Z-score?

68-95-99.7-regelen, også kjent som den empiriske regelen, sier at:

  • Omtrent 68 % av dataene faller innenfor 1 standardavvik fra gjennomsnittet.
  • Omtrent 95 % faller innenfor 2 standardavvik.
  • Omtrent 99,7 % faller innenfor 3 standardavvik.

Kan Z-score brukes for ikke-normale fordelinger?

Z-score er basert på antakelsen om at dataene følger en normalfordeling. Men i praksis er Z-score gunstig for data som følger en normalfordeling. Mens Z-score kan beregnes for en hvilken som helst fordeling, blir tolkningen mindre pålitelig og enkel når man arbeider med ikke-normalfordelte data.

Hvordan kan Z-score brukes i virkelige situasjoner?

Z-Scores har ulike applikasjoner, for eksempel innen finans for porteføljeanalyse, utdanning for standardisert testing, helse for kliniske vurderinger, og mer. De gir et standardisert mål for å sammenligne og tolke data.