logo

Forstå hypotesetesting

Hypotesetesting innebærer å formulere antakelser om populasjonsparametere basert på utvalgsstatistikker og nøye vurdere disse antakelsene mot empirisk bevis. Denne artikkelen belyser betydningen av hypotesetesting og de kritiske trinnene som er involvert i prosessen.

Hva er hypotesetesting?

Hypotesetesting er en statistisk metode som brukes til å ta en statistisk beslutning ved bruk av eksperimentelle data. Hypotesetesting er i utgangspunktet en antakelse vi gjør om en populasjonsparameter. Den evaluerer to gjensidig utelukkende utsagn om en populasjon for å bestemme hvilken utsagn som best støttes av prøvedataene.



Eksempel: Du sier at en gjennomsnittlig høyde i klassen er 30 eller en gutt er høyere enn en jente. Alle disse er en antagelse som vi antar, og vi trenger en statistisk måte å bevise disse. Vi trenger en matematisk konklusjon uansett hva vi antar er sann.

Definere hypoteser

  • Nullhypotese (H 0 ): I statistikk er nullhypotesen en generell uttalelse eller standardposisjon om at det ikke er noen sammenheng mellom to målte tilfeller eller ingen sammenheng mellom grupper. Det er med andre ord en grunnleggende antagelse eller gjort ut fra problemkunnskapen.
    Eksempel : Et selskaps gjennomsnittlige produksjon er 50 enheter/per da H0: mu= 50.
  • Alternativ hypotese (H 1 ): Den alternative hypotesen er hypotesen som brukes i hypotesetesting som er i strid med nullhypotesen.
    Eksempel: En bedrifts produksjon er ikke lik 50 enheter/per dag, dvs. H1: mu 
femti.

Nøkkelvilkår for hypotesetesting

  • Nivå av betydning : Det refererer til graden av betydning der vi aksepterer eller forkaster nullhypotesen. 100 % nøyaktighet er ikke mulig for å akseptere en hypotese, så vi velger derfor et signifikansnivå som vanligvis er 5 %. Dette er normalt betegnet med alfaog generelt er det 0,05 eller 5 %, noe som betyr at resultatet bør være 95 % sikker for å gi et lignende resultat i hver prøve.
  • P-verdi: De P-verdi , eller beregnet sannsynlighet, er sannsynligheten for å finne de observerte/ekstreme resultatene når nullhypotesen(H0) for et studiegitt problem er sann. Hvis P-verdien din er mindre enn det valgte signifikansnivået, avviser du nullhypotesen, dvs. aksepterer at utvalget ditt hevder å støtte den alternative hypotesen.
  • Teststatistikk: Teststatistikken er en numerisk verdi beregnet fra prøvedata under en hypotesetest, brukt til å bestemme om nullhypotesen skal forkastes. Det sammenlignes med en kritisk verdi eller p-verdi for å ta beslutninger om den statistiske signifikansen til de observerte resultatene.
  • Kritisk verdi : Den kritiske verdien i statistikk er en terskel eller grensepunkt som brukes til å bestemme om nullhypotesen skal forkastes i en hypotesetest.
  • Grader av frihet: Frihetsgrader er assosiert med variasjonen eller friheten man har til å estimere en parameter. Frihetsgradene er relatert til prøvestørrelsen og bestemmer formen.

Hvorfor bruker vi hypotesetesting?

Hypotesetesting er en viktig prosedyre i statistikk. Hypotesetesting evaluerer to gjensidig utelukkende populasjonsutsagn for å bestemme hvilken påstand som er mest støttet av prøvedata. Når vi sier at funnene er statistisk signifikante, takket være hypotesetesting.

rense npm cache

En-hale og to-hale test

Én haletest fokuserer på én retning, enten større enn eller mindre enn en spesifisert verdi. Vi bruker en ensidig test når det er en klar retningsforventning basert på forkunnskaper eller teori. Det kritiske området ligger kun på den ene siden av fordelingskurven. Hvis utvalget faller inn i dette kritiske området, forkastes nullhypotesen til fordel for den alternative hypotesen.



Ensidig test

Det er to typer ensidig test:

  • Venstre-hale (venstresidig) test: Den alternative hypotesen hevder at den sanne parameterverdien er mindre enn nullhypotesen. Eksempel: H0: mu geq 50og H1:
  • og H1: mu>50

To-halet test

En to-halet test vurderer begge retninger, større enn og mindre enn en spesifisert verdi. Vi bruker en to-halet test når det ikke er noen spesifikk retningsforventning, og ønsker å oppdage noen signifikant forskjell.

Eksempel: H0: in =50 og H1: mu 
eq 50



Hva er type 1 og type 2 feil i hypotesetesting?

Ved hypotesetesting, Type I og Type II feil er to mulige feil som forskere kan gjøre når de trekker konklusjoner om en populasjon basert på et utvalg data. Disse feilene er knyttet til beslutningene som er tatt angående nullhypotesen og den alternative hypotesen.

  • Type I feil: Når vi forkaster nullhypotesen, selv om den hypotesen var sann. Type I feil er angitt med alpha( alfa).
  • Type II feil: Når vi aksepterer nullhypotesen, men den er falsk. Type II-feil er merket med beta( eta).


Nullhypotesen er sann

Nullhypotesen er falsk

Nullhypotesen er sann (godta)

Riktig avgjørelse

Type II-feil (falsk negativ)

Alternativ hypotese er sann (avvis)

Type I-feil (falsk positiv)

Riktig avgjørelse

Hvordan fungerer hypotesetesting?

Trinn 1: Definer null og alternativ hypotese

Angi nullhypotesen ( H_0), som ikke representerer noen effekt, og den alternative hypotesen ( H_1), antyder en effekt eller forskjell.

Vi identifiserer først problemet som vi ønsker å gjøre en antagelse om, med tanke på at vår antagelse bør være motstridende, forutsatt at Normalfordelte data.

Trinn 2 – Velg betydningsnivå

Velg et betydningsnivå ( alfa), typisk 0,05, for å bestemme terskelen for å forkaste nullhypotesen. Det gir validitet til hypotesetesten vår, og sikrer at vi har tilstrekkelige data til å sikkerhetskopiere påstandene våre. Vanligvis bestemmer vi vårt signifikansnivå før testen. De p-verdi er kriteriet som brukes for å beregne vår signifikansverdi.

Trinn 3 Samle inn og analysere data.

Samle inn relevante data gjennom observasjon eller eksperimentering. Analyser dataene ved å bruke passende statistiske metoder for å få en teststatistikk.

Trinn 4-Beregn teststatistikk

Dataene for testene blir evaluert i dette trinnet ser vi etter ulike skårer basert på egenskapene til data. Valget av teststatistikk avhenger av typen hypotesetest som gjennomføres.

Det er ulike hypotesetester, hver passende for ulike mål for å beregne testen vår. Dette kan være en Z-test , Chi-kvadrat , T-test , og så videre.

  1. Z-test : Hvis populasjonsmidler og standardavvik er kjent. Z-statistikk er ofte brukt.
  2. t-test : Hvis populasjonsstandardavvik er ukjent. og prøvestørrelsen er liten enn t-teststatistikk er mer passende.
  3. Chi-kvadrat test : Chi-kvadrattest brukes for kategoriske data eller for å teste uavhengighet i beredskapstabeller
  4. F-test : F-test brukes ofte i variansanalyse (ANOVA) for å sammenligne varianser eller teste likheten mellom midler på tvers av flere grupper.

Vi har et mindre datasett, så T-test er mer passende for å teste hypotesen vår.

T-statistikk er et mål på forskjellen mellom gjennomsnittet for to grupper i forhold til variasjonen innenfor hver gruppe. Den beregnes som differansen mellom utvalgets gjennomsnitt delt på standardfeilen til forskjellen. Det er også kjent som t-verdien eller t-score.

sove i js

Trinn 5 – Sammenligning av teststatistikk:

I dette stadiet bestemmer vi hvor vi skal akseptere nullhypotesen eller forkaste nullhypotesen. Det er to måter å bestemme hvor vi skal akseptere eller forkaste nullhypotesen.

Metode A: Bruk av kritiske verdier

Ved å sammenligne teststatistikken og den tabulerte kritiske verdien vi har,

  • If Test Statistic>Critical Value: Forkast nullhypotesen.
  • If Test Statistic≤Critical Value: Kan ikke avvise nullhypotesen.

Merk: Kritiske verdier er forhåndsbestemte terskelverdier som brukes til å ta en beslutning i hypotesetesting. Å bestemme kritiske verdier for hypotesetesting refererer vi vanligvis til en statistisk distribusjonstabell, for eksempel normalfordelingen eller t-fordelingstabeller basert på.

Metode B: Bruke P-verdier

Vi kan også komme til en konklusjon ved å bruke p-verdien,

  • Hvis p-verdien er mindre enn eller lik signifikansnivået, dvs. ( pleqalfa), avviser du nullhypotesen. Dette indikerer at de observerte resultatene sannsynligvis ikke har skjedd ved en tilfeldighet alene, og gir bevis for den alternative hypotesen.
  • Hvis p-verdien er større enn signifikansnivået, dvs. ( pgeq alpha), klarer du ikke å avvise nullhypotesen. Dette antyder at de observerte resultatene stemmer overens med det som forventes under nullhypotesen.

Merk : P-verdien er sannsynligheten for å oppnå en teststatistikk som er like ekstrem som, eller mer ekstrem enn, den som ble observert i utvalget, forutsatt at nullhypotesen er sann. Å bestemme p-verdi for hypotesetesting refererer vi vanligvis til en statistisk distribusjonstabell, for eksempel normalfordelingen eller t-fordelingstabeller basert på.

Trinn 7- Tolk resultatene

Til slutt kan vi avslutte eksperimentet med metode A eller B.

Beregner teststatistikk

For å validere hypotesen vår om en populasjonsparameter bruker vi statistiske funksjoner . Vi bruker z-score, p-verdi og signifikansnivå (alfa) for å bevise vår hypotese for normalfordelte data .

1. Z-statistikk:

Når populasjonsmidler og standardavvik er kjent.

z = frac{ar{x} - mu}{frac{sigma}{sqrt{n}}}

hvor,

  • ar{x}er prøvegjennomsnittet,
  • μ representerer gjennomsnittet av befolkningen,
  • σ er standardavviket
  • og n er størrelsen på prøven.

2. T-statistikk

T-test brukes når n<30,

t-statistikkberegning er gitt av:

t=frac{x̄-Μ}{s/sqrt{n}}

hvor,

  • t = t-score,
  • x̄ = prøvegjennomsnitt
  • μ = populasjonsmiddelverdi,
  • s = standardavvik for prøven,
  • n = prøvestørrelse

3. Chi-Square Test

Chi-Square Test for uavhengighetskategoriske data (ikke-normalfordelt) ved hjelp av:

chi^2 = sum frac{(O_{ij} - E_{ij})^2}{E_{ij}}

hvor,

  • O_{ij}er den observerte frekvensen i cellen {ij}
  • i,j er henholdsvis rad- og kolonneindeksen.
  • E_{ij}er forventet frekvens i celle {ij}, beregnet som:
    frac{{	ext{{Totalt rad}} 	imes 	ext{{Kolonnetotal}}}}{{	ext{{Totalt observasjoner}}}}

Eksempel på hypotesetesting i det virkelige liv

La oss undersøke hypotesetesting ved å bruke to virkelige situasjoner,

likhet av strenger i java

Tilfelle A: D Er et nytt medikament som påvirker blodtrykket?

Tenk deg at et legemiddelfirma har utviklet et nytt medikament som de mener effektivt kan senke blodtrykket hos pasienter med hypertensjon. Før de bringer stoffet til markedet, må de gjennomføre en studie for å vurdere dets innvirkning på blodtrykket.

Data:

  • Før behandling: 120, 122, 118, 130, 125, 128, 115, 121, 123, 119
  • Etter behandling: 115, 120, 112, 128, 122, 125, 110, 117, 119, 114

Trinn 1 : Definer hypotesen

  • Nullhypotesen : (H0)Det nye stoffet har ingen effekt på blodtrykket.
  • Alternativ hypotese : (H1)Det nye medikamentet har effekt på blodtrykket.

Steg 2: Definer betydningsnivået

La oss vurdere signifikansnivået på 0,05, noe som indikerer avvisning av nullhypotesen.

Hvis beviset tyder på mindre enn 5 % sjanse for å observere resultatene på grunn av tilfeldig variasjon.

Trinn 3 : Beregn teststatistikken

Ved hjelp av paret T-test analysere dataene for å få en teststatistikk og en p-verdi.

Teststatistikken (f.eks. T-statistikk) beregnes basert på forskjellene mellom blodtrykksmålinger før og etter behandling.

t = m/(s/√n)

Hvor:

  • m = gjennomsnitt av forskjellen dvs X etter, X før
  • s = standardavvik av differansen (d) dvs d Jeg = X etter, Jeg X før,
  • n = prøvestørrelse,

deretter, m= -3,9, s= 1,8 og n=10

vi beregner , T-statistikken = -9 basert på formelen for paret t-test

Trinn 4: Finn p-verdien

Den beregnede t-statistikken er -9 og frihetsgrader df = 9, kan du finne p-verdien ved å bruke statistisk programvare eller en t-fordelingstabell.

dermed p-verdi = 8,538051223166285e-06

Trinn 5: Resultat

  • Hvis p-verdien er mindre enn eller lik 0,05, avviser forskerne nullhypotesen.
  • Hvis p-verdien er større enn 0,05, klarer de ikke å forkaste nullhypotesen.

Konklusjon: Siden p-verdien (8,538051223166285e-06) er mindre enn signifikansnivået (0,05), avviser forskerne nullhypotesen. Det er statistisk signifikant bevis på at gjennomsnittlig blodtrykk før og etter behandling med det nye legemidlet er forskjellig.

Python-implementering av hypotesetesting

La oss lage hypotesetesting med python, der vi tester om et nytt medikament påvirker blodtrykket. For dette eksemplet vil vi bruke en sammenkoblet T-test. Vi vil bruke scipy.stats> bibliotek for T-testen.

Vi vil implementere vårt første virkelige problem via python,

Python3

import> numpy as np> from> scipy>import> stats> # Data> before_treatment>=> np.array([>120>,>122>,>118>,>130>,>125>,>128>,>115>,>121>,>123>,>119>])> after_treatment>=> np.array([>115>,>120>,>112>,>128>,>122>,>125>,>110>,>117>,>119>,>114>])> # Step 1: Null and Alternate Hypotheses> # Null Hypothesis: The new drug has no effect on blood pressure.> # Alternate Hypothesis: The new drug has an effect on blood pressure.> null_hypothesis>=> 'The new drug has no effect on blood pressure.'> alternate_hypothesis>=> 'The new drug has an effect on blood pressure.'> # Step 2: Significance Level> alpha>=> 0.05> # Step 3: Paired T-test> t_statistic, p_value>=> stats.ttest_rel(after_treatment, before_treatment)> # Step 4: Calculate T-statistic manually> m>=> np.mean(after_treatment>-> before_treatment)> s>=> np.std(after_treatment>-> before_treatment, ddof>=>1>)># using ddof=1 for sample standard deviation> n>=> len>(before_treatment)> t_statistic_manual>=> m>/> (s>/> np.sqrt(n))> # Step 5: Decision> if> p_value <>=> alpha:> >decision>=> 'Reject'> else>:> >decision>=> 'Fail to reject'> # Conclusion> if> decision>=>=> 'Reject'>:> >conclusion>=> 'There is statistically significant evidence that the average blood pressure before and after treatment with the new drug is different.'> else>:> >conclusion>=> 'There is insufficient evidence to claim a significant difference in average blood pressure before and after treatment with the new drug.'> # Display results> print>(>'T-statistic (from scipy):'>, t_statistic)> print>(>'P-value (from scipy):'>, p_value)> print>(>'T-statistic (calculated manually):'>, t_statistic_manual)> print>(f>'Decision: {decision} the null hypothesis at alpha={alpha}.'>)> print>(>'Conclusion:'>, conclusion)>
>
>

Produksjon:

T-statistic (from scipy): -9.0 P-value (from scipy): 8.538051223166285e-06 T-statistic (calculated manually): -9.0 Decision: Reject the null hypothesis at alpha=0.05. Conclusion: There is statistically significant evidence that the average blood pressure before and after treatment with the new drug is different.>

I eksemplet ovenfor, gitt T-statistikken på omtrent -9 og en ekstremt liten p-verdi, indikerer resultatene en sterk sak for å forkaste nullhypotesen ved et signifikansnivå på 0,05.

  • Resultatene tyder på at det nye stoffet, behandlingen eller intervensjonen har en betydelig effekt på å senke blodtrykket.
  • Den negative T-statistikken indikerer at gjennomsnittlig blodtrykk etter behandling er signifikant lavere enn antatt populasjonsmiddel før behandling.

Sak B : Kolesterolnivå i en befolkning

Data: En prøve på 25 individer tas, og deres kolesterolnivå måles.

Kolesterolnivåer (mg/dL): 205, 198, 210, 190, 215, 205, 200, 192, 198, 205, 198, 202, 208, 200, 205, 198, 210, 205, 198, 205, 205, 205 205, 210, 192, 205.

Befolkningsgjennomsnitt = 200

Populasjonsstandardavvik (σ): 5 mg/dL (gitt for dette problemet)

Trinn 1: Definer hypotesen

  • Nullhypotese (H 0 ): Gjennomsnittlig kolesterolnivå i en befolkning er 200 mg/dL.
  • Alternativ hypotese (H 1 ): Gjennomsnittlig kolesterolnivå i en befolkning er forskjellig fra 200 mg/dL.

Steg 2: Definer betydningsnivået

Siden avviksretningen ikke er oppgitt, forutsetter vi en tosidet test, og basert på en normalfordelingstabell kan de kritiske verdiene for et signifikansnivå på 0,05 (tohalet) beregnes gjennom z-tabell og er omtrent -1,96 og 1,96.

Trinn 3 : Beregn teststatistikken

Teststatistikken beregnes ved å bruke z-formelen MED = (203,8 - 200) / (5 div sqrt{25})og vi får deretter, MED =2,0399999999999992.

Trinn 4: Resultat

Siden den absolutte verdien av teststatistikken (2,04) er større enn den kritiske verdien (1,96), forkaster vi nullhypotesen. Og konkluder med at det er statistisk signifikant bevis på at gjennomsnittlig kolesterolnivå i befolkningen er forskjellig fra 200 mg/dL

Python-implementering av hypotesetesting

Python3

import> scipy.stats as stats> import> math> import> numpy as np> # Given data> sample_data>=> np.array(> >[>205>,>198>,>210>,>190>,>215>,>205>,>200>,>192>,>198>,>205>,>198>,>202>,>208>,>200>,>205>,>198>,>205>,>210>,>192>,>205>,>198>,>205>,>210>,>192>,>205>])> population_std_dev>=> 5> population_mean>=> 200> sample_size>=> len>(sample_data)> # Step 1: Define the Hypotheses> # Null Hypothesis (H0): The average cholesterol level in a population is 200 mg/dL.> # Alternate Hypothesis (H1): The average cholesterol level in a population is different from 200 mg/dL.> # Step 2: Define the Significance Level> alpha>=> 0.05> # Two-tailed test> # Critical values for a significance level of 0.05 (two-tailed)> critical_value_left>=> stats.norm.ppf(alpha>/>2>)> critical_value_right>=> ->critical_value_left> # Step 3: Compute the test statistic> sample_mean>=> sample_data.mean()> z_score>=> (sample_mean>-> population_mean)>/> > >(population_std_dev>/> math.sqrt(sample_size))> # Step 4: Result> # Check if the absolute value of the test statistic is greater than the critical values> if> abs>(z_score)>>max>(>abs>(critical_value_left),>abs>(critical_value_right)):> >print>(>'Reject the null hypothesis.'>)> >print>(>'There is statistically significant evidence that the average cholesterol level in the population is different from 200 mg/dL.'>)> else>:> >print>(>'Fail to reject the null hypothesis.'>)> >print>(>'There is not enough evidence to conclude that the average cholesterol level in the population is different from 200 mg/dL.'>)>
>
>

Produksjon:

Reject the null hypothesis. There is statistically significant evidence that the average cholesterol level in the population is different from 200 mg/dL.>

Begrensninger ved hypotesetesting

  • Selv om det er en nyttig teknikk, gir hypotesetesting ikke et omfattende grep om emnet som studeres. Uten å fullt ut reflektere intrikaten eller hele konteksten til fenomenene, konsentrerer den seg om visse hypoteser og statistisk signifikans.
  • Nøyaktigheten av hypotesetestingsresultatene er avhengig av kvaliteten på tilgjengelige data og hensiktsmessigheten av statistiske metoder som brukes. Unøyaktige data eller dårlig formulerte hypoteser kan føre til feilaktige konklusjoner.
  • Å stole utelukkende på hypotesetesting kan føre til at analytikere overser betydelige mønstre eller sammenhenger i dataene som ikke fanges opp av de spesifikke hypotesene som testes. Denne begrensningen understreker viktigheten av å komplimentere hypotesetesting med andre analytiske tilnærminger.

Konklusjon

Hypotesetesting står som en hjørnestein i statistisk analyse, og gjør det mulig for dataforskere å navigere i usikkerhet og trekke troverdige slutninger fra prøvedata. Ved å systematisk definere null- og alternative hypoteser, velge signifikansnivåer og utnytte statistiske tester, kan forskere vurdere gyldigheten av deres antakelser. Artikkelen belyser også det kritiske skillet mellom type I og type II feil, og gir en omfattende forståelse av den nyanserte beslutningsprosessen som ligger i hypotesetesting. Eksemplet i det virkelige liv på å teste et nytt legemiddels effekt på blodtrykket ved hjelp av en sammenkoblet T-test viser den praktiske anvendelsen av disse prinsippene, og understreker viktigheten av statistisk strenghet i datadrevet beslutningstaking.

Ofte stilte spørsmål (FAQs)

1. Hva er de 3 typene hypotesetest?

Det er tre typer hypotesetester: høyrehalet, venstrehalet og tohalet. Høyrehaletester vurderer om en parameter er større, venstresidet hvis mindre. To-halede tester sjekker for ikke-retningsmessige forskjeller, større eller mindre.

2.Hva er de 4 komponentene i hypotesetesting?

Nullhypotesen ( H_o): Ingen effekt eller forskjell eksisterer.

Alternativ hypotese ( H_1): Det finnes en effekt eller forskjell.

ikke null i js

Signifikansnivå ( alfa): Risiko for å forkaste nullhypotesen når den er sann (Type I-feil).

Teststatistikk: Numerisk verdi som representerer observerte bevis mot nullhypotesen.

3.Hva er hypotesetesting i ML?

Statistisk metode for å evaluere ytelsen og validiteten til maskinlæringsmodeller. Tester spesifikke hypoteser om modellatferd, for eksempel om funksjoner påvirker spådommer eller om en modell generaliserer godt til usynlige data.

4.Hva er forskjellen mellom Pytest og hypotese i Python?

Pytest har til formål generelt testrammeverk for Python-kode, mens Hypothesis er et egenskapsbasert testrammeverk for Python, med fokus på å generere testtilfeller basert på spesifiserte egenskaper til koden.