logo

Chi-Square Test i R

De kjikvadrattest of independence evaluerer om det er en assosiasjon mellom kategoriene til de to variablene. Det er i utgangspunktet to typer tilfeldige variabler og de gir to typer data: numeriske og kategoriske. I R programmeringsspråk Chi-kvadratstatistikk brukes til å undersøke om fordelinger av kategoriske variabler skiller seg fra hverandre. Kji-kvadrat-testen er også nyttig når du sammenligner tallene eller antallet kategoriske svar mellom to (eller flere) uavhengige grupper.

I R programmeringsspråk er funksjonen som brukes for å utføre en kjikvadrattest chisq.test()> .



Syntaks:

chisq.test(data)

markdown med bilder

Parametere:



data : data er en tabell som inneholder telleverdier for variablene i tabellen.

Vi vil ta undersøkelsesdataene i MASS> bibliotek som representerer data fra en undersøkelse utført på studenter.

R






# load the MASS package> library>(MASS)> print>(>str>(survey))>

>

>

Produksjon:

lære nøyaktighetspoeng
'data.frame': 237 obs. of 12 variables:  $ Sex : Factor w/ 2 levels 'Female','Male': 1 2 2 2 2 1 2 1 2 2 ...  $ Wr.Hnd: num 18.5 19.5 18 18.8 20 18 17.7 17 20 18.5 ...  $ NW.Hnd: num 18 20.5 13.3 18.9 20 17.7 17.7 17.3 19.5 18.5 ...  $ W.Hnd : Factor w/ 2 levels 'Left','Right': 2 1 2 2 2 2 2 2 2 2 ...  $ Fold : Factor w/ 3 levels 'L on R','Neither',..: 3 3 1 3 2 1 1 3 3 3 ...  $ Pulse : int 92 104 87 NA 35 64 83 74 72 90 ...  $ Clap : Factor w/ 3 levels 'Left','Neither',..: 1 1 2 2 3 3 3 3 3 3 ...  $ Exer : Factor w/ 3 levels 'Freq','None',..: 3 2 2 2 3 3 1 1 3 3 ...  $ Smoke : Factor w/ 4 levels 'Heavy','Never',..: 2 4 3 2 2 2 2 2 2 2 ...  $ Height: num 173 178 NA 160 165 ...  $ M.I : Factor w/ 2 levels 'Imperial','Metric': 2 1 NA 2 2 1 1 2 2 2 ...  $ Age : num 18.2 17.6 16.9 20.3 23.7 ... NULL>

Resultatet ovenfor viser at datasettet har mange faktorvariabler som kan betraktes som kategoriske variabler. For vår modell vil vi vurdere variablene Exer og Røyk .Røyk-kolonnen registrerer elevenes røykevaner, mens kolonnen Exer registrerer treningsnivået deres. Målet vårt er å teste hypotesen om elevenes røykevaner er uavhengig av treningsnivået på 0,05 signifikansnivå.

R




# Create a data frame from the main data set.> stu_data =>data.frame>(survey$Smoke,survey$Exer)> # Create a contingency table with the needed variables.> stu_data =>table>(survey$Smoke,survey$Exer)> > print>(stu_data)>

>

>

Produksjon:

 Freq None Some  Heavy 7 1 3  Never 87 18 84  Occas 12 3 4  Regul 9 1 7>

Og til slutt bruker vi chisq.test()> funksjon til beredskapstabellen stu_data.

R




if-else-setning java
# applying chisq.test() function> print>(>chisq.test>(stu_data))>

>

>

Produksjon:

 Pearson's Chi-squared test  data: stu_data X-squared = 5.4885, df = 6, p-value = 0.4828>

Siden p-verdien 0,4828 er større enn 0,05, konkluderer vi med at røykevanen er uavhengig av treningsnivået til eleven, og det er derfor en svak eller ingen korrelasjon mellom de to variablene. Den komplette R-koden er gitt nedenfor.

Så oppsummert kan det sies at det er veldig enkelt å utføre en chi-kvadrattest ved hjelp av R. Man kan utføre denne oppgaven ved å bruke chisq.test()> funksjon i R.

Visualiser Chi-Square-testdataene

R




ups i java

# Load required library> library>(MASS)> # Print structure of the survey dataset> print>(>str>(survey))> # Create a data frame for smoking and exercise columns> stu_data <->data.frame>(survey$Smoke, survey$Exer)> stu_data <->table>(survey$Smoke, survey$Exer)> # Print the table> print>(stu_data)> # Perform the Chi-Square Test> chi_result <->chisq.test>(stu_data)> print>(chi_result)> # Visualize the data with a bar plot> barplot>(stu_data, beside =>TRUE>, col =>c>(>'lightblue'>,>'lightgreen'>),> >main =>'Smoking Habits vs Exercise Levels'>,> >xlab =>'Exercise Level'>, ylab =>'Number of Students'>)> # Add legend separately> legend>(>'center'>, legend =>rownames>(stu_data), fill =>c>(>'lightblue'>,>'lightgreen'>))>

>

>

Produksjon:

gh

Chi-Square Test i R

I denne koden bruker viMASS>biblioteket for å gjennomføre en Chi-Square-test på datasettet «undersøkelse», med fokus på forholdet mellom røykevaner og treningsnivåer.

Den lager en beredskapstabell, utfører den statistiske testen og visualiserer dataene ved hjelp av et søylediagram. Legenden er lagt til separat i øverste venstre hjørne, og skiller mellom ulike røykevaner med distinkte farger.

Koden tar sikte på å utforske og kommunisere assosiasjonene mellom røykeatferd og treningspraksis i datasettet.