Lav signifikanstest i STATA
Signifikanstests anvendes til at beregne om en forskel mellem værdier for to grupper er statistisk signifikante. Her beskriver jeg hvordan du kan lave signifikanstests i STATA.
Antag vi har et datasæt, hvor vi har en variabel AGE der beskriver alderen for patienter i et forsøg og GENDER der beskriver kønnet (værdien 1 for mænd og værdien 2 for kvinder). Nu vil vi gerne se om der er en statistisk aldersforskel mellem mænd og kvinder i det pågældende forsøg.
Hvis du vil beregne gennemsnittet og standardafvigelsen for alderen for mænd kan du bruge kommandoen:
sum AGE if GENDER==1
Og på samme måde for kvinder, blot hvor GENDER filtreres efter værdien 2. Lad os for eksempel sige at resultatet bliver at gennemsnitsalderen for mænd er 80 år, mens den for kvinder er 81 år. Skyldes denne forskel så tilfældighed, eller er forskellen faktisk statistisk signifikant? Det er det vi skal bruge signifikanstests til.
I praksis sker det ved at man opstiller en nulhypotese (H0-hypotese) der siger at det er en tilfældighed, og at der faktisk ikke er nogen forskel i alder for mænd og kvinder. Med forskellige signifikanstests kan man så beregne sandsynligheden (p-værdien) for at nulhypotesen er sand. Hvis p-værdien er under 0,05 (under 5%) siger man at så er sandsynligheden så lille, at man må forkaste nulhypotesen og så må den alternative hypotese være sand, dvs. der er en statistisk signifikant forskel.
Chi i anden test (Chi2 test)
En af de mulige signifikanstests der findes er en chi i anden test. Den kaldes også for Pearsons chi i anden test, Chi-squared test eller bare en Chi2-test. Navnet “chi” kommer fra det græske bogstav χ, der netop udtales chi.
En Chi2 test anvendes netop når du har to grupper (f.eks. mænd og kvinder), hvor du har en frekvens for begge grupper. Du beregner en Chi2 p-værdi ved følgende kommando:
tab AGE GENDER, chi2
Dette vil give en p-værdi, som i STATA skrives som “Pr” i bunden af tabellen. Denne er sandsynligheden for at nulhypotesen er sand, dvs. at der ikke er forskel mellem de to grupper. Hvis p-værdien er under 0,05 så er sandsynligheden under 5% og så siger man at man forkaster nulhypotesen, og at der så faktisk er statistisk signifikant forskel mellem de to grupper.